利用神经网络算法对代码的相似性检查

       相似度检查是一个针对大中型代码库辨别具备相对高度相似度的源码段落的环节。自动检索二进制码中重用的函数公式是二进制码相似度检查的1个关键需求,尤其是充分考虑许多当代恶意程序一般含有许多的函数库,或从完全免费和开源项目库中应用的函数公式。它可以给予有关给出二进制码的关键看法,例如揭露其功能模块、对其原作者的所属、辨别重用的库等四方面的运用。APP中的相似度检查始终是软件开发和安全分析的聚焦点,也可称之为复制检查。最开始的分析是在源码等级检查源码复制。殊不知,由于大家并不经常可以浏览源码,并且欠缺标记信息内容,促使在2进制等级较为源码的环节复杂化,因而在二进制码上工作任务的复制检索技术是不可或缺的。本次将探讨大家队伍在二进制码相似度检查领域的一个小工作任务。

outputo-20211013-092311-030-ybvi.png

在二进制码相似度检测中,遭遇的最关键的1个考验便是编译成多元性的干扰。例如,不一样的编译器(如GCC和Clang)会转化成跨编译器的文本文件。次之,不一样的编译器提升等级会造成跨提升等级的文本文件。最后,源码自身很有可能有版本升级,进而造成跨版本号的文本文件。最后、代码加密技术的应用会造成 二进制码变型。这种文本文件实质上是差不多的,由于他们是由所显示的源码编译成而成,可是其源码体现上却出现很大的差别。为了更好地解决不一样编译成设定造成的多元性,大家考量获取函数公式的语法、词义和构造信息内容做为特点来提升可扩展性。为了更好地完成这个计划,大家指出下面的图所显示的架构。全部体系由3个关键部分构成:1)svm算法;2)层级专注力图置入互联网;3)相似度较为。


1)svm算法

针对函数公式置入转化成时,大家关键考量了三种特点:语法特点、词义特点和结构类型。当中语法特点为统计分析特点,例如整型变量数量、标值变量定义数量、变换命令数量。词义特点大家从原有的汇编语言指令中获取,大家将命令作为文本文档,运用自然语言解决获取词义信息内容。结构类型关键为函数公式链表排序图,大家考量求积函数链表排序图,最先是由于其非常容易获取,二是在以前的许多分析中说明了函数公式链表排序图具备不错的辨别作用。

2)层级专注力图置入互联网

针对每一个prim算法的语法特点与词义特点,大家须要将其变换为向量表示。针对语法特点,共获取8个特点来表明prim算法的语法特点。大家最先计算prim算法中每一个特点的数量,随后将他们按顺序排列成数据空间向量。这种标值空间向量则用来表明prim算法语法置入。


分享: