webshell检测方式深度剖析 ---统计学特征检测_neopi-程序员宅基地

技术标签：恶意脚本检测

概论

该篇文章讲述了NeoPI如何利用统计学特征来检测webshell，笔者认为NeoPI选择的这些统计学方法在webshell检测上有些鸡肋，没有太大的实用效果。

反而其中的各种统计学方法值得学习一下，因此文章会重点讲解这些统计学特征的原理，以求可以举一反三，并应用在其他领域。

统计学特征

NeoPi使用以下五种统计学特征检测方法，下面分别来分析各种方法的原理和代码实现（代码部分只选择了核心代码并附加了注释，方便大家阅读。）：

重合指数

重合指数法是密码分析学的一种工具，主要用于多表代换的密码破译。
以纯英文文本为例，它的基本原理可以定义如下：

设 $X=x_1x_2...x_n$ 是一个长度为 $n$ 的英文字符串， $X$ 的重合指数定义为 $X$ 中的两个随机元素相同的概率，记为 $I_c(X)$ 。假设英文字母 $A$ ， $B$ ， $C$ ，…在X中的出现次数分别为 $f_1$ ， $f_2$ ，…， $f_{25}$ 。显然，从X中任意选择两个元素共有 $C^{2}_{25}$ 种组合，选取的元素同时为第 $i$ 个英文字母的情况有 $C^{2}_{f_i}$ 种组合， $0 < = i < = 25$ 。因此，有
$I{_c}(X) =\sum_{i=0}^{25}(C_f^2/C_n^2) = \sum_{i=0}^{25}(f_i(f_i-1)/n(n-1))$

根据统计，在英文中各个字母出现的频率是特定的，如下表 :

字母	概率	字母	概率
A	0.082	N	0.067
B	0.015	O	0.075
C	0.028	P	0.019
D	0.043	Q	0.001
E	0.127	R	0.060
F	0.022	S	0.063
G	0.020	T	0.091
H	0.061	U	0.028
I	0.070	V	0.010
J	0.002	W	0.002
K	0.008	X	0.001
L	0.040	Y	0.020
M	0.024	Z	0.001

将英文字母A，B，C，…，Z的期望概率分别记为 $p_0，p_1，p_2，...，p_{25}$ ，则有一段正常英文文本的期望重合指数为 $I_c(X)\approx \sum_{i=0}^{25}(p_i^2) = 0.065$

如上所述，一个纯英文的且编码风格良好（一般在软件开发时，会采用统一的函数及有意义的变量名编写）的源代码计算出的重合指数会趋近于0.065。考虑到文件中的中文注释，虽然计算出的重合指数会偏离0,065，但同样会趋于相似，呈现正态分布。

而加密或者混淆后的webshell 与原 web 应用不相关，其字符的排列通常没有特征可言，计算出的重合指数与正常文件的重合指数相差较大（混淆后的重合指数通常较小），一定程度上，可以作为webshell判定的依据。

重合指数的计算比较简单，代码如下：

# @param data 从文件中取出的全部内容数据
 # @return ic 返回计算好的重合指数
 def index_of_coincidence(data):
       """计算文件内容的重合指数"""
       if not data:
           return 0
       char_count = 0       # 保存在data中任意选择两个字符，这两个字符相同的情形的数量
       total_char_count = 0 # 保存在data所有字符的数量

        # 遍历单字节代表的256字符
       for x in range(256):
           char = chr(x)
           charcount = data.count(char)              # 计算当前字符在data中的数量
           char_count += charcount * (charcount - 1) # 计算在data中任意选择两个字符，这两个字符都为当前字符的情形的数量，并累加
           total_char_count += charcount             # 计算当前字符在data中的数量，并累加
       
       # 按照重合指数的计算方法进行计算
       ic = float(char_count)/(total_char_count * (total_char_count - 1))
       return ic

信息熵

熵，是一个热力学的概念，用来度量封闭系统的混乱程度。但在历史的发展中，造就了它非常丰富的内涵，进入了很多学科的视野。

1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。信息量是对信息的度量，就跟时间的度量是秒一样，当我们考虑一个离散的随机变量x的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢？

多少信息用信息量来衡量，而我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如太阳从西边升起来了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生，没什么信息量）。
信息熵的公式定义如下：

$\sum_{i=1}^{N}p(x_i)log(p(x_i))$
其中， $p(x_i)代表随机事件$ $x_i$ 的概率，对数一般以2为底。对应到文件熵上，一般使 $p(x_i)$ 为字符 $x_i$ 在文件内容中出现的概率。

那么类似于重合指数，加密混淆后的webshell通常通篇都是没有任何意义和规律的字符，其通过计算公式得出的信息熵值会偏离平均值较大。

计算信息熵的代码如下：

# @param data 从文件中取出的全部内容数据
 # @return entropy 返回计算出的文件熵
def calculate(self,data):
       """计算文件信息熵."""

       if not data:
           return 0
           
       entropy = 0 # 保存最终熵值
       self.stripped_data =data.replace(' ', '') # 去掉文件内容中的空格
       
       # 遍历所有asci 256个字符
       for x in range(256):
           p_x = float(self.stripped_data.count(chr(x)))/len(self.stripped_data) # 计算单个字符出现的概率
           if p_x > 0:
               entropy += - p_x * math.log(p_x, 2) # 计算该字符的熵值并累加
       return entropy

最长单词

一般在软件开发时，其使用的字符串、函数名、变量名都会尽可能有规律和简短，但是，通过变形和加密往往会构造;超长的字符串，通过检测代码中的最长字符串，并把最有可能是 webshell 的文件提供给管理员判断。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return longest_word, longest 返回最长单词的内容和长度
def LongestWord(self,data):
       """查找文件内容中长度最长的单词"""
       if not data:
           return "", 0

       longest = 0 # 保存最长单词的长度
       longest_word = "" # 保存最长单词的内容
       
       words = re.split("[\s,\n,\r]", data) # 将文件内容按照空格和换行进行分词
       if words:
           for word in words:
               length = len(word)
               if length > longest: # 循环查找最长单词
                   longest = length
                   longest_word = word
       return longest_word，longest

恶意特征

在文件中搜索已知的恶意代码字符串片段，通过正则表达式，在文件内查找预定义的恶意特征。
这部分其实是静态检测，但是NeoPI也扩展添加了这部分的能力。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return len(matches) 返回匹配的数量
def signature_nasty(self, data): 
       """查找文件的恶意特征"""
       if not data:
           return "", 0
       
       # 查找文件内下面所列的恶意函数 
       valid_regex = re.compile('(eval\(|file_put_contents|base64_decode|python_eval|exec\(|passthru|popen|proc_open|pcntl|assert\(|system\(|shell)', re.I)
       matches = re.findall(valid_regex, data)
       return len(matches)

压缩比

正常的代码通常编码风格良好，并且文件内有一定的空行和空格作为分隔，进行压缩时能有较大的压缩比。但是经过混淆后的代码通常没有空格和空行，而且字符顺序混乱，进行压缩时压缩比较小。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return ratio 返回计算出的压缩比
def calculate(self, data):
       if not data:
           return "", 0
       compressed = zlib.compress(data)
       ratio =  float(len(data)) / float(len(compressed))
       self.results.append({
    "filename":filename, "value":ratio})
       return ratio

检测结果评测

NeoPI本身不给出一个文件是不是webshell的判断，它只是计算各种统计特征值，然后针对每一个特征值做出一个排名。在实际应用中，可以选择任意特征值的排名组合来判断。

为了让测试更有代表性，笔者采用如下策略：

首先进行如下形式化定义：

$W_{min}(x) = WordPress中相应特征最小的x个文件的平均值$
$W_{max}(x) = WordPress中相应特征最大的x个文件的平均值$
$B_{min}(x) = 300个黑样本中相应特征最小的x个文件的平均值$
$B_{max}(x) = 300个黑样本中相应特征最大的x个文件的平均值$

1、重合指数判断策略

2、信息熵判断策略

3、最长单词判断策略
同信息熵的判断策略

4、恶意特征
存在恶意特征则判定为webshell

5、压缩比
同信息熵的判断策略

实际测试结果如下：

统计特征	检出率	误报率
重合指数	94%	0%
信息熵	58%	0.5%
最长单词	42%	0%
恶意特征	79%	4%
压缩比	10%	0%

notes：由于NeoPI主要用来检测混淆webshell，所以笔者的阈值选择优先于黑样本和白样本中的混淆文件的特征值。

总结

NeoPi的检测重心在于识别混淆代码，它常常在识别模糊代码或者混淆编排的木马方面表现良好，但是也依赖于检测阈值的选取。同时，NeoPi的检测机制对未经模糊处理的代码检测能力较弱。

本文链接：https://blog.csdn.net/qq_31032141/article/details/107207911

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

彻底扒光通过智能路由器拆解看其本质-程序员宅基地

文章浏览阅读1.7k次。可以看到很多联发科的MT芯片摘自：https://net.zol.com.cn/531/5312999.html彻底扒光通过智能路由器拆解看其本质2015-07-23 00:40:00[中关村在线原创] 作者：陈赫|责编：白宁收藏文章分享到评论(24)关注智能路由器拆解的朋友们注意啦！我们已经将这五款产品彻底扒开，将主板的真容展现在了大家的眼前。网友们可以看见这些智能路由器主板的做工和用料，我们还为网友们展示了主要的电子元器件，供大家品评观赏。..._路由器拆解

Java--深入JDK和hotspot底层源码剖析Thread的run()、start()方法执行过程_jdk的源码hotspot跟jdk是分开的-程序员宅基地

文章浏览阅读2.1k次，点赞101次，收藏78次。【学习背景】今天主要是来了解Java线程Thread中的run()、start()两个方法的执行有哪些区别，会给出一个简单的测试代码样例，快速理解两者的区别，再从源码层面去追溯start()底层是如何最终调用Thread#run()方法的，个人觉得这样的学习不论对面试，还是实际编程来说都是比较有帮助的。进入正文~学习目录一、代码测试二、源码分析2.1 run()方法2.2 start()方法三、使用总结一、代码测试执行Thread的run()、start()方法的测试代码如下：public_jdk的源码hotspot跟jdk是分开的

透视俄乌网络战之一：数据擦除软件_俄乌网络战观察(一)-程序员宅基地

文章浏览阅读4.4k次，点赞90次，收藏85次。俄乌冲突中，各方势力通过数据擦除恶意软件破坏关键信息基础设施计算机的数据，达到深度致瘫的效果，同时窃取重要敏感信息。_俄乌网络战观察(一)

Maven私服仓库配置-Nexus详解_nexus maven-程序员宅基地

文章浏览阅读1.7w次，点赞23次，收藏139次。Maven 私服是一种特殊的Maven远程仓库，它是架设在局域网内的仓库服务，用来代理位于外部的远程仓库（中央仓库、其他远程公共仓库）。当然也并不是说私服只能建立在局域网，也有很多公司会直接把私服部署到公网，具体还是得看公司业务的性质是否是保密的等等，因为局域网的话只能在公司用，部署到公网的话员工在家里也可以办公使用。_nexus maven

基于AI的计算机视觉识别在Java项目中的使用 (四) —— 准备训练数据_java ocr ai识别训练-程序员宅基地

文章浏览阅读934次。我先用所有的样本数据对模型做几轮初步训练，让深度神经模型基本拟合(数万条记录的训练集，识别率到99%左右)，具备初步的识别能力，这时的模型就是“直男”。相较于训练很多轮、拟合程度很高的“油腻男”，它的拟合程度较低，还是“直男愣头青”。..............._java ocr ai识别训练

hibernate 数据库类型 date没有时分秒解决_hibernate解析時間只有年月日沒有時分秒-程序员宅基地

文章浏览阅读688次。一、问题现象：在数据库表中日期字段中存的日期光有年月日，没有时分秒。二、产生原因：三解决办法检查表的相应映射xml文件。 <property name="operateDate" type="Date">如果同上面所写，那问题出在 type类型上了正确写法：<property name="operateDate" type="java.util..._hibernate解析時間只有年月日沒有時分秒

随便推点

springbbot运行无法编译成功，找不到jar包报错：Error:(3, 46) java: 程序包org.springframework.context.annotation不存在-程序员宅基地

文章浏览阅读1k次，点赞2次，收藏2次。文章目录问题描述：解决方案：问题描述：提示：idea springbbot运行无法编译成功，找不到jar包报错E:\ideaProject\demokkkk\src\main\java\com\example\demo\config\WebSocketConfig.javaError:(3, 46) java: 程序包org.springframework.context.annotation不存在Error:(4, 46) java: 程序包org.springframework.conte_error:(3, 46) java: 程序包org.springframework.context.annotation不存在

react常见面试题_recate面试-程序员宅基地

文章浏览阅读6.4k次，点赞6次，收藏36次。1、redux中间件中间件提供第三方插件的模式，自定义拦截 action -> reducer 的过程。变为 action -> middlewares -> reducer 。这种机制可以让我们改变数据流，实现如异步 action ，action 过滤，日志输出，异常报告等功能。常见的中间件：redux-logger：提供日志输出redux-thunk：处理异步操作..._recate面试

交叉编译jpeglib遇到的问题-程序员宅基地

文章浏览阅读405次。由于要在开发板中加载libjpeg，不能使用gcc编译的库文件给以使用，需要自己配置使用另外的编译器编译该库文件。/usr/bin/ld:.libs/jaricom.o:RelocationsingenericELF(EM:40)/usr/bin/ld:.libs/jaricom.o:RelocationsingenericELF(EM:40)...._jpeg_utils.lo: relocations in generic elf (em: 8) error adding symbols: file