首页 > 论文范文 > 社会科学论文 > 科技论文 > 互联网论文 > 基于RF+TabNet的网络流量异常识别和检测

基于RF+TabNet的网络流量异常识别和检测

2024-12-03 133 上传者：管理员

摘要：在复杂网络环境下，处理传统的烟草系统网络流量数据往往会面临数据量大，特征维度高，特征相关性复杂度高，模型检测效率低等问题，本文使用了一种基于随机森林（Random Forest,RF）和TabNet网络模型结合的流量异常识别与检测方法。首先使用随机森林算法计算高维特征的特征权重，根据权重对特征进行降维处理，筛选出高权重特征，剔除低权重特征，再使用TabNet模型对特征进行高效的分类。为了评估模型的有效性与优越性，本文使用准确率和损失进行模型评价，并与其他网络流量异常检测模型Tabular model、LSTM、CNN+LSTM、XGBoost进行对比。使用公开数据集CIC-IDS-2018进行实验，结果表明，使用原始高维数据训练易使模型过拟合，使用降维后的数据，本文提出的模型在多分类任务和二分类任务中的识别准确率分别达96.82%和98.75%。该方法与其他深度学习算法相比，泛化能力强，在处理网络流量异常检测问题上具有良好的灵活性和有效性。

关键词：
RF
TabNet
异常检测
特征选择
随机森林
加入收藏

在智能烟草工业数字化建设中，离不开网络通信技术的广泛应用，与此同时，也带来了网络安全问题[1]。对于智能化烟草工业设备来说，需要远程调控和监视，通信网络与外界要频繁地进行数据的交换，因此需要高度重视网络安全中的网络攻击问题。

网络攻击可以通过异常流量的检测，提前进行预测和研判，达到不被攻击的目的。现在网络流量异常检测的方法主要有以下几种：基于传统的异常检测方法有统计分析方法[2]、签名分析方法[3]等，通过对已有的攻击信息进行分析，进而设置参数。缺点就是以经验为主，随着网络攻击类型越来越多，效果较差。

基于机器学习的方法有K-means、极致梯度提升[4](e Xtreme Gradient Boosting,XGBoost）、Light GBM[5]等，通过特征的提取和分类学习，进而进行异常检测。EESA[6]等人从原有的数据流量中学习相关特征，通过改进数据流量特征信息以获取较低的误报率和较高的检测精度。Kuang等人[7]使用基于内核主要成分分析和遗传算法的支持向量机来进行网络异常入侵检测。王智慧等人[8]提出了基于Light GBM(Light Gradient Boosting Machine）的网络异常流量检测模型，解决了传统网络攻击中误检率和漏检率高的问题，提出的这个模型首先提取流量的主要特征，降维后使用Light GBM网络模型进行检测，但该模型在未知的网络异常流量攻击中表现出泛化能力较低的问题。

基于深度学习的网络异常流量检测方法表现出良好的性能，Pei等人[9]提出了基于长短期记忆（Long Short-Term Memory,LSTM）构自编码的异常网络流量检测方法，通过对数据进行聚合，构建出了针对异常网络的个性化异常检测框架，提高了对不同异常数据的泛化能力。Kim等人[10]将LSTM与卷积神经网络（Convolutional Neural Networks,CNN）相结合，同时提取时序特征和空间特征，深挖掘异常流量数据的结构化特征，处理单位为单个数据包，Wang[11]与Kim使用同样的方法，但是处理单位为网络流，这样CNN与LSTM合理地利用了使用的异常流量信息，杜浩良等人[12]也是使用了同样的混合检测模型，但卷积神经网络（CNN）权重较大，有较多的参数，如果不能好好地调参的话，可能会对模型有影响。李梅等人[13]同样使用了CNN与LSTM的混合模型，不一样的是，加入了注意力机制，可以提取更关键的信息，排除掉非关键性特征，可以提高性能，但会使网络模型结构变得复杂。麻文刚等人[14]为了改善网络学习过程中的梯度消失和过拟合的情况，提出了利用跳板连接线的改进型残差网络，但是没有考虑不同尺度下的影响，很难生成最优的结构。Yang等人[15]将LSTM和SAE相结合，LSTM有效地提取了特征中的时间特征，通过多个SAE的串联有效地提取空间特征，为了提升网络模型的检测效率，对网络异常检测数据做了预处理，采用去除介质访问控制地址的操作。

考虑到上述当前网络异常检测模型出现的问题，本文提出一种基于RF+Tab Net的网络异常流量检测框架，首先利用随机森林来对原始数据的特征信息进行分析，为其进行重要度评分，选择其中重要度评分较高的关键流量特征输入到Tab Net中进行训练，最后输出检测结果。

1、研究方法

1.1 随机森林

由多个决策树构成的RF模型，利用Bootstrap技术从数据集中随机抽样，分别训练每棵决策树，然后将它们组合起来，通过投票方式输出最终结果。RF能够容忍异常值和噪声，适用于海量高维的数据，同时能够评估特征的重要性（VIM）。

本文利用随机森林评估流量特征的重要性，计算每个特征在每棵决策树上的贡献率，即该特征在某个节点上，分裂前后的基尼指数变化量，对所有特征进行同样的计算。然后把每个特征的基尼指数变化量除以所有特征的基尼指数变化量之和，得到每个特征的归一化贡献率，从而得到每个特征的重要性权重，并对它们进行比较和排序。

基尼指数的计算公式为：

这里，k指的是有k种分类，pk指的是k种分类的权值。

节点m处每一个特征j的基尼系数的改变值采用VIMjm表示，通过以下方式来计算：

这里，节点m分裂后，新生成的两个节点的基尼指数分别用GIl和GIr表示。

最后，特征j的重要性评分是对特征j贡献量进行归一化处理后的结果：

这里，a表示特征j的基尼指数，b表示各个特征的基尼指数差的总和。

1.2 Tab Net模型

Tab Net网络[16]模型于2019年由Google提出，并于2021年发表于AAAI会议上，是一种新颖的端到端模型。该模型结合了Transformer和循环神经网络的优点，并引入了一些新的概念，如位置编码、双向Transformer编码器等。这些改进使得Tab Net能够更好地捕捉输入序列中的长距离依赖关系，并且在表格数据处理方面优于以往的深度神经网络，甚至能够与传统的树模型在表格数据领域一较高下。这得益于Tab Net模型结构在保留了深度神经网络表征学习以及端到端的基础上，还吸收了树模型的可解释性和稀疏特征选择的优点[17]。而传统的深度神经网络在处理表格数据的缺陷在于其依附于堆叠网络层，导致参数过多，缺乏学习符合某个规则模型的假设，进而难以在表格决策流形上寻得最优解。Tab Net的工作流程为：使用原始的数值型数据，并用可训练的embedding将类别特征映射为数值特征，首先传入Features特征进行Batch Normal操作得到BN＿Features（维度为B×D），然后基于序列化多步处理，一共有N＿steps轮决策，每一轮都输入BN＿Features，但第i轮挑选使用哪些特征是由来自第i-1轮传递过来的信息决定的，然后对挑选出的特征进行特征处理，最后将所有轮决策特征处理后的结果进行融合，根据任务类型连接相应的激活函数输出。Tab Net的核心结构图如下图1所示。其中两个最重要的模块为Attentive Transformer和Feature Transformer。

Attentive Transformer(AT）负责每一步的特征选择，以达到为每个Step学习到一个Mask（记为M[i]∈RB×D）的目的。Mask的计算公式为：

其中加权缩放因子P的迭代计算公式为：

这里的sparemax归一化操作可以得到更稀疏的输出结果，能够让模型更关注于最显著的特征。

Feature Transformer负责特征处理Tab Net使用Feature Transformer处理已过滤的特征，然后拆分给总决策输出和下一步决策，即：

其中拆分给总决策输出的是d[i]，拆分给下一步Attentive Transformer输入的是a[i]。为了参数有效性和高性能的鲁棒性学习，Feature Transformer融合特征共享层和特征独立层，前者计算特征共性，后者计算特征特性。

图1 Tab Net encoder结构

2、实验分析

2.1 实验环境

本次实验使用的软硬件环境如表1。

表1 软硬件环境

2.2 数据集

为了验证模型的效果，本实验使用的数据集是CSE-CIC-IDS2018 on AWS，是通信安全机构（CSE）与加拿大网络安全研究所（CIC）之间的协作项目[18]，它以基于创建用户概要文件来生成用于入侵检测的多样且全面的基准数据集。受攻击的攻击基础设施包括50台计算机，以及5个受害组织部门的420台计算机和30台服务器。捕获每台计算机的网络流量和系统日志，以及使用CICFlow Meter-V3从捕获的流量中提取的80个特征。包括七种不同的攻击场景的14种攻击类型：Heartbleed,Botnet,Do S等。

读取数据集进行分析，首先要对数据集中的特征进行初步的筛选与清洗，对于IP address、Flow ID、Timestamp等特征不是我们需要的，需要删除这些特征列。对于每个数据集中样本的丢弃一些无穷大值、Na N空值和重复行数据样本这些无效的数据，来提高实验结果的准确性。每个数据集的网络流量类型及样本数量统计如下表2，包含各个数据集的丢弃样本以及剩余的样本。

表2 每个数据集的网络流量类型及样本类型

再对数据进行初步筛选与清洗，清洗后需要对数据进行汇总，从汇总后的数据中提取出正常的标签和每种攻击类型的数据，正常标签数据为Benign，剩下的标签数据全是各种攻击类型，正常的网络流量类型与各个攻击类型的统计如下表3，总的正常类型：总的攻击类型的比例在7:3左右。为了计算模型的效果，本实验将所有的攻击类型统一划分，分为正常类型与受攻击类型，使用模型进行异常识别分类，验证模型效果。

表3 网络流量类型数量统计

根据前面介绍的随机森林算法，对攻击类型的流量特征进行重要度的评分，得到的重要度评分如图2，图中只展示了前20个重要度的评分，为了验证模型的效果，本文选取了重要度前18的特征进行实验。

图2 特征重要度评分

2.3 实验分析与评价

在进行实验之前，本文将上面介绍的按日期分开的九个表格数据整合到一起用于训练，这样既能够确保攻击类型的多样性，同时更多的训练数据能够提升我们模型的训练效果；除此之外，我们还将整合后的数据进行了进一步的处理，将13种不同类型的攻击整合到一起，将多分类问题转化为二分类问题，在提高模型检测精确度的同时增加模型的泛化能力，使我们的模型能够预测到更多未知的攻击类型。本文通过查阅相关文献，选取了在网络流量异常检测领域表现较好的几个网络模型来进行对比试验。首先，我们直接使用整合后的原始数据集输入到网络模型中进行训练，得到80特征多分类的分类结果；再使用转化后的二分类数据集进行对比实验，根据表4的对比结果可以看出，我们选取的Tab Net神经网络在各种任务中的表现相较于其他的深度学习方法都更为优秀，在针对表格数据的分析上能够与长期在表格数据分析领域占有统治地位的XGBoost和Light GBM等神器比肩，它通过类似于加性模型的顺序注意力机制（Sequential Attention Mechanism）实现了Instance-Wise的特征选择，还借鉴了Transformer架构模型中的Encoder-Decoder框架，实现了自监督学习。

表4 80特征训练准确率对比

根据表4中的数据可以看出，大部分网络模型的训练效果都表现出很高的准确率，但是实际训练出的模型在特征较少的情况下并不能表现出令人满意的预测效果。根据图3和图4可以看出，在训练刚开始进行时模型就已经具有了很高的准确率，而随着训练不断进行，模型的准确率不增反降，虽然损失越来越少，但模型效果却开始震荡；初步分析这是因为训练时使用的特征过多，并且数据集庞大，导致训练出的模型都出现了过拟合的现象。因此我们设置了第二组对比试验。

图3 Tab Net-80训练损失曲线

图4 Tab Net-80准确率曲线

在第二组对比实验中，为了防止特征过多导致的过拟合现象出现，我们首先使用随机森林的方式对各个特征进行重要度评分，选取其中重要度排名靠前的18种特征用于模型的训练，这样既能够防止过拟合，又能够减少模型的参数数量和训练时间，训练结果如表5所示。

表5 18特征训练准确度对比

根据表5可以看出，在降低了训练特征之后，其他深度学习的神经网络模型与Tab Net之间的差距就显得更加明显了，在18特征下的二分类任务中，Tab Net的准确率仍然能够达到98.75%，并且根据图5和图6可以看出，随着模型的不断迭代，损失越来越低，模型的预测效果也在稳步提升，并在大约60个epoch后趋于饱和。在整个训练过程中并没有出现过拟合的现象，并且二分类的网络模型在面对未知类型的网络流量异常情况时具有更好的鲁棒性。

图5 Tab Net-18损失曲线

图6 Tab Net-18准确率曲线

结合实验数据，以及上面进行的对比可以证明本文提出的RF-Tab Net方法在处理网络流量异常检测问题上具有良好的灵活性和有效性；无论是面对多特征训练或是少特征训练，无论是针对多分类问题或是二分类问题，本文提出的方法都能够很好地适应，并保持极高的预测效果。

3、结束语

针对目前网络异常流量检测领域在网络环境复杂的情况下，所使用的数据集特征多，模型检测效率低且容易过拟合的现象，提出了一种基于Tab Net和随机森林的神经网络模型，能够从高维数据中挖掘出对于检测效果影响重要的关键特征信息，并使用Tab Net网络模型对这些关键特征信息进行分析，得到最终的检测结果。本文提出的神经网络模型在CIC-IDS-2018数据集上进行实验分析，在低特征二分类的情况下仍然能够达到98.75%的准确率，与其他网络流量异常检测模型相比具有最高的识别准确率。并且经过大量的对比试验可以证明，本文提出的模型具有很好的灵活性和鲁棒性，并且检测效率高，在智能烟草工业数字化建设中具有实际的应用价值。

除此之外，本文提出的模型还存在着一些问题：本文使用的CIC-IDS-2018数据集包含了79个流量特征信息，而这些流量特征在实际工业应用中可能难以提取，下一步将针对实际应用场景来选择相对容易提取的特征对模型进行微调，从而使本文的模型更加适用于实际场景。

参考文献:

[2]汪涛,邵定宏.一种采用统计分析的入侵检测原型系统[J].微计算机信息,2007,23(30):111-112.

[3]刘君玲,吴小羽,曹岩.采用关联分析改进基于攻击签名的入侵检测的技术[J].吉林工程技术师范学院学报,2004,20(12):1-5

[8]王智慧,王静,方蓬勃,等.基于Light GBM的电力工控系统异常流量检测方法[J].电力信息与通信技术,2021,19(11):69-77.

[12]杜浩良,孔飘红,金学奇,等.基于深度学习的电力信息网络流量异常检测[J].浙江电力,2021,40(12):117-123

[13]李梅,宁德军,郭佳程.基于注意力机制的CNNLSTM模型及其应用[J].计算机工程与应用,2019,55(13):20-27

[14]麻文刚,张亚东,郭进.基于LSTM与改进残差网络优化的异常流量检测方法[J].通信学报,2021,42(5):23-40.

[17]刘舒妮.基于Tab Net的个人信用风险评估研究[D].华东师范大学,2022.

文章来源:袁泉,胡锐,王建峰,等.基于RF+TabNet的网络流量异常识别和检测[J].网络安全技术与应用,2024,(12):38-42.