综述型论文
A Survey of Machine and Deep Learning Methods for Internet of Things (IoT) Security —— 2020
-
物联网系统无法支撑复杂的网络安全系统 , 物联网分为感知层、网络层、应用层,每一层都有其安全问题 -- (25-27)
- 感知层:身份认证、抗干扰(使用RL)
- 网络层:入侵检测(AE的效果比SVM和KNN好)、检测假冒/欺骗攻击(SAE与ANN组合)、DDoS攻击检测(ANN)
- 应用层:物联网系统行为检测(GAN)、安卓恶意软件检测(CNN)
-
DL中监督方法有CNN和RNN(改进的为LSTM),无监督方法有AE、TBM、DBM,混合方法有GAN、EDLN
-
文中认为DL在感知层身份验证有前途 -- 6
-
中间件存在于系统软件和应用程序之间的,需要构建提供安全物联网系统的机制 -- 6
-
物联网设备的数据库安全至关重要,某些情况下信息丢失和错误或者修改可能导致人员伤亡 -- 9
-
CNN和RNN是典型的监督式深度学习,但是CNN计算成本较高 ;对于顺序输入组成的数据建议使用RNN -- 20
-
对于表示数据集,即训练数据集可以表示测试数据集,AE(自动编码器)可以很高效的进行计算,反之,AE会使得计算过程更加复杂;RBM是无监督学习网络,【221】提出的基于该模型的方法可以应对网络流量的复杂性和攻击特征随时间的变化性 ,DBN由堆叠的RBM组成,该网络解决了RBM的特征表示能力有限的问题,将AE与DBN结合可以有效降低数据维度,仅提取显著特征进行计算 -- 21
-
生成对抗网络GAN有潜力应用于生成零日攻击的样本,然而,GAN的训练不稳定而且难学明白 -- 22
-
多个DL算法可以协同工作,而且效果比独立的算法更好;深度强化学习DRL可以高效解决高维问题 -- 23
-
物联网安全中,资源问题是一个巨大的挑战。此前有将数据发送到云端进行计算,但这种方式依赖于良好的网络环境,当网络连接较差时应用程序将不可用。而移动GPU依然会消耗大量的移动电池资源。因此降低计算复杂度具有实际意义。 -- 33
A Review on Machine Learning and Deep Learning Perspectives of IDS for IoT: Recent Updates, Security Issues, and Challenges —— 2020
- 物联网IDS代理节点的处理和存储能力有限、物联网与其他网络不同,其设备间歇性连接、物联网设备通信距离较短,以上这些问题给IDS识别入侵带来了挑战 -- 2
- 传统的基于签名的IDS泛化能力差,不能处理已知攻击特征的变体和新的攻击,基于规范的IDS回应魏错误定义的规范导致误报率较高 ,而基于异常的IDS适用于物联网网络-- 8
- 物联网环境中会产生大量的数据,而深度学习在处理大数据集上具有更优于机器学习的性能,深度学习还能够从数据中提取特征以更好的表示数据 -- 17
- CNN计算复杂度高、AE计算时间开销大,RNN有梯度爆炸的问题;CNN主要用于学习数据特征,AE广泛应用于在数据集中提取特征数据,消除噪声信号以减少数据及大小,RNN用于检测具有时间序列或顺序特征的攻击 -- 21
- 使用RBM构建完了过一场检测模型具有不错的可扩展性,但是当使用不同的网络数据集市表现不佳,这由于单个RBM的特征学习能力有限,而由多个RBM堆叠组成的DBN在检测异常方面表现良好。 -- 22
Unsupervised Deep Learning for IoT Time Series -- 2023
- 物联网时间序列与其他时间序列不同,其数据量大,且不仅表现出时间相关性,而且还表现出复杂的空间相关性 -- 1
- 聚类是最常用的无监督学习算法之一,聚类的目标是将对象组织成同质组,其中组内相似性最大化,组间相似性最小化 -- 4
- 大多数传统算法仅关注物联网时间序列的时间相关性,而没有考虑到物联网设备之间的空间影响 -- 4
- DL时间序列分析统一框架 -- 5,6
- 数据预处理:提取特征或建立关系以降低数据量,降噪以保证训练结果的正确性,当数据集数量或质量不足时应用数据增强的方法促进训练
- 特征提取:将输入数据转换为特征集
- 模式识别:无监督异常检测学习正常数据的模式,偏离正常模式的视为异常数据;无监督模型将符合相同模式的样本聚类到同一簇中
- 时间序列特征提取中使用RNN可以提取到复杂时间依赖关系,但是存在梯度消失的缺陷,也就是RNN很难学习长期依赖关系,LSTM在建模长序列时表现更好,但是存在过拟合的风险,GRU通过更简单的结构和更少的参数实现了和LSTM类似的功能,其更适合小规模数据。 -- 8
Machine Learning for Encrypted Malicious Traffic Detection: Approaches, Datasets and Comparative Study -- 2022
-
传统流量分类方法:
- 基于端口:一旦应用程序不使用通用协议端口,此方法无效
- 基于有效载荷的深度数据包检测(DPI):对加密数据无效,引发用户数据隐私问题
-
加密流量分类存在的问题:
- 加密协议很多,其工作方式也各不相同,有些作用在传输层,有些在应用层
- 加密流量特征复杂,大多数研究集中在讲加密流量分为合法流量和恶意流量的二分类问题上
-
对于加密流量检测中的深度学习研究,大多数研究人员都专注于研究CNN、RNN和AE的性能。也有将TLS/SSL特征转换为图像,从而训练CNN模型
-
特征选取方式
- 专家手动选择:在训练前先进行特征选择,然后根据所选特征进行流量和特征提取
- 使用机器学习模型自动选择:先从流量中提取所有可能的特征,然后进行自动特征选择,以获得最理想的特征集
-
加密和未加密流量分类是加密恶意流量检测研究的第一步。Niu等人提出了一种启发式方法,将统计和机器学习相结合,对加密网络流量进行分类,以弥补各自的不足,还提出了一种握手跳过算法(HST-R),在特征提取过程中跳过握手过程,以避免将错误的消息带到基于统计的方法中--对应论文。赵等人提出EIWCT模型,用于识别来自公共和私有加密协议的加密流量,该方法可以处理每个新传入的数据包,而不是在所有数据包到达后进行测试--对应论文。
-
现有的研究方向
- 不考虑加密协议的二分类问题
- 某些特定加密协议下的二分类问题
- 不考虑加密协议的基于恶意软件家族的多分类问题
- 某些特定加密协议下基于恶意软件家族的多分类问题
-
加密流量分类也用于物联网领域,但是物联网设备通常资源有限,更容易受到网络攻击。由于物联网设备的资源受限和异构性,传统的网络安全解决方案不适合保护物联网设备。Nakahara等人提出了一种异常检测系统,该系统避免了依赖物联网设备本身来检测和分析数据包,而是使用其他设备,如低负载家庭网关。然后,使用聚合流量信息的统计特征,以减少家庭网关和模型的处理负荷--对应论文。Aceto等人提出了一种移动流量分类器,可以通过自动特征提取和深度学习来处理加密流量--对应论文。
-
大多数数据集都是pcap格式,这些文件记录原始流量数据,其中包括许多与加密流量无关的网络数据包,在使用时需要删除,然后再进行数据阶段和填充使得输入数据长度一致,再过滤掉未加密的流量从而得到仅包含加密流量的数据集,最后还要把数据集中的分类数据转换为编码形式。
-
对数据集的处理方式
- 方法一:使用不同数据集的组合,或者使用自生成的数据来增加流量类型和数量,从而平衡数据集
- 方法二:数据增强是一种通过生成新的数据样本来增加数据集规模和多样性的方法。过采样是指通过增加少数类样本的数量来平衡数据集的方法。欠采样是指通过减少多数类样本的数量来平衡数据集的方法。过采样后的欠采样是首先对少数类进行过采样,增加其样本数量,然后对整个数据集(包括过采样后的少数类和原始的多数类)进行欠采样,使最终的数据集达到平衡。
- 数据归一化可以将数据或特征归一化到0到1或-1到1的范围内,从而减少数据冗余,提高模型训练的效率
-
特征提取
- 基于数据包的特征:会话中数据包之间的时间差、数据包大小、有效载荷大小、TCP窗口长度
- 基于会话流的特征:会话持续时间、每个会话中来自客户端/服务器的总字节数、每个会话的客户端/服务器数据包总数以及每个会话的IP数据包报头总长度。
-
特征工程
- 统计特征:对上述提取的特征的平均值、中位数、最大值、最小值、方差、标准差
- 从原始数据集的特征中选择特定的子集作为特征集,如:TCP/IP报头特征(如IP报头);基于时间的特征(例如,数据包的平均到达间隔时间)、长度相关特征(例如数据包长度和有效载荷长度)和数据包变化特征(例如TCP窗口变化时间)
-
作者总结的一些数据集的特点
-
选择特征时并非越多越好,过多的特征会导致消耗的资源和时间过多。常见特征选择方法有
- 基于领域专家的选择:具有人为错误,并不总是可靠的
- 基于机器学习自动选择:要求人类提取所有可能的特征,然后算法对不同的特征选择进行排序找到最合适的特征,这种方式可以发现非直观特征,避免人为错误和偏见。但是由于人工智能的黑盒特性,解释特征选择过程是非常具有挑战的。
-
传统的机器学习处理加密流量的工作中,DPC-GS-MND模型性能好,是无监督模型,该算法还可以显著降低计算成本,但是算法中的k值必须手动确定,而且该项工作无法处理类不平衡的问题;此外还有Iot Keeper模型,该模型用于分类恶意iot流量,这是一个无监督学习模型,但是这项工作没有涉及加密的恶意流量检测
-
深度学习方法可以有效对端到端加密的流量进行分类。Network Traffic Classifier With Convolutional and Recurrent Neural Networks for Internet of Things | IEEE Journals & Magazine | IEEE Xplore该工作将RNN和CNN相结合,对物联网流量进行分类,无论流量是否加密,都达到了不错的结果。