机器之心 2020-09-22
机器学习的能力归功于这三个因素:数据、算力和算法。由于性质使然,网络领域生成大量数据。
比如说,公司网络可能每天在端点设备上看到数十亿个IP数据包、数百万个DNS查询、解析的URL和执行的文件,以及数亿事件(进程、连接和I/O)。提取、清理和处理这些数据需要庞大的算力,幸好可通过各种基于云的平台轻松、灵活、低成本地获得这种算力。同样,可以使用功能越来越强大的开源机器学习网络安全算法来抽取复杂的底层数学,以便开发、调整和训练复杂模型。这些因素共同为网络安全供应商提供了过去无法想象的功能。
通常,网络安全供应商使用实时客户数据、为吸引攻击者而设计的“蜜罐”以及通过在网络社区内共享数据来训练机器学习模型。
这可以更全面地了解威胁状况,比如创建模型特征,可能包括文件在整个客户群中的新鲜度、流行度和使用频率。供应商还使用大量已知类型的恶意软件和合法文件来训练其模型。训练包括确定文件是不是恶意文件,还常常尝试对恶意软件的类型进行分类,这对于确定如何修复或删除恶意软件至关重要。
机器学习的应用范围很广,包括反恶意软件、僵尸程序检测、反欺诈和隐私保护。令人关注的是,网络安全界使用机器学习存在多个新兴挑战,这使其成为大有潜力的领域。
对抗性AI和机器学习的角色
机器学习因可以访问庞大数据集、快速降低大规模计算的成本以及强大算法的开源可用性而大众化,已证明大大地推动了网络安全行业,机器学习也成为了网络对手新增的一个重要工具。
比如说,生成式对抗模型用来开发策略,以减小攻击被网络安全工具识别的风险。基于机器学习的行为异常检测系统可学习正常行为,以快速识别异常和可能恶意的活动,但是对手也在开发恶意软件,这种恶意软件可学习正常的用户和系统行为以模仿正常行为,并尽量减小被检测的风险。
机器学习网络安全系统的有效性可能受到用于训练模型的数据的清洁度的严重影响。为此对手可能借助“毒害”攻击,企图注入坏的训练数据以影响模型错误学习。这种攻击呈现多种形式,从生成虚假流量模式到毒害商业或开源恶意软件样本数据集,不一而足。
对手已经能够利用旨在防止误报的机器学习模型来避免被检测。比如说,攻击者明白通过将特定的模式嵌入到恶意软件中,也可以诱骗流行的反恶意软件产品将代码列入白名单(将代码标记为合法),即便是恶意软件。
使用机器学习建模人类交流模式以开发更逼真、更有效的网络钓鱼攻击,这是另一个值得关注的对抗例子。自然语言处理和自然语言生成方面的最新技术(比如Open AI的GPT-3)意味着,很快极难区别真实通信与合成通信。
机器学习和深度强化学习
常规机器学习技术用于网络安全已大获成功,尤其是在检测未知攻击(又叫零日攻击)方面。这些技术在静态线性环境下表现出色。相反,如今复杂的攻击场景是动态的、多途径、非线性的。仅依靠机器学习网络安全系统来被动地识别某个攻击环节已远远不够。
深度强化学习是机器学习领域最令人兴奋的主题之一,因为它结合了深度学习技术(比如卷积神经网络)和强化学习。这是DeepMind的AlphaZero取得突破背后的核心方法。将深度强化学习应用于网络安全是应对复杂威胁的关键一步。
深度强化学习系统的学习有点像人类。它们探索其环境(在网络安全领域指事件空间),根据它们采取的行动获得反馈和奖励,从而不断学习。事实证明,这种自主方法非常适合复杂的对抗场景,有出色的有效性、通用性和适应性。
机器学习网络安全和物联网
每年数百亿个新的联网设备上线,未来会有更多。然而,许多这类物联网设备的计算或存储容量有限,无法运行端点网络安全软件,基于专有固件而建。这些设备还往往“无外设”,用户访问或更新设备上运行的软件的能力有限。由于这些原因,物联网设备显然很容易遭到网络攻击。
解决该问题的合理方法是在网络层面及/或在云端运行物联网网络安全技术。然而,传统的基于特征的网络安全技术并非旨在解决物联网设备安全问题。此外,目前大多数物联网网络安全产品只是重新包装的IDS、URL声誉或加固版DNS服务而已。不过,将机器学习应用于该领域方面出现了前沿工作。已设计出了高级模型,只需检查少量数据包就能识别被感染的设备,从而能够主动检测和阻止威胁。