AAAI 2017|佐治亚大学:极端梯度提升和行为生物识别

meichuanyi 2018-06-03

AAAI 2017 Student Abstracts

极端梯度提升和行为生物识别

Extreme Gradient Boosting and Behavioral Biometrics

佐治亚大学

University of Georgia

【摘要】随着内部攻击变得越来越普遍,从系统内部而不是通常使用漏洞进入的外部入口,识别有效用户变得越来越有用。本研究的主要目标之一是确定梯度提升用于预测或在通过学习基于HCI(HumanComputer Interaction,人机交互)的行为生物识别对特定用户进行分类或识别的效果怎么样。如果可行,在使用与其他生物识别技术一样以人为中心的数据进入受保护的系统后,该程序可以用于验证用户,但侵入性较小。对于本研究,极限梯度增强算法用于对包含击键动力学信息的数据集进行训练和测试。选择这种具体算法是因为目前的大多数研究使用了主流方法,如KNN和SVM,本研究的假设集中在集成相关决策或模型树的潜在适用性。最终的预测模型产生了0.941的准确度,Kappa值为0.942,表明以键盘动力学形式的基于HCI的行为生物特征可用于识别系统的用户。

AAAI 2017|佐治亚大学:极端梯度提升和行为生物识别

1 树,集成和梯度提升

决策树被广泛地用于这种性质的分类类型问题中,因为它们可以像许多其他算法那样通过学习数据特征或独立变量中包含的值来预测因变量的值。在这种方法中,使用最高相关的特征来最终对目标或因变量的相关类别进行分类。在这个递归过程中(Quinlan1986),从数据的每个相关特征构建树的“分割”或“分支”,直到相关性不再有效或者目标变量达到树底部。沿着这些单独的路径导出二进制分割,并且经常被呈现为二进制决策,其概述了因变量与数据集中的剩余特征的总体关系。

决策树的一个主要缺点是当用于具有较大数量特征的数据时,变得不稳定的概率很高。为了补救这种潜在的副作用集合方法(Dietterrich2000)可用于引入迭代训练过程。

该迭代使用不一样的方法,在单个模型构建会话期间调用构建和比较大量模型的结果。随机森林是一个集成学习方法的一个很好的例子,其中在训练期间创建了多个决策树(即森林),并且通过采用森林内所有生产树的平均值得出输出,但是较少使用且经常被忽视的集成方法是梯度提升。

梯度提升(Friedman2002)通过“在每次迭代中使用最小二乘法将简单的参数化函数有序拟合到当前残差上”来构建加性模型。更简单地说,该模型和随机森林一样构建多个决策树,但梯度提升使用任意的差分损失函数,而不是使用均值来作出结果预测。

AAAI 2017|佐治亚大学:极端梯度提升和行为生物识别

2 数据科学过程

2.1 数据采集

这项研究的击键动力学数据(Killourhy和Maxion2009)记录了五十一位打字员打字相同的单词(.tie5Roanl)四百次。研究人员构建了一个数据采集系统,记录了不同的按键事件,例如按键和键弹起以及被按下的键的名称以及不同键事件之间的相关时间。如果参与者在输入数据时发生错误,则指示他们再次重新输入该字,并继续进行剩余的迭代。然后分析该数据以创建包含20,400个单独观察值和三十四个变量的单词-时间表格数据集:三十三个特征表示键入单个单词所涉及的键击的时间戳和表示因变量的一个变量,表示进行相关打字任务的人的身份。

2.2 预处理,模型说明和结果

分析数据集以确定是否可以从数据集中删除任何特征。从数据中删除了两个特征:一个表示单个会话标识和第二个特征表示个体观察号,以确保仅与识别相关的特征没有产生偏差。这将数据集的维数降低到三十一个特征和一个因变量;这些元素用于训练和测试研究的模型。

选择R的分类和回归训练(caret)包,用于模型训练和测试,数据集随机分层,分为包含70%数据的训练集和30%数据测试集。

为本研究选择的算法极端梯度提升(XGB)是梯度下降(Burges等人,2005)和Boosting(Dietterich2000)的组合,并提供了不同的调整参数,改变这些参数以建立最优模型。调整参数包括迭代次数,最大树深度,收缩率,最小损耗减少,子采样率和实例权重的最小和。为了与XGB模型进行必要的比较,也使用C50和KNN创建,这样可以很容易看到使用XGB的好处。在训练开始之前,也建立了两种附加算法的类似调整参数。

当使用XGB时,迭代次数指定数据将被分析的次数;通过许多训练周期150被选为最佳迭代次数,以减少任何不必要的训练时间。模型树的最大深度仅限于两个分支,以充分防止过度拟合。收缩率设定为3,以确保模型足够强大,可以在做出预测时将其推广到新数据,同时也以最优的方式提高模型的性能。对于整个训练过程,最小损失减少或Gamma设置为0,并且将每棵树的观察值(子样本率)设置为0.6。

最后,实例权重默认设置为1的最小总和保持不变。使用上述参数,模型产生的结果如表 1所示。

AAAI 2017|佐治亚大学:极端梯度提升和行为生物识别

表1 模型度量比较

AAAI 2017|佐治亚大学:极端梯度提升和行为生物识别

3 结论

这些结果有利于使用键盘动力学数据来识别系统的用户是获得训练数据的相同用户。该过程也可以扩展,以便使用更大量的非结构化数据进行扩展训练,例如社交媒体中的每日过帐或需要文本输入系统的常见日常和日常任务。

打字是绝大多数基于用户的软件系统的整体输入交互,并且将类似的预测模型集成到高安全性场景的软件开发生命周期中是很容易的。最小程度上,这将有助于防止这种内部攻击,不是有效凭据所有者的用户尝试输入不是自己的密码和其他登录信息但被认为有效进入系统。此外,此前瞻性模型还可用于在用户输入简单的用户名/密码组合以及其他文本信息(例如挑战问题的答案)的较大型多因素身份验证情况下协助验证。

这两个场景都提供了两个例子,一个用于系统的每个部分,演示了如何使用梯度提升模型和机器学习来防止系统内部的攻击,通过使用击键动力学形式的行为生物识别来识别用户身份;这是值得注意的,因为这项研究的结果是设计多因素认证决策支持系统的更大建议的一部分。

论文下载链接:

https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14934/14225

相关推荐