crenjing 2019-05-25
0.论文概况
本文提出针对公司偷税逃税这一类社会保证欺诈问题的检测方法,全篇论文非常系统化接地气,值得一读:
1.欺诈场景
1.1 欺诈描述问题
存在一些公司转移资源(公司地址、法人、买卖家、雇员、供应商)到其他公司,并宣布破产从而达到逃税的目的。
另外为了不引人注目,会将资源分散转移到多个公司,但这些公司背后有一家主公司负责组织资源交换。
1.2 公司之间转移资源关系
1.3 公司-资源二分关系
2. 欺诈假设和调战
2.1 欺诈假设
假设欺诈公司继承资源的公司存在高风险,即欺诈在网络中是可以传播的(如下图所示)
2.2 五大欺诈挑战及应对
1.不常见的(Uncommon):欺诈问题标签样本极不平衡,如何使用和学习?
——在机器学习中利用SMOTE算法合成更多正样本
2.深思熟虑(Well-considered):欺诈者会精心准备,而仅依靠单规则(如孤立点)检测,是不充分和不准确的。
——通过综合自身特征和网络拓扑特征,使用机器学习建模,可以提高性能。
3.时间演变(Time-evolving):欺诈行为也会进化
——设计时间衰减关系权重,并使用多个基于时间划分的评价集评估
4.精心组织(Carefully organized):欺诈者会受到盟友的影响而改变自己从而更好的不被察觉,故相比正常公司,欺诈者联系更紧密,具有同质性
——提取网络拓扑中三角形、四边形特征
5.伪装(Imperceptibly concealed):欺诈者会伪装自己,与正常公司具有具有相同的特征——通过集体推理方法(如网络传播),通过网络传播少量欺诈行为,并推断出网络中每个节点的欺诈分。
3. 风险传播算法设计
通过风险传播得到每个节点的欺诈score,然后结合网络拓扑结构设计特征,作为机器学习模型的输入。
3.1 设计初衷
通过在时间加权的二分网络进行欺诈传播,为每个节点推断一个欺诈score,可以反映下面两类特性:
3.2 个性化 PageRank
PageRank用于计算Web中网页权威性,认为指向页面P的页面越多,该P得到的权威值越高以及指向P的页面权威值越高,则P得到的权威值也就越高。
每一次迭代过程:
个性化PageRank设计初衷是计算特定页面与所有页面之间的相关性,从而可以进行推荐。与PageRank不同之处主要是:
每一次迭代过程:
3.3 改进个性化PageRank
通过改进个性化PageRank,以适应欺诈传播场景
1. 加入时间衰减权重矩阵W替代邻接矩阵M
相比多年前捕获的欺诈公司,最近捕获的欺诈公司可能是更重要的传播源。 即检测到的时间越久,欺诈传播的传播影响就越小。
设W为指数时间衰变函数:
用W替代M:
2. 适用Company-Resource 二分网络
将时间衰减权重矩阵W 扩展成NxN的矩阵Q(N=公司节点数c+资源节点数r):
Q替代W,并归一化:
3. 专注欺诈的设计
定义v,设欺诈公司节点 vi =1 , 其他节点vi =0 。这样将欺诈公司节点作为特定节点,每次重启都是从这些欺诈节点开始游走。
最终得到的score可以解释为与这些欺诈节点的相关性,相关性越高表示受感染程度越严重。
4.和度无关的传播
在个性化PageRank中,
表示将节点score分散传播给邻居,但这会出现个问题:在score相等时,高度(邻居数量多)节点传播给邻居较低的score,而低度节点传播给邻居较高的score。
但是在欺诈问题中,度高低应该与分配score无关,故通过放大高度节点的score,以保证传播时不同度的节点邻居得到的score在一个尺度上:
4. 传播增益
通过下面两个传播效应来说明,传播所带来的额外增益(相比“直接与欺诈公司相连”的规则)
5. 特征设计
本节介绍获得每个节点的欺诈传播分数之后,如何结合网络拓扑结构系统化衍生特征。
每个特征对于欺诈性的区分度: