liqing 2020-01-06
通过对比试验发现:基于深度神经网络和因子分解机的组合模型比单独使用两者的准确率和AUC值表现更佳。
注:AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
描绘了用户行为预测问题难点:数据噪音多、异常行为数据干扰模型的判断(数据科学家大部分时间都在做数据清洗的工作)、模型对多类别特征的表征能力欠缺。引用杨与白学者强调解决特征构造问题已经成为数据挖掘的瓶颈之一。并且通过构造二次交叉特征以及利用 Xgboost 的分类算法,能够得到比传统机器学习算法更佳的预测性能。潘等提出基于分而治之的思想,提出了基于用户相似度和特征分化的混成模型。该模型首先根据混合高斯分布来评估用户相似度,将其划分为多个群体(基于用户的协同过滤算法),分别构建子模型并进行有效组合。
超参数可以很直观地解释,并且基本上只需极少量的调参
Deep FM算法其模型训练的速度最快,达到模型收敛所需要的时间更少,模型也更加稳定。