要隐私还是要智能？无监督学习能带来二者的统一吗？

大数据文摘出品

来源：venturebeat

编译：马莉、楚阳

获取用户数据的方式即将被改变，数据“多即是好”的时代终将过去，用尽可能少的数据构建性能更好的模型才是大势所趋。

在目前视数据为赚钱的致胜法宝之一的商业环境中，这个论断听上去不大靠谱，然而，这是企业应该做出的改变，而且事实上这并没有听上去那么冒险。

喂给模型的数据越多，它并非会越智能，因此，减少数据并不一定意味着模型性能的下降。

数据越多，问题越多

如果用户数据的多少是决定企业竞争力强弱的因素，那么它会鼓励企业家们寻找各种渠道来获取更多的用户数据，而这本身会带来灾难性后果。

眼下，数据泄露和损毁以及个人信息暴露的新闻到处都是，由身份盗窃和金融诈骗引起的事故令人痛心和惋惜，我们目睹着由无力保护用户数据而导致的企业名誉受损、监管蒙羞以及由此而引起的用户的强烈抵制态度。

数据隐私只是疯狂获取数据所带来的问题之一，大规模的收集和管理数据本身会耗费巨大成本：计算成本、存储成本、运营成本以及更多。我们正处于大数据和人工智能时代，但如果数据量要和人工智能同步成长，那么这些成本还将继续飞涨。

企业恨不得知道有关客户的一切数据，然而，没有人会愿意自己的行为数据被记录和分析，企业获取得越多，客户暴露得越多，这些数据一旦失窃，那最后的赢家将是偷数据的贼而非企业。

相比依赖数据，更要整合数据

如果我们可以更灵活地使用手头收集来的数据，对其进行深入的分析和挖掘，就会发现其实并不需要原本想象的那么多的数据。

其中，关键一步就是实现从对个体数据的收集和依赖转向对整合数据的分析和处理。比如，与其一个个的分析用户IP，不如直接分析IP前缀来区分不同网络分布下的用户群体，同样可以提升模型的性能。

这样做的好处在于，我们可以使用群体特征来淡化个体特征从而起到了保护用户个体隐私的效果。乍一听可能怪怪的，但我们确实能用更少的数据训练出更好的模型。

再比如，我们可以构建这样一个特征，这个特征记录了某个平台上的交易总金额，而单个订单的交易金额则被四舍五入到某一特定的阈值金额下，由此，我们便无须精确地知道个体用户的交易金额。

另外，通过分析用户群体的数量和行为，我们可以发掘用户模式并预测其未来的趋势，也就是说，我们可以在不必深入分析单个用户的情况下获取更有价值的信息。而且，派生数据可以产生派生信息，比如，通过分析IP范围来推断用户工作在正常还是异常移动模式从而确定用户是否在旅游而无需其酒店或航班信息。

这种技术标志着重大革新，我们的努力使我们更好地遵循着大数据时代的道德标准。

相比个人，无监督学习更关注群体

从群体数据中获得的信息越多，需要加给个体的关注就越少，无监督学习使之成为可能。

如果没有无监督学习，机器学习模型会逐个分析用户数据以预测其行为，这不仅过多地暴露了个体用户信息而且会到导致学习任务极其繁重。

当使用无监督学习时，模型会以群体视野审视用户数据，通过分析群体用户的数量和行为找出其内在联系和用户行为模式从而使模型具有更好的泛化性能。在这个过程中，我们只需要少量个体用户数据用以划分用户群体，然后只需预测用户群体的行为即可。

同时，企业需要主动建立起防御机制以保护用户数据，黑客的恶意攻击应该被提前检测到以防止数据泄露。仅需要少量的数据就可以对群体用户数据进行整体性分析以侦测欺诈和恶意攻击的账号。事实上，企业其实已经获取到了足够的数据，只是没有深度挖掘而已。

全球范围内的监管机制的进步表明，用户数据将更私密且更透明，对于数据收集的管制也在不断提高。然而，这并不意味着模型性能的下降，通过对数据做整体性分析并利用无监督学习和优秀的AI技术，我们可以在获得高性能模型的同时保护好用户隐私。

收集和管理数据的方式日新月异，无监督学习的优势也因此而更加突出，尤其是在和监督学习比较时。监督学习模型需要大量数据，而大量数据会牵扯很多问题。但无监督学习并不需要大量的训练数据，因此在一定程度上保护了用户数据隐私，意义非凡。而且，有标签的训练数据本身可能存在偏见，这进一步突显了无监督学习的优势：通过在非结构化数据中寻找规律以确定分类，无监督学习不仅表现得客观公正多了而且补偿了以前模型中的不足。

金融从业人员立即意识到了无监督学习所能带来的价值，因此目前，已经有银行和支付机构主动地尝试这些新的机器学习模型。事实上，无论是隐私侵犯、改善安全机制还是增加验证程序都会给用户带来麻烦。而无监督学习使得企业可以给客户提供良好的用户体验而略去不必要的麻烦。数字经济时代，在风险管控、用户体验和数据道德之间取得平衡对企业来说是至关重要的。

今天，我们正在跨入伦理与智能共存的崭新时代。

要隐私还是要智能？无监督学习能带来二者的统一吗？

相关推荐