dearbaba 2018-03-21
大数据文摘作品
作者:钱天培、邱猛、龙牧雪、魏子敏
美国时间3月19日,星期一,Facebook股价暴跌7%,一天内市值蒸发近400亿美元。在“数据泄露丑闻”发酵之下,这一暴跌并不意外。
上周五,特朗普(Donald Trump)聘用的一家政治AI公司剑桥分析(Cambridge Analytica),被曝非法将大约5千万Facebook用户的信息用于大数据分析,从而精准刻画这些Facebook用户的心理特征,并向他们推送定制广告,甚至假新闻。
这些用户信息由剑桥大学心理学系讲师Aleksandr Kogan通过App“thisisyourdigitallife”以学术研究为目的收集,但数据却被转移至第三方,即剑桥分析公司。
令人不解的是,Facebook在2年前就已得知Kogan的不当行为,并曾要求其销毁所有数据,但并未采取进一步行动,直到被媒体大规模曝光。
这起丑闻持续发酵,甚至被称作是“Facebook、谷歌等科技巨头结束垄断的转折点”。
而据海外媒体VICE一年前的一篇调查报道,这家政治AI公司或许还曾用同样的手段助推了“英国脱欧”事件。
心理学+大数据=颠覆世界
要了解这家公司的“数据魔术”,让我们先来了解其涉及到的一门有趣的学科——“心理测量学”。
大数据营销和个性化推荐早已不是什么新鲜事,但这家在当时尚不知名英国公司的分析方法的确有所不同。他们分析的是人的心理特征,而不是人口统计学特征。
基于人口统计学的选举拉票活动基于非常有限的数据信息:所有的女人因为她们的性别收到同样的信息,或者所有的非裔美国人因为他们的种族收到同样的信息。而当其他的选举活动还依赖于人口统计学的信息时,剑桥分析已经采用了心理测量学分析了。
“基于性别或种族来拉票的想法是荒谬的。我们的预测基于大五类人格(OCEAN)模型。”
剑桥分析将美国的人口分为32类性格特征,并集中关注17个州。基于一个App应用,每一位特朗普竞选团队的游说者都可以精准了解到每栋房子中的住户的性格、喜好,总之,他们对你会不会投票了如指掌。
早在2016年9月,剑桥分析公司的CEO Alexander Nix就曾在Concordia Summit(迷你版的世界经济论坛)上公开分享大数据和心理测量学助力选举的秘诀,演讲题目是:The Power of Big Data and Psychographics in the Electoral Process。
戳这里看演讲视频https://v.qq.com/x/page/g0609s7wegd.html
这些都发生在剑桥分析被曝光非法使用Facebook用户数据之前。
丑闻发生后,被曝帮助剑桥分析公司搜集数据的Aleksandr Kogan的简历已被迅速从剑桥大学官网撤下,只剩网页快照。
谷歌搜索“Aleksandr Kogan”结果,剑桥大学官网介绍页无法打开
网页快照显示Aleksandr Kogan任职于剑桥大学心理学系,研究领域涉及多种情感和心理健康,研究方法包括利用大规模数据集。
心理学和大数据,就这样被联系到了一起。
而早有人嗅到了可疑气息。
2017年1月,海外媒体Vice曾发出一篇原载于Das Magazin的德语文章,作者Hannes Grassegger和Mikael Krogerus。
文章详细报道了剑桥大学心理测量中心的另一位研究员Michal Kosinski如何开发基于Facebook点赞信息的大五类人格测试模型,而和剑桥分析有业务往来的Kogan被认为从Konsinski处获得了该研究方法,Konsinski亦表示了对Kogan及其与政治分析公司之间联系的担忧。
文章链接如下,感兴趣的读者可以自行查阅:
https://motherboard.vice.com/en_us/article/how-our-likes-helped-trump-win
Michal Kosinski现任斯坦福大学教授
剑桥大学心理测量中心:五类人格
本质上,“大数据”意味着我们在线上和线下的一切活动都会留下数字痕迹。我们的每一笔刷卡消费,每一次谷歌搜索,揣着手机时我们的每一个移动,每一次在社交媒体上点赞,都会被记录下来,并可能被用于针对性的营销。
举个例子,在我们刚搜索完“降血压”后,屏幕上就可能弹出降压药物的广告。
特朗普总统竞选活动的幕后推手,剑桥分析(Cambridge Analytica),正是这样一家“大数据”公司。而随着层层剖析,多家媒体也指出,它可能也曾参与英国脱欧。
让我们从2014年的剑桥大学心理测量中心开始说起。
心理测量学是一个由数据驱动的心理学分支,有时也被叫做心理图像学,主要致力于研究心理上的特征,比如人格。上世纪80年代,心理学家发展出了一种基于五种人格特征来评估人类的模型,就是著名的“大五类人格测试”。
“五类”人格分别是:
开放性(你对新的体验有多开放?)
严谨性(你有多追求尽善尽美?)
外向性(你有多爱好社交?)
宜人性(你有多体贴,多容易合作?)
神经质(你很容易沮丧吗?)
它们也被简称为OCEAN,即英语单词(Openness, Conscientiousness, Extroversion, Agreeableness, Neuroticism)的首字母缩写。基于这些维度,科学家可以对人格类型做一个相对精准的评估。这些预估包括一个人的需求和恐惧,以及未来行动。
“大五类人格测试”已经成为心理测量的标准技术。但是,在很长一段时间里,这种手段的执行难度在于数据收集,这是因为它涉及一份复杂的、高度私人性质的问卷的填写。
然后,网络出现了。接着是Facebook。再接着是Kosinski。
看懂一个人只需要68个赞
Michal Kosinski2008年进入剑桥大学心理测量中心攻读博士,这是该领域在世界范围内最古老的研究中心之一。入学后,Kosinski加入了他同窗David Stillwell(现在是剑桥Judge商学院的讲师)的项目组。那时Facebook还没有如今的规模。
Kosinski项目组“我的人格(MyPersonality)”App能让用户参与填写不同的心理测量问卷,包括大量来自“大五类人格测试”问卷上的心理测试题(如“我容易惊慌”,“我爱反驳其他人”)。基于这项评估,用户会收到一份“人格侧写”报告,内容包括用户的“大五类人格”数值,用户可以自行决定是否授权将他们的Facebook个人简介分享给研究人员。
一开始Kosinski以为只会有几十个大学朋友来填问卷,没想到不久之后,几百、上千,甚至几百万的人参与了进来,展现了他们的内心世界。突然间,这两个博士生拥有了有史以来最大的、将心理测量数据和Facebook自我简介相结合的一套数据。
通过问卷,心理测量学家计算出答题人的“大五类人格”数值。然后,Kosinski的团队将计算结果和测试对象的其他网络数据进行对比,比如他们赞了什么,在Facebook上分享了或发了什么,或他们填的性别、年龄和住址。这种方法使研究人员能够把信息串联起来,使其相关。
基于简单的网上行为,他们就能得出相当可靠的推演。
举几个例子,“赞”了化妆品牌MAC的男性有较高的可能性是同性恋;同性恋最好的指标之一是是否喜欢Wu-Tang Clan(美国Hip-pop组合)。Lady Gaga追随者们极有可能是性格外向的人,而那些“赞”了哲学相关内容的人则更可能偏内向。
Lady Gaga演唱会,图片来自网络
虽然,任何一个单独的此类信息都不足以让他们得到可靠的预测,但综合了几十、几百、或上千的个体数据之后,他们的预测就会变得非常准确。
2012年,平均凭借一个Facebook用户的68个“赞”,Kosinski模型就能够估计出他们的肤色(准确率为95%)、性取向(准确率为88%)和党派(民主党或共和党,准确率为85%)。
除此之外,他们的智力、宗教信仰,以及酒精、烟草和毒品的使用情况,全都可以被预测出。从这些数据入手,这一模型甚至有可能推测出某人的父母是否离异。
点“赞”数超过300个时,Kosinski甚至能比实验对象更了解他们自己。
就在Kosinski发表了这些发现的当天,他收到了两通电话:一个诉讼威胁和一个工作邀请。这两个都来自Facebook。
仅仅数周之后,Facebook的“赞”的功能就被默认为仅自己可见。而在那之前,默认设置是点“赞”对所有人可见。不过,这样的变化不会对数据采集者造成什么困难:很多的App和网上的测验都会要求用户关联Facebook账户,并允许其访问用户私人数据,以此作为进行人格测试的前提条件。
更令人担忧的是,Kosinski和他的团队现在已经能够单纯地从一个人在Facebook上的头像或联系人的数量(外向性的一个很好的指标)推算出五类人格数值。
同时在线下,我们也留下了不少痕迹。举个例子,我们手机内置的运动传感器透露了我们的移动速度和移动距离(和情绪的不稳定性相关)。Kosinski总结道:我们的智能手机是一份我们一直在填写的巨大问卷,不管是有意识地还是无意识地。
最重要,同时也是最关键的是,这种方法反过来也奏效。数据不仅能用来得到你的心理特征侧写,也可以将数据来源中的人群进行归类和搜索:可以找到所有焦虑的父亲、愤怒的内向的人,抑或甚至是摇摆的民主党员。本质上,Kosinski发明的是某种类似于人类搜索引擎的东西。他开始认识到他的“作品”的潜能,但同时也看到其内在的危险。
从英国脱欧开始说起
大约在2014年年初,一个名叫Aleksandr Kogan的心理学助理教授找到Kosinski,说他代表一家对Kosinski的方法感兴趣的公司来询问,想要访问MyPersonality数据库。一开始,Kosinski和他的团队考虑了这个提议,因为这意味着能给研究中心带来一笔可观的收入。可是之后他犹豫了,因为Kogan透露了公司的名字:SCL,Strategic Communication Laboratories。
“(我们是)最佳的选举管理机构”,公司的网站上这样写着。SCL依靠心理建模提供销售(服务)。公司一个核心特色是:影响选举。
这到底是一家什么公司?这些人又在计划些什么?
在那时,Kosinski不知道的是:SCL是一组公司的母公司。到底谁拥有SCL?SCL有哪些分支?因为其复杂的公司结构,这些都不得而知。
2013年,SCL分拆出一家新公司用以参与美国大选,名为剑桥分析(Cambridge Analytica)。
进一步调查后,Kosinski发现Aleksandr Kogan已经秘密地注册了一家公司,并和SCL有生意往来。从一份2015年12月刊登在卫报(The Guardian)的报告来看,SCL已经从Kogan那里掌握了Kosinski的方法。
Kosinski怀疑,Kogan的公司可能已经仿制了基于Facebook点赞数据的大五项类人格测量工具,并将它卖给这家选举影响公司(SCL)。他立刻与Kogan中断联系,并向中心主任报告了此事。此后,Aleksandr Kogan搬去了新加坡,结婚,并将自己的姓改成了Spectre。
约一年后,2015年11月,由Nigel Farage支持的更为激烈的两次Brexit政治运动“脱欧”(Leave.EU)声称他们委托了一家大数据公司来支持他们的网上活动:这家公司正是剑桥分析。剑桥分析的核心优势是新的政治营销,即微瞄准(micro-targeting),依靠五项人格(OCEAN)模型从用户的电子足迹中测量出他们的人格。
英国脱欧,图片来自网络
“英国退出欧盟”的公投结果宣布后,Kosinski不得不解释说他和剑桥分析公司没有任何联系,尽管这家公司名字中有“剑桥”二字。到底剑桥分析和英国脱欧运动有多深的牵连,我们不得而知。剑桥分析自己也不会去谈论这样的问题。
剑桥分析CEO曾公开分享助力选举的秘密武器
过了几个月,2016年9月,仅仅在美国总统大选的前一个月,在纽约Concordia Summit(世界经济峰会的迷你版)会议上,剑桥分析首席执行官Alexander Nix被邀请做了个演讲(演讲视频见这篇文章开头)。多数出席者都知道这就是特朗普新任的数字战略家。
与此同时,希拉里·克林顿则严重依赖于历史上首位“社交媒体总统”奥巴马的经验方法。她不仅拥有所有民主党人士的邮件列表,任用了来自BlueLabs的最前沿大数据分析师,而且得到了Google和DreamWorks的支持。
在2016年6月,当特朗普宣布聘请剑桥分析参与他的选举活动时,华盛顿的当权者们都嗤之以鼻。这家公司主要由美国的软件亿万富翁Robert Mercer(同时是2014年自然语言处理顶会ACL终身成就奖获得者)秘密赞助。而他女儿Rebekah也在后来被报道为剑桥分析的最大股东。
在演讲中,Nix解释说,到目前为止,选举拉票活动的策划都是基于人口分布的、而不是基于心理学特征。剑桥分析的大数据营销技术是基于三个要素:利用大五类OCEAN模型的行为科学,大数据分析和广告定位。广告定位即个性化广告,它通过尽可能找准消费者的个性,采取相应的广告策略。
“在剑桥,我们能够用一个模型来预测每一个美国成年人的人格。”Nix透露。
Nix坦率地描述了整个分析过程。首先,剑桥分析公司从各种不同的渠道(数据经纪公司Acxiom和Experian等)购买了人口数据,如土地登记、汽车数据、购物数据、奖励卡、俱乐部会员、杂志购买、教会活动数据。假如你想知道犹太妇女们住在哪里,以及她们的电话号码,你可以简单地购买这些信息。
剑桥分析将这些数据和共和党选民名册以及网上数据结合起来,并且计算出五大人格特征轮廓。数字踪迹在处理器中变成了为现实的人,这些人具有真实的恐惧、需求、兴趣和住所。
这个方法看起来和Michal Kosinski曾经研发的方法非常相似。剑桥分析也运用了社交媒体的调查和Facebook的数据。“我们描绘了共2.2亿人的性格特征。”Nix说道。
“这是我们为Ted Cruz选举活动准备的数据表。”
左边是图表;右边是爱荷华州地图,Ted Cruz在爱荷华州赢得了大量的选票。在地图上,有成千上万的小红点和蓝点。Nix缩小了条件范围:“共和党”,然后蓝点消失;“仍未被说服的”,更多的点消失了;“男性”,等等等。最后,只有一个名字还保留着,包括了年龄、住址、兴趣、个性和政治倾向。
那么,剑桥分析是如何为这个人定制他所看到的政治消息的呢?
Nix展示了如何用心理特征给选民进行分类以区别对待。例如,同样是关于美国第2次修正案持枪权利的报道,会被配以不同图片。“对于一个高度神经质和谨慎的人,我们会展示入室盗窃以及持枪的保险政策威胁。”Nix左边的一个图像显示了入侵者砸窗的手。
“相反,对于一个传统并和蔼可亲的观众——那些关心传统、习惯和家庭的人,我们则会展示这张图。”Nix右边的图像是一个男人和一个孩子站在夕阳下,手里拿着枪,正在射击野鸭。
“特朗普的每一条选举信息都是数据驱动的”
据Alexander Nix回忆,在特朗普和克林顿的第三次总统辩论之日,特朗普的团队为他的论点测试了175000种不同的广告语,以便通过Facebook分析找到最合适的版本。
不同信息的区别其实是很微小的。为了用最佳的心理学方式定位到接受人,他们采用了不同的标题、颜色、字幕,附带了一张照片或视频。这种微调的方式可以触及到最小的群体,Nix在采访中说,“我们可以为某一个村庄、公寓、甚至个人定制消息。”
例如,在迈阿密的某个小区,特朗普的竞选活动为居民提供了克林顿基金会在海地地震后赈灾失败的消息,以阻止他们投票支持希拉里。这是特朗普竞选的一个目标:让潜在的选民,包括摇摆不定的左翼选民、非裔美国人和年轻女性,远离投票箱,也就是“抑制”他们的投票。
一位高级竞选官员说,这些以Facebook付费广告形式传播的“黑帖”只能由特定的用户看到。这些帖子包括针对非裔美国人的视频,比如某一条视频指出希拉里称黑人为猎食者。
Nix在Concordia峰会上做演讲时指出,传统的地毯式广告已死。在演讲结束前,他宣布:在Ted Cruz退出竞选后,公司正在帮助另一位总统候选人竞选。
特朗普,图片来自网络
特朗普的数字化部队非常精准地瞄准了美国民众。但这是看不见的,因为他们的信息较少通过主流电视传播,更多的则是在社交媒体或数字电视上出现的个性化的信息。
彭博社记者Sasha Issenberg在访问圣安东尼奥的时候,惊奇地注意到这里是特朗普的数字竞选的基地。
入驻特朗普竞选团队的剑桥分析只由十几个人构成,他们7月从特朗普手中收到100000美元,8月收到250000美元,而9月收到了500万美元。据Nix透露,公司总共赚了1500万美元。(该公司在美国成立,其中有关个人资料发布的法律比欧盟国家更宽松。欧洲的隐私法要求只有经过个人“选择同意”后才能泄露个人信息,而在美国则允许个人信息泄露,除非个人“提出反对”。)
这些数字手段是前所未有的:2016年7月起,特朗普竞选团队的每个游说人都被提供了一个App,他们可以确定任意一幢房子里的居民的政治观点和性格类型。
这一程序提供商和“英国退欧”人士使用的程序是相同的。特朗普的工作人员只选择访问那些App预测会接受他们游说的人。拉票准备是根据居民的人格类型进行的。反过来,游说团队会把他们游说过的人的反应反馈到那个App中,而新的数据由此流入了特朗普竞选团队的数据库中。
而这并不是什么新鲜事。
民主党也做了类似的事情,不同的是,他们并没有依赖心理学分析。剑桥分析的厉害之处在于,他们将美国的人口分为32类性格特征,并集中关注17个州。正如Kosinski所发现的,喜欢MAC化妆品的男人更可能是同性恋者。该公司发现,偏好于美国制造的汽车的人,是特朗普的潜在选民。这些研究结果表明特朗普的讯息在那里发挥了最好的效果。在数据分析的基础上,他们决定在竞选的最后几周里关注密歇根和威斯康星州。而特朗普就此成为了实施大数据模型的媒介。
但心理测量方法在何种程度上影响了选举的结果?
美国大选后,相关研究者也进行了研究来回答这一问题:初步结果是惊人的,研究表明人格定位十分有效。将不同的消息对应到不同性格特征人群的方法,使得营销人员可以为Facebook上的广告活动吸引最多63%的点击率,并促成1400次以上人们的决策转变。他们进一步展示了个性化营销的可扩展性——他们发现大多数的Facebook页面推广产品或品牌都受个性的影响,大量的消费者可以通过一个单独的Facebook页面被准确定位 。
和希拉里·克林顿相比,特朗普在数字竞选的投入远高于电视竞选。Facebook最终被证明是最好的竞选武器和最好的竞选支持者。
不管答案如何,无法避免的结果是,世界已被翻转。
大不列颠离开了欧盟,特朗普当选了美利坚合众国总统。而在斯坦福,反对把心理学定位运用到政治领域的Kosinski持续收到了指责他的邮件 。
他只能摇头说:“这不是我的错,我没有制造出炸弹。我只是证明了它的存在。”
南美洲有一种树,雨树,树冠巨大圆满如罩钟,从树冠一端到另一端可以有三十米之遥。阴天或夜间,细叶合拢,雨,直直自叶隙落下,所以叶冠虽巨大且密,树底的小草,却茵茵然葱绿。兄弟,不是永不交叉的铁轨,倒像同一株雨树上的枝叶,虽然隔开三十米,但是同树同根,日开夜合,看同一场雨直直落地,与树雨共老,挺好的。
——龙应台《目送》