DSzxm 2013-06-20
中国《管子》里有句话叫“墙有耳,伏寇在侧”,西方关于“Dionysius of Syracuse(叙拉古的戴奥尼夏)”的传说里也有“The walls have ears(隔墙有耳)”的典故。古训告诫人们要瞻前顾后、凡事小心,免得祸从口出、惹事生非。然而在这个社交网络和大数据齐头并进的时代,大家似乎早就忘记了这名句。
晚上七点三十分:和老公在上海人家餐馆吃了一品狮子头,十点四十二分:用高露洁牙膏刷牙终于不再牙龈出血,十点四十五分:新的卸妆油不太好用,十点五十分:在床上用iPad阅读《悲惨世界》,十一点整:在大学路123号跟所有粉丝道声晚安。社交网络在记录生活点滴同时也卸掉了人们保护隐私的盔甲。这个例子的主人公在社交大数据面前几乎是赤裸的。
就在互联网安全专家批评人人都患上了“网络暴露癖”的同时,华盛顿邮报和卫报扔下的重磅炸弹迫使我们从新的角度上来审视数据隐私问题。据披露,由美国国家安全局和联邦调查局领头,几乎每个和百姓生活联系紧密的科技公司都在参与一个缩写为“PRISM(棱镜)”的数据收集项目。这个好像只有在美国大片里才会存在的行动,却在现实生活中上演了。该项目最初是为了监测跨国通信从而掌握恐怖分子的联络信息,但事实上美国国家安全局对“只要有51%跨国通信的可能性”的主体进行监控。在过去的六年里,只要美国国家安全局一开口,无论是美国在线、Skype、YouTube、Facebook,还是谷歌、微软、雅虎、苹果,都得老老实实地把数据访问权双手奉给联邦调查局的数据截获技术小组。这些数据包括搜索引擎关键字、视频、音频和文本聊天纪录、照片、电子邮件、在线文档、传送的文件,甚至是网络连接记录,涵盖了网上生活的方方面面。
我意识到当我正在谷歌文档上在线编辑这篇文章的时候,美国国家安全局可以实时看到我打进去的每一个字。他们获取的数据不但种类繁多,而且数量巨大。据统计,2012年美国家庭月平均数据使用量为52GB,其中9.8%的上行数据来自网页浏览、4.8%来自Skype、2.7%来自YouTube、1.6%来自Facebook、1.5%来自苹果相片流;同年美国手机的月平均数据使用量为317MB,其中15.4%的上行数据来自Facebook、13.6%来自网页浏览、7.9%来自YouTube、2.2%来自谷歌GTalk、1.6%来自Skype、1.5%来自雅虎邮件。
不得不承认单从技术上来考虑,这样有挑战性的数据收集和处理对像我这样的大数据从业者是很有吸引力的,但从人性角度看,数据隐私受侵害到如此程度不得不令人担忧。一个人一天的互联网足迹描述这个人的一天是如何度过的,六年的全方位数据所整合生成的模型可以让任何一个看到模型的人比一个人更了解他自己。数据可以出卖一个人最喜欢做什么、他身边有哪些亲人和朋友、他有什么样的爱好和习惯,甚至他的口头禅是什么。这些数据浓缩后可以帮助一个弥留之际的人在病榻上回顾一生的美好时光,可以迫使一个作恶多端的人在牢狱中反省过去的胡作非为,却也可以毁掉一个人一生的清白。
如果计算机通过大数据的分析认定一个人“行迹可疑”,执法部门就会戴上有色眼镜看待这个人,以前他任何让人费解的行为似乎一下子也有了答案。假设来自中东的新移民电子工程师约翰为了改建自己家的后花园,几天前从某网站购买了大量的钉子和化肥,同时他又为妻子买了新的高压锅。前一天他感染上了流感,于是在一个夏天的周一穿上了厚厚的马甲来到地铁站。妻子叮嘱约翰上班前把邮件送到邮局,于是他在地铁站用手机给妻子发短信,内容是“Didn’t get a chance but will do it(还没有机会但是我会去做的)”。由于忙着发短信,约翰错过了他要搭乘的地铁。在地铁站川流不息的人流中,一个在夏季身着棉袄的人站在车门前盯着手机纹丝不动,这立即引起了警察的注意,他们将约翰逮捕并移交美国国家安全局。大数据的分析结果告诉他们约翰不但购买了可以用来制造杀伤性武器的原料,而且常年在网络上搜索遥控电路的设计图,行为高度可疑。这一系列的偶然在执法部门看来都是必然,虽然他们没有找到确凿的证据给约翰定罪,但是有搜集的数据帮他们说话,约翰成了重点监视对象。若干年后,约翰希望去英国参加他弟弟的毕业典礼,但上次的意外让他上了各大航空公司的禁飞名单,更无法获取签证。