dongnaosenlu 2017-06-18
[导读]本文选自镝次元数据新闻研究中心创办人、武汉大学媒体发展研究中心研究员、新闻传播学院副教授、珞珈青年学者王琼老师于2017年6月12日在清华大数据“应用·创新”系列讲座——数据与媒介创新讲座上的分享。
王琼老师是新闻学博士、武汉大学媒体发展研究中心研究员、新闻与传播学院副教授、珞珈青年学者,她创办了武汉大学镝次元数据新闻研究中心,并主编了中国第一个以数据新闻为核心的微信公众号“镝次元数据传媒实验室”,研发出中国首个以数据为中心的数据可视化写作社区-镝数。将艺术与学术完美融合,分享传播数据与新媒体的创新应用。
数据的使用与价值已经成为清华学子茶余饭后的谈资,更是大家在社会实践以及选择专业方面的聚焦点,在这篇关于数据与新媒体创新应用结合的讲座中,我们将看到王琼老师展现出的数据影响力以及对于数据新闻更清晰的阐释。
以下为王琼老师演讲内容精华:
一、数据经济首次被写入政府工作报告
王琼老师首先从宏观层面介绍了数据治国、数据经济,“2014年开始,大数据就被写入政府工作报告,一直到2017年,每一年都会出现在政府工作报告当中,十三五期间,政府提出数据将会在打造社会治理新模式、经济运行新机制、民生服务新体系,驱动创新新格局和产业发展新生态等方面发挥重要的作用。另外,在2017年的时候,数字经济也首次被写入了政府工作报告。”
在影响我们个体发展方面,王琼老师举例了处于大数据时代的我们急需掌握的就业技能,包括数据可视化的报道能力,她指出:“未来有领域知识,有数据能力,并且对传播也有所见地的人才将一定在传媒行业奇货可居。”最励志的例子就是英国卫报数据(Data Blog)的创始人,原本是在英国卫报做了十几年的传统媒体记者,他做数据新闻出名之后被谷歌、推特挖走,成为了从媒体领域走出去的数据科学家。从他的身上其实是一个传统的媒体人如何在数据时代收获新机遇的样本。
王琼老师对近20家欧美顶级的媒体和教育研究机构展开了访问调查,并结合数据新闻的全球布局,深入分析了数据新闻的发展历程和未来走向。其中可以看出,我国的数据新闻虽然起步较晚,但目前也是遍地开花。尤其近日,新华社和阿里共同投资成立的新华智云,就是希望赋能媒体,在数据时代如何让数据能力帮助媒体更好地发展、转型、成长。(这里的注册资本数在天眼查系统里查不到了,可能暂时不方便披露!)
二、数据新闻这个说法到底从何而来?
1952年,CBS广播公司借用了国家唯一一台块头非常大的大型计算机做美国总统大选的报道,这是最早利用数据报道新闻的尝试。但在当时不叫数据新闻,叫做计算机辅助报道。后来,有个叫艾德里安·霍洛瓦季(Adrian Holovaty)的人创建了EveryBlock网站,只要输入所在地区的邮政编码,就能够查询到这个区域的医院、建筑物情况、餐馆卫生条件、居民区新闻、商业评论、犯罪报道、房地产出租出售等一系列被结构化的信息,非常便于人们查询使用。类似于我们熟悉的大众点评、污染地图,或者出行方面的高德。EveryBlock这个超本地化的新闻网站在2006年创办后,用户激增飞速,在2009年8月被msnbc.com收购。
行业内公认的诠释数据新闻的最早的案例之一,是维基泄密事件曝光的伊拉克战争的数据,被英国卫报做了一个地图呈现。上面每一个红点都代表一次伤亡事件,当我们的鼠标移到这个红点上时会显示具体情况,在什么地方,什么原因导致了多少人死,多少人伤。因为数据量巨大,如果我们按照传统的新闻述事方式,比如我们平时看的文章、视频或者是音频,根本没有办法在一个有限的空间里把所有的信息都呈现出来,于是他们当时就用了数据新闻的方式把这些信息影射在地图上,供人们随意地个性化地阅读和体验。
这种报道方式给当时的媒体和受众带来了巨大的影响,大家也认识到数据+新闻的组合方式,真正能够实现我们的信息传播不仅仅是单向的,而是双向的,可以给用户提供选择。每个人都可以在同一篇报道当中找到不同的故事,看到不同的内容。也就是在这一年,被称为互联网之父的Tim Berners提出报道数据是媒体从业者的责任,他开始督促媒体从业者要好好培养自己的数据能力,要带着专业主义的精神研究数据、报道数据。
为了帮助大家更好地理解数据新闻的形成过程,王琼老师举了2015年访美时听到的一个非常生动的比喻。面对“何为数据新闻”这个问题,一位做普查数据报道的朋友在桌上摆了三样东西,从右往左看,分别是铜矿石、铜和铆件,它们好比数据与数据新闻的关系,数据的最初形态就像存在于自然中的铜矿石,我们需要对它进行检验、筛选、提纯,形成铜,然后再利用这个纯铜铸造铆件,这样的铆件,也就是数据,才是对人们有用的。所以不管是过去的计算机辅助报道,还是现在的数据新闻(Data Journalism),工作的核心都一样。
我们不能只是把数据摆在那里,它对绝大多数人来说很难产生洞见,而媒体人需要把这些数据做分析、挖掘、可视化,最终形成数据报告、数据故事、数据新闻,能够让它们和人们的日常生活产生关联,能够让人们发现这些数据背后的价值和结论。这就是何为数据新闻的问题解答!
三、国外数据新闻作品赏析
数据新闻可视化和一般的信息可视化有非常大的区别,就在于它绝不仅仅为了好看,每一个动作每一个元素都绑定了对应的信息。以这幅图为例,中间方块代表参议院100个席位,旁边辐射出来的线一共有50条,代表美国不同的州,射线上面的每一个圆点代表参议院席位,一共是435个。这种数据的展现方式可以让我们清晰地看到在整个大选过程当中,哪些州发挥了关键作用,哪些人在什么样环节是有特别意义的。
下面这个案例是社会类选题,显示出什么样的职业致死率最高。
传统媒体非常倾向于去做个案式的报道、片段式的报道,我们找典型找个案的时候,好像很多人的故事浓缩在一个人身上才是最经典的。而数据新闻恰恰有能力做一些纠偏的工作,因为它报道的不是个案,而更倾向于群像和历时性的报道。接下来就是看数据了,但也并不仅仅是把数据摆上面,大家可以进入这个网页探索。比如什么样的职业致死率很高、但相对来讲收入却很低。非常有意思的是,数据新闻是不断地透过数据问问题,用数据提供了解社会的独特的视角。
这是一个产业选题。我们看到这些图动来动去很漂亮,他们每一个动作都不是随机的,都是由数据问题所驱动的,也就是数据分析的结果所驱动的。而这些数据分析的问题从何提出,既要有数据科学的判断和技术作为底层的支撑,同时我们要了解公众,他们可能对什么问题产生好奇心,他们有好奇心的这些问题可能会按照什么逻辑的先后顺序进行排列,用一种什么样图形化的方式去展示,更有助于他们对这些问题、对这些数据结论的理解。比如汽车行业,美国人到底开什么车,红色是皮卡,黄色是轿车,蓝色是SUV,不同圈的大小代表不同类型车的保有量,还有不同的区域等等。
这是一个经济类的选题,美国前几年的经济衰退到底对不同职业产生了什么样的影响,有些职业真的是随着经济大环境的变化而变化,它可能更早衰,你看到这个职业不行了,就知道整个经济都发生问题了。但还有一些行业是长青树,这些问题是我们每个人都关心的问题。今天来到清华的学子们,也会考虑我选的这个专业方向对不对,问老师、问学长,但是前人成功的经验并不适用于我们自身,存在着“幸存者偏差”。
这个新闻是娱乐主题的,但是同样具备我刚才讲的新闻数据的特性。这个作品是美联社在2014年发布的,它关注的是从1928年第一届奥斯卡奖开始,获奖者的种族变化,通过时间轴,我们可以很清晰地看到开始全部都是白人获奖,后来有了黑人,有了拉丁裔,最后出现了亚裔,非常直观。这实际是把一个娱乐事件透过文化的视角去看待它,让我们看到更深层次的东西,很有意思。另外,在这里面,每个种族的第一个获奖人的故事,他的视频,是它数据背后的故事,这种设计其实是非常花心思的,对用户产生的影响也是潜移默化的。
在体育类题材里,这是一个跳远作品(视频,建议自己按照链接浏览),随着时间轴的变化,不同的奥林匹克运动世界纪录在不断被打破,这些纪录是由谁打破的?它的弧度、运动轨迹、跳远的距离在发生什么样的变化,都非常一目了然。
总结来看,数据新闻的叙事特征如下:
四、要敢于质疑!数据来源并非都是有迹可循的
我们在媒体上看到的新闻数据是不是都是很客观的呢?大家来看看下图。
女性做了这个世界上66%的工作,生产了50%的食物,但是她们只挣了10%的钱,最后自己能够留下的个人资产只有1%。如果是关心女权的朋友,看到这样一张很有冲击力的照片会很受影响。数据来源是联合国发展计划署,显得这个数据很有说服力,但真实的数据来源是什么呢?
调查显示,数据来源于UNGT写的一份报告,但这个也是引用,最终数据源头是一个名不见经传的小杂志上一篇未经特别说明的一个数据。也就是说,那些我们看起来觉得门槛很高的、社会地位影响力都很好的一些机构,也不能保证他们的每一次数据的使用和披露一定是有严格来源的,而且往往当我们看到这些看起来非常迷人和完美的、能够诠释一个答案的数据的时候,更要对它提高警惕性。
这个作品讲的是尼日利亚的女孩绑架案,也是最早预测美国总统大选而出名的纽约时报的团队做的,他们出名之后就被另外一家传媒集团ESPN收购,这是她们在被收购之后做的作品。这个新闻数据引起了很多人的质疑,这是他最初得到的一个数据图表,就是说在2014年前4个月,在尼日利亚发生了2285起针对未成年少女的绑架案,非常令人震惊。可是依然会有一些很认真的人,特别是在当地生活的人,发现为什么和我们对平时周围的感知有一定差异呢,我们所生活的环境真的有这么危险吗?我们就去看它的数据来源是哪里。后来,在公众的追问下,他们做了一个回归分析排除了数据结果的偏差。
红色是他们所做的回归分析,和蓝色的最初的报道在趋势上是有明显的差异。
这就是质疑数据来源能够帮助我们还原真相的重要性。但即便他们做了这么一个回归分析,我们也依然没有办法去回避它在数据源引用上存在的硬伤,同时这件事情对媒体本身的公信力会产生影响,可能需要很长的时间才能消除人们对它在数据使用不慎方面留下的负面印象。
五、数据的价值巨大,擅(shen)用(wa)才能发挥作用
我们刚才讲的是新闻数据,它主要是在内容方面对数据时代的媒体带来新的变化,除了内容以外,数据还可以被运用在对于媒体的信息来源的决策上,可以用于媒体在对于自己信息传播效果的评估上,还可以帮助媒体更好的理解用户。
首先,数据被运用于信息来源的判断和推荐。一个是舆情分析,舆情分析帮我们发现社会热点可能爆发在哪里,社会热点可能按照一个什么样的规律进行传播和发酵。通常来讲是四个方面。
对于舆情事件实施监测到达阈值的时候,可以发送警报,包含正负面情绪和总体倾向。在这一点上,媒体的需求跟政府和企业对于舆情的需求不太一样,基本上对于政府和企业来说,我只要知道情绪的正负面或者是正负面有一定的分值就差不多了,但是我们媒体会觉得这样的数据,如果我们想要去讲故事,它实在是太无聊了,很无趣。
我们总是尝试着能不能在情感的分析维度方面更加细化一些,但是这里面有非常大的技术瓶颈,就是自然语言语义的处理,因为中文实在是太丰富了,我们依然非常期待有这方面的大数据的处理能力,能够帮助我们更好的理解人类的行为,包括在社交媒体当中的人们情绪、情感、意见的表达,这样可以帮助媒体更好的把这个技术用于传播。
我们不光是主动获取数据源、信息来源,我们还会去组织和这些信息来源相关的数据内容,把它写成报告,这就是机器人写作。其实最近两年AI在中国非常热,各家媒体集团还有很多科技公司都在做一些人工智能机器写作方面的实践和尝试。要说到用大数据的方式去找到信源,组织内容,进行发布,这项工作应该是在2013年我到谷歌去考察的时候他们就已经在做的事情。那个时候谷歌做一件什么事情呢,他会把全球各种信息来源都去做一些标签,建立算法。
比如我也发信息,你也发信息,我是一个大学老师,你是媒体的,我们俩谁的置信度更高,我们各自的专业领域是什么,我们发表信息的目的可能会有什么样的差异,我们在什么样的地理位置上有什么样的区分,它会把所有的非常细的这些维度对每一个可能发出声音的信息源进行判定,然后建立算法,最终它利用它强大的机器学习和计算能力,它能够判断新闻点到底爆发在哪里,而且它可能有去主导舆论的能力。这是在信息来源的获取判断和组织上面。
其次,数据新闻也可以用来作为传播效果的分析,也有一些科技公司在尝试提供这样一些服务,比如新榜,它会对所有的内容进行分钟级的监测,包括单篇文章的监测,我们可以自定义监测的时段,发布的位置,预测频率和持续的时间,包括它的阅读数、点赞数、关键词等等。
这是一个趋势查询,就是一段时间阅读总量的变化趋势。类似的还有百度统计,百度统计更可以帮助我们去了解不仅单篇的文章,而是我整个网站上面到底用户在看什么,他们如何去看,可以帮助我们更好的改进网站的用户体验。
类似的还有谷歌的Analytics,例如:它监测到有一个婚礼的博主在博客上介绍自己,通过这篇文章就转化了很多订单,这是一个做鞋的公司,后来这个企业直接去找他们,实现了交易。这是一个完全数据驱动的案例。如果我们不使用现有的数据,其实我们也可以用代码做一些工作,这个代码的基本原理,就是说我们要获取一个客户的IP,给他附加一个唯一的用户ID,记录他的浏览事件。如今,在这些基础服务之上又生长出了一些专业的数据服务公司,他们专门利用像谷歌Analytics这样的一些工具,来帮助企业或者是网站去做数据的监测、分析和营销。
数据如何帮助媒体理解用户呢?理解用户也是一样,可以帮助我们完善场景的应用,能够更好的实现一些精细化的营销。对于媒体来说,因为它们也有很多广告商,广告商会要求他们对内容的传播效果,广告的转化率提供数据分析和报告。
现在有一些大数据公司就是基于用户的一些行为去向企业提供数据,比如说我们每个人都有手机,手机里装了很多APP,有些APP是为企业提供数据监测服务,因此这些APP都会把他们的程序植入到系统里面,相当于我们下载这个APP,我们对这个APP的用户使用行为就同时被检测了。可以说,在当今的时代没有很多隐私可言。
用户画像的制作过程,其实就跟我们做数据新闻作品的数据逻辑、数据处理的流程是类似的,首先你要明确一个目标,我为什么要去做这次用户画像,我是给谁看的,达到一个什么传播目的,然后围绕这个目标收集数据,建立算法,最后把算法解释出来,需要的时候用一些可视化的方法帮助呈现。
六、没有独家的数据,它们本应被共享互连
“我的数据是独家的,数据就是我最重要的资产”。类似这种说法,到了今天,我觉得需要调整,我个人认为数据只有在交换和共享当中才能够创造更多的价值。
镝数(www.dydata.io)是我们研发的数据可视化的写作系统和平台,如果大家平时需要写论文,写报告,可以尝试一下。这个平台上面有非常多的数据可视化模块和优质的数据。只要你把数据表格复制粘贴,上传到上面,选择其中适合展现的模块,这个漂亮的图形就可以瞬间产生。我们再通过配置这个图形的颜色,大小,把它变成信息图,或者是博客的方式,一键同步到自己的微信公众号的后台库里。动态交互的效果会有一段代码,可以把它写入到自己编写的任何网页当中进行使用。
另外,镝次元数据新闻研究中心也组织了很多提升公众素养的活动,比如说Data Girls,主要是针对女性数据从业者的数据能力培养课程;线上也会不定期开设沙龙,请一些国内外的优秀的数据团队分享他们的案例开展线上培训。
做这些社会服务类事情的背后,实际上是我们对于数据共享资源远景的努力尝试和倾情推进,因为任何没有联通的数据往往都是具有一定的局限性的,比方说百度的数据如果是检索数据,它其实记录的是人们的搜索行为,和我用滴滴出门打车的行为数据是完全不同的。除非这两家公司愿意把底层的数据共享打通,否则我们没有办法把这两个行为对应到同一个个体身上。但是如果我有航空数据,他有出行数据,还有通讯数据、地理数据等等,将这些多种来源的数据共享共建,共同进行交叉分析和印证,就可以解决很多问题。
因此,我觉得未来的数据竞争,不是说我手上有多少数据,我手上的数据是不是真正的独家,更重要的是一种数据挖掘能力,数据应用能力,数据解决问题能力的竞争。
现场提问环节(Q&A)
Q1:您的简历上写的是病毒学的硕士,新闻学的博士,我很好奇为什么您会从病毒学一个理工科的专业转到新闻学,这个动能是什么?您对病毒学的研究对做新闻学研究有什么帮助吗?
A:我虽然学的是病毒学,但是我逐渐有了对我自己个人能力的一种认知,我觉得自己好像不适合从事生命科学研究,而更适合科普传播,于是我在大二时去了湖南电视台面试。其实,研究病毒与研究传播很像,因为病毒是这个世界上传播效率最快的生物,原因就在于病毒的表面蛋白质具有定向结合宿主细胞上的受体的能力,然后快速的将自己的遗传物质释放在宿主的细胞体内。我觉得做媒体也是一样,你要对你的目标受众非常了解,你要给他们提供的是对他们而言有价值的信息,所以我觉得在这一点上是相通的。
Q2:王老师您好,我是法学院的,以前在媒体实习过。随着大数据或者人工智能时代的到来,一些传统的从业者,他们的哪些特质可能不被替代,或者他们应该怎样提升自己来适应这个时代的要求?
A:人不能被机器人写作替代是人的特殊创造力,人用情感能够产生共鸣的东西,但更远的未来也说不定会产生机器的创造力。数据新闻并不是说它一定是更有优势的,不能够替代的传统新闻,反而是传统新闻对新闻的敏感性,他们发现故事,总结故事的能力是一般的具有数据分析能力的团队,包括一些科技公司的团队没有办法做到的。媒体人都是会讲故事的,而会讲故事的,既是艺术,也是一种能力。
Q3:我现在是一名学新闻学的大学生。市场上有一种论调说数据新闻投入比较高,不太适合大众媒体来做,认为数据提供方和大众媒体之间不存在利益竞争关系,可以开拓一个比较细的细分市场来做专门的数据工作室给媒体供稿,您觉得这样的商业会不会成为一个趋势?
A:我们做了2015年和2016年中国数据新闻的发展报告,其实对于数据新闻的生产模式有专门的研究,有兴趣的话可以跟我联系,我可以发给你看。作为媒体他永远有一种精神,叫做质疑精神,永远有一种拒绝叫不被寻租。所以想要把自己的内容卖给媒体,并且让媒体全然接受和发布,这只是数据公司的一个美梦。所以只要有能力的媒体,都会尝试建构自己的数据能力,栽培和培养自己的数据团队。
本文为讲座精华摘录,后台回复关键词“清华大数据”,可下载本讲座PPT全文。(限时七天,不想错过更多内容,就请持续关注数据派THU!)