三节课 2018-03-29
昨天,我的一条微博创造了自 2010 年注册以来的记录:阅读量超过 1000 万,且还在继续增长——然而我的微博粉丝,却只有 1 万人,出现这样的情况,是因为微博的Timeline不再只是基于关注,而是结合了算法推荐的“发现流”,每一个内容都有被算法推荐进而曝光和爆发的机会,坐拥千万粉丝大V和只有一万粉丝的小V,都要PK内容。事实上,整个行业,算法都在扮演着日趋重要的角色。
内容平台的算法经济学
微博在 2017 年先是加入了发现流,内容分发逻辑发生巨大变化,正是因为看到了算法类内容平台的强势崛起——微博,百度、UC、腾讯、搜狐、网易都推出了信息流产品,知乎 2017 年改版首页从基于关注的内容推荐,变为基于算法和关注的内容推荐。
将算法用在内容推荐上,国内的先行者是豆瓣——它在PC时代首页就已是基于算法推荐而形成的内容流,豆瓣FM、豆瓣阅读等产品背后的逻辑也是算法。然而,彼时深度学习技术并不成熟,豆瓣的推荐精准度一直被豆友们吐槽。近年来,随着AI技术的成熟,算法也越来越得心应手,真正意义上实现了千人千面,比用户更理解用户,不断吞噬用户时间。
结合算法,精准的广告也被不断推荐给用户,成了移动互联网商业化的最佳答案,比如微博就通过信息流广告赚得钵满盆满, 2017 年总营收达到77. 13 亿元,同比增长76%,净利润则达到27. 14 亿元。此外,百度、知乎等平台也都在发力信息流广告,算法正在带来真金白银。
当然,算法不是灵丹妙药,它一直被业界批评缺乏必要的正向价值观、有导致用户阅读视野变窄的“信息茧房效应”,容易形成信息孤岛,甚至导致低俗泛滥。不过,现在看来,通过与价值观、与人、与社交的融合,算法正在规避上述问题,甚至一定程度上成了内容业的看门狗。
算法成为内容平台看门狗
新闻从业者一直被视作是社会的“看门狗”——守护安全,监督环境,警惕危险,现在看来算法在内容平台上也开始扮演“看门狗”的角色:内容质量、内容审核、社区治理,算法都能帮上大忙。
上周末,微信屏蔽抖音的消息被传开,不过腾讯公关总监张军日前回应,“朋友圈一直有防刷屏机制,过了阀值就自动不可见,过凌晨 12 点自动恢复正常,屏蔽之说不存在。”跟此前新世相等诱导分享的卖课被屏蔽一样,微信正在将算法用在平台的治理上,事实上,公众号内容原创识别,朋友圈关键字屏蔽等等功能背后,都是算法在驱动。
今年 1 月,微博官方账号@微博管理员发布《关于加大力度处理热搜榜热门话题榜刷榜行为的公告》,对王乐乐微博等涉嫌参与刷榜的大V进行了处罚。微博宣称其“不断对产品本身进行算法升级并设置了以大数据识别为基础的防刷体系。对于存在作弊特征的行为,系统都会实时进行识别和拦截。在热搜榜中,每天约有40%的热搜词被系统识别为流量异常而不能上榜。”此外微博也将算法应用在内容审核等方面,相信大家对此心照不宣。
另一个受关注的内容平台知乎也一直很重视社区氛围,对社区的管理采用的是名为“瓦力”和“悟空”的AI反垃圾系统。知乎日前升级了瓦力的算法,可以实时筛查对内容创作者不友善的内容,或是对答非所问、事实错误、垃圾广告导流等行为进行识别和处理。知乎站务管理账号“知乎小管家”公布的数据是,瓦力每日可处理内容近万条,对于举报上来的不友善内容,0. 3 秒内就可以处理掉。
算法已成为行业标配,不只是内容平台,就连电商平台也在应用算法来推荐商品。不过,算法的价值不只是流量、时长或者变现,从一些内容平台的实践来看,算法可以比肉眼更加精准地识别不好的内容,为优质内容保驾护航,进而避免劣币驱逐良币,也一定程度规避了算法推荐的缺陷。
微博通过算法来确保热搜榜的权威价值。热搜榜和热门话题榜能够快速、准确反映出微博用户对于热点内容的关注程度和方向,对于不同角色都有其参考价值,然而一旦被“注水”这个榜单就失去了意义。正是因为此,微博要不断升级算法,来抗击刷榜大军。
知乎也在通过算法确保社区内容品质。相对于微信的生活化和微博的大杂烩而言,品质对于“中文互联网内容高地”知乎更重要。许多内容在知乎讨论后会被以链接、截图、日报等形似分享到微博微信,之前看到过一组数据,每天知乎有近 50 万条内容被分享到站外,二次传播浏览人数达到 2 亿,而且许多大事件比如最近的六六京东事件、蓝标员工事件,知乎的讨论在事件中都是重要一环。知乎在面向大众人群的同时,依然需要注重内容品质。过去这一保障依靠人,现在也靠算法,据官方数据来看,知乎今年 3 月的月PV达到了 230 亿,差不多是去年同期的2. 3 倍。
在内容大爆炸的时代,优质内容反而是稀缺的,将算法应用到优质内容守护上就显得尤为重要。而长期来看,当一套算法系统成为“看门狗”后,它就可以不断被训练,不断自我学习,进而变得愈发聪明,可以在后台 24 小时不间断运转,不给“坏内容”任何可乘之机,也节省了大量的人力成本,内容审核和社区管理人员将会越来越多地被算法取代。
算法要如何做好看门狗?
用算法来管理内容和社区对于业界来说,还是一个新的命题。先行者微博、知乎等平台的做法,也给行业提供了一些思路。
1、人机结合,不能只靠算法。
1 月底,微博被相关部门约谈后,将热搜榜、热门话题榜、微博问答等功能下线一周,经过整改后上线。微博副总裁曹增辉向界面透露,整改的核心是:
“引入了编辑人工干预的模式,微博会将算法挖掘作为基础,在排序和选择上放弃纯粹算法的方式,引入编辑对违反有关法律法规的内容、社会负能量的信息、过度娱乐化的信息进行人工干预。”
人机结合是未来算法应用的趋势,因为算法还没有智能到可以全部取代人类的程度,而且算法缺乏人类才具备的价值观。对于社区内容管理而言,也只有人机结合,才能避免误伤优质内容和正常用户,形成公平的治理环境,比如知乎的瓦力机器人,对于网友们举报的不友善内容,先通过算法智能识别,再引入管理员人工核查,大大提升了处理效率和准确率,也节省了人力成本,算法也会学习用户的举报内容特点,进行模型分析,提升识别的准确率和覆盖范围。
2、众包机制,用户自治管理。
知乎前段时间面向 5 万用户内测了“有理由反对”功能,用户可以选择「事实错误」、「答非所问」、「煽动情绪」和「不解释」等理由,知乎瓦力根据用户信用值权重来判断这个选择的重要性,最终体现在对内容的分发上。而据“知乎小管家”专栏介绍,知乎用户平均每天举报各类违规内容约两万五千条,其中 2%来自作者举报自己内容评论区的违规行为,剩下 98% 来自其他用户看到违规行为的举报,用户的举报准确度高达 95%。微博则在最近上线了一个很有意思的功能:云黑名单。当一个用户因为热衷于谩骂等行为被多个用户举报或者拉黑后,就会被加入云黑名单,此后,这个用户的评论可能只有自己才看得到。这个做法的本质就是让用户来管理用户,或者说叫做用户自治。
理论上来说,众包机制,同样是一种人机结合,只不过它将用户变成了协管,引入了众人的价值观,同时引入算法,来形成一种中心式+去中心的多元化管理制度。长期来看,此举可以让用户体会到更加民主公平的社区氛围,也更愿意遵守和维护社区秩序,变相成为社区兼职管理员。
3、社区规则,奠定算法基础。
微博很早就上线了《新浪微博社区公约》和一些社区规则,并一直在完善这个体系,它主要对用户的内容发布、评论互动等等行为进行了规约,此后不论是微博管理员,还是不断迭代的算法,在处理问题时,都要遵照这个公约,它堪称是微博这个社区的“宪法”。知乎上的类似条款则是《知乎协议》和《知乎社区管理规定》, 2014 年知乎为了营造更好的讨论环境发布了《良性讨论公约》,不论是瓦力机器人还是知乎管理员,同样是在这些约定框架下运转的。当然,规则也应该根据社区成长,不断迭代完善,成为社区管理的准绳。
4、预防预测,而非事后清理。
曾经,社区管理更多是在做事后处理,比如对违规内容的删除屏蔽,对对应用户的扣分禁言等等,不过,随着算法在社区管理的中的应用,平台结合大数据,已经有能力来预测一个用户的行为,在其产生影响前就进行干预。比如当你上传一张图片后,微博首先就会进行相似度判断,涉嫌违规的突破,相似度90%以上的系统直接处理,相似度50%-90%的就有人工审核;再比如一个用户,是比较喜欢恶意攻击的“网络暴民”,其内容就很可能会被限流,甚至只有他自己可见。
在算法成为互联网行业的显学后,各个平台都在应用算法。现在看来行业不应该只是关注如何用算法来获取更多流量时长,或者提高广告转化率,同时也要更重视将算法应用在平台治理上,同时结合社区众包管理等机制,来提升算法治理的效率和效果,用算法来规避算法的缺陷。从目前各家平台的实践来看,大家要学的东西,还有很多,“在未来面前,我们还是个孩子”。