zhjhj00 2018-04-05
【新智元导读】2018年4月3日,清华大学与阿里巴巴宣布达成战略合作,共同成立清华大学- 阿里巴巴自然交互体验联合实验室,探索“下一代人机自然交互”的未来。
说起智能机器人,大家或许不会忘记电影《钢铁侠》中如真人大管家一样的贾维斯,或者《超能陆战队》中情感丰富的大白。它们都体现了人类对未来人机交互的想象。如今,科幻电影中的场景正加速走入现实。
2018年4月3日,清华大学与阿里巴巴宣布达成战略合作,共同成立清华大学- 阿里巴巴自然交互体验联合实验室,探索“下一代人机自然交互”的未来。双方将以“人”为中心,探索“人-机器-环境”之间的关系,让机器以更自然的方式与人类互动、服务人类。双方将在情感认知计算、实体交互、多通道感知等领域开展研究,让机器具备听觉、视觉、触觉等“五感”,并理解人类情感,以此推动人机交互变革。
联合实验室为校级合作实验室,依托于清华大学美术学院,共建单位是清华大学未来实验室。清华大学美术学院鲁晓波教授担任实验室管委会主任,清华大学美术学院教授徐迎庆为实验室主任,阿里巴巴人机自然交互实验室负责人傅利民为联合主任。
清华大学副校长、教务长杨斌表示,自然交互体验研究人与机器之间的无缝交流与沟通,赋予机器以智能,使机器成为能理解人类意图的智能设备,将对人类工作方式及生活方式都产生深远的影响。清华大学将和阿里巴巴在这一前沿领域深入合作。
阿里巴巴首席技术官张建锋表示,阿里巴巴希望通过在新零售、智联网等领域积累的丰富应用场景,结合清华大学在人机自然交互相关领域一流的科研能力,全面升级人机自然交互体验。
根据国务院发布的《新一代人工智能发展规划》,在新一代人工智能关键共性技术体系中,“人机交互能力”是研发部署的重点之一。伴随人工智能走出实验室,深入到新零售、家庭智联网、自动驾驶等场景,“人机交互”成为人工智能场景落地的关键所在。
实验室联合负责人、阿里巴巴集团人机交互实验室负责人傅利民表示:自然交互体验实验室将重点解决“人场互动”问题,场即“环境”,在新零售、家庭、车载等诸多场景都涉及到“人-机器- 环境”之间的互动。
联合实验室主任清华大学徐迎庆教授表示:实验室将通过构建情感认知与计算模型等让机器感知和理解人的情感。另一方面,人与人之间的交流综合了语音、听力、嗅觉、触觉等多种模态,多通道感知技术将为机器构建“五感”,让人与机器的交流更加自然。
阿里巴巴董事局主席马云在去年乌镇互联网大会上曾表示,“过去30年,我们把人变成了机器,未来30年,我们将把机器变成人,但最终应该让机器更像机器、人更像人。”人机自然交互是机器主动适应人的一步,将更好地构建人和世界之间的关系。
1. 这次清华大学与阿里巴巴会涉及到哪些方面的合作?
2018年4月3日, 清华大学与阿里巴巴,共同成立清华大学- 阿里巴巴自然交互体验联合实验室,探索“下一代人机自然交互”的未来。双方将以“人”为核心,探索“人-机器-环境”之间的关系,让机器以更自然的方式与人类互动、服务人类。双方将在情感认知计算、实体交互、多通道感知等领域开展研究,让机器具备听觉、视觉、触觉等“五感”,并识别理解人类情感,以此推动新一轮人机交互变革。
2. 联合实验室的建设目标
双方在下一代人机自然交互领域展开深入合作,打破学科壁垒,开展计算机、工程、艺术、心理学等多层次、大跨度的交叉学科研究,通过数字和智能化,引领人机交互产生变革。
我们相信,人机自然交互的未来,机器将具备多通道感知能力、情感认知能力,也就是说有“五感”(视觉、听觉、嗅觉、触觉、味觉)、懂“感情”。这样,人和机器的沟通,将会像人和人之间的交流那么自然。
我们希望双方通过产学研实践,充分结合清华大学的研发优势、跨学科人才优势和阿里巴巴的场景优势,一同去开垦这片处女地,探索人机交互的未来,并以此为依托,在不同产业推动一场交互的变革。
3. 阿里巴巴为何选择与清华大学开展人机自然交互领域的合作?
阿里巴巴与清华大学有良好的合作基础。在过去几年,阿里巴巴已经与清华大学在云计算、大数据、人工智能等众多领域开展合作,在联合承担国家项目、发表高水平的论文、培养高尖端人才上都取得了卓有成效的成果。此次联合实验室是对合作领域和合作模式的拓宽,阿里巴巴的业务场景与清华的科研能力相结合,将带来创新突破。
清华大学在人机自然交互领域拥有跨学科、人才等优势。清华大学在设计美学和人机交互领域的学术水平全球领先。人机交互是一门交叉学科,其覆盖的学科范围非常广,因此要求研究者具有一系列交叉学科背景:比如能理解用户感知、认知能力的心理学和认知科学人才;需要能提供技术支撑的计算机科学和工程学背景人才;同时需要美学设计出生的人才。清华拥有雄厚的跨学科人才储备,包括但不限于计算机、心理学、机械工程、多媒体、音乐、电影等专业背景的师生资源。
此外,联合实验室依托清华美术学院,后者拥有国内数一数二的设计团队;共建单位未来实验室是清华跨学科交叉的实体机构,更是清华大学科研机制体制改革和探索交叉学科的典范。清华鼓励跨学科建立研究机构,联合实验室将来可以便利地与计算机、心理、工程、材料等其他学科开展合作。
4. 清华为什么选择与阿里巴巴合作?优势体现在哪些方面?
科研需要有数据的来源,必须有数据处理的能力,同时需要有现实的系统场景,必须验证场景闭环。阿里巴巴积累了新零售、智联网、科技金融等众多自然人机交互的科研场景。
阿里巴巴已经建有自己的人机自然交互实验室,清华大学-阿里巴巴自然交互体验联合实验室是阿里巴巴与学术界在全球设立的首个人机交互联合实验室,聚焦在情感认知计算、实体交互、多感知通道认知与交互等前沿性、引领性、颠覆性技术领域开展研究。
5. 为什么要做下一代人机自然交互?
人机交互从命令行、图形界面到触屏界面,每次都带来了革命性的变化,越来越人性化。
人机自然交互是指构造一个更便捷、更符合人类自然感知(如触觉、视觉、听觉、味觉、嗅觉,乃至内心和大脑活动)交流的智能人机交互系统。新一代人机交互技术,让计算机不仅“会算”,而且 “能说会看懂情感”,各种交互设备因此变得更加智能 。这种人机交互的新革命,将会给新零售、IoT等场景带来非常大的想象空间。
2017年的乌镇大会上,马云曾说过,“过去30年,我们把人变成了机器,未来30年,我们将把机器变成人,但是最终应该让机器更像机器、人更像人”。
相信未来,人不用去适应机器,机器会主动适应人,人和机器的交流就像人和人之间交流那么自然。
6. 为什么要更多从“人”的维度进行人机交互研究?具体怎么做?
“自然”是来源于经验和体验的,比如同样你把一个新设计的产品给两个不同用户,互联网上长起来的一代会问“鼠标在哪里”,而移动互联网上长起来的一代会直接去触摸屏幕。
自然人机交互作为一门交叉学科,在研究中从计算机科学、工程学角度提供技术支撑,也需要从心理学、认知科学、设计美学角度理解用户感知、认知能力,因此,单从技术维度进行投入是不够的,还要加大从人的维度的研究。
在目前人机交互的研究中,在语音识别、语义理解、图像识别等领域取得了很多突破,但人的语音、语调、表情、动作背后的情感识别是人机交互的难点所在。
联合实验室将结合心理模型、情感模型等,让机器能够识别和理解人的“喜怒哀乐”与行为意图。
人与人的交流综合了视觉、听觉、触觉等多种模态,联合实验室将通过多通道感知技术帮智能设备构建“五感”,更好地与人类交流。
7. 人机自然交互要解决的核心问题是什么?会放在哪些场景中?
清华-阿里巴巴自然交互体验实验室将重点解决“人-场”互动问题,其中“场”即“环境”,包含新零售、家庭、车载等诸多场景。未来机器将不再只是干巴巴地响应命令,而能识别人的喜怒哀乐、上下文情景并进行情感反馈。
试想,当你回到家里,智能音箱将根据你的情绪状态,播放不同的音乐,或者调整语音语调;智能设备会根据你的身体状况调整室内温度、通风、采光。
我们通过人场互动,让人与机器、与环境之间,实现更加和谐的互动。
8. 目前人机交互领域面临的挑战是什么?
(1)交互形式单一,主要是屏幕或TTS(从文本到语音)。主要的人机交互是命令式的,但人与人之间的交流可不是命令式的。计算机对人的识别虽取得了一定进展,但是对人的语音、语调、语气、表情、行为(body language)里的情感识别、上下文识别(基于情感的上下文识别),以及如何把视觉、听觉、触觉、嗅觉等多种交互方式融合到人机交互中,还尚未突破。这是一项综合系统工程,还有许多未知的“处女地”亟待更深远的探索。
(2)需要跨学科的深入研究。人机交互是一门交叉学科,覆盖的学科范围非常广,例如图形、图像、语音、触觉、嗅觉、心理学、认知科学、人工智能等,横跨众多学科来定义和解决问题将是最大的挑战。同时,任何学科取得进展都会促进人机交互研究发展,反之也会拖后腿。举个行业的例子,在 IOT 和新零售背景下,图形界面已经不能满足用户的需求,对于很多没有屏的场景,需要开发新的技术,更深地理解和使用视觉、听觉、触觉、嗅觉等感官做人机交互,而这样的研究需要跨学科的深入合作。
9. 联合实验室未来将集中在哪些研究方向,时间表是什么?
(1)短期看来,会在以下方向上发力:
人场交互:“场”,即人所处的环境。在新零售、家庭、车载等诸多场景都涉及到“人- 机器- 环境”之间的互动。未来在这些场景中,机器将不再只是干巴巴地响应命令,而是识别人的喜怒哀乐、上下文情景,并进行情感反馈:例如,当你回到家里,智能设备会根据你的身体状况调整室内温度、通风、采光。
试想想,生活中无处不在的各种“死”的“场”,比如家、公司、商场等,它们都“活”了,变成了能和人类实时交互的界面。
情感认知计算
情感是人们交流和获取信息的主要方式,有研究表明,人类交流中90%以上的信息都是非文字的信息。因此,情感计算是实现人性化的下一代人机交互过程中必不可少的部分,情感识别、理解、和表达技术也是人机交互的基础性技术之一。
举个例子:天猫精灵将根据你的情绪状态,播放不同的音乐,或者调整语音语调。机器更懂人,才能更好的服务人类。
(2)长期来看,阿里巴巴希望在下一代人机交互领域开展什么研究
多通道人机自然交互
人在交流中,可以随意在多种感官中切换,可以同时利用多个通道获取和表达信息,并且用注意力来选择和优化通道资源。通过对人多通道交流的研究,可以指导和实现和计算机和人之间的多通道交互。
触觉,嗅觉的数字化
人的视觉数字化带来了整个行业的质变,也是目前图形用户界面的发展基础,我们希望触觉和嗅觉的数字化会带来另一次变革。从电子购物上,可以解决用户摸不到,闻不到两点痛点。
另外,我们今年在加拿大举行的 CHI 2018 国际会议上,也做了一个人机自然交互的兴趣小组,除了阿里,和清华,也请了斯坦福的 James Landy 教授,密西根大学的 Michael Nebeling 教授一同参与,在行业里共同探讨下一代人机自然交互的发展方向。
10. 未来实验室的研究成果会应用在哪些现实场景当中?
人机交互从命令行机器语言,图形界面,触屏界面,每次都带来了革命性的变化,越来越人性化。现在,人工智能等技术开始进入线下场景,人 - 机器- 环境之间的互动越来越重要,在新零售、IoT、车载场景、家居场景上都会带来革命,无论是用户体验、还是产业化空间上,都带来非常大的机会。
比如:家庭场景中,机器人与你对话,也不再是干巴巴的语调,而是可以基于你的情绪、上下文,来富有感情的回答;车载场景中,人对视觉警告的反应速度是1.25秒左右,而对触觉的反应速度只有0.25秒,那引入触觉交互(例如方向盘震动),在关键时刻,就可能会节省你1秒钟的时间,这一秒钟甚至可能会挽救生命。
【加入社群】
新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号: aiera2015_1 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。