liujainq 2017-08-18
「我唯一的人生目标就是融合人工智能与音乐。」来自谷歌的研究院 Douglas Eck 花了 20 多年的时间,就为了完成这个梦想,如今,他终于完成了。他不仅能创造艺术,还能创造艺术家。
编译 | Rik R 藤子
来源 | 纽约时报
上世纪 90 年代中期,Douglas Eck 还是阿尔布开克(美国新墨西哥州中部城市)能源部下属实验室的数据库程序员,另一个身份则是音乐人。在敲完一天的代码后,他会去当地一间酒吧演出,演奏他口中的「朋克味蓝草音乐(punk-influenced bluegrass,蓝草音乐是美国南部的快节奏民间音乐,是乡村音乐的一个分支)。
Eck 调侃这是 Johnny Rotten(朋克乐团性手枪成员)遇见 Johnny Cash(美国乡村音乐创作歌手)。但是,他真正想做的是,制造出能够自动制作歌曲的机器,以无缝连接他白天和黑夜的两种身份。「我唯一的人生目标就是融合人工智能与音乐。」他说。
然而,这个愿望很天真。
后来在布鲁明顿的印第安那大学读研究生时,Eck 把这个想法告诉了认知科学家 Douglas Hofstadter,后者在心智与机器方面的著作《GEB》(Gödel, Escher, Bach: An Eternal Golden Braid,哥德尔、埃舍尔、巴赫:集异璧之大成)曾获普利策奖。Hofstadter 拒绝了他,并坚决地认为,即使是最新的人工智能技术也只是处于原始阶段。
然而,在接下来的二十年中,Eck 努力实现这个想法,从事学术界的边缘研究,最终,人工智能技术的发展赶上了他的野心。
去年春天,在谷歌做了几年的研究工作之后,Eck 又一次提出曾被 Hofstadter 拒绝的想法。这次,一个由谷歌研究人员研发的,名为 Project Magenta 的项目诞生了,他们致力于教会机器创造音乐以及其它形式的艺术,比如素描、视频和笑话。
在谷歌人工智能研究总部的一栋二层小楼内,Eck 在最近的一次采访中,把这个项目形容成「为人们创造新的交流方式」。
Project Magenta 是致力于使用人工智能技术生成艺术作品的众多举措之一,而人工智能技术直到最近才发展成熟。这些复杂的数学系统被称为深度神经网络,它通过分析大量的数据来教机器学习特定的行为。例如,通过在数百万张自行车照片中寻找出普遍模式,一个神经网络可以学会识别自行车。这种方法被 Facebook 用来识别在线照片中的人脸,被安卓手机用来识别通话中的命令,被微软的 Skype 用来进行翻译。
但是,这些复杂系统还可以创造艺术。例如,通过分析一系列的歌曲,它们可以去学习建立类似的声音。
正如 Eck 所说,这些系统至少在接近那个最终目标,尽管这个目标需要很多年才能实现,即一台机器可以立刻创造一首或无数首披头士乐队的新歌,每一首听起来都像是原唱,但又稍有不同。
这是 DeepDream 的一个作品
它使用神经网络从现有的摄影作品中生成媒体影像
在上世纪 90 年代新墨西哥州的那间酒吧里,Eck 的音乐结合了乡村与朋克。现在,他通过编写软件来做同样的事。利用神经网络,他与团队正在尝试混合不同乐器的声音——比如巴松管和击弦古钢琴——试图创作出拥有全新声音的乐器。
神经网络可以通过分析数百张喵咪照片来学习识别猫咪,同样,它也可以通过分析巴松管数以百计的单音来学习其发音特点。神经网络会创建一个数学表达式或向量来识别巴松管。Eck 和他的团队已将数百个乐器的单音输入到一个神经网络中,为每个单音建立一个向量。现在,只要在屏幕上移动一下按钮,它们就可以组合这些向量来创建新的乐器。比如 47% 的巴松管和 53% 的击弦古钢琴,或者其他的比例等等。
几个世纪以来,管弦乐指挥家的做法是将各种乐器的声音层层叠加起来。但这次不是声音的叠加,Eck 和他的团队正在将这些声音组合成一种此前并不存在的声音,为艺术家创造新的工作方式。
「我们正在研究下一代电影摄像机,」Eck 说,「我们也正在研究下一代电吉他。」它就是 NSynth,这个特别项目才刚刚起步。但在艺术和技术的交叉世界,许多人已经对使用神经网络等人工智能技术来建立新的艺术作品跃跃欲试。
「这项工作在过去几年发生了巨大的变化。」洛杉矶的摄影师兼艺术家 Adam Ferris 说,「这是一种全新的美学」。
2015 年,谷歌内部的一个独立研究团队创造了 DeepDream,这款工具使用神经网络从现有摄影作品中生成萦绕而迷幻的媒体影像,在谷歌内外催生了新的艺术实践。比如在分析一只狗的照片时,DeepDream 发现了一些看起来像眼球的皮毛,那么它就会着重刻画那部分皮毛,然后重复这一过程,于是创作出一只被旋转眼球包围的狗。
与此同时,一批艺术家,比如著名的多媒体表演艺术家 Trevor Paglen 或鲜为人知的 Adam Ferris,他们正在尝试用其它方法探索神经网络。
一月,Paglen 在三藩市一个海上旧仓库内进行了一场表演,利用能够跟踪人眼和身体运动路径的神经网络,探索计算机视觉的伦理。当克罗诺斯四重奏先锋乐团(Kronos Quartet)成员在舞台上演奏时,神经网络对其表情进行了实时分析,试图猜测出他们的情绪。
工具是新的,但其思想内核早已有之。纽约大学的教授 Allison Parrish 曾推出一款能够生成诗歌的软件,他指出,艺术家早在上世纪 50 年代起,便开始使用计算机生成艺术作品。她认为,这些新的计算技术为艺术家创造了更大的调色板。
一年前,高盛东京的交易员 David Ha 在午休期间摆弄神经网络,并将结果发表在博客上。除此之外,他还创建了一个能够自动书写日本汉字的神经网络,书写这种语标汉字并不像绘画那样随意。
很快,Eck 和谷歌的其他研究人员发现了这个博客,如今,Ha 成为了谷歌 Magenta 项目的研究员。在一个名为 SketchRNN 的项目中,他正在创建能够绘画的神经网络。通过分析成千上万张普通人制作的数字草图,这些神经网络可以学习制作图像,比如猪、卡车、船或瑜伽姿势等。它们并不模仿人类的绘画作品,而是学习独立绘制,从而在数学意义上识别出画猪的特点。
比如,你可以让它们画一只头是猫的猪、少了一条腿的马、看起来像一只狗的卡车,或是从几条随机波浪线中构建出一只船。尽管与 NSynth 或 DeepDream 相比,这看起来不太像是艺术家用来创作新作品的工具。但当你使用这些工具,你就会意识到它们本身就是艺术,是 Ha 建造的生活作品。
人工智能不仅能创造新的艺术形式,也能创造出新的艺术家。