hiarxiaoliang 2017-12-04
机器之能,是机器之心旗下关注全球人工智能产业应用场景及商业化的内容账号。欢迎关注与互动:almosthuman2017
启英泰伦专门从事基于深度学习的语音识别芯片及配套算法引擎的研发。公司首款 AI 语音芯片 CI1006 集成了公司自主研发的脑神经网络处理器 BNPU。目前已经推出基于 CI1006 的单/双麦克风解决方案。
撰文 | 微胖
走进启英泰伦的工作间,有点像走进皮克斯动画工作室里的《机器人总动员》。你可以想象一下被机器人环绕的样子:
「智能管家,关上微波炉。」微波炉的门自动关闭。
我向窗户边走过去,在距离微波炉大约 10 米的地方停下来:
「智能管家,皮蛋瘦肉粥」。微波炉开始自动运行。
除了微波炉,工作台上的电水壶和灯都可以通过语音控制。
「家电是功能性设备,语音识别技术能够让操作变得更方便。」何云鹏说道。
2015 年,拥有十六年芯片研发和多枚芯片量产经验的何云鹏辞去知名家电企业部门负责人的职位,在成都高新区成立启英泰伦。专门从事基于深度学习的语音识别芯片及配套算法引擎的研发。
基于CI1006的单麦可风方案(左)与其他厂家AP 芯片方案板片的比较效果
桌上左边的一块绿色板片(上图),一块大约和一元硬币大小相当。
板面最醒目的部分是 CI1006,全球首款(去年 9 月份前)基于 DNN 的语音识别芯片,集成了公司自主研发的脑神经网络处理器 BNPU。
CI1006 BNPU 神经元阵列包含 64 个神经元节点的并行计算,相当于数十个 CPU 核的 NN 并行计算能力。因此,在语音识别速度上,带有 NPU 处理器的家电会更快。从命令到执行仅需 200~800ms。
除了处理速度方面的优势,BNPU 也有利于降低芯片功耗。此外,少了一些 CPU 和外围器件,价格自然也更加亲民。
过去一两年,大概有近 20 家与端智能相关的企业获得超过 5 亿美元的融资。2017 年伊始,端计算已经迅速发展成为 10 亿美元的技术市场。
AI 芯片主要有两种,一种用于云计算,实现训练和推断任务,比如英伟达 GPU、谷歌 TPU。
另一种用于移动端计算,主要负责推断,比如手机、自动驾驶汽车、智能家居。谷歌 Clips 采用的 Modivius Myriad 2 和 CI1006 都属于这一类。
端计算能够满足一些应用场景实时响应的需求,比如自动驾驶和健康急救。
另一方面,隐私和数据安全也非常重要。
「为什么功能性设备不愿意带摄像头和麦克风?就是因为数据会上传到云端,这些都会存下来,秘密不会被守住,要么被黑客黑掉,要么被公司卖掉。」何云鹏曾经担任海信信芯技术副总,长虹 IC 部门总经理,多年从业经验让他对这个「槽点」格外敏感。
端计算为敏感数据供了较好的隐私保护机制。
一方面,可与利用近数据端的边缘结点直接对数据源进行处理,实现对一些敏感数据的保护与隔离。
另一方面,端节点可以仅接收来自云计算中心的请求,并将处理结果反馈给云端。
功耗和成本,是本地识别需要解决的主要问题。
「一般空调关闭后,那就是真关了,除了 MCU 接收红外还开着。」何云鹏说,「语音替换遥控器的话,情况就很不一样了。」
语音设备是个 always on 的状态,随时等待被唤醒。现在手机分配给语音识别功能的功率高达 1 瓦特左右,几乎等同于一台家电的待机功耗。
不同产品的国标一级能效标准待机功耗,通常要求为 0.5 瓦、1 瓦等,添加语音功能后,「基于软件算法的方案就很难符合这个标准。」何云鹏说。CI1006 采用的 ASIC 架构可以帮助实现很好的能耗比。
移动端人工智能硬件实现方法主要有两种,FPGA 和 ASIC。FPGA 成本非常高,多出现在对价格不敏感的企业级产品中。
ASIC(专用集成电路,Application-Specific Integrated Circuit) 主要瞄准大众消费电子产品,因为晶体管会根据算法定制,不会出现冗余,计算效率高,性能也高,功耗很低。
以 Clips 采用的 Movidius Myriad2 为例,在 1 瓦特的功率范围内,芯片可提供逾 1 Teraflops 的运算能力。
「我们这款芯片能耗是同类多核应用处理器芯片的二十分之一。」何云鹏说,识别速度达已经达到几百毫秒级别。
不过,ASIC 架构也有不足。为算法量身定制,意味着一旦设计制造完成,电路就固定了,无法再改变。如何与不断迭代的算法保持同步,是芯片设计们需要考虑的问题。
「有一部分算法是灵活运用处理器核实现的,比如前端算法。只有比较固化的算法,我们才用 ASIC 实现。」公司员工告诉我,「识别这块,模型目前是可迭代,只是最费时的神经网络计算,我们才用 ASIC 实现。」
其实,ASIC 架构更像是工厂开模,虽然前期开发时间长,上市相对比较慢,但非常适合量产。一旦量铺开了,均价也会快速降下来。
今年 1 月,CI1006 已经实现量产。虽然没有透露具体价格,但何云鹏表示,「比通用方案有优势。」
芯片落地,只是第一步。
要想让市场上的产品烙上「xPU Inside」, 还需要算法的加持。
启英泰伦「主要」是一个 Design House 公司。「公司先会进行产品定义,算法和芯片开发,接着委外进行生产加工,后面也做方案开发和销售。」
我们为用户提供软硬一体的 Turn Key 方案,何云鹏说。
通常情况下,如果一家厂商想要给自己的产品增加语音控制功能,就要去找软件算法商,芯片公司和方案商,甚至是声学方面的硬件商,周期长。资源即使强大,也只能成功对接到几十家的有效支持。这种模式无法支持大规模市场需求。
「芯片大卖、产业起来,要让客户非常方便地将你的方案与既有方案对接起来,这样才能实现快速推广。」何云鹏说,「我们希望 AI 能像添加其他功能一样,比较轻松方便地添加到终端。」
据介绍,目前启英泰伦解决方案可实现10米距离 95% 以上的识别率。虽然没有多透露在算法研发方面的信息,但是针对既然不收集用户数据如何训练算法的问题,何云鹏给出了解释。
「会从外面购买数据。」何云鹏说。采购的数据一般是通用数据,公司还会亲自制作训练所需的特色语料。比如找人录音。「南方人、北方人、男人、女人、大人和小孩,按比例来,一般采个几百上千人。」何云鹏说。
一个比较好的识别效果需要数千上万个小时的训练数据。「这花了我们相当一部分成本。」
声音到达麦克风的能量,会随着距离呈立方关系的递减。端方案也需要考虑麦克风阵列,特别是在强噪音情况下。当打开抽烟烟机做饭时,人的耳朵都未必听得清楚人声,何况放在厨房里的冰箱?
公司最先推出的是双麦克风方案。不过,无论是 2 个麦克风还是 4、6 个麦克风阵列,当前的成本都比较高。比如,2 个麦克风阵列要 90 块,八个麦克风方案,裸成本已经超过 300 块。家电企业对制造价格比较敏感。特别是对于小家电来说,这两个数字几乎是「无法承受之重。」
今年,启英泰伦尝试放弃麦克风阵列方案,直接采用了单麦方案。通过算法优化,实现噪声抑制和回声抵消。据介绍,除了强噪音场景,其他室内场景下,单麦克风方案也可实现十米距离 95% 的识别效果,但成本比双麦方案降低 30% 左右。
目前,公司客户包括长虹、美的、格力、TCL 和海尔等企业。