CSDN人工智能头条 2020-10-18
人工智能是当前很热门的技术,各国都在投入资金和人力进行研究。谁错过了人工智能,谁就丢掉了未来。
语言文字在人工智能中占有非常重要的地位,它是人和人工智能交互的工具,人工智能只有准确理解语言文字才能做出准确应对,才能表现出高智商。今天就谈谈中文和英文是不是优秀的人工智能语言,以及未来前景。
一、语音识别
虽然我不想承认,但英文语音识别确实比中文更准确、高效。
英文由26个字母构成,逻辑结构更简单,发音以字母为基础,音标和音标区之间区分比较明显,只要说的不是很快,AI能比较容易、准确识别每一个字母,加上同音单词比较少,所以英文的语音识别效率领先中文许多。
中文发音则要复杂的多。汉语拼音有23个声母,6个单韵母,18个复韵母,还有16个整体认读音节,整套方案共63个发音元素。除此之外,汉语还有四种音调,加上种类繁多的方言,发音不准的话,非常影响AI识别。
AI在进行中文识别的时候,需要先进行发音识别,再根据单词进行汉字判断,识别效率低于英文,识别错误率也高于英文。
语音识别,英文胜。
二、文字识别
到文字识别环节,我们终于可以扬眉吐气了,中文文字识别的效率和准确度比英文更胜一筹。
中文有几个特点,让AI识别更高效:
1、汉字信息密度高,更少的字数可以承载更多的信息,中文文章永远比英文短,综合来看,中文信息密度比英文高37.5%。
2、中文以汉字为单位,可以灵活排列,横竖都可以,而英文是线性文字,只能横排,竖排、错乱排列的识别效率会骤降!
3、汉字独立表意能力强。比如“他去吃早饭”,你看一个字就能多明白一个字的意思。而英文“He went to have breakfast”,你即使看到“have”这个词,你依然不明大概的意思,只有到“breakfast”你才知道原来have是吃,went to是去,整句是去吃早饭。英文表意比较依赖“短语”,甚至整句,不看完整句话,你往往不能知道句意。这就给AI识别造成了难度,因为AI跳跃识别能力较差。
文字识别,中文胜。
三、同音字词
中文发展人工智能比较大的障碍就是同音字词现象!比如,他姓zhang,到底是“张”还是“章”呢?如果是口语的话,还要补一句弓长张,或立早章。中文里有多少同音字、同音词,很难准确的统计。同音字词也是英语使用者攻击中文表意不清比较大的借口。
英语虽然也有同音字,如right正确的、write写字;meet遇见、meat 肉;hole 洞穴、whole 全部的;pear梨子、pair双;flower花、flour面粉等,但英语同音字词数量远比中文同音词数量少。英语是通过造更多单词的方法,来减少同音词现象的。
AI现在不能准确处理多音字,出错在所难免。难道为了AI准确,人类只能通过语言文字改革消灭多音字词?这工程也太大了,人类也很难适应这么大的改革!
同音字词,英文胜。
四、多义字词
一词多义,是每种成熟语言都难免的,世间万事万物这么多,情感这复杂,如果每个词汇只表达一个准确的意思,那几百万字词都收不住。无论是中文还是英文,一个字词不会只表达一个意思,通常有很多意思,有时候区别还很大!
比如“close”,其意思非常多:关闭、合拢、合上、不开放、(使)关门、关闭(一段时间)、结束、终结、接近、几乎(处于某种状态)、可能(快要做某事)、亲密的、密切的、接近、靠近、不远地、死胡同、断头路、大教堂所属的周围场地及建筑物等。
现在人工智通过上下文识别词义的能力还比较弱,遇到多义词的时候经常出错,这也是人工智能发展的难关。
多义字词,中文和英文彼此彼此。
五、整段识别
让人工智能翻译一个短句,一句话,其实没多大意义,实用价值也不高,只有具备整段文字识别,才有实用价值。让我们以中英文互译来考察AI对中文和英文的识别能力了!
原文如下:
"Things that trend in these two countries are insanely different. For example: knowledge-basedcontent is extremely popular in China, and less so in the U.S. Also, this was wild to me: thosecreators that did the most dance videos in China are users born in the 60s (!!), whereas in theUS, it seems that it's mostly teenagers who are creating the dances," she wrote.
她写道:“这两个国家的趋势截然不同,比如:知识性内容在中国很流行,但在美国稍差一些。而且,这一点对我来说很疯狂:中国最喜欢拍舞蹈视频的是60后(!!),但在美国,好像是年轻人最喜欢拍舞蹈视频。”
AI将“英文原文”翻译成中文如下:
“这两个国家的趋势截然不同。例如:以知识为基础的内容在中国非常受欢迎,而在美国却很少。此外,这对我来说很疯狂:在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户,而在美国,似乎是大多数年轻人在创作舞蹈。”她写道。
有一句失真比较严重:“在中国制作舞蹈视频最多的创作者是 她出生于60年代(!!)的用户。”
这句话的英文原文是: “those creators that did the most dance videos in China are users born in the 60s ”。这是一句英语长句,词序比较复杂,又夹杂了乱七八糟的介词,导致人工智能的大脑错乱,没能准确识别!
这个英文识别错误很有典型性,暴露了英文在语法上、词序上太过复杂的弊端。如果是翻译更复杂的英语长句,AI将束手无策!这也是每个表音文字的弱点!
AI将“中文原文”翻译成英文如下:
"The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most," she wrote.
中文翻译非常精准,和原文在表意上几乎没有任何差别,如实还原了原文的意思!可见,在整段话、整篇文章的识别上,中文比英文更有优势!
中文是由一个个汉字构成,长句很少,语法简单,词序简单,在语句结构上比线性的英语简单的多,更有利于AI识别。