机器如何学会听懂人说话?

(图片来源:Science Photo Library) Image copyright Science Photo Library

一个刚学会走路的小孩摇摇晃晃穿过起居室,来到墙角的一个光滑的黑色圆柱体前停下来。他尖声说道:"Alexa,播放儿童音乐。"虽然发音含混不清,但是这个圆柱体明白了请求,房间里响起了音乐。

Alexa是亚马逊的云端语音识别软件,它是黑色圆柱体音箱Echo的大脑。Alexa的面世在全球造成了轰动,除了小孩以外,因为他们觉得这是理所当然的。小孩子会伴随着Alexa成长。在人工智能的支持下,Alexa学会了回答越来越多的问题,有朝一日可能会进化到能与人自由交谈的地步。

但是,任何10岁以上的人都知道,从前不是这样的。语音识别软件发展到今天经历了漫长的道路。虽然Echo比啤酒杯更瘦,但是第一批语音识别机器——二十世纪中叶开发的那些——几乎可以占满一整个房间。

Image copyright Amazon
Image caption 亚马逊Echo把语音识别带进人们的起居室(图片来源:Amazon)

人类很久以前就试图对机器讲话——或者至少让机器对我们说话。"语音能够让我们与机器实现难以置信的简单互动,它是最自然、最方便的交互方式,也是我们每天都在使用的东西,"亚马逊设备事业部和亚马逊Alexa欧洲区副总裁乔利特·凡德·穆勒恩(Jorrit Van der Meulen)说,"语音就是未来。"

1773年,俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦(Christian Kratzenstein)开始思考语音技术。他制造了一个特别的设备,把共鸣管和风琴管连接起来,发出类似于人类语言中元音的声音。就在十多年后,维也纳的沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)制造了一台类似的机械声学语音机器。在十九世纪初,英国发明家查尔斯·惠斯通(Charles Wheatstone)用皮革共鸣器改进了冯·肯佩伦的系统。该系统可以通过手动调整或控制发出像语言一样的声音。

到1881年,亚历山大·格拉汉姆·贝尔(Alexander Graham Bell)和他的兄弟查尔斯·萨姆纳·天特(Charles Sumner Tainter)一起制造了一个蜡涂层的旋转圆柱体,一根唱针对传入的声音压力作出反应,切出垂直的凹槽。这一发明为1907年获得专利的第一台留声机铺平了道路。他们是希望用机器来听写秘书念的笔记和书信,这样就不再需要速记员。随后,这些记录可以用打字机打出来。这一发明很快在全球流行起来,在越来越多的办公室里,秘书会带着笨拙的耳机,聆听录音并完成转录。

但所有这些雏形都是被动式机器——直到1952年自动数字识别机"Audrey"的问世。它由贝尔实验室(Bell Labs)制造,体型巨大,占满了一个六英尺高的继电器架子,耗电量很大,连接着大量缆线。它能够识别语音的基本单位"音素"。

那时,计算机系统非常昂贵、笨重,存储空间和运算速度有限。但是Audrey仍然能够识别数字的发音——零到九——准确率高达90%,至少它的开发者戴维斯(HK Davis)发音时是这样。当面对其他几位指定的说话者时,它的准确率为70%到80%,但如果是不熟悉的声音,它的准确率就会大大降低。"这在当时是一个惊人的成就,但是那个系统需要一整个房间的电子设备,还需要专业的电路,才能识别单个数字,"贝尔实验室信息分析部的查理·巴哈尔(Charlie Bahr)说。

Image copyright Science Photo Library
Image caption 电话的发明者亚历山大·格拉汉姆·贝尔在语音识别方面也完成了重要的工作(图片来源:Science Photo Library)

由于Audrey只能识别指定说话者的声音,它的用途就比较有限:比如它可以为收费电话的接线员提供语音拨号的功能,但实际上没有这个必要,因为在大多数情况下,通过手动按钮拨号成本更低,且更简便。Audrey仍然是雏形——它领先于普通的计算机。虽然它并没有用在生产系统中,但是"它说明了语音识别是可以实现的,"巴哈尔说。

但是还有另一个目标。"我相信Audurey开发的最初目的是要减少带宽,即电线上传输的数据量,"巴哈尔的同事、诺基亚贝尔实验室(Nokia Bell Labs)的拉里·奥戈尔曼(Larry O'Gorman)说。语音识别所需带宽比原始声波要小。但是随着二十世纪七十和八十年代电话机开关的数字化,电话线路分配变的更快、更便宜,同时仍需要接线员来理解拨号请求。于是,二十世纪七十年代和八十年代,贝尔实验室语音研究投入了大量精力研究以下内容:识别数字零到十以及"是"与"否"。"电话系统在能够识别这12个单词后,就能够单纯依靠机器完成电话接线,"奥戈尔曼说。

Audrey并不是唯一。二十世纪六十年代,日本的几个团队也对语音识别进行研究,最著名的包括东京无线电研究实验室(Radio Research Lab)的元音识别器、京都大学的(Kyoto University)音素识别器和NEC实验室的数字语音识别器。

在1962年的世界博览会上,IBM展示了它的"鞋盒"(Shoebox)机器,它能够理解16个口头表达的英语单词。美国、英国和苏联还有其他研究。苏联的研究人员发明了动态规整(DTW)算法,并将其用来制造一个能够驾驭200个单词的识别器。但这些系统大都基于样本匹配,也就是把单词与存储在机器里的语音进行匹配。

最大的一次飞跃发生在1971年,当时美国国防部的研究机构Darpa出资开展一个为期五年的语音理解研究项目,目标是达到1000个单词的词汇量。很多公司和学术机构参与了该项目,包括IBM、卡内基梅隆大学(Carnegie Mellon University)和斯坦福研究所(Stanford Research Institute)。于是,Harpy在卡内基梅隆大学诞生。

和它的前辈不同,Harpy能够识别整句话。"我们不想查词典——所以我想要制造一个能够翻译话语的机器。这样,当你在讲一种语言时,它会把你说的话转换成文本,然后进行机器翻译,所有任务都一次完成,"卡内基梅隆大学曾经在Harpy项目和该大学的Hearsay-II项目工作的计算机科学教授亚历山大·韦贝尔(Alexander Waibel)说。

Image copyright iStock
Image caption 电话的到来加速了语音识别技术的发展(图片来源:iStock)

从单词转到词组并不容易。"句子里的单词会交汇起来,你会弄不清楚,不知道单词从哪里开始,到哪里结束。于是,你会得到'euthanasia'这样的东西,而它可能是'youth in Asia'。"韦贝尔说,"或者,当你说'Give me a new display'时,它可能会被理解为'give me a nudist play'。"

Harpy一共能识别1011个单词,这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错,所以实现了Darpa最初的目标。"它成了现代语音识别系统真正的祖先,"卡内基梅隆大学语言技术所的所长杰米·卡博内尔(Jaime Carbonell)说,"它是第一个成功利用语言模型判断哪些单词放在一起会产生意义的系统,因此它能够降低语音识别的错误。"

在之后的一些年里,语音识别系统进一步发展。在二十世纪八十年代,IBM制造了语音激活的打字机Tangora,它能够处理20000个单词的词汇量。IBM的方法是基于隐马尔可夫模型(hidden Markov model),把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。

IBM的竞争对手Dragon Systems提出了自己的方法。此时,技术取得了长足的进步,语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就,但是当时的所有程序都采用了不连续听写,这意味着用户必须在每个单词后停顿一下。1990年,Dragon Systems发布了第一款消费语音识别产品Dragon Dictate,9000美元的售价令人咂舌。然后,在1997年,Dragon NaturallySpeaking 问世——这是第一款连续语音识别产品。

"在那以前,语音识别产品局限在不连续的话语,这就意味着它们一次只能识别一个单词," Nuance Communications公司高级副总裁、Dragon的总经理彼得·马奥尼(Peter Mahoney)说,"Dragon是连续语音识别的先锋,它首次实现了实用的语音识别,可用来创建文件。"Dragon NaturallySpeaking每分钟能够识别100个单词的话语——时至今日,它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。

Image copyright iStock
Image caption 微软的个人智能助理小娜(Cortana)是数十年实验的成果(图片来源:iStock)

在过去的十年间,大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练,从而成功识别不同人的不同口音。

然而,直至谷歌发布了用于苹果手机的谷歌语音搜索应用"Google Voice Search",技术才又继续向前发展。谷歌的方法是使用云计算处理应用收到的数据。突然间,大众可以获得的语音识别拥有了大规模计算的能力。谷歌能够运行大规模的数据分析,匹配用户的单词和数十亿个搜索词条中积累的大量人类语音的例子。2010年,谷歌为安卓手机的语音搜索添加了"个性化识别"。2011年中期,又把语音搜索加入Chrome浏览器。苹果也很快推出了它自己的版本,名为Siri,而微软的语音识别功能名为AI Cortana,名字来自流行的光环系列游戏(Halo)中的一个人物。

所以,下一步会发生什么?"在语音处理领域,最成熟的技术就是语音合成,"奥戈尔曼说,"机器语音和人类语音现在已经基本上无法区分。但是在很多情况下,自动语音识别与人耳相比仍有较大差距。"虽然在一个几乎没有噪音的环境下,一个人只要讲话清晰就能被自动识别,但是当发生所谓的"鸡尾酒会效应"(人类能够在嘈杂的聚会中听到某一个人说的话)时,最新技术仍束手无策。就连Alexa也是这样,如果房间里很吵闹,你就必须靠近黑色圆柱体,清楚大声的对它讲话。

亚马逊在语音识别方面的尝试是受到了《星际迷航》(Star Trek)中计算机的启发,凡德·穆勒恩说。亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然的与它交谈。当然,好莱坞的魔法仍然领先于今日的科技。但是,凡德·穆勒恩说:"我们正处于机器学习和人工智能的黄金时代。让机器按照人类的方式做事仍然遥不可及,但是我们每天都在解决一些难以置信的复杂问题。"

请访问 BBC Future 阅读 英文原文

更多有关此项报道的内容