機器如何學會聽懂人說話?

(圖片來源:Science Photo Library) Image copyright Science Photo Library

一個剛學會走路的小孩搖搖晃晃穿過起居室,來到牆角的一個光滑的黑色圓柱體前停下來。他尖聲說道:"Alexa,播放兒童音樂。"雖然發音含混不清,但是這個圓柱體明白了請求,房間裏響起了音樂。

Alexa是亞馬遜的雲端語音識別軟件,它是黑色圓柱體音箱Echo的大腦。Alexa的面世在全球造成了轟動,除了小孩以外,因為他們覺得這是理所當然的。小孩子會伴隨著Alexa成長。在人工智能的支持下,Alexa學會了回答越來越多的問題,有朝一日可能會進化到能與人自由交談的地步。

但是,任何10歲以上的人都知道,從前不是這樣的。語音識別軟件發展到今天經歷了漫長的道路。雖然Echo比啤酒杯更瘦,但是第一批語音識別機器——二十世紀中葉開發的那些——幾乎可以佔滿一整個房間。

Image copyright Amazon
Image caption 亞馬遜Echo把語音識別帶進人們的起居室(圖片來源:Amazon)

人類很久以前就試圖對機器講話——或者至少讓機器對我們說話。"語音能夠讓我們與機器實現難以置信的簡單互動,它是最自然、最方便的交互方式,也是我們每天都在使用的東西,"亞馬遜設備事業部和亞馬遜Alexa歐洲區副總裁喬利特·凡德·穆勒恩(Jorrit Van der Meulen)說,"語音就是未來。"

1773年,俄國科學家、在哥本哈根生活的生理學教授克里斯蒂安·克拉特齊斯坦(Christian Kratzenstein)開始思考語音技術。他製造了一個特別的設備,把共鳴管和風琴管連接起來,發出類似於人類語言中元音的聲音。就在十多年後,維也納的沃爾夫岡·馮·肯佩倫(Wolfgang von Kempelen)製造了一台類似的機械聲學語音機器。在十九世紀初,英國發明家查爾斯·惠斯通(Charles Wheatstone)用皮革共鳴器改進了馮·肯佩倫的系統。該系統可以通過手動調整或控制發出像語言一樣的聲音。

到1881年,亞歷山大·格拉漢姆·貝爾(Alexander Graham Bell)和他的兄弟查爾斯·薩姆納·天特(Charles Sumner Tainter)一起製造了一個蠟塗層的旋轉圓柱體,一根唱針對傳入的聲音壓力作出反應,切出垂直的凹槽。這一發明為1907年獲得專利的第一台留聲機鋪平了道路。他們是希望用機器來聽寫秘書念的筆記和書信,這樣就不再需要速記員。隨後,這些記錄可以用打字機打出來。這一發明很快在全球流行起來,在越來越多的辦公室裏,秘書會帶著笨拙的耳機,聆聽錄音並完成轉錄。

但所有這些雛形都是被動式機器——直到1952年自動數字識別機"Audrey"的問世。它由貝爾實驗室(Bell Labs)製造,體型巨大,佔滿了一個六英尺高的繼電器架子,耗電量很大,連接著大量纜線。它能夠識別語音的基本單位"音素"。

那時,計算機系統非常昂貴、笨重,存儲空間和運算速度有限。但是Audrey仍然能夠識別數字的發音——零到九——凖確率高達90%,至少它的開發者戴維斯(HK Davis)發音時是這樣。當面對其他幾位指定的說話者時,它的凖確率為70%到80%,但如果是不熟悉的聲音,它的凖確率就會大大降低。"這在當時是一個驚人的成就,但是那個系統需要一整個房間的電子設備,還需要專業的電路,才能識別單個數字,"貝爾實驗室信息分析部的查理·巴哈爾(Charlie Bahr)說。

Image copyright Science Photo Library
Image caption 電話的發明者亞歷山大·格拉漢姆·貝爾在語音識別方面也完成了重要的工作(圖片來源:Science Photo Library)

由於Audrey只能識別指定說話者的聲音,它的用途就比較有限:比如它可以為收費電話的接線員提供語音撥號的功能,但實際上沒有這個必要,因為在大多數情況下,通過手動按鈕撥號成本更低,且更簡便。Audrey仍然是雛形——它領先於普通的計算機。雖然它並沒有用在生產系統中,但是"它說明了語音識別是可以實現的,"巴哈爾說。

但是還有另一個目標。"我相信Audurey開發的最初目的是要減少帶寬,即電線上傳輸的數據量,"巴哈爾的同事、諾基亞貝爾實驗室(Nokia Bell Labs)的拉里·奧戈爾曼(Larry O'Gorman)說。語音識別所需帶寬比原始聲波要小。但是隨著二十世紀七十和八十年代電話機開關的數字化,電話線路分配變的更快、更便宜,同時仍需要接線員來理解撥號請求。於是,二十世紀七十年代和八十年代,貝爾實驗室語音研究投入了大量精力研究以下內容:識別數字零到十以及"是"與"否"。"電話系統在能夠識別這12個單詞後,就能夠單純依靠機器完成電話接線,"奧戈爾曼說。

Audrey並不是唯一。二十世紀六十年代,日本的幾個團隊也對語音識別進行研究,最著名的包括東京無線電研究實驗室(Radio Research Lab)的元音識別器、京都大學的(Kyoto University)音素識別器和NEC實驗室的數字語音識別器。

在1962年的世界博覽會上,IBM展示了它的"鞋盒"(Shoebox)機器,它能夠理解16個口頭表達的英語單詞。美國、英國和蘇聯還有其他研究。蘇聯的研究人員發明了動態規整(DTW)算法,並將其用來製造一個能夠駕馭200個單詞的識別器。但這些系統大都基於樣本匹配,也就是把單詞與存儲在機器裏的語音進行匹配。

最大的一次飛躍發生在1971年,當時美國國防部的研究機構Darpa出資開展一個為期五年的語音理解研究項目,目標是達到1000個單詞的詞匯量。很多公司和學術機構參與了該項目,包括IBM、卡內基梅隆大學(Carnegie Mellon University)和斯坦福研究所(Stanford Research Institute)。於是,Harpy在卡內基梅隆大學誕生。

和它的前輩不同,Harpy能夠識別整句話。"我們不想查詞典——所以我想要製造一個能夠翻譯話語的機器。這樣,當你在講一種語言時,它會把你說的話轉換成文本,然後進行機器翻譯,所有任務都一次完成,"卡內基梅隆大學曾經在Harpy項目和該大學的Hearsay-II項目工作的計算機科學教授亞歷山大·韋貝爾(Alexander Waibel)說。

Image copyright iStock
Image caption 電話的到來加速了語音識別技術的發展(圖片來源:iStock)

從單詞轉到詞組並不容易。"句子裏的單詞會交匯起來,你會弄不清楚,不知道單詞從哪裏開始,到哪裏結束。於是,你會得到'euthanasia'這樣的東西,而它可能是'youth in Asia'。"韋貝爾說,"或者,當你說'Give me a new display'時,它可能會被理解為'give me a nudist play'。"

Harpy一共能識別1011個單詞,這大概是一個普通的三歲小孩的詞匯量。它的凖確率也相當不錯,所以實現了Darpa最初的目標。"它成了現代語音識別系統真正的祖先,"卡內基梅隆大學語言技術所的所長傑米·卡博內爾(Jaime Carbonell)說,"它是第一個成功利用語言模型判斷哪些單詞放在一起會產生意義的系統,因此它能夠降低語音識別的錯誤。"

在之後的一些年裏,語音識別系統進一步發展。在二十世紀八十年代,IBM製造了語音激活的打字機Tangora,它能夠處理20000個單詞的詞匯量。IBM的方法是基於隱馬爾可夫模型(hidden Markov model),把統計學納入數字信號處理技術。這一方法讓我們有可能預測哪些音素最有可能出現在某一給定音素的後面。

IBM的競爭對手Dragon Systems提出了自己的方法。此時,技術取得了長足的進步,語音識別終於能夠應用到實際生活中——比如可以讓兒童訓練講話的玩偶。雖然取得了很多成就,但是當時的所有程序都採用了不連續聽寫,這意味著用戶必須在每個單詞後停頓一下。1990年,Dragon Systems發佈了第一款消費語音識別產品Dragon Dictate,9000美元的售價令人咂舌。然後,在1997年,Dragon NaturallySpeaking 問世——這是第一款連續語音識別產品。

"在那以前,語音識別產品局限在不連續的話語,這就意味著它們一次只能識別一個單詞," Nuance Communications公司高級副總裁、Dragon的總經理彼得·馬奧尼(Peter Mahoney)說,"Dragon是連續語音識別的先鋒,它首次實現了實用的語音識別,可用來創建文件。"Dragon NaturallySpeaking每分鐘能夠識別100個單詞的話語——時至今日,它仍在使用。比如美國和英國的很多醫生用它來歸檔醫療記錄。

Image copyright iStock
Image caption 微軟的個人智能助理小娜(Cortana)是數十年實驗的成果(圖片來源:iStock)

在過去的十年間,大致基於人腦工作模式的機器學習技術讓計算機能夠接受大量語音的訓練,從而成功識別不同人的不同口音。

然而,直至谷歌發佈了用於蘋果手機的谷歌語音搜索應用"Google Voice Search",技術才又繼續向前發展。谷歌的方法是使用雲計算處理應用收到的數據。突然間,大眾可以獲得的語音識別擁有了大規模計算的能力。谷歌能夠運行大規模的數據分析,匹配用戶的單詞和數十億個搜索詞條中積累的大量人類語音的例子。2010年,谷歌為安卓手機的語音搜索添加了"個性化識別"。2011年中期,又把語音搜索加入Chrome瀏覽器。蘋果也很快推出了它自己的版本,名為Siri,而微軟的語音識別功能名為AI Cortana,名字來自流行的光環系列遊戲(Halo)中的一個人物。

所以,下一步會發生什麼?"在語音處理領域,最成熟的技術就是語音合成,"奧戈爾曼說,"機器語音和人類語音現在已經基本上無法區分。但是在很多情況下,自動語音識別與人耳相比仍有較大差距。"雖然在一個幾乎沒有噪音的環境下,一個人只要講話清晰就能被自動識別,但是當發生所謂的"雞尾酒會效應"(人類能夠在嘈雜的聚會中聽到某一個人說的話)時,最新技術仍束手無策。就連Alexa也是這樣,如果房間裏很吵鬧,你就必須靠近黑色圓柱體,清楚大聲的對它講話。

亞馬遜在語音識別方面的嘗試是受到了《星際迷航》(Star Trek)中計算機的啟發,凡德·穆勒恩說。亞馬遜的目標是製造一個完全可由語音控制的雲端計算機——這樣你就可以自然的與它交談。當然,好萊塢的魔法仍然領先於今日的科技。但是,凡德·穆勒恩說:"我們正處於機器學習和人工智能的黃金時代。讓機器按照人類的方式做事仍然遙不可及,但是我們每天都在解決一些難以置信的複雜問題。"

請訪問 BBC Future 閲讀 英文原文

更多有關此項報導的內容