人工智能公司為什麼要不停的砸玻璃?

(圖片來源:Audio Analytic) Image copyright Audio Analytic

在位於英國劍橋北部的英國空軍基地的一個隔音機庫中,克里斯·米切爾(Chris Mitchell)和他的同事正在忙著揮舞大錘給計算機"上課"。

米切爾的該團隊收集了數以千計的不同形狀和尺寸的玻璃窗和門,然後一個接一個的敲碎,並錄下每種類型玻璃破碎時的獨特聲音。使用的工具也不盡相同,有時他們用大錘或花園鐵鍬,有時他們扔磚。"我們完全低估了這件事有多麻煩,"米切爾說,"而且沒想到會這麼累。"

歡迎來到人工智能的最新前沿。米切爾是位於劍橋的創業公司音頻分析(Audio Analytic)的首席執行官和創始人,這家公司正在訓練機器學習系統識別玻璃破碎的聲音。

Image copyright Getty Images
Image caption 米切爾的團隊與獸醫一起追蹤和記錄盡可能多的包括從京巴到大丹犬等不同品種在內的狗的吠聲(圖片來源:Getty Images)

不只是玻璃而已:該公司還在教計算機識別對人類重要的其他聲音,如煙霧報警器的聲音、嬰兒嚎啕大哭的聲音、狗叫聲。他們的想法是把計算機識別聲音的這種能力融入智能家居系統中,這種系統不會把玻璃杯摔碎的聲音與窗戶被砸碎的聲音混淆起來,這樣,當有人闖入你家或你的孩子開始哭泣時系統就會向你發出警報。

在過去幾年中,計算機已經非常擅長通過視覺了解世界。人工智能在識別某些物體,特別在面部識別領域,已經比人類做的更好。但語音識別領域進展緩慢。語音識別能力是蘋果的Siri、谷歌Home和亞馬遜的Alexa系統的核心能力。不過到目前為止高精度聲音識別沒有得到過多的關注。對大多數機器來說,日常噪音只是背景雜音。

米切爾想改變這一點。 "我們正在研究的是一個新的人工智能領域,我們稱之為人工音頻智能,"米切爾說,"這一領域尚未作出任何有意義的突破。"

音頻分析屬於新的一批專門訓練機器學習系統來識別聲音模式的初創公司。總部位於柏林的Uberchord公司正在開發一個人工智能系統,它可以幫助人們學習彈吉他。它會聽你的彈奏,然後告訴你在什麼時候你的指法錯了。除了Uberchord以外,還有幾家聲音領域的人工智能公司獲得了阿比路錄音室(Abbey Road Studios)的投資,披頭士樂隊曾經在這家錄音室錄製專輯。

另一家創業公司劍橋顧問(Cambridge Consultants)則教人工智能識別不同類型的鋼琴音樂,如拉格泰姆音樂(ragtime)或巴洛克(baroque)。公司名為Aficionado的系統接受了幾百小時鋼琴樂曲的訓練,包括專業唱片和來自YouTube的業餘練習視頻。劍橋顧問公司的蒙提·巴洛(Monty Barlow)說,我們故意使用雜亂無章的訓練數據,"我們就是想看看人工智能系統是否能處理無比複雜的現場音樂。"

然而,Aficionado系統的音樂才華不只是為了表演。結果證明,讓系統接受音樂訓練,並讓它忽略不相關的因素如速度、音量或音調,是讓它學習在複雜的數據中找到規律的很好的方式,無論音樂表現的內容是什麼。 Aficionado系統的第一個任務是確定電信網絡中的故障。

Image copyright Audio Analytic
Image caption 分辨酒杯摔碎和窗戶被砸碎之間差異的能力,可以讓智能家居系統在你家遭人入侵時發出提醒(圖片來源:Audio Analytic)

但是音頻分析有更大的野心。"我們想要創造一個對所有聲音的分類法,這是一個巨大的工程,"米切爾說。到目前為止,該公司的軟件可以識別窗戶被打破的聲音,嬰兒的哭泣聲和煙霧報警器的聲音。上周,在拉斯維加斯的國際消費電子展(CES)上,他們還把狗的叫聲添加到他們的聲音庫中。

他們還在製造一個異常檢測器,它會識別不正常的聲音,比如正常的嘈雜的背景音發生了變化,有人摔倒的咔嗒聲,或者水管洩漏的嘶嘶聲。最終,他們想要加入汽車警笛,還有為美國市場凖備的槍聲。音頻分析計劃之後將把這些聲音識別系統的使用許可提供給智能家居家電的製造商。

英國智能恆溫器和照明公司Hive的總經理尼娜·芭提雅(Nina Bhatia)說,識別不同聲音的能力很重要。 "通過智能家居技術檢測和解讀各種各樣的環境聲音的重要性日益加強,這樣當人們不在家時,他們就可以輕鬆快速地應對發生的事情,"她說,"如果你在開會時,家裏的煙霧報警器響了,你就會接到警報。而不是只有當你在沙發上時,你才會獲得警報。"

除了向您的手機發送警報之外,這些系統也可以自己採取行動。窗戶被砸碎後,系統可以開燈。嬰兒的哭泣聲也會打開夜燈,然後附近的揚聲器就會播放搖籃曲。

事實上,中國電子公司生迪智慧(Sengled)正在把音頻分析公司的技術應用到內置揚聲器的智能燈具的底座裏。其他智能家居公司也正在將它安裝到它們的設備中,包括恆溫器。恆溫器通常安裝在家中的中心位置,是監聽的好地方。

難點在於要確保人工智能正確識別它聽到的聲音,因為錯誤的警報可能會造成混亂。然而機器學習系統無法超越訓練時聽過的例子。正如米切爾所說:"除非你有數據,否則人工智能一點用都沒有。"

獲取這些數據是件難事。"我們連續幾周不停的砸玻璃,"米切爾說。"其中一些窗戶是完整的落地櫥窗。敲碎那些玻璃時,當玻璃摔下來時可能會砍斷你的腳或腿。

Image copyright Alamy
Image caption 是鳥叫,還是煙霧報警器?一些種類的鸚鵡有很強的模仿報警器嗶嗶叫的能力,可能會讓人工智能發生混淆(圖片來源:Alamy)

為了獲得足夠多的嬰兒哭泣聲的錄音,該公司與劍橋的父母團體合作。為了編目他們錄製的內容,他們當時不得不造出一些詞匯來描述不同類型的哭泣聲。米切爾說:"例如,有一種非常聲嘶力竭的哭喊,似乎是用喉嚨的後面發音,我們稱之為'聲樂哭(vocal cry)'。"

狗叫聲比較容易。他們與獸醫合作,跟蹤了盡可能多的不同品種,從小型京巴狗的叫聲,到和沙發一樣大的大丹犬的叫聲。

為了讓他們的系統知道煙霧報警器的聲音,音頻分析公司直接在網上買了幾乎所有型號的報警器。現在辦公室的貨架上堆放著數百台報警器。最初,他們的人工智能很難區分自煙霧報警器的聲音和其他家電發出的嗶嗶聲,如電話鈴聲、鬧鐘和烤箱計時器。於是,他們讓人工智能不僅關注警報的音高和持續時間,還要關注嗶嗶聲之間的獨特的間隙。

但無論你打碎多少玻璃,拉響多少個煙霧報警器,總會有新的驚喜。有一種鸚鵡,竟然能模仿煙霧報警器嗶嗶叫的聲音。於是,音頻分析不得不讓系統忽略鳥類的假警報。

他們想教系統的另一個聲音是當人類發出激奮聲音時的音調和語調變化,比如有人威脅要採取暴力。這不會因為語言或文化的不同而發生很大變化,米切爾說。當腎上腺素大量分泌並影響發聲系統時,人的聲音會發生特殊的變化。

然而音頻分析公司已經被迫將其擱置,因為他們發現小區裏雞的叫聲和鏈鋸的聲音也會觸發他們的警報器。

這是一個嘈雜的世界——但是人工智能才剛剛開始聆聽。

請訪問 BBC Future 閲讀 英文原文

更多有關此項報導的內容