人工智能缺陷與誤覺:讓機器產生幻覺的「怪異事件」

Computers can be made to see a sea turtle as a gun or hear a concerto as someone's voice, which is raising concerns about using artificial intelligence in the real world. Image copyright Getty Images

乘客看到了停車標誌,突然感到一陣恐慌,因為他坐的汽車反而開始加速。當他看到前面的鐵軌上一列火車向他們疾馳而來時,他張開嘴對前面的司機大聲喊叫,但他突然意識到汽車前坐並沒有司機。列車以每小時125英里的速度撞上來,壓碎了這輛自動駕駛汽車,乘客當場死亡。

這個場景是虛構的,但是凸顯了當前人工智能框架中一個非常真實的缺陷。在過去的幾年裏,已經有越來越多的例子表明,機器可以被誤導,看見或聽見根本不存在的東西。如果出現「噪音」會干擾到人工智能的識別系統,就可能產生誤覺。在最壞的情況下,他們可能會因「幻覺」導致上面一樣危險的場景,儘管停車標誌在人眼中清晰可見,但機器卻未能識別出來。

Image copyright Kevin Eykholt et al
Image caption 「停止」標誌上一些簡單的貼紙就足以使機器視覺算法看不見這個告示,而在人類的眼中依然顯而易見。

人工智能領域工作者將這些小故障描述為「對抗性的例子」,或者有時更簡單地說是「怪異事件」。

美國麻省理工學院(Massachusetts Institute of Technology)的計算機科學家阿塔利(Anish Athalye)表示:「我們可以把這些東西看作是人工智能網絡會以某種方式處理的輸入信息,但機器在看到這些輸入信息後會做出一些意想不到的反應。」

看物體

到目前為止,人們主要關注的是視覺識別系統。阿塔利自己已經證明,將一張貓的圖像稍加改動,人眼看來仍是一隻標凖的貓,卻被所謂的神經網絡誤解為是鱷梨醬。神經網絡是一種機器學習算法,極大地推動了現代人工智能技術的發展。這類神經網絡視覺識別系統已經被用來增強你的智能手機的能力,讓手機在不被告知是誰的情況下對你的朋友照片進行身份標記,或者識別你手機照片中的其他物體。

最近,阿塔利和他的同事們把注意力轉向了實際物體。發現只要稍微調整一下它們的紋理和顏色,他的團隊就可以騙過人工智能,把這些物體認作別的東西。在一個案例中,棒球被誤認為是一杯濃縮咖啡,而在另一個案例中,3D打印的海龜被誤認為是步槍。還有其他例子,他們製造了約200個3D打印物體,這些物體以類似的方式欺騙了電腦。今天當我們開始在家裏使用機器人、在空中運用自動駕駛無人機、在街道上行駛自動駕駛汽車時,機器人的這種誤覺開始拋出一些令人擔憂的可能性。

阿塔利說, 「起初,這只是一種好奇,然而,隨著這些智能系統越來越多地部署在現實世界中,人們正將其視為一個潛在的安全問題。」

以目前正在進行實地試驗的無人駕駛汽車為例:這些汽車通常依靠複雜的深度學習神經網絡導航,並告訴它們該做什麼。

但在去年,研究人員證明,僅僅只在路標上粘一兩張小貼紙,神經網絡就可能受騙,將道路上的「停車」標誌誤認為限速標誌。

Image copyright MIT
Image caption 儘管對於機器學習算法,讓海龜看起來像步槍似乎是無害的,但研究人員擔心,隨著人工智能在現實世界中的應用,可能會帶來一些危險後果。

聽聲音

神經網絡並不是唯一使用的機器學習框架,但其他的人工智能框架似乎也容易遭受這些怪異事件的影響。並且不限於視覺識別系統。

谷歌大腦(Google Brain)正在研發智能機器。谷歌大腦的研究科學家卡裏尼(Nicholas Carlini)說,「在我見過的每一個領域,從圖像分類到自動語音識別,再到翻譯,神經網絡都可能受到攻擊,導致輸入信號被錯誤分類。」卡裏尼作了展示,加上一些摩擦的背景噪音後,「沒有數據集的文章是無用的」這句話的讀音,機器會誤譯為「好,谷歌要瀏覽evil.com」。而且它不僅限於語音講話。在另一個例子中,巴赫(Bach)的第一號無伴奏大提琴組曲(Cello Suit 1)中的一段音樂節選被記錄為「語言可以嵌入音樂」。

在卡裏尼看來,這些對抗性的例子「最終證明,哪怕在非常簡單的任務上,機器學習也沒有達到人類的能力」。

內在原理

人工神經網絡是大致模仿大腦(即生物神經網絡)處理視覺信息的功能並從中學習方法。想像一個小孩正在學習認識貓是什麼東西:當他們見到這種動物的次數越來越多時,就會開始注意到這種動物的一些固定模式,發現這團叫做貓的東西有四條腿,有柔軟的皮毛、兩隻尖耳朵、杏仁狀的眼睛和一條毛茸茸的長尾巴。在兒童的視覺皮層(大腦中處理視覺信息的區域)內,多層神經元會對視覺細節做出反應,如水平和垂直的線條,使兒童能夠構建一幅世界的神經「圖畫」,並從中學習視覺識別。

神經網絡的工作原理與此類似,獲取的數據通過多層人工神經元網絡傳輸進行信息處理,在接受到成百上千個相同物體的樣本(通常由人類標記)的訓練之後,神經網絡開始建立此物體的視覺識別模式,從而能夠在其後認得出正在觀看的東西是這種物體。其中最複雜的系統採用「深度學習」,這意味著需要擁有更多的信息處理層。

Image copyright MIT
Image caption 稍微改變物體的紋理,研究人員能夠讓一個3D打印的棒球看起來像一杯濃縮咖啡。

然而,儘管計算機科學家了解人工神經網絡如何工作,但他們並不一定知道在處理大數據時的具體細節。阿塔利說, 「我們目前對神經網絡的理解還不夠,比如說,無法凖確解釋為什麼會存在對抗性例子,也不知道如何解決這個問題。」

部分問題可能與現有技術被設計用來解決的任務的性質有關,例如區分貓和狗的圖像。為了做到這一點,神經網絡技術將處理大量貓和狗的模樣信息,直到有足夠的數據點來區分兩者。

研究機器學習框架可靠性和安全性的麻省理工學院計算機科學家麥德里(Aleksander Madry)說,「我們機器學習框架的主要目標是'就平均值而言'有良好的表現。當機器識別大多數狗的圖像表現很好時,你感到鼓舞,但總會有一些狗的圖像讓機器困惑,無法識別。」

或許一種解決方案是用更有挑戰性的圖像來訓練神經網絡。這可以使人工神經網絡免受異常值的影響。

麥德里說, 「這無疑是朝著正確方向邁出的一步。」雖然這種方法看起來確實使框架更加強大,但也可能有一些限制,因為有許多方法可以改變圖像或物體的外觀從而產生混淆。

一個真正強大的圖像分類器會複製"相似性"對人類的作用,因而可以認出一個孩子塗鴉的貓和一張貓的照片以及一隻現實生活中移動的貓代表的是同一樣東西。儘管深度學習神經網絡令人印象深刻,但在對物體進行分類、感知周遭環境或處理突發事件方面,仍無法與人腦匹敵。

如果我們想要開發出能夠在現實世界中發揮作用的真正智能機器,或許我們應該回到人腦上來,更好地理解人腦是如何解決這些問題的。

捆綁問題

雖然神經網絡是受到人類視覺皮層的啟發,但越來越多的人認識到這種相似性只是表面現象。一個關鍵的區別在於,除了識別物體邊緣的線條或物體本身等視覺特徵外,我們的大腦還對這些特徵之間的關係進行編碼,因此,物體的邊緣就構成了這個物體的一部分。這使我們能夠對我們所看到的模式賦予意義。

「當你或我看著一隻貓時,我們看到了構成貓的所有特徵,以及它們之間的相互關係,」 牛津大學理論神經科學和人工智能基金會(Oxford Foundation for theory Neuroscience and Artificial Intelligence)的斯特林格(Simon Stringer)如此說。「這種相互'捆綁的'信息是我們理解世界的能力和我們的一般智力的基礎。」

這個起關鍵作用的捆綁信息在當代的人工神經網絡中是缺失的。

斯特林格解釋說, 「如果你還沒有解決捆綁問題,你可能會意識到場景中的某個地方有一隻貓,但你不知道它在哪裏,也不知道場景中的哪些特徵是這只貓的一部分。」

Image copyright Getty Images
Image caption 對我們的耳朵來說,一段古典音樂聽起來就是樂器的交響樂,但這段音樂若稍作修改,人工智能可能會理解為是一個語音指令。

為了簡單易行,構建當代人工神經框架的工程師忽略了真實人腦神經元的一些特性,而科技界才剛剛開始明白這些特性非常重要。神經元通過將動作電位(action potentials)或「峰電位」(spikes)信號發送到身體的各個部位來進行交流,這就造成了神經元傳輸的時間延遲。個體神經元之間在傳遞信息的速度上也有差異,有些快,有些慢。許多神經元在決定是否放電時,似乎會密切關注它們接收到的脈衝的時機。

「人工神經網絡有這個屬性,即所有神經元完全相同,但大腦中的神經元卻有不同形態,這讓我意識到,人腦神經元的差異性不是無關緊要的,」布里斯托大學(University of Bristol)的神經系統科學家鮑爾斯(Jeffrey Bowers)說。他正在調查大腦哪些方面的功能未被當前人工神經網絡所採用。

另一個不同之處在於,人工合成神經網絡是通過一系列人工神經元層向一個方向傳輸信號。但斯特林格說,「在人類大腦皮層中,自上而下的連接和自下而上的神經元連接是一樣多。」

為了更好地理解人腦的工作原理,他的實驗室對人腦進行了計算機模擬。當他們最近調整他們的模擬,將這些關於真實神經元的時間和組織的信息整合到一起,然後用一系列的視覺圖像對計算機進行訓練時,他們發現計算機的模擬處理信息的方式發生了根本性的轉變。

他們開始看到更複雜的活動模式的出現,而不是所有神經元同時放電。其中一個人工神經元子群其作用似乎是信息守門人。這個神經元子群只有在整個系統所接受的某個視覺場景的所有低級和高級特性信息同時到達時才會放電。

斯特林格認為,這些「捆綁神經元」的行為就像大腦中的結婚證,使神經元之間的關係正式化,並提供了一種方法來驗證兩個看似相關的信號是否真的相關。通過這種方式,大腦可以檢測出現在視覺場景中的兩條對角線和一條曲線是否真的代表了一個特徵,比如貓的耳朵,或者是完全不相關的東西。

斯特林格說, 「我們的假設是,視覺大腦中呈現的捆綁特徵,以及在我們的生物強化神經網絡中的複製,可能在增強生物視覺的穩健性方面發揮重要作用,包括對物體、面孔和人類行為的識別。」

斯特林格的研究小組目前正在尋找證據,證明真實的人類大腦中存在這樣的神經元。他們還在開發「混合」神經網絡,將這些新信息結合進人工神經網絡,看看是否能產生一種更強大的機器學習形式。

鮑爾斯說, 「目前還不清楚這是否在真的大腦中發生,但這確實很吸引人,並突出了一些有趣的可能性。」

斯特林格的團隊將要測試的一件事是,他們受生物大腦啟發的神經網絡是否能夠可靠地區分一個老人是在家中跌倒,或只是坐著不動,或者是正在放下購買的日用品。

斯特林格說,「對於今天的機器視覺算法來說,這仍然是一個非常困難的問題,然而對人腦則是輕而易舉之事。」他還與位於英國威爾特郡(Wiltshire)波頓唐(Porton Down)的國防科技實驗室(Defence Science and Technology Laboratory)合作,開發他神經系統框架的下一代增強版。這個增強版可以用於軍事,比如從安裝在自動無人機上的智能攝像頭中發現敵方坦克。

斯特林格的目標是在20年內將老鼠等級的智能賦予一台機器。不過他承認創造人類水平的機器智能可能需要一生的時間,甚至更長。

麥德里同意,受神經科學啟示是解決當前機器學習算法問題的有趣方法。

他說,「越來越清楚的是,大腦的工作方式與我們現有的機器深度學習模式非常不同,因此,最終可能會走上一條完全不同的路才能成功。很難說可行性有多大,以及取得成功需要多長時間。」

與此同時,對於越來越多人工智能驅動的機器人、汽車和程序,我們可能需要避免對其過於信任。因為你永遠不知道人工智能是不是正在產生被誤導的視覺。

請訪問BBC Future 閲讀英文原文

更多有關此項報導的內容