大數據的「近因偏差」煩惱

Image copyright Getty

全世界90%的數據都是最近幾年生成的,人們對這個結論可能已經耳熟能詳。儘管我能找到的這個說法的最早出處是在2013年5月,但是,這種趨勢卻始終未曾發生變化。事實上,過去30年間,每隔兩年,全球總數據量就會增長大約10倍——這讓計算機行業的摩爾定律相形見絀。

信息爆炸所帶來的問題之一在於,即便和不久之前相比,當前的信息量規模都會大到不可思議的程度。假如有一本信息影集代表了你從嬰兒到成年的前18年人生,並且照片數量的增長速度和全球數據量保持一致,如果頭兩年你只有兩張照片,那麼從6歲到8歲的兩年間你就會有兩千張照片,從10歲到12歲有20萬張,從16歲到18歲則有驚人的2億張,這意味著在16-18歲期間你每秒鐘就會拍3張照片。

當你回過頭去以更長遠的眼光來看待事物時,你會發現,你有太多太多近期的的事件,而較早的數據和事件是那麼的稀少。

當然,全球數據不能這樣簡單類比。全球數據增長的主要原因在於更多的人口產生了更多信息源,以及更大的和更複雜詳細的信息結構。然而,如果試圖回顧或分析與上文所述影集類似的歷史記錄,你會發現一個相同點,越遙遠的歷史所留下的信息和記錄就會越稀少。怎麼會發生這種事情呢?

這就是目前大數據採集分析中存在的一項弊端。無論你在哪一個時間點開始回顧歷史,都會遇到同一個麻煩:近期數據的數量遠遠超過遠期歷史數據,由此,這個分析系統會過度重視短期趨勢而忽略長期趨勢,從而受到短視的困擾。

Image copyright Getty
Image caption 大數據分析存在的問題之一在於,即便和不久之前相比,當前的信息量規模都會大到不可思議的程度。(圖片來源: Getty)

為了理解這個問題的重要性,需要考慮社會科學中有關「近因偏差」(recency bias,又稱近因效應)的研究發現。近因偏差是指:人們在判斷事物發展趨勢時,會認為未來事件將會和近期體驗高度類似。這可以說是某種「可利用性法則」(availability heuristic)——不恰當地以最容易認知的信息來作為思考的基礎。這還是一種普遍的心理學特徵。

舉例來說,如果在你居住的地方,過去幾年的夏季氣溫都很低,那麼你可能會認為夏季氣候正在變得更冷——或者說你當地的氣候正在變冷。但是,你不應該只根據少量數據分析長期趨勢。你需要有一個長遠視角,才能認識真正有意義的氣候趨勢。短時期內,最好不進行任何猜測。不過,我們之中又有誰能真正做到這點呢?

現實生活中大部分複雜事物的現象正是如此:股票市場、經濟發展、企業的成功與失敗、戰爭與和平、國家關係、帝國的崛起和衰落等等。短期分析不僅不扎實、毫無益處,還會產生誤導。回頭看看,就在2009年全球金融危機襲來的時候,還有那麼多經濟學家信誓旦旦地宣稱這一事件不會發生。認為根據那種短期時間尺度的數據就能做出扎實的預測,這種想法本身就有很大的問題。

我們還應當記住,在決定哪些數據該保存還是刪除的時候,新穎性往往會成為主要的考慮因素。舊的淘汰,新的進來,在這個搜索算法本質上偏向於新鮮事物的數字世界中,這是一個明顯的趨勢。從最高法院的裁決,到所有社交媒體服務平台,我們到處都可以看到已經失效的網址。我們身邊的幾乎所有技術都偏向於當前信息,人也一樣:大多數人已經習慣用個四五年就把原本光鮮亮麗的設備丟掉。

怎麼辦?這個問題已經不僅僅在於如何更好保存舊數據的範疇——儘管這並不是個壞主意,想想我們現在還有什麼東西能流行保留10年之久。更重要的是,這個問題關係到確定哪些東西值得優先保存,以及如何在知識的名義下,選擇哪些信息最有意義

Image copyright Getty
Image caption 我們需要更明智地決定首先保存哪些數據。(圖片來源: Getty Images)

或許我們需要的是我所稱之為的「智能性遺忘」:應該讓我們的工具更多地放棄最近的信息,從而在長遠視角上保持更高水平的連續性。這有點像是以數學方法重新整理一本影集。什麼時候兩百萬張照片的價值比兩千張照片更低?什麼時候較大的樣本量覆蓋範圍反而較小?哪些問題的重要性較低?哪個細節水平能提供有用的質疑證據,而不是虛假的信心?

許多數據集是無法縮減的,只有在完整的情況下才最寶貴,比如,基因序列、人口統計學數據、地理和物理學的原始觀測數據等等。數據的科學性越弱,數據規模與數據的質量就越可能呈現負相關,此時時間本身就成為更加重要的過濾工具。我們如果不仔細選擇過去保存下來的有價值、有意義的事物,它們就會被迅速膨脹的信息洪流悄無聲息地吞沒掉。

能否考察長期歷史遺留下來的數據取決於考察者是否有足夠的時間和注意力。今天的企業、個人和政府機構都能夠獲得比以往(甚至就在幾年前)大許多數量級的數據,但是董事會成員、首席執行官、政府官員等決策者卻沒有足夠時間和注意力來應對這些數據。

今天的決策者們有越來越高效的工具幫助他們就所持有的數據提出問題——但你只應該分析有意義的數據。單純的數量累積不是一個好的對策。在一個數據量越來越大的時代,如何選擇主動放棄哪些事情,與選擇做什麼事情一樣重要。

請訪問 BBC Future 閱讀 英文原文

更多有關此項報導的內容