觀點

李立峯

李立峯:大數據能否預測選舉結果?從美國大選說起

【明報文章】四年一度的美國大選雖然仍然爭議未決,但不少論者已開始就結果進行分析,部分討論再次集中在民調準確性的問題上。筆者在剛過去的周日也在《明報》「星期日生活」寫過相關文章。但在民調以外,有些報道和評論指,使用網絡數據分析(亦即常常聽到的所謂「大數據分析」)來預測選舉結果,將會是未來的趨勢。從今次美國大選看,使用網絡數據來預測選舉結果是否真的更為準確?作為一種新興方法,運用網絡數據作選舉預測遇上的最大挑戰包括什麼?

先旨聲明,筆者在過去兩年跟同事合作進行過一些以社交媒體數據為基礎的研究,但自己並不是大數據分析的專門人才,以下談的不是細節性和技術性的問題,而只是從社會科學方法學發展的角度出發,簡單談談網絡數據分析應用的現狀。

「有人中有人唔中」

首先可以指出的是,據美國傳媒報道,開發人工智能系統的公司Expert.ai以人工智能分析社交媒體數據,在10月中公開其選前預測,指拜登在全國投票中只會贏2.9個百分點;寫這篇文章的時候,根據《紐約時報》報道的數字,拜登在全國投票中只贏特朗普3.6個百分點,繼續點票的話,這個幅度有可能再增加一點,但應該仍然跟Expert.ai的預測非常接近。相比之下,很多以民調作基礎的預測,都指拜登在全國投票中會贏特朗普8個百分點左右,那的確是相形見絀了。

這代表大數據分析真的比民調更優秀嗎?投票日過後,《華爾街日報》就以一些機構如何使用人工智能預測選舉結果進行了一次簡單報道,報道一開首就提及Expert.ai,但也同時提及另外3間以人工智能方式分析網絡數據的機構,其中一間名為Unanimous.ai的公司看來將能夠成功地預測11個搖擺州份花落誰家,相比之下,以現時的點票結果看,民調在11個搖擺州份的預測,有兩個州份出錯,可以說,Unanimous.ai的預測也比民調優勝。

不過,另外兩間機構則沒有那麼準確了,華爾街日報的報道指Polly Pollster在過去成功預測了約20次選舉及公投,但沒有說明所謂成功預測是什麼意思(標準夠寬鬆的話,民調在2016及2020年都準確地預測特朗普會在全國總票數上輸的)。報道亦沒有提到,在今次選舉中,Polly Pollster的預測是特朗普得勝機會只有8%,相比之下,專門分析民調的538網站認為特朗普得勝機會有10%,亦即是說,Polly Pollster比起民調機構對特朗普看得還要淡一點。而最後一間華爾街日報提到的大數據機構ASI,更預測拜登能夠拿下372張選舉人票,跟結果相差甚遠。

「大數據分析」沒有一套通用方法

這裏,我們看到的不止是「有人中有人唔中」,而是一個更基本的問題,就是所謂「大數據分析」只是非常籠統的說法,實際上是看Twitter、facebook、網絡論壇、Google search,還是看什麼?分析時是用情感分析、看回應數量,還是其他指標?在多大程度上依賴機器學習和人工智能?如何將不同的數據整合?直至今天,學界和業界根本沒有一套通用的方法。這跟民調方法和預測的同質性很不一樣。例如今次選舉,RealClearPolitics在11月3日的預測是拜登在全國票數上贏7.2個百分點,538在11月3日的預測是拜登在全國票數上會贏8個百分點,《經濟學人》在11月3日的預測是拜登在全國票數上會贏8.8個百分點。由於基本方法共通而且固定,不同機構的預測不會有太大差異,於是對就全世界一起對,錯就全世界一起錯。相反,不同的大數據公司使用的方法很不一樣,提出的預測也很不一樣,在這情况之下,有機構的預測中了,其實只不過像一場賽馬有8隻馬,差不多每隻馬都有人買,那麼肯定有一個中的。

難驗證是否持續有效

當然,對大數據有憧憬的人可能說,也許今次預測準確的那一兩間機構,正是已經掌握了最好的方法?而大數據分析始終是相對新穎的事物,發展下去,準確度也許會繼續提升,有一天能超越民意調查?這些都是可能的,何况正如筆者在討論民調的文章中指出,民調的確有很多偏差來源,本來就不是用來做精確預測的工具。不過,大數據分析要繼續發展,說到底只能通過反覆測試,這裏,大數據分析難以達至方法上的同質性,又構成了問題。民意調查要準確,最重心的問題在抽樣,而抽樣原則不會因社會文化而異,實際抽樣程序的差異(例如是通過電話號碼抑或地址)也在絕大部分情况下不會對樣本和結果有太大影響。於是,同一套調查方法,可以簡單直接地拿到世界各地使用。

但網絡數據分析就沒有那麼簡單了,例如上面提到今次大選中預測準確的Expert.ai,其分析的數據基礎是Twitter的推文,但在美國以外,是否真的可以同樣地依賴Twitter?進一步說,4年後或8年後的網絡生態又會發展成什麼狀態?分析帖文需要使用到某種語言分析的工具,亦可能碰上一些屬於在地文化的元素(如一個國家或地區的網民會在多大程度及用什麼方法使用反諷),因此,分析不同國家的網絡數據時,在具體方法上其實是需要有較大調整的。於是,我們根本難以預期同一個方法在不同國家中適用,但同一個國家之中,選舉又不是太經常發生的事情,結果就是我們很難驗證數據公司的大數據分析或預測是否持續有效,數據公司本身亦沒有機會頻繁地測試和修正自己的方法。

這不是要抹煞網絡數據分析。今時今日,很多重要的輿論及民意動態在網上發生,網絡數據分析自有其必要性及用途。說到預測選舉,網絡數據分析和民調數據也有合併使用的可能性,但說網絡數據分析可以準確預測選舉,現時仍然有點言過其實。

作者是香港中文大學新聞與傳播學院教授

■稿例

1.論壇版為公開園地,歡迎投稿。讀者來函請電郵至forum@mingpao.com,傳真﹕2898 3783。

2.本報編輯基於篇幅所限,保留文章刪節權,惟以力求保持文章主要論點及立場為原則﹔如不欲文章被刪節,請註明。

3.來稿請附上作者真實姓名及聯絡方法(可用筆名發表),請勿一稿兩投﹔若不適用,恕不另行通知,除附回郵資者外,本報將不予退稿。

4.投稿者注意:當文章被刊登後,本報即擁有該文章的本地獨家中文出版權,本報權利並包括轉載被刊登的投稿文章於本地及海外媒體(包括電子媒體,如互聯網站等)。此外,本報有權將該文章的複印許可使用權授予有關的複印授權公司及組織。本報上述權利絕不影響投稿者的版權及其權利利益。

[李立峯]

上 / 下一篇新聞