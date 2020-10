「大數據」之所以在過去幾年間大行其道,主要是人類在製造、儲存及分析數據的技術上,取得了重大的突破。互聯網的誕生與普及、社交媒體(social media)及物聯網(Internet of Things)的興起與流行,及保安監察鏡頭的急增,是形成大數據的主要原因。有統計數字顯示,以量來計算,人類現存的數據,有90%都是在近年才被產生和儲存。

有趣的是,因數據隨時可輕易翻幾番,「大數據」本身並沒有一個客觀的定義,只是籠統地被視為傳統分析工具不能輕鬆應付的數據量。換言之,在科技不斷進步下,今天的大數據,只會是明天的小數據。面對這個史無前例的大數據現象,「數據科學」(Data Science)亦應運而生,希望發掘新的知識與技術,發揮大數據中的智慧和價值。

易被複製 若被盜難補救

有份把「大數據」一詞推動成一個家傳戶曉詞彙的,是由牛津大學學者Viktor Mayer-Schönberger有份合著、在2013年初版、全球銷量早已突破100萬本的《大數據時代:生活、工作與思維大變革》一書(註1)。書中對於大數據的影響和威力,作出了很多正面的評價。但「一面天堂,一面地獄」,若要真實和較全面地認識大數據對人類社會的衝擊,還要看另一本書——由哈佛大學商學院教授Shoshana Zuboff所著的《監控資本主義時代》(The Age of Surveillance Capitalism;註2)。作者指出很多商業上的大數據,最終目標只有一個,就是透過監控及預測顧客的行為模式,從而爭取最大利潤。

在一個數據代表了知識和力量的大數據時代,當數據落在商業機構的時候被用作擴大利潤,但落在政府手上的時候,影響就更深遠,使政府的權力可無限擴張,危害市民的權利和自由。

和一般的貨品不同,數據有兩大特色。第一,是它容易被複製,所以被偷取後也不易被察覺。第二,是關於它的修補性的局限。一般的貨物被偷取後,仍有機會物歸原主,原璧歸趙,但萬一數據被盜,要補救便十分困難。如果外泄的只是用戶密碼等簡單數據,當然可以輕易更改,但若被盜的是受害人的血型、指紋及基因等資料,就不能更改,所帶來的損失隨時是一生一世,這亦突顯了為何保障私隱及數據安全是如此重要。

要發揮大數據的善,盡量降低它的惡和害,如何增加透明度、制衡和監察,使數據提供者也可享用蒐集後的數據等措施,來建立市民與政府的互信,便是成功與失敗的關鍵。所以,在「大數據」的發展上,絕不能只有科技上的討論,而缺乏政策上的配合,政府必須建立一個有效的「數據管治政策」(data governance policy)。大家絕對不應看小這一線之差,因為它隨時可以帶來天淵之別,頓然把「大數據」演變成「大恐懼」,加強了政府的操控能力之餘,卻減低了它的問責度和透明度,削弱了市民的權利和自由,而香港近日便提供了一些活生生、可列作教科書教材的典型例子。

市民缺信心 最大責任在政府

其中一個例子,自然是特區政府剛在9月完成的新型冠狀病毒全民自願檢測計劃。雖然計劃是免費,政府亦有足夠能力為最少500萬市民提供測試,但參與的最終卻只有約170萬人次,數字只佔香港總人口約兩成。從社會上的討論得知,大部分市民未有積極參與這次檢測的原因之一,正是對自己的私隱和大數據的擔心。

市民憂慮政府可以透過今次的檢測,得到他們的基因資料,並用於社會監察之上,甚至擔心這些資料有機會被送往內地,成為國內的維穩大數據。當然,在整個過程中,社會上最終沒有任何人能夠拿出實質的證據來支持以上的說法,一切也可能只是基於市民的庸人自擾,杞人憂天。但可以肯定的是,因為擁有及掌握所有重要資料的是政府一方,而一個簡單有效釋除市民疑慮的方法,就是政府選擇主動公開更多資料,加入有助增加公信力的第三方監察與制衡。不過,政府卻沒採取以上行動。

因此,市民對大數據庫缺乏信心,要負上最大的責任的,仍然是政府一方。這次的自願檢測計劃,無形中成為了市民對政府處理大數據的公信力的公投,成績明顯是未如理想。

良好數據管治是政策問題 也是社會互動過程

類似的由「大數據」演變成「大恐懼」的事情,在香港已非首次發生,另一個較早之前的矚目例子,是在去年8月,在「反送中修例」的社會運動中,被示威者推倒破壞的智能燈柱。

從純科技的角度來看,智能燈柱在智慧城市(smart city)的發展上擔當着舉足輕重的角色。它除了可以充當第五代流動通訊技術(5G)的發射站外,也是智慧城市中的物聯網的重要部分,負責蒐集交通及空氣質素等重要數據,以方便運輸、醫療及環保等系統的緊密配合,以提升效率、準確性及城市生活的質素。

可惜,和病毒自願檢測計劃一樣,智能街燈同樣遇上演變成「大恐懼」的命運。由於政府公布的資訊在數量上及可信度上不足,整個計劃成為了市民看不通之餘更帶來恐懼的「黑盒」。表面上,這可能是反映了部分市民的過敏或無知,但實際上,這是政府沒有重視使「大數據」可有效運用的促成因素、並未建立良好和完善的「數據管治政策」下的必然惡果。要有效建立和運用大數據的必要條件,是必須明白良好的數據管治是一個政策的問題,也是一個社會互動的過程。

作者是中文大學數據科學及政策研究課程主任

