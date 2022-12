藉「合成數據」平衡私隱與開放

「合成數據」的奇妙之處,是它在開放數據研究與保障病人私隱之間取得一個平衡,因為從定義和本質上來說,它既非原始的真實數據(raw data),但卻擁有真實數據的同一統計學特徵,讓研究人員可以得到如同分析真實數據的結果。

合成數據可以如此神奇,是因為合成數據本身是由真實數據透過「機械人學習」(machine learning)的電腦程式轉化而成。最常見的程式是「生成對抗網絡」(generative adversarial network,或簡稱GAN),它的原理是由兩套獨立的電腦網絡系統互相對抗和競爭,一套系統作為生產者(generator),負責把數據轉化;另一套系統則擔當判斷者(discriminator)的角色,負責判斷真實和被轉化的數據,是否有破綻及漏洞。

一個理想的合成數據,必須同時滿足在數據分析和保護私隱上的兩方面條件。對於前者,自然是要做到在統計分析上,兩套數據必須得出相同的統計結果。在保護私隱方面,就需要滿足三方面的要求,第一和最基本的是「單獨挑出」(singling out),指不可能在合成數據上認出任何人。第二是「聯繫性」(linkability),即不可能透過合成數據上的紀錄,而發現或聯繫到真實數據上的原本紀錄。第三是「推斷」(inference),即不能夠從一個紀錄的其中一個數字,而推斷到這個紀錄的其他方面或特性的數據。

基於合成數據對促進醫學研究帶來革命性突破的巨大潛在貢獻,筆者所屬的香港中文大學數據科學與政策研究課程,便在上星期與羅氏藥廠(Roche)及香港人工智能協會合作舉辦了一個會議(註1),共同探討如何促進合成數據在醫學研究的使用。筆者負責的部分,主要是了解在政策方面的挑戰及如何把它們克服。這方面主要分成兩大部分:一是由畢業班同學組成的研究團隊負責的系統性文獻回顧(systematic literature review),以吸收已發表和公開的研究內容和智慧;再進入第二部分,認清政策上的阻力和挑戰,從而制訂相應策略。

技術已證明可行 阻力在政策層面

在系統性文獻回顧上,我們的研究團隊發現,大部分研究文章仍然是集中在探討和分析合成數據的技術層面,例如如何透過演算法可以平衡開放數據作醫學研究及保障私隱的雙重要求等;專注於其在政策上的挑戰的文章,卻絕無僅有。基於合成數據是屬於在數據科學和人工智能研究上的尖端領域,有這結果並不令人意外,但亦意味着在政策層面上,包括公眾認知(public awareness)及持份者聯繫(stakeholder engagement),合成數據有急起直追的需要。

真正令人感到有點意外的,是在所有的較技術的文章當中,均達到一個共識——認同合成數據能夠在促進醫學研究上,成功兼顧私隱和研究要求。由於學術界是一個十分挑剔和謹慎的群體,甚至有專找缺點和瑕疵的「職業病」,文人相輕、互不同意和各不相讓的現象亦不罕見。所以,這一點共識可謂得來不易,並是合成數據的能力和功效的質素保證。

既然在技術上已證明是可行,餘下的阻力和憂慮便是在政策層面上。例如在系統性文獻回顧中,其中一篇來自Stanford Technology Law Review的文章(註2),便在結論指出:「到最後,電腦科學的進步一定要配合有效的政策,才能促進有用數據的傳播。」(In the end, computer science progress must be met with sound policy in order to move the area of useful data dissemination forward.)

毫無疑問,增加公眾認知是展開政策階段的第一步。陌生和誤解,很容易帶來恐懼與抗拒。所以社會上除了專家和研究員之外,需要有更多人認識和了解何謂合成數據、它可以帶來的利益,及如何把可能的風險降至社會願意接受的水平。得到更多人的認識後,便可以達至更多的公眾討論,從而令專家、市民和相關持份者可以理性地交流,了解和處理巿民的擔心及疑問,最終為建立政策的具體內容及法律基礎做好準備。

保障病人可分享研究成果乃關鍵

由於在數碼化年代,資訊就代表了權力,有人當然會擔心若把過多資訊給予任何人或機構,會有導致權力過分集中而被濫用的風險。而在大眾對政府的信任仍未恢復的時候,政府要推動這項涉及敏感數據的政策,亦有一定難度。以上問題均是事實,但不足以使政策寸步難行,反而給予政府以外和被巿民信任的人及組織,包括專家、學者、研究員、大學、志願團體、有信譽和國際地位的商業機構,共同合作推動政策的機會。

基於病人是數據的來源,除了要爭取他們對政策和制度的信任之外,如何保障他們不需要付出昂貴費用而可分享研究成果,也是關鍵。否則萬一太多病人拒絕參與計劃,數據的代表性成疑,一切都前功盡廢。

在新冠病毒的抗疫戰場上,我們經常聽到如何讓經濟運作與病毒共存的爭論,棘手的是兩者存在不能化解的矛盾,使巿民和決策者面對一個兩難的魚與熊掌不可兼得困局。但在醫學研究上,合成數據的出現,卻為打破這個困局帶來新希望,甚至極有潛力被應用於其他政策範疇。而等待是有時間成本的——在醫學上,這些成本往往就是病人的痛苦和生命。所以,能夠把合成數據盡快應用於醫學研究上,是一個刻不容緩的議題。

註1:見會議網址https://bit.ly/3W5E1s2

註2:Bellovin, S. M., Dutta, P. K. & Reitinger, N. (2019). Privacy and Synthetic Datasets. Stanford Technology Law Review, 22(1), 1-52.

作者是美國史丹福大學行為科學高等研究中心研究員

