【明報文章】維基百科(Wikipedia)長期以來都是互聯網上訪問量最高的網站之一,它向全球用戶提供海量、免費且可靠的知識。由於其詞條內容的高質量,它也是幾乎所有生成式人工智能(generative AI)都依賴的優質訓練數據來源。
然而蓬勃發展的AI產業,卻正在給維基百科帶來巨大挑戰,甚至可能威脅到它的生存前景。這個案例折射出:AI在帶來創新的同時,也可能會具備相當大的破壞性——它可以神奇地生成大量文字、圖片和影像,但也有可能吞噬那些高質量的內容生產者。
「AI爬蟲」 愈來愈多
最近一兩年來,維基百科背後的維基媒體基金會(Wikimedia Foundation)發現,維基百科的訪問者當中,非人類用戶的比例愈來愈高。
為什麼訪客當中會有不是人類的存在?原來,這些「訪問者」並非真正的讀者,而是AI公司部署的爬蟲程式(bots)。它們大量抓取維基百科的文本內容,用於訓練大型語言模型(LLM)。
在最近一篇博客文章中,維基媒體基金會指出,從2024年初開始,隨着各種大型語言模型的爆發,來自AI的訪問請求呈指數級增長;這對維基百科的頻寬等基礎設施,帶來了巨大的成本負擔。
「爬蟲」不僅對維基百科詞條的文字感興趣,也湧向維基百科上的大量圖片——這些圖片被用於訓練可以生成圖像的AI工具。數據顯示,從2024年1月到現在,用於下載維基百科上多媒體內容的頻寬,增長了50%。這種增長並非來自人類讀者,而是主要來自AI公司的「爬蟲」。
這些普通用戶看不見的「爬蟲」,正悄悄影響人類對維基百科的使用體驗。在一些特殊時期,例如名人去世或自然災害發生後,人們對維基百科上相應詞條的興趣會激增,同時也有大量AI公司的「爬蟲」訪問這些詞條,令網頁變得擁擠不堪,導致人類用戶的頁面加載速度變慢。一個最典型的例子,就是去年12月美國前總統卡特(Jimmy Carter)去世之後,維基百科的頻寬資源佔用達到了一個前所未有的水平,而其中大部分耗費資源的流量實際上都不是來自人類,而是來自「爬蟲」。
「AI爬蟲」給維基百科帶來沉重負擔,還有一個原因:與人類用戶的訪問模式不同,「爬蟲」傾向訪問維基百科上不太受歡迎的頁面。維基百科的系統通常會將經常被查看的頁面,緩存於離用戶較近的數據中心,以提高訪問速度和降低成本。然而,由於「AI爬蟲」不斷請求冷門頁面,這些請求必須從維基百科的核心數據中心提供服務,這導致了更高成本。維基媒體基金會數據顯示,至少65%的資源消耗流量來自「爬蟲」,儘管「爬蟲」產生的頁面瀏覽量僅佔總量的35%。
真人訪問 愈來愈少
一邊是來自「爬蟲」的訪問愈來愈多,另一面則是:直接訪問維基百科的人可能會持續下降。這是因為愈來愈多用戶習慣直接從與AI工具的對話當中取得信息,依賴由AI總結維基百科頁面之後所輸出的內容,而不是直接訪問維基百科網頁。
很多AI公司在使用維基百科的內容時,都沒有加上恰當的署名,這既是一種不尊重和侵權行為,也影響了維基百科的品牌知曉度,很可能會降低用戶訪問維基百科和貢獻內容的可能。
此前來自新聞媒體的經驗已表明:即使AI工具輸出的內容當中對信息來源加了署名,它們帶給媒體網站的流量仍然遠低於預期。這也就意味着,用戶很可能會滿足於從AI工具的對話界面取得信息,而不再需要訪問維基百科網站。
這種轉變,對維基百科的生存構成了顯著威脅。維基百科一直以來都依賴用戶訪問來維持其運作,因為用戶訪問不僅吸引了新的編輯者和貢獻者,也帶來了許多捐款——在訪問維基百科的詞條頁面時,用戶時常會見到募捐信息;其中一部分用戶在讀到這些信息後,會選擇慷慨解囊。如果用戶因為滿足於ChatGPT基於維基百科內容所輸出的總結,而不再直接訪問維基百科網站,那麼他們就不會成為編輯者和貢獻者,也不會見到網頁上的募捐信息。所以,維基百科的資金來源和內容維護,都將面臨嚴峻挑戰。
如果維基百科在內容和資金上都無以為繼的那一天真的到來,所有人都將為此付出代價,包括AI公司,因為它們會失去一個重要的、不斷更新的訓練數據來源。
開放的知識 被封閉的工具威脅
面對日益嚴峻的挑戰,維基媒體基金會正在制訂一個行動計劃,以應對AI帶來的問題。他們的首要目標,是建立能夠識別流量來源的系統,至少能夠將50%的自動化流量追溯到已知開發者。同時,基金會計劃改進其應用程式編程接口(API),以便更有效地提供維基百科的內容,並加強對內容使用的控制。通過API,可以更容易地關閉對違規開發者的訪問權限,而不是直接阻止他們訪問網站。
維基媒體基金會還將發布新指南,規範AI應用程式如何在使用維基百科內容時加上署名,包括在App(應用程式)、語音助手和其他產品之中。基金會希望通過這些措施,將AI機械人佔用的頻寬減少30%。
於年度計劃中,維基媒體基金會指出:「我們基礎設施的負擔是不可持續的,並將危及人類取得知識的途徑。我們現在需要採取行動,以重建健康的平衡。」
維基百科面對的挑戰,反映了網絡世界中一個更深刻的議題——開放與封閉的博弈。長期以來,互聯網被視為一個開放平台,任何人都可以自由地訪問和分享信息,維基百科就是其中最成功的代表。然而隨着AI技術發展,愈來愈多信息被封閉在大型科技公司的圍牆花園之中。AI工具通過抓取互聯網上的各種信息,構建了自己的知識庫;用戶可以通過這些平台取得信息,而毋須訪問原始網站。這種模式在一定程度上提高了信息獲取的效率,但也帶來了信息壟斷和知識產權等問題。
眼下,維基百科作為開放知識的代表,正面對來自封閉式AI平台的挑戰。它能否找到一種可持續模式,是一個跟每個人都相關的問題。為保住這個寶貴的數碼共享資源,需要各方共同努力——AI公司應該尊重維基百科的知識產權,合理使用其內容,並加上署名和提供詞條網頁連結;用戶應該積極訪問維基百科、貢獻內容,並給予捐款,以支持維基百科的運作;維基媒體基金會應該繼續探索新模式,以應對AI帶來的挑戰,確保維基百科的可持續發展。
只有通過共同努力,我們才能夠確保維基百科在AI時代繼續發揮其重要作用,為人類提供開放、自由的知識。
總之,維基百科與AI的博弈,不僅僅是一個網站的命運,更是關乎根本性的問題:我們究竟能否持續擁有一種自由開放的知識傳播和獲取方式?自由開放的分享者,是否會被封閉的攫取者吸乾血液?
作者是香港中文大學新聞與傳播學院助理教授
(本網發表的時事文章若提出批評,旨在指出相關制度、政策或措施存在錯誤或缺點,目的是促使矯正或消除這些錯誤或缺點,循合法途徑予以改善,絕無意圖煽動他人對政府或其他社群產生憎恨、不滿或敵意)