即時國際

英研究:AI答題94%測不出 (21:23)

英國一項研究發現,幾乎不可能檢測哪些試卷答案用人工智能(AI)生成。

在對英國大學考試系統最近一次測試中,幾乎所有由AI生成的答案都未被檢測出來。

雷丁大學的研究人員發現,與真實學生所答的試卷相比,AI生成的試卷答案平均得分更高。他們將研究結果發表在期刊PLOS ONE上。

AI已經證明可以在考試過關,這導致一些學校和大學禁止學生使用ChatGPT等AI工具。然而,根據這項新研究,執行這規定被證明是具有挑戰性的。

研究人員為雷丁大學心理學本科學位的五門不同課程提交了由AI回答的試卷。研究人員創建假學生身份,以提交ChatGPT-4生成且未經編輯的答案,用於可帶回家完成的網上評估。他們發現,在他們所稱的「圖靈測試」案例研究中,94%的這些答案未被閱卷員檢測到。

圖靈測試是以1950年的英國數學家和計算機科學家圖靈(Alan Turing)命名的,用於衡量機器展示類似人類智能行為的能力。

研究作者表示,這一發現「非常令人擔憂」,尤其是因為「AI生成的答案」未經研究人員修改。

他們在研究中指出:「總體而言,我們6%的檢測率很可能高估了我們在檢測真實世界中使用AI作弊的能力。」他們補充說,學生可能會修改AI生成的輸出,使其更難被檢測到。

此外,在83.4%的情況下,與同樣數量的真實學生考試隨機選取的一組相比,AI生成的答卷得分更高。

唯一的例外是涉及更抽象推理的單元,這是AI相對真實學生而言可能被難倒的。

研究人員在一份聲明中表示:「『考試圖靈測試』的結果促使全球教育部門接受新常態,這正是我們在雷丁大學所做的。」他們補充說:「我們向教職員工和學生提供新的政策和建議,既承認了使用AI工具所帶來的風險,也看到了機遇。」

鑑於這些發現,研究人員對學術誠信表示擔憂,並建議舉行監督下的面試緩解問題。

然而,隨着AI工具不斷發展並在專業環境中普及,大學可能需要探索將AI融入教育作為「新常態」的方法。

(衛報/Euronews)

相關字詞﹕

上 / 下一篇新聞