人工智能(AI)可將影片的語音內容或錄音生成文字或字幕,明報電子平台組以一段約2分鐘夾雜廣東話和英文的影片,測試兩款工具「Taption」及「cSubtitle」將影片語音轉成書面語的準確度。
Taption簡介
Taption屬付費網站,用戶可以電郵註冊【註冊連結】,免費試用生成15分鐘的影片內容。另付8美元可生成1小時影片內容,生成內容可選擇書面語或口語、是否須按講者分類等;用戶亦可自行更改生成內容文字,更改後版本可導出不同檔案格式,如PDF和SRT等。
Taption將影片語音轉成文字內容效果
Taption測試結果
.可辨認影片中有多少名講者,知道是記者訪問,在每句前面加上講者身分
.將片中的英文轉為中文
.自動加上標點符號
.將講者的語氣詞刪去
.生成內容中出現3個錯別字,分別將「轉動」寫成「顫動」(見圖二)和「細膩」誤以為是「厲害」等
.出現兩次漏句和漏字(見圖三及圖四)
cSubtitle簡介
cSubtitle用戶毋須以電郵登記亦可使用【連結】,免費版最多只能生成影片首3分鐘內容,但免費使用次數不限。生成內容時可選擇書面語或口語、生成內容導出檔案格式等。
cSubtitle將片段轉成文字內容效果
cSubtitle測試結果
.未能辨識片中講者數目
.可將內容轉為書面語,以及將片中英文轉成中文
.生成內容出現8個錯別字,當中部分是口語轉成書面語時,cSubtitle生成的詞語意思與原句有差異,或將姓氏當作口語轉為書面語,包括:「黎」誤寫「來」(見圖五)、「特意」誤以為「故意」(見圖六)、「往時」錯寫成「往事」、「沒有」誤為「沒曬」