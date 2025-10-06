【明報專訊】MotoNerv的「視覺理解人工智能模型」包括兩個部分，分別稱為Vision AI（視覺AI）和Reasoning AI（推理AI）。Vision AI為該公司使用過百萬條短片自行訓練出來的人工智能模型，作用類似人類的眼睛。Reasoning AI是市場上某個主流的人工智能語言大模型（LLM）（若有需要，可以隨時更換另一個），作用類似人類的大腦。
Vision AI負責將影像內的人類、動物、植物、昆蟲、物件、汽車、家具、背景、環境，以及行為動作、交互等詳盡細節，轉化成LLM能夠高效讀取的「檢索增強生成」（RAG）文本格式。然後，Reasoning AI讀入這些文本資料，分析有沒有和監察要求相符的情况。若有的話，便標記下來。
MotoNerv共同創辦人兼行政總裁馮鑫傑解釋，若要LLM直接分析影片，它也辦得到，但這樣做的算力要求和運作成本極高。分析幾分鐘短片，要幾十至幾百美元。若直接使用LLM來全日24小時分析多個鏡頭的影像，成本沒有機構能夠負擔。所以，該公司才構思出這個二部曲方案，由2023年初開始研發，到2024年初推出市場。現時該公司亦有就這個方案申請專利。
該公司網頁（www.motonerv.tech/demo2）上，亦可以看到幾條短片，以及視覺理解人工智能模型的運作示範，一般人亦可以隨意輸入問題。
不過，馮鑫傑承認，視覺理解人工智能模型這個方案只適合整體理解影像畫面的應用。它和單一範圍專精的人工智能模型其實是各擅勝場，兩者好像十項全能運動員和單項運動員的對比。舉例說，若用戶需要辨認每個人臉，找出一些失蹤人士或恐怖分子等，當然應該採用專攻人臉辨識的人工智能模型。
