上海機械人初創公司「智元機器人」3月10日正式發布智元啟元大模型GenieOperator-1(GO-1),上海「澎湃新聞」報道,這是中國首個通用具身基座模型。
「智元機器人」表示,這款模型具有泛化能力,能夠在極少數據甚至零樣本下,泛化到新場景、新任務,降低了具身模型的使用門檻,降低了後訓練成本,能夠快速適應新任務、學習新技能。
據介紹,該模型可以利用人類視頻學習,完成小樣本快速泛化。其Vision-Language-Latent-Action(ViLLA)架構,是由VLM(多模態大模型) + MoE(混合專家)組成,其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。
在推理時,VLM(多模態大模型)、Latent Planner(隱式規劃器)和Action Expert(動作專家)三者協同工作。目前智元啟元大模型已成功部署到智元多款機械人本體,能夠高效地完成落地,並在實際使用中持續不斷地快速進化。(澎湃新聞/中新社)