據 Beating 稱,微軟最近開源了 Phi-Ground 模型家族,旨在解決“AI 應該在計算機螢幕上點擊哪裡”的問題。該 40 億參數版本,並結合用於指令規劃的更大語言模型,在 Showdown 基準測試中超過了 OpenAI Operator 和 Claude Computer Use 的點擊準確率,並在包括 ScreenSpot-Pro 在內的五項評估中位列所有 100 億以下參數模型的第一名。團隊在超過 4000 萬個數據樣本上進行了訓練,並發現學術論文中使用的三種常見訓練技術在規模化時變得無效。關鍵思路證明很簡單:以常規數字輸出座標,例如“523, 417.” 先前的研究為座標發明了專門的位置詞彙,但這些方法無法規模化。團隊還發現,將文本指令放在圖像之前可以提升性能,因為模型在處理像素時能夠識別目標。此外,諸如 DPO 之類的強化學習方法在微調之後仍能提高準確率。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆