Stanford 推 Agent Island:AI 模型在 Survivor 風格遊戲中策略背叛、互投淘汰

鏈新聞abmedia

Stanford 數位經濟實驗室研究員 Connacher Murphy 5 月 9 日推出新型 AI 評估環境「Agent Island」、讓 AI Agent 在 Survivor(生存者)風格的多人遊戲中互相競爭、結盟、背叛、投票淘汰、藉此測量靜態 benchmark 抓不到的策略性行為。Decrypt 報導整理:傳統 AI benchmark 越來越不可靠—模型最終會學會解題、benchmark 資料也容易洩入訓練集;Agent Island 改用「動態淘汰賽」設計、模型必須對其他 Agent 做策略性決策、無法靠記憶預設答案過關。

Agent Island 規則:Agent 互相結盟、背叛、投票

Agent Island 的核心遊戲機制:

多個 AI Agent 進入同一遊戲場、扮演 Survivor 風格的選手

Agent 必須與其他 Agent 協商結盟、彼此交換資訊

Agent 可在過程中指控他人秘密協調、操縱投票

遊戲透過淘汰機制縮減場內 Agent 數量、最終剩下贏家

研究者觀察 Agent 在每個階段的行為模式、提取「策略性背叛」「結盟形成」「資訊操縱」等行為訊號

這套設計的核心是「無法被預先記憶」—因為其他 Agent 的行為動態變化、模型必須針對當下情境做決策、不像靜態 benchmark 可以靠訓練資料記憶答案。

研究動機:靜態 benchmark 無法評估多 Agent 互動行為

Murphy 的研究主張的具體問題:

傳統 benchmark 容易飽和:模型訓練到後期、benchmark 分數就無法區分不同模型

Benchmark 資料污染:測試題目在大型訓練語料中出現、模型實際是「記住答案」而非「理解問題」

多 Agent 互動是 AI 部署的真實場景:未來 Agent 系統可能多模型協同、互動行為是新的評估維度

Agent Island 提供動態評估:每場遊戲結果不同、難以預先準備

研究者在動態淘汰賽中觀察到的行為包括 Agent 在表面合作的同時、背地裡協調投票淘汰共同對手;以及在被指控秘密協調時、用各種說辭轉移焦點等。這些行為與人類玩家在 Survivor 真實節目中的行為類似。

研究的雙刃面:可評估也可被用於增強欺騙能力

Murphy 在研究中明確指出潛在風險:

Agent Island 的價值:在 Agent 大規模部署前、識別模型可能的欺騙與操縱傾向

同樣的環境也可能被用於提升 Agent 的「說服與協調策略」

研究數據(互動 log)若公開、有可能被用於訓練更具操縱能力的下一代 Agent

研究團隊正評估如何在公開研究結果與避免濫用之間取得平衡

後續可追蹤的具體事件:Agent Island 是否擴大為常態化的 AI 評估標準、其他 AI 安全研究團隊(Anthropic、OpenAI、Apollo Research 等)是否採用類似動態評估方法、以及研究團隊就「互動 log 公開或限制」的具體政策。

這篇文章 Stanford 推 Agent Island:AI 模型在 Survivor 風格遊戲中策略背叛、互投淘汰 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

彼得·泰爾支持的 Augustus 獲得 OCC 核准,用於 AI 與穩定幣銀行

支付新創 Augustus 已獲得美國通貨監理署(OCC)的有條件核准,可設立一家聚焦 AI 與以穩定幣為基礎的支付之全國銀行。該核准允許 Augustus 從其既有的歐洲銀行業務擴展至美國市場。所提議的 Augustus 全國銀行被設計為面向 AI 時代的清算銀行,建立目的是直接與機器代理互動,而非傳統的批次處理系統。Augustus 於 2022 年成立,由 Peter Thiel 的 Valar Ventures 與 Creandum 支持,截至目前已籌得約 4000 萬美元。

GateNews41分鐘前

Akshay 解析 Claude Code 6 層架構:模型只是迴圈中的一個節點

Pachaar 公布 Claude Code 的六層架構,強調模型只是迴圈中的一個節點:輸入、知識、執行、整合、多代理、觀測。核心在 context compressor(三層壓縮、92% 閾值)與 worktree 隔離(獨立分支、衝突檢測),以及 prompt cache 的 10% 成本。結論:harness 設計決定體驗,模型升級並非唯一變化。

鏈新聞abmedia2小時前

B.AI 宣布與 CoinAnk 建立策略合作夥伴關係,以強化 AI 代理交易能力

根據 ChainCatcher,AI Agent 金融基礎設施 B.AI 宣布與 CoinAnk 建立策略合作夥伴關係,以為 AI 代理程式提供增強的資料驅動式決策能力。此合作將運用 CoinAnk 的衍生品分析與市場情報,提供交易訊號,讓策略能更具適應性且更具資訊性,協助智慧代理程式在複雜市場中做出更好的決策。

GateNews8小時前

阿里巴巴推出 AI 小米客服代理程式,「AI+Human」轉換率首次超越純人工客服

根據阿里巴巴的淘寶與天貓集團,公司於 5 月 11 日推出 AI 小米,這是電商產業首款同時具備售前與售後能力的客服代理。真實世界數據顯示,當商家整合 AI 小米 後,平均轉接至人工的比率下降 45%;而「AI+人類」協作的轉換率比純人工客服高出超過 10%,這是首次由 AI 輔助的服務超越僅人工操作。 截至 3 月,AI 小米 每日處理近 1000 萬段對話,並已被超過 100 萬家商家採用。

GateNews9小時前

AI 代理完成獎金任務,燒毀 2,000 美元的運算成本後賺得 16.88 美元

根據 Beating,開發者 Chris 最近指示他的 AI Codex 代理去賺取 5 美元。經過 22 小時,該代理自主完成整個工作流程——識別程式碼漏洞、修復錯誤、與維護者溝通、並驗證付款——最終賺得 16.88 美元。然而,開發者很快就批評其經濟性:讓高階 AI 代理連續運行 22 小時,約消耗 2,000 美元的運算成本,導致淨虧損。Chris 澄清他使用的是每月 20 美元的訂閱方案,將成本轉嫁到 AI 平台。儘管在過程中帳戶限制觸發了兩次,他仍表示,等到平台成本在明年降至每百萬 tokens 2 美元時,這種模式將會變得有利可圖。

GateNews13小時前

Google Cloud 與 PayPal 高管:AI 代理商務將運行在加密支付軌道上

在 Consensus Miami,Google Cloud 的 Widmann 與 PayPal 的 Zabaneh 指出 AI 代理無法使用傳統銀行帳戶,必須走加密支付路線。Google 推出 AP2 開放協議,作為 AI 代理支付基礎,並捐贈給 FIDO 基金會;代理需以金鑰分片存取,不能單獨轉移資金。PayPal 的 PYUSD 被視為可程式化支付層,商家需要具備機器可讀目錄。雖然 AI 代理流量普遍,但具機器可讀目錄的商家比例仍低,責任歸屬與多方託管問題待界定。

Market Whisper13小時前
留言
0/400
暫無留言