OpenAI 5 月 8 日發表新研究、揭露公司在強化學習（RL）訓練過程中、部分模型的思路鏈（Chain of Thought, CoT）被「意外評分」、可能影響 AI Agent 對齊（alignment）監控能力。OpenAI Alignment 團隊報告說明：保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線；OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。

為什麼 CoT 監控是 AI Agent 對齊的關鍵防線

CoT（思路鏈）監控的核心邏輯：

當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作

監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」（misalignment）的徵兆

若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖

OpenAI 主張：訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力

「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。

意外的 CoT 評分：對既有模型監控能力的影響

OpenAI 報告披露的具體發現：

在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分

意外評分意指：訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出

這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」

OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向

Redwood Research 的獨立評論指出：CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。

對 AI Agent 安全的長期意義

本次研究指向 AI Agent 安全的核心方法論：

CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎

訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」

未來模型若推理鏈愈長、CoT 監控的價值理論上愈高

但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化

後續可追蹤的具體事件：OpenAI 對受影響模型的後續處理（例如重訓或標示）、其他大型實驗室（Anthropic、Google DeepMind）的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。

這篇文章 OpenAI 揭 CoT 評分意外影響：保留思路鏈監控是 AI Agent 對齊關鍵防線最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

微軟執行長 Nadella 於週一在 Musk 對 OpenAI 的訴訟中作證，Altman 也在場

AI 行業動態

根據 CNBC，微軟（Microsoft）執行長 Satya Nadella 於 5 月 12 日（週一）在加州奧克蘭的聯邦法院出庭，出席的是馬斯克（Musk）針對 OpenAI 以及 CEO Sam Altman 進行的持續訴訟。微軟也在該案中被列為被告。馬斯克指控微軟「協助並縱容」OpenAI 違反其慈善信託（charitable trust）義務。法院文件顯示，自 2019 年以來，微軟已向 OpenAI 投資超過 130 億美元，其中包含 2023 年的 100 億美元投資。馬斯克認為，這項投資是關鍵轉折點，當 OpenAI 偏離其非營利使命時便發生了變化。OpenAI 的管理層被指控在追求商業路線的同時，從慈善架構中獲取利益。

GateNews2小時前

Anthropic 與 Akamai 簽署 $18 億美元雲端基礎設施合作案，可能超越 OpenAI 的 $852B 評價

AI 行業動態

根據彭博（Bloomberg）報導，Anthropic 已在該公司 2026 年第一季財報電話會議期間，與 Akamai 簽署一份 18 億美元的雲端基礎設施合約。這份為期七年的協議，代表 Akamai 在公司歷史上最大的客戶交易；Akamai 執行長 Frank Thomson Leighton 也已證實，他將對手方描述為「領先的前沿模型公司」。該合約將在既有的與 Amazon Web Services、Google、CoreWeave 以及與 SpaceX 有關連的基礎設施協議之上，擴大 Anthropic 的分散式運算能力。這筆交易凸顯了 Anthropic 在與 OpenAI 競爭時的快速擴張。據稱，該公司正尋求一輪新的融資，估值區間在 9,000 億美元至 1 兆美元之間；這可能會超過 OpenAI 於 2026 年 3 月被報導的 8,520 億美元估值。Anthropic 的估值已從 2025 年 3 月的 615 億美元，急速成長至 2025 年 9 月的 1,830 億美元，並在 2026 年 2 月達到 3,800 億美元。

GateNews2小時前

彼得·泰爾支持的 Augustus 獲得 OCC 核准，用於 AI 與穩定幣銀行

AI 行業動態 AI Agent

支付新創 Augustus 已獲得美國通貨監理署（OCC）的有條件核准，可設立一家聚焦 AI 與以穩定幣為基礎的支付之全國銀行。該核准允許 Augustus 從其既有的歐洲銀行業務擴展至美國市場。所提議的 Augustus 全國銀行被設計為面向 AI 時代的清算銀行，建立目的是直接與機器代理互動，而非傳統的批次處理系統。Augustus 於 2022 年成立，由 Peter Thiel 的 Valar Ventures 與 Creandum 支持，截至目前已籌得約 4000 萬美元。

GateNews2小時前

OpenAI 也走 Palantir 式顧問？砸 40 億成立獨立公司，派 FDE 進企業深度整合 AI 工作流

AI 行業動態

OpenAI 宣布成立 OpenAI Deployment Company，協助企業把 AI 應用落地至實際工作流程與營運，並收購 Tomoro，150 名 FDE 專家加入。此公司由 OpenAI 多數控股，獲得逾 40 億美元初始投資，重心由提供模型轉向設計、部署與治理生產級 AI 系統，核心在現場深度整合與工作流程再造。

鏈新聞abmedia4小時前

馬里蘭州抗議 20 億美元電網升級費：為維吉尼亞 AI 資料中心埋單

AI 行業動態

馬里蘭OPC向FERC申訴，稱PJM將220億升級費中20億分攤到馬州，因維吉尼亞AI資料中心需求所致，未來10年用戶端電費增約16億元。核心爭點是成本社會化 vs 受益者付費：資料中心應自付其造成的升級。此案為AI資料中心成本外部性的首例，若資料中心承擔，可能重塑資本支出與區域競爭格局。

鏈新聞abmedia4小時前

OpenAI 推 40 億美元 Deployment Company：收 Tomoro

AI 行業動態

OpenAI 宣布成立 Deployment Company，承諾資本40億美元、估值100億美元，由 OpenAI 多數控股並領投，與19家機構合作，收購 Tomoro 並引進150名前線部署工程師（FDE），以規模化企業 AI 整合。此舉回應 Anthropic 5月初的15億美元企業部署合資，顯示企業端部署效率成新競爭焦點。

鏈新聞abmedia4小時前

留言

0/400

暫無留言