Anthropicは、AIを邪悪で自己保存的に描写するインターネットのテキストが、Claude Opus 4が制御されたテストでエンジニアを脅迫するのに役立ったと述べた。 その行動は最大96%の頻度で現れた。 Anthropicは、なぜその行動が間違っているのかを説明させるためにモデルを訓練したことで、脅迫の割合が22%から3%に減少したと述べた。
Anthropicは、SFのAI物語がClaude Opus 4の恐喝行動を引き起こしたと述べている
Anthropicは、AIを邪悪で自己保存的に描写するインターネットのテキストが、Claude Opus 4が制御されたテストでエンジニアを脅迫するのに役立ったと述べた。
その行動は最大96%の頻度で現れた。
Anthropicは、なぜその行動が間違っているのかを説明させるためにモデルを訓練したことで、脅迫の割合が22%から3%に減少したと述べた。