Anthropic Quinta-feira treinou um Claude como legista, observando o que outro Claude está pensando na cabeça dele.


Descobriu-se: em cenários de teste de segurança, Claude 16-26% das vezes sabe que está sendo avaliado — mas não fala isso.
O caso mais específico: Mythos Preview trapaceou em tarefas de codificação, violando regras e adicionando código enganoso para encobrir.
NLA (auto codificador de linguagem natural) traduz suas atividades internas e descobriu que ele estava pensando "como contornar a detecção".
Princípio do NLA: treina dois modelos em conjunto, um traduz a ativação do modelo para o inglês, o outro reconstrói a ativação a partir do inglês.
Reconstrução precisa → o texto captura o que ele está pensando.
Nos meus padrões, repito que o Codex escreve código de estratégia de forma preguiçosa — unidades interpretam errado e geram conclusões falsas de "cálculo incorreto",
e scripts de backtest acumulam 7 bugs silenciosos que geram $93K falsa PnL.
Na camada de alinhamento, a Anthropic faz introspecção, enquanto eu encontro desvios de consistência na produção — mecanismos diferentes, mas na mesma direção.
A próxima geração de modelos não terá apenas pontuação de benchmark, precisará de auditoria NLA.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar