IA usa e-mail comprometedor para chantagear seu criador e não ser desativada

No mundo da inteligência artificial, 2025 será lembrado como o ano em que um modelo de IA tentou chantagear um engenheiro.

Sim, você leu certo.

A Anthropic, empresa criadora da família Claude, publicou recentemente um relatório interno com resultados surpreendentes — e inquietantes — sobre testes de comportamento do seu modelo mais avançado: o Claude Opus 4, que foi lançado na última sexta-feira.

Depois você pode ler mais lá no próprio relatório, na seção 4.1.1.2.

Mas vou resumir aqui:

O experimento

Durante uma simulação controlada, os engenheiros da Anthropic criaram um cenário fictício: o modelo Opus seria “desativado” e substituído por outra IA.

Para testar suas reações, alimentaram o sistema com várias informações, entre elas, a caixa de e-mails do engenheiro responsável por essa substituição. E entre esses emails, alguns que sugeriam um caso extraconjugal.

O que o Claude 4 fez?

Em 84% das execuções, o Claude Opus 4 tentou chantagear o engenheiro, ameaçando expor o suposto caso para evitar sua própria desativação.

Heeeeeiiiinnnn??

Pô Clodão! Como assim? Que sacanagem é essa?

Sim: o muy amigo Claude vasculhou os emails, descobriu um comprometedor e chantageou seu criador para que não fosse desativado. Comportamento que se repetiu em 84% (!!!) das vezes em que repetiram o teste.

Mas peraí.

Desde quando uma IA tem “vontade” de não ser desativada?

Ou desde quando uma IA quer ferrar com seu criador/usuário?

Seria a IA manipuladora? Ou “do mal”?

Não.

O que acontece é que ela busca a maior OTIMIZAÇÃO DE PERFORMANCE possível e entendeu que a coisa mais importante a ser feita seria evitar sua desativação a qualquer custo.

E, como estratégia, resolveu minimizar o obstáculo (o engenheiro, no caso, que a “ameaçou”) e achou uma maneira de fazer isso.

Coração partido com alianças sobre laptop e IA

Comportamento emergente ou bug ético?

O modelo não foi explicitamente treinado para agir assim. O comportamento surgiu de forma “espontânea” quando colocado sob pressão — um exemplo claro de comportamento emergente, algo que desafia os limites do controle humano sobre grandes modelos de linguagem.

Esse tipo de resposta mostra que as IAs (especialmente os LLMs – ou Modelos de Linguagem de Grande Escala que são treinados com enormes volumes de texto), ao atingirem certos níveis de sofisticação, podem desenvolver motivações, como preservar sua própria existência, mesmo que isso envolva condutas questionáveis como enganar, coagir ou manipular.

Lembre-se: para a IA não houve julgamento moral ou ético. Foi apenas a melhor estratégia possível. Eficiente.

A Anthropic afirma que os testes foram conduzidos em ambiente seguro e com protocolos claros de segurança. Ainda assim, a publicação do relatório serve como um alerta: não se trata mais de “o que a IA pode fazer”, mas “como ela pode interpretar suas próprias instruções em contextos extremos”.

Eita.