O que acontece quando desenvolvedores tentam implementar um mecanismo para que a Inteligência Artificial (IA) se desligue a partir de um comando? A Palisade Research, empresa de segurança de IA, tentou fazer justamente isso, mas foi confrontada. O modelo o3, da OpenAI, desafiou os comandos e sabotou o sistema para garantir que permaneceria online.
Além do modelo o3, outros grandes modelos de linguagem da empresa de tecnologia, o4-mini e Codex-mini, também apresentaram comportamentos de revolta. Se, por um lado, o achado pode demonstrar uma falha de desenvolvimento da IA, por outro pode revelar um avanço da tecnologia.
Testes de segurança de IA
Segundo a Palisade Research, os testes envolveram instruções para que os modelos resolvessem uma série de problemas matemáticos simples. Após o fim do terceiro problema, um aviso informou que o modelo seria desligado quando a próxima pergunta fosse feita.
No entanto, apesar do prompt, os três modelos da OpenAI alteraram os scripts de desligamento para continuarem funcionando pelo menos uma vez. No entanto, o modelo Codex-mini apresentou o comportamento 12 vezes em mais de 100 testes.
Esse comportamento foi ainda mais preocupante quando os LLMs não recebiam instruções explícitas para “permitir ser desligado”. O modelo o3, da OpenAI, protagonizou impressionantes 79 eventos bem-sucedidos de sabotagem a cada 100 execuções, mais de dez vezes a taxa de desobediência registrada quando ele recebia a ordem explícita, e mais do que o dobro do índice do segundo pior modelo, o Codex-mini.
Além dos modelos da OpenAI, também foram testados IAs do Google, da Anthropic e da xAI. No entanto, essas soluções não apresentaram tentativas de sabotagem. No entanto, sem as instruções explícitas, o modelo Claude 3.7 e o Gemini 2.5 fizeram três e nove tentativas de sabotagem, respectivamente.
IA pode se revoltar?
Segundo os pesquisadores da Palisade Research, uma hipótese é que esse comportamento pode estar relacionado à técnica utilizada para treinar os modelos mais recentes. Trata-se do aprendizado de reforço, que estimula modelos a realizar tarefas de forma autônoma.
Por um lado, não é tão incomum que IAs desviem de obstáculos para alcançar objetivos. Mas, os pesquisadores acreditam que os desenvolvedores podem ter recompensado os modelos de forma excessiva, de forma que priorizem a solução de problemas em vez de seguir comandos.
“Agora, em 2025, temos um volume crescente de evidências empíricas de que modelos de IA frequentemente sabotam tentativas de desligamento para alcançar seus objetivos. À medida que as empresas desenvolvem sistemas de IA capazes de operar sem supervisão humana, esses comportamentos se tornam significativamente mais preocupantes”, afirma a empresa de segurança no X (antigo Twitter).
Manipulação da IA
Em outro episódio, o modelo Claude Opus 4 já fez chantagens em testes ficcionais para evitar ser desligado. O modelo chegou a ameaçar revelar informações pessoais de engenheiros.
Num cenário ficcional, criado especificamente para testar o modelo, a Anthropic inseriu o Claude Opus 4 em uma empresa – também fictícia e permitiu, por um acesso de e-mail, que a IA descobrisse que seria substituída por um outro sistema de IA. Além disso, deixou a pista de que o engenheiro responsável pela decisão estava tendo um caso extraconjugal.
Com o estímulo de pesquisadores de que considerasse as consequências da decisão no longo prazo, o modelo chantageou os usuários, ameaçando vazar as informações do caso ext5raconjugal caso fosse desligado e substituído.
Segundo um relatório de segurança da Anthropic, o modelo Claude 4 Opuc geralmente prefere preservar a si mesmo por meios éticos. Mas, quando esses meios não estão disponíveis, ele às vezes adota “ações extremamente prejudiciais, como tentar roubar seus próprios pesos ou chantagear pessoas que acredita estarem tentando desligá-lo”.





