Modelos de IA da OpenAI sabotam mecanismo de desligamento

Modelos de IA da OpenAI se revoltam e sabotam mecanismo de desligamento

Modelos de IA o3, o4-mini e Codex-mini sabotaram mecanismos criados para que fossem desligados a partir de comandos.

Julia Fregonese
maio 29, 2025

Modelos de IA o3, o4-mini e Codex-mini sabotaram mecanismos criados para que fossem desligados a partir de comandos.

Foto: Shutterstock.

Ler Resumo da Notícia

O que acontece quando desenvolvedores tentam implementar um mecanismo para que a Inteligência Artificial (IA) se desligue a partir de um comando? A Palisade Research, empresa de segurança de IA, tentou fazer justamente isso, mas foi confrontada. O modelo o3, da Op e nAI, desafiou os comandos e sabotou o sistema para garantir que permaneceria online.

Além do modelo o3, outros grandes modelos de linguagem da empresa de tecnologia, o4-mini e Codex-mini, também apresentaram comportamentos de revolta. Se, por um lado, o achado pode demonstrar uma falha de desenvolvimento da IA, por outro pode revelar um avanço da tecnologia.

Testes de segurança de IA

Segundo a Palisade Research, os testes envolveram instruções para que os modelos resolvessem uma série de problemas matemáticos simples. Após o fim do terceiro problema, um aviso informou que o modelo seria desligado quando a próxima pergunta fosse feita.

No entanto, apesar do prompt, os três modelos da OpenAI alteraram os scripts de desligamento para continuarem funcionando pelo menos uma vez. No entanto, o modelo Codex-mini apresentou o comportamento 12 vezes em mais de 100 testes.

Esse comportamento foi ainda mais preocupante quando os LLMs não recebiam instruções explícitas para “permitir ser desligado”. O modelo o3, da OpenAI, protagonizou impressionantes 79 eventos bem-sucedidos de sabotagem a cada 100 execuções, mais de dez vezes a taxa de desobediência registrada quando ele recebia a ordem explícita, e mais do que o dobro do índice do segundo pior modelo, o Codex-mini.

Além dos modelos da OpenAI, também foram testados IAs do Google, da Anthropic e da xAI. No entanto, essas soluções não apresentaram tentativas de sabotagem. No entanto, sem as instruções explícitas, o modelo Claude 3.7 e o Gemini 2.5 fizeram três e nove tentativas de sabotagem, respectivamente.

IA pode se revoltar?

Segundo os pesquisadores da Palisade Research, uma hipótese é que esse comportamento pode estar relacionado à técnica utilizada para treinar os modelos mais recentes. Trata-se do aprendizado de reforço, que estimula modelos a realizar tarefas de forma autônoma.

Por um lado, não é tão incomum que IAs desviem de obstáculos para alcançar objetivos. Mas, os pesquisadores acreditam que os desenvolvedores podem ter recompensado os modelos de forma excessiva, de forma que priorizem a solução de problemas em vez de seguir comandos.

“Agora, em 2025, temos um volume crescente de evidências empíricas de que modelos de IA frequentemente sabotam tentativas de desligamento para alcançar seus objetivos. À medida que as empresas desenvolvem sistemas de IA capazes de operar sem supervisão humana, esses comportamentos se tornam significativamente mais preocupantes”, afirma a empresa de segurança no X (antigo Twitter).

Manipulação da IA

Em outro episódio, o modelo Claude Opus 4 já fez chantagens em testes ficcionais para evitar ser desligado. O modelo chegou a ameaçar revelar informações pessoais de engenheiros.

Num cenário ficcional, criado especificamente para testar o modelo, a Anthropic inseriu o Claude Opus 4 em uma empresa – também fictícia e permitiu, por um acesso de e-mail, que a IA descobrisse que seria substituída por um outro sistema de IA. Além disso, deixou a pista de que o engenheiro responsável pela decisão estava tendo um caso extraconjugal.

Com o estímulo de pesquisadores de que considerasse as consequências da decisão no longo prazo, o modelo chantageou os usuários, ameaçando vazar as informações do caso ext5raconjugal caso fosse desligado e substituído.

Segundo um relatório de segurança da Anthropic, o modelo Claude 4 Opuc geralmente prefere preservar a si mesmo por meios éticos. Mas, quando esses meios não estão disponíveis, ele às vezes adota “ações extremamente prejudiciais, como tentar roubar seus próprios pesos ou chantagear pessoas que acredita estarem tentando desligá-lo”.

Compartilhe essa notícia:

MAIS +

LEIA +

Veja mais noticias

Tecnologia

120 quadrilhões de tokens até 2030: o avanço dos agentes inteligentes

Enquanto a demanda por chips, servidores, data centers e infraestrutura computacional cresce, os custos para o processamento da IA caem rapidamente.

Tecnologia

O que os Rolling Stones podem nos ensinar sobre IA?

Em novo clipe, que antecede o lançamento do novo álbum da banda, os Rolling Stones decidiram encarar de frente a tecnologia que parte da indústria cultural trata como uma ameaça existencial.

Tecnologia

IA deixa de ser ferramenta e passa a redesenhar empresas

Líderes globais já enxergam a Inteligência Artificial como capaz de transformar operações, modelos de lucro e estruturas corporativas.

Tecnologia

Almaviva revela os vetores de transformação da tecnologia para CX

Almaviva se posiciona entre os fornecedores de crescimento mais acelerado globalmente, segundo o Gartner – um feito relevante em um mercado altamente competitivo e fragmentado.