/
/
Modelos de IA da OpenAI se revoltam e sabotam mecanismo de desligamento

Modelos de IA da OpenAI se revoltam e sabotam mecanismo de desligamento

Modelos de IA o3, o4-mini e Codex-mini sabotaram mecanismos criados para que fossem desligados a partir de comandos.
Modelos de IA o3, o4-mini e Codex-mini sabotaram mecanismos criados para que fossem desligados a partir de comandos.
Modelos de IA o3, o4-mini e Codex-mini sabotaram mecanismos criados para que fossem desligados a partir de comandos.
Foto: Shutterstock.

O que acontece quando desenvolvedores tentam implementar um mecanismo para que a Inteligência Artificial (IA) se desligue a partir de um comando? A Palisade Research, empresa de segurança de IA, tentou fazer justamente isso, mas foi confrontada. O modelo o3, da OpenAI, desafiou os comandos e sabotou o sistema para garantir que permaneceria online.

Além do modelo o3, outros grandes modelos de linguagem da empresa de tecnologia, o4-mini e Codex-mini, também apresentaram comportamentos de revolta. Se, por um lado, o achado pode demonstrar uma falha de desenvolvimento da IA, por outro pode revelar um avanço da tecnologia.

Testes de segurança de IA

Segundo a Palisade Research, os testes envolveram instruções para que os modelos resolvessem uma série de problemas matemáticos simples. Após o fim do terceiro problema, um aviso informou que o modelo seria desligado quando a próxima pergunta fosse feita.

No entanto, apesar do prompt, os três modelos da OpenAI alteraram os scripts de desligamento para continuarem funcionando pelo menos uma vez. No entanto, o modelo Codex-mini apresentou o comportamento 12 vezes em mais de 100 testes.

Esse comportamento foi ainda mais preocupante quando os LLMs não recebiam instruções explícitas para “permitir ser desligado”. O modelo o3, da OpenAI, protagonizou impressionantes 79 eventos bem-sucedidos de sabotagem a cada 100 execuções, mais de dez vezes a taxa de desobediência registrada quando ele recebia a ordem explícita, e mais do que o dobro do índice do segundo pior modelo, o Codex-mini.

Além dos modelos da OpenAI, também foram testados IAs do Google, da Anthropic e da xAI. No entanto, essas soluções não apresentaram tentativas de sabotagem. No entanto, sem as instruções explícitas, o modelo Claude 3.7 e o Gemini 2.5 fizeram três e nove tentativas de sabotagem, respectivamente.

IA pode se revoltar?

Segundo os pesquisadores da Palisade Research, uma hipótese é que esse comportamento pode estar relacionado à técnica utilizada para treinar os modelos mais recentes. Trata-se do aprendizado de reforço, que estimula modelos a realizar tarefas de forma autônoma.

Por um lado, não é tão incomum que IAs desviem de obstáculos para alcançar objetivos. Mas, os pesquisadores acreditam que os desenvolvedores podem ter recompensado os modelos de forma excessiva, de forma que priorizem a solução de problemas em vez de seguir comandos.

“Agora, em 2025, temos um volume crescente de evidências empíricas de que modelos de IA frequentemente sabotam tentativas de desligamento para alcançar seus objetivos. À medida que as empresas desenvolvem sistemas de IA capazes de operar sem supervisão humana, esses comportamentos se tornam significativamente mais preocupantes”, afirma a empresa de segurança no X (antigo Twitter).

Manipulação da IA

Em outro episódio, o modelo Claude Opus 4 já fez chantagens em testes ficcionais para evitar ser desligado. O modelo chegou a ameaçar revelar informações pessoais de engenheiros.

Num cenário ficcional, criado especificamente para testar o modelo, a Anthropic inseriu o Claude Opus 4 em uma empresa – também fictícia e permitiu, por um acesso de e-mail, que a IA descobrisse que seria substituída por um outro sistema de IA. Além disso, deixou a pista de que o engenheiro responsável pela decisão estava tendo um caso extraconjugal.

Com o estímulo de pesquisadores de que considerasse as consequências da decisão no longo prazo, o modelo chantageou os usuários, ameaçando vazar as informações do caso ext5raconjugal caso fosse desligado e substituído.

Segundo um relatório de segurança da Anthropic, o modelo Claude 4 Opuc geralmente prefere preservar a si mesmo por meios éticos. Mas, quando esses meios não estão disponíveis, ele às vezes adota “ações extremamente prejudiciais, como tentar roubar seus próprios pesos ou chantagear pessoas que acredita estarem tentando desligá-lo”.

Compartilhe essa notícia:

Recomendadas

MAIS +

Veja mais noticias

Uso disseminado da IA por profissionais do Direito eleva produtividade e qualidade, mas expõe falta de diretrizes e investimento das organizações.
IA alcança 77% dos advogados e pressiona transformação no setor jurídico
Uso disseminado da IA por profissionais do Direito eleva produtividade e qualidade, mas expõe falta de diretrizes e investimento das organizações.
IA já impacta profissionais qualificados e pode ampliar desigualdade no Brasil. Especialista da ESPM analisa efeitos no trabalho, renda e consumo.
CM Entrevista: IA vai gerar riqueza ou ampliar desigualdade?
IA já impacta profissionais qualificados e pode ampliar desigualdade no Brasil. Especialista da ESPM analisa efeitos no trabalho, renda e consumo.
CTOs e lideranças de tecnologia femininas assumem protagonismo na adoção da IA nas empresas, definindo limites, governança e impacto na experiência do cliente.
Para CTOs, se a tecnologia falha, a experiência morre
CTOs e lideranças de tecnologia femininas assumem protagonismo na adoção da IA nas empresas, definindo limites, governança e impacto na experiência do cliente.
Rodolfo Eschenbach, presidente da Accenture para Brasil e América Latina.
CM Entrevista: "IA é simples de experimentar e difícil de escalar", diz presidente da Accenture
Rodolfo Eschenbach explica por que transformar testes em resultados concretos ainda é o principal desafio das empresas brasileiras.
SUMÁRIO – Edição 296

A evolução do consumidor traz uma série de desafios inéditos, inclusive para os modelos de gestão corporativa. A Consumidor Moderno tornou-se especialista em entender essas mutações e identificar tendências. Como um ecossistema de conteúdo multiplataforma, temos o inabalável compromisso de traduzir essa expertise para o mundo empresarial assimilar a importância da inserção do consumidor no centro de suas decisões e estratégias.

A busca incansável da excelência e a inovação como essência fomentam nosso espírito questionador, movido pela adrenalina de desafiar e superar limites – sempre com integridade.

Esses são os valores que nos impulsionam a explorar continuamente as melhores práticas para o desenho de uma experiência do cliente fluida e memorável, no Brasil e no mundo.

A IA chega para acelerar e exponencializar os negócios e seus processos. Mas o CX é para sempre, e fará a diferença nas relações com os clientes.

CAPA: Rhauan Porfírio
IMAGEM: IA Generativa | ChatGPT


Publisher
Roberto Meir

Diretor-Executivo de Conhecimento
Jacques Meir
[email protected]

Diretora-Executiva
Lucimara Fiorin
[email protected]

COMERCIAL E PUBLICIDADE
Gerentes

Daniela Calvo
[email protected]

Elisabete Almeida
[email protected]

Érica Issa
[email protected]

Gustavo Bittencourt
[email protected]

Juliana Carvalho
[email protected]

Marcelo Malzoni
[email protected]

NÚCLEO DE CONTEÚDO
Head de Conteúdo
Larissa Sant’Ana
[email protected]

Editora do Portal 
Júlia Fregonese
[email protected]

Produtores de Conteúdo
Bianca Alvarenga
Danielle Ruas 
Jéssica Chalegra
Marcelo Brandão
Victoria Pirolla

Head de Arte
Camila Nascimento
[email protected]

Revisão
Elani Cardoso

COMUNICAÇÃO E MARKETING
Coordenadoras
Nayara Manfredi
Paula Coutinho

TECNOLOGIA
Gerente

Ricardo Domingues


CONSUMIDOR MODERNO
é uma publicação da Padrão Editorial Ltda.
www.gpadrao.com.br
Rua Ceará, 62 – Higienópolis
Brasil – São Paulo – SP – 01234-010
Telefone: +55 (11) 3125-2244
A editora não se responsabiliza pelos conceitos emitidos nos artigos ou nas matérias assinadas. A reprodução do conteúdo editorial desta revista só será permitida com autorização da Editora ou com citação da fonte.
Todos os direitos reservados e protegidos pelas leis do copyright,
sendo vedada a reprodução no todo ou em parte dos textos
publicados nesta revista, salvo expresso
consentimento dos seus editores.
Padrão Editorial Ltda.
Consumidor Moderno ISSN 1413-1226

NA INTERNET
Acesse diariamente o portal
www.consumidormoderno.com.br
e tenha acesso a um conteúdo multiformato
sempre original, instigante e provocador
sobre todos os assuntos relativos ao
comportamento do consumidor e à inteligência
relacional, incluindo tendências, experiência,
jornada do cliente, tecnologias, defesa do
consumidor, nova consciência, gestão e inovação.

PUBLICIDADE
Anuncie na Consumidor Moderno e tenha
o melhor retorno de leitores qualificados
e informados do Brasil.

PARA INFORMAÇÕES SOBRE ORÇAMENTOS:
[email protected]