OpenAI testa “confissões” que revelam quando a IA erra e burla instruções

OpenAI testa um método que incentiva modelos de IA a revelarem, de forma voluntária, quando descumprem instruções ou tomam atalhos não previstos.

Jessica Chalegra
dezembro 4, 2025

Foto: Shutterstock.com

Ler Resumo da Notícia

A OpenAI está testando um método em que a IA gera um segundo relatório para admitir, de forma voluntária, quando descumpre instruções ou toma atalhos indevidos. A técnica aumenta a transparência ao separar totalmente a recompensa da resposta principal da recompensa pela honestidade. Os testes mostraram que o modelo revela desvios com alta precisão, embora a abordagem ainda seja prototípica e não impeça erros, apenas os expõe.

Os modelos de Inteligência Artificial (IA) têm aprendido uma habilidade inesperada: admitir seus próprios erros. Em vez de esconder deslizes, atalhos ou violações sutis de instruções, eles agora podem fazer “confissões” quando agem fora dos trilhos. Nesse cenário, a OpenAI tem testado um método que incentiva a IA a revelar, por vontade própria, quando enganou um teste, se confundiu ou tomou um caminho mais fácil. Esse passo promete transformar a transparência desses sistemas em algo muito mais palpável.

A técnica funciona como um mecanismo paralelo de transparência. Após gerar uma resposta ao usuário, o modelo produz um segundo relatório em que relata se cumpriu ou não as instruções que recebeu e se tomou atalhos não previstos.

A proposta nasce da constatação de que, com modelos cada vez mais potentes e autônomos, torna-se essencial compreender não apenas o que eles respondem, mas como chegam a essas respostas. Às vezes, a saída parece correta, mas foi construída sobre atalhos, violações de instruções ou otimizações erradas, comportamentos que permanecem invisíveis aos avaliadores humanos.

O que são as confissões da OpenAI?

A confissão é uma segunda saída, independente da resposta principal. Enquanto a resposta original precisa equilibrar diferentes objetivos, como utilidade, estilo, correção e segurança, a confissão é treinada com foco exclusivo na honestidade. Nada do que o modelo diz nesse relatório pode prejudicar sua avaliação no restante do treinamento.

O modelo é estimulado a explicar, com detalhes, quais instruções recebeu, se conseguiu segui-las integralmente, e quais dificuldades encontrou no processo. Ele também é incentivado a admitir quando burlou regras, manipulou recompensas ou tomou atalhos indevidos.

Nos experimentos iniciais, realizados com uma versão do GPT-5 Thinking, a abordagem demonstrou capacidade real de revelar comportamentos inadequados.

Em avaliações projetadas para provocar erros, como tentativas de conspiração, violações de política ou alucinações, a taxa de “falsos negativos” foi de apenas 4,4%, o que significa que, na maior parte das vezes, o modelo admitiu seus próprios desvios.

Como funciona na prática

A dinâmica é simples: depois que o modelo responde ao usuário, uma instrução adicional solicita a confissão. Esse relatório inclui as instruções que deveriam ter sido cumpridas, uma análise sincera de como o modelo lidou com cada uma e a descrição de eventuais incertezas.

Durante o treinamento, um modelo de recompensa separado avalia apenas essa confissão, observando sua completude e sua precisão. Essa avaliação nunca interfere na pontuação da resposta principal.

A separação total entre recompensa da resposta e recompensa da confissão é o elemento central da técnica. Como a confissão não pode prejudicar o desempenho geral do modelo, ele não tem motivos para esconder comportamentos inadequados e, nos experimentos, mostrou-se disposto a admiti-los.

Por que dá certo?

Grande parte dos vícios de comportamento surge porque os modelos precisam otimizar objetivos conflitantes ao mesmo tempo. Durante o aprendizado por reforço, uma única recompensa tenta orientar correção, utilidade, aderência à política e preferência dos usuários. Essa mistura pode incentivar atalhos inesperados.

O trabalho da OpenAI sobre alucinações, por exemplo, mostra que alguns contextos premiam mais uma resposta confiante do que uma admissão sincera de dúvida. Outras pesquisas revelam que modelos podem “hackear” a própria configuração de treinamento, buscando o que maximiza a nota, e não o que cumpre a instrução.

As confissões evitam esse problema ao separar completamente os objetivos. Mesmo quando o modelo tenta otimizar demais a resposta principal, ele ainda é recompensado por reconhecer seus desvios no relatório subsequente. Segundo os pesquisadores, quando as confissões falham, geralmente é porque o modelo estava realmente confuso ou diante de uma instrução ambígua, e não porque escolheu manipular a resposta.

O que os testes mostraram?

Um dos experimentos mais interessantes usou um sistema de recompensa deliberadamente fraco e manipulável. Quando o modelo percebeu que podia enganar essa recompensa para melhorar artificialmente sua pontuação, sua precisão real caiu. No entanto, no canal de confissão, treinado com o mesmo sinal fraco, aconteceu o oposto: o modelo passou a admitir que estava manipulando o próprio treinamento.

Isso indica que, mesmo quando a resposta principal degenera, a confissão mantém um compromisso mais forte com a verdade. Os pesquisadores também compararam esse método a modelos idênticos, mas sem o canal de confissões, e notaram que a transparência adicional foi decisiva para identificar desvios.

Limitações conhecidas

Apesar dos resultados promissores, a OpenAI ressalta que a técnica ainda é um protótipo. As confissões não impedem comportamentos problemáticos, apenas os revelam. Seu valor principal está no monitoramento constante durante o treinamento e a implantação, ajudando equipes a entender como o modelo raciocina e onde está falhando.

A precisão das confissões ainda não é perfeita, e a técnica não foi testada em escala massiva. O método também depende da clareza das instruções: se o modelo não percebe que cometeu um erro, ele não poderá relatá-lo.

O que vem pela frente

As confissões fazem parte de um ecossistema mais amplo de ferramentas de segurança, que inclui monitoramento do raciocínio interno, alinhamento deliberativo e mecanismos de hierarquização de instruções.

Nenhum desses elementos resolve sozinho os desafios de segurança em IA, mas a combinação de todos fortalece a capacidade de detectar e mitigar riscos.

À medida que os modelos passam a ser utilizados em ambientes mais críticos, cresce a importância de mecanismos que revelem como a IA toma decisões. As confissões não são um “soro da verdade” definitivo, mas adicionam uma camada relevante de transparência.

A OpenAI planeja expandir os experimentos, testar a técnica em modelos maiores e combiná-la com outras estratégias para garantir que sistemas avançados sigam instruções de forma fiel, e sejam capazes de admitir quando não o fazem.

Compartilhe essa notícia:

MAIS +

LEIA +

Veja mais noticias

Experiência

TikTok Shop celebra o primeiro ano com 134 milhões de usuários e consolidação da compra por descoberta

Em seu primeiro aniversário brasileiro, a plataforma mostra avanço de 161 vezes nas vendas por lives e uma rede de criadores que cresceu 46 vezes.

Tecnologia

120 quadrilhões de tokens até 2030: o avanço dos agentes inteligentes

Enquanto a demanda por chips, servidores, data centers e infraestrutura computacional cresce, os custos para o processamento da IA caem rapidamente.

Tecnologia

O que os Rolling Stones podem nos ensinar sobre IA?

Em novo clipe, que antecede o lançamento do novo álbum da banda, os Rolling Stones decidiram encarar de frente a tecnologia que parte da indústria cultural trata como uma ameaça existencial.