O Google DeepMind anunciou o lançamento do Genie 3. O novo modelo de mundo de propósito geral que promete elevar o patamar das simulações digitais. A tecnologia, segundo a big tech, é capaz de gerar ambientes interativos e dinâmicos a partir de simples comandos de texto. Assim, permite que o usuário navegue por esses mundos em tempo real, a 24 quadros por segundo, com resolução de 720p e consistência visual por vários minutos.
De acordo com o Google, o lançamento do Genie 3 é fruto de mais de dez anos de trabalhos do Google DeepMind em ambientes simulados. Para isso, a empresa foi desde agentes capazes de dominar jogos de estratégia até cenários virtuais para aprendizado de robótica. O projeto resultou no conceito de modelos de mundo: sistemas de IA que utilizam sua compreensão sobre a física, a biologia e a lógica dos ambientes para prever como eles evoluem e como as ações de um agente podem modificá-los.
Esses modelos representam uma ferramenta fundamental para o treinamento de agentes de IA ao permitir criar um currículo ilimitado de simulações complexas. Em 2023 e 2024, o laboratório apresentou as versões iniciais, Genie 1 e Genie 2, capazes de gerar cenários para agentes, e aprimorou sua capacidade de gerar vídeos com os modelos Veo 2 e Veo 3, reconhecidos pela precisão na representação da física. O Genie 3 é o primeiro a oferecer interação em tempo real combinada com maior consistência e realismo, superando seu antecessor.

Funcionalidades e tipos de simulação
O novo modelo consegue reproduzir uma ampla variedade de cenários, incluindo a modelagem física avançada, que consiste em uma simulação realista de fenômenos como água, iluminação e interações ambientais complexas. Além disso, permite a criação de ecossistemas completos, com vegetação, ciclos naturais e comportamentos animais. A ferramenta possibilita ainda gerar personagens expressivos e cenários imaginários. O usuário poderá também reconstruir locais e épocas passadas para experiências imersivas.
Essas capacidades são complementadas pela possibilidade de eventos mundiais programáveis, em que o usuário pode alterar o cenário em tempo real. Por exemplo: é possível mudando o clima ou inserir novos personagens, apenas com um comando de texto.
Avanços técnicos
A criação de ambientes interativos impõe desafios técnicos únicos. Cada quadro gerado precisa considerar toda a trajetória de interação anterior. Se o usuário revisita um local um minuto depois, o modelo deve resgatar as informações desse momento anterior para manter a consistência.
Esse processamento, que envolve cálculos várias vezes por segundo, foi otimizado para que o Genie 3 responda de forma fluida às ações do usuário. Além disso, a tecnologia mantém coerência física e visual por vários minutos, algo mais difícil do que simplesmente gerar um vídeo estático.
A consistência é considerada uma capacidade emergente do modelo. Métodos como NeRFs e Gaussian Splatting também permitem ambientes 3D navegáveis, mas dependem de representações explícitas pré-definidas. O Genie 3, ao contrário, cria mundos dinâmicos quadro a quadro, respondendo às ações e descrições fornecidas pelo usuário.
Compatibilidade com agentes virtuais e limitações
Para avaliar o potencial do Genie 3 no treinamento de agentes, o DeepMind o testou com seu agente generalista SIMA, projetado para operar em cenários 3D. Os mundos criados foram usados como arenas para que o agente buscasse objetivos diversos, tomando decisões de navegação de forma autônoma. Por causa da maior consistência, o SIMA pôde executar sequências mais longas de ações e alcançar objetivos mais complexos. A expectativa é que, no futuro, agentes e modelos de mundo se tornem peças-chave na evolução da IA autônoma.
Ao mesmo tempo, a ferramenta tem ainda algumas limitações técnicas. Por exemplo, nem todas as alterações ambientais podem ser feitas diretamente por agentes. Além disso, simular comportamentos complexos entre entidades independentes é um desafio em aberto. O modelo também não reproduz com precisão milimétrica locais reais e palavras legíveis só são geradas se especificadas na descrição inicial do mundo. Atualmente, o sistema suporta apenas alguns minutos contínuos de interação.
Segurança e uso responsável
O Google DeepMind afirma ter desenvolvido o Genie 3 com princípios de responsabilidade e segurança desde o início. Por apresentar recursos abertos e em tempo real, o modelo pode gerar riscos inéditos, exigindo protocolos de mitigação específicos. Nesta fase inicial, o acesso ao Genie 3 será limitado a um pequeno grupo de pesquisadores e criadores, que ajudarão a fornecer feedback e identificar possíveis usos indevidos. A abordagem cautelosa, segundo a empresa, é essencial para equilibrar inovação e segurança.
Para o DeepMind, o Genie 3 é um marco na evolução dos modelos de mundo e planeja expandir gradualmente o acesso. Entre as possíveis aplicações destacadas estão o uso na educação e treinamento, ajudando alunos a aprender e especialistas a adquirir experiência. Além de oferecer um amplo espaço para treinar agentes como robôs e sistemas autônomos, o Genie 3 também possibilita avaliar o desempenho dos agentes e explorar suas fraquezas.“A cada passo, exploramos as implicações do nosso trabalho e o desenvolvemos para o benefício da humanidade, de forma segura e responsável”, frisa e empresa em nota.
*Fotos: Google DeepMind.
CONAREC 2025
Tecnologia empática, Agentes de IA, conexão emocional, CX Super-Humano. Essas e outras tendências estarão presentes no CONAREC – o maior e mais relevante evento de Customer Experience da América Latina, que ocorre nos dias 9 e 10 de setembro, em São Paulo. Não perca! Clique aqui e saiba mais.





