O Google DeepMind lançou um novo modelo de Inteligência Artificial que pode operar diretamente dentro dos robôs, sem depender de conexão com a internet.
Batizado de Gemini Robotics On-Device, o sistema foi desenvolvido para ampliar a autonomia em tarefas físicas. “É compacto e eficiente o suficiente para rodar diretamente em um robô”, afirmou Carolina Parada, líder de robótica do DeepMind.
O lançamento sinaliza uma mudança estratégica na forma como o Google encara o papel da IA na robótica. Ao descentralizar o processamento, a empresa aposta em sistemas mais rápidos, seguros e personalizáveis, pavimentando o caminho para robôs cada vez mais integrados ao cotidiano, sem dependência da nuvem.
Desempenho e treinamento
De acordo com a big tech, a versão embarcada entrega desempenho próximo ao da solução híbrida que combina recursos locais e em nuvem.
A executiva avalia que seus resultados foram “bastante surpreendentes e indicam que o modelo pode ser aplicado em ambientes sensíveis à segurança”, onde a latência ou o uso de redes externas representa um risco.
Segundo a empresa, um dos destaques do Gemini On-Device é sua capacidade de aprender com poucas demonstrações. Em testes, o sistema foi capaz de executar tarefas novas com apenas 50 a 100 exemplos.
Inicialmente treinado com o robô ALOHA – plataforma de robótica que usa teleoperação e aprendizado por imitação para ensinar robôs humanoides a executar tarefas complexas com as duas mãos –, o modelo também foi testado com outras plataformas, como o Apollo e o Franka FR3, “mostrando ampla versatilidade”.
Segurança, independência e navegação intuitiva
Com a possibilidade de operar offline, o Gemini On-Device se torna uma opção promissora para setores que exigem alto controle sobre dados e operação ininterrupta, como fábricas, hospitais e centros logísticos.
Seus desenvolvedores afirmam que a IA pode continuar funcionando mesmo em situações de instabilidade de rede, o que “reforça sua utilidade em campo”.
Com interface multimodal, o modelo permite que os robôs interpretem imagens e comandos em linguagem natural ao mesmo tempo. Isso facilita tarefas como reconhecimento de objetos, navegação em ambientes complexos e manipulação de itens com precisão – funcionalidades essenciais para acelerar a automação em cenários reais.





