A Anthropic anunciou o início dos testes de uma extensão do Claude para o Google Chrome. A novidade permitirá ao assistente de Inteligência Artificial (IA) realizar ações diretamente no navegador em nome dos usuários. A iniciativa marca uma nova fase na integração entre IA e rotinas digitais. Mas, também traz à tona preocupações importantes de segurança cibernética.
Segundo a empresa, a decisão é uma evolução natural após meses de trabalho conectando o Claude a calendários, documentos e outros softwares. A ideia é que, ao poder enxergar páginas da web, clicar em botões e preencher formulários, a IA se torne muito mais útil no dia a dia.
“A IA que utiliza navegadores traz consigo desafios de segurança que exigem salvaguardas mais robustas. Obter feedback real de parceiros confiáveis sobre usos, deficiências e problemas de segurança nos permite construir classificadores robustos e ensinar modelos futuros a evitar comportamentos indesejados. Isso garante que, à medida que os recursos evoluem, a segurança dos navegadores acompanhe o ritmo”, comenta a empresa em nota.
Mil usuários convidados
Para iniciar essa fase, a Anthropic lançou um programa piloto com mil usuários do plano Max, que poderão instalar a extensão diretamente pela Chrome Web Store. Esses participantes poderão instruir o Claude a realizar tarefas como agendar compromissos, responder e-mails, preencher relatórios de despesas e até mesmo testar novos recursos online.
O acesso, no entanto, será expandido de forma gradual. A empresa quer observar como a IA se comporta em situações reais antes de liberar a novidade para o público em geral. “Expandiremos o acesso gradualmente à medida que desenvolvermos medidas de segurança mais fortes e aumentarmos a confiança por meio desta prévia limitada”, explica a Anthropic.
O risco das injeções de prompt
A principal preocupação com as IAs que atuam em navegadores são os ataques de “injeção de prompt”. Essa técnica consiste em esconder comandos maliciosos em sites, documentos ou e-mails, induzindo a IA a executar ações prejudiciais sem o conhecimento do usuário.
Em testes internos, a Anthropic simulou 123 cenários de ataques, distribuídos em 29 categorias diferentes. Sem medidas de segurança, o Claude apresentou uma taxa de sucesso de 23,6% quando se tornou alvo deliberado de agentes maliciosos. Um exemplo citado pela empresa foi um e-mail que orientava o assistente a excluir todas as mensagens da caixa de entrada, algo que ele fez automaticamente antes de as novas defesas serem implementadas.
Ataques desse tipo poderiam levar a roubos de dados, exclusão de arquivos ou até transações financeiras indevidas. O risco, portanto, não é teórico: já foi demonstrado em simulações de “red-teaming”, método em que especialistas em segurança testam deliberadamente os limites de um sistema.
Defesas em construção
Para enfrentar os riscos, a Anthropic estruturou um conjunto de proteções. A primeira camada envolve permissões claras para o usuário: os usuários podem conceder ou revogar o acesso de Claude a sites específicos a qualquer momento nas Configurações.
Mesmo no “modo autônomo”, em que o Claude executa ações sem depender de aprovação a cada passo, algumas barreiras permanecem. A IA, por exemplo, não pode interagir com páginas de categorias sensíveis, como serviços financeiros, sites adultos ou conteúdos pirateados.
Outro recurso em desenvolvimento são classificadores avançados, treinados para identificar padrões suspeitos de comandos ocultos. Com essas medidas, a taxa de sucesso de ataques caiu de 23,6% para 11,2%. Em cenários específicos de ataques no navegador, como formulários maliciosos escondidos no código de uma página, a taxa foi reduzida de 35,7% para 0%.
“Antes de tornar o Claude para Chrome mais amplamente disponível, queremos expandir o universo de ataques que estamos considerando e aprender como deixar essas porcentagens muito mais próximas de zero, entendendo mais sobre as ameaças atuais, bem como aquelas que podem aparecer no futuro”, frisa a empresa.
Além disso, a Anthropic recomenda que os usuários evitem utilizar o Claude em sites que envolvam dados financeiros, jurídicos ou médicos. A orientação é começar com páginas confiáveis, sempre atentos ao tipo de informação que o assistente pode acessar. A expectativa é que o feedback dos primeiros testadores ajude a refinar não apenas os modelos de detecção de ataques, mas também a experiência de uso.
“Ao descobrir exemplos reais de comportamento inseguro e novos padrões de ataque que não estão presentes em testes controlados, ensinaremos nossos modelos a reconhecer os ataques e levar em conta os comportamentos relacionados, além de garantir que os classificadores de segurança detectem qualquer coisa que o próprio modelo não detecte”, finaliza.
*Foto: Anthropic






