O Bard, ferramenta de Inteligência Artificial (IA) generativa conversacional do Google, acaba de ser rebatizado para Gemini. O nome é o mesmo da unidade de negócios da Alphabet responsável pelo desenvolvimento de grandes modelos de linguagem – como o Gemini, modelo mais avançado até então criado pela empresa anunciado em dezembro de 2023. Agora, o Google entende que, mais do que uma ferramenta de IA generativa, a solução se tornará a base de todo um ecossistema de produtos e serviços.
Segundo a empresa, o modelo Ultra 1.0 é o primeiro a superar especialistas humanos em testes MMLU (massive multitask language understanding, ou compreensão de linguagem multitarefa em grande escala), que inclui uma combinação de 57 matérias para testar conhecimentos e habilidades de resolução de problemas. Essa versão da IA generativa passará a se chamar Gemini Advanced, que pode ser utilizada para uma miríade de tarefas, desde ajudar a desenvolver um plano de negócios, até contribuir na construção de ideias criativas.
Para utilizar a versão mais atualizada e potente do Gemini, é preciso assinar o plano Google One AI Premium, que inclui outras ferramentas de IA da empresa, além de mais espaço de armazenamento e produtos exclusivos. Enquanto isso, funcionalidades do Google como Workspace e Google Cloud, que até então utilizavam o Duet AI, passaram a contar com funcionalidades de IA do Gemini. Por meio dele, usuários poderão pedir o auxílio da IA para escrever e-mails, documentos, códigos de programação, além de outros benefícios.
No entanto, assinantes do plano poderão também utilizar o Gemini em ferramentas como Gmail, Docs, Sheets, Slides e Meet. O Gemini Advanced já está disponível em inglês em mais de 150 países e, com o tempo, irá expandir para outros idiomas.
Além disso, a IA generativa – tanto em sua versão gratuita quanto paga – estará disponível em breve para smartphones nos sistemas operacionais Android, no qual terá um novo aplicativo, e iOS, com o Google app. Hoje, os aplicativos já podem ser baixados e utilizados nos Estados Unidos, e logo mais estarão à disposição em todo o mundo.
Atualização atrás de atualização
O anúncio é o último em um relativo curto espaço de tempo de outros que o Google fez nos últimos meses. Em dezembro, a empresa lançou o Gemini como seu grande modelo de linguagem mais avançado em três versões para diferentes funcionalidades. O Gemini Ultra representava a versão mais avançada para resolver tarefas complexas, enquanto o Gemini Pro seria o melhor apontado para escalar uma grande variedade de tarefas. Por fim, o Gemini Nano era recomendado para tarefas em tablets e smartphones.
Em seguida, no início de fevereiro, foi a vez da empresa anunciar que o Bard contaria com uma atualização que permitiria que gerasse imagens a partir de prompts – algo que ferramentas como Midjourney, DALL-E e Bing Image Creator fazem. No entanto, com a última mudança que substitui o Bard pelo Gemini, essa funcionalidade não existe mais.
A Consumidor Moderno tentou pedir para que o Gemini gerasse e uma imagem, mas recebeu a seguinte resposta: “Eu ainda não posso criar imagens, por isso não posso ajudar você no momento”. No entanto, ao perguntar ao Gemini se consegue criar imagens, a IA respondeu que sim e ainda deu as instruções para isso. Por outro lado, é possível fazer o upload de uma foto e pedir ao Gemini para que descreva seu conteúdo.
Agora, com a nova atualização, o Google afirma que a versão mais avançada do Gemini foi capaz de superar até mesmo o líder no setor, o ChatGPT, da OpenAI, que também conta com planos de assinatura para usuários e empresas. As novidades apontam que o Google está tomando iniciativas para se tornar mais competitivo entre as Inteligências Artificiais generativas, seja por meio do aperfeiçoamento do modelo de linguagem, da disponibilidade em diversos dispositivos, e em suas versões mais aprimoradas.
Conheça sua IA
O Gemini se assemelha ao formato do ChatGPT, da OpenAI – investida da Microsoft. Além da ferramenta conversacional, tanto o Gemini quanto o ChatGPT são tão utilizados como ferramentas de produtividades nos diferentes recursos do Google e do Office 365 da Microsoft, respectivamente.
Em setembro de 2023, a empresa fundada por Bill Gates anunciou o lançamento do Copilot, funcionalidade de IA generativa aplicada a diferentes aplicativos e ferramentas do Windows, além do Bing e do Microsoft Edge. Trata-se de um assistente virtual que, nos recursos Office 365, ajuda usuários a aumentar a produtividade, escrever textos, criar e editar imagens e vídeos, organizar documentos, enviar e-mails, e diversas outras possibilidades. Já no buscador, a IA generativa é capaz de gerar imagens a partir de prompts, além de recomendar refinamentos de buscas de acordo com o histórico de navegação do usuário e pesquisas prévias.
Em setembro, a OpenAI também anunciou novas funcionalidades do ChatGPT, que passou a contar com recursos de voz e imagem. Além de poder receber comandos por meio da voz do usuário, pode também gerar respostas faladas por meio de vozes geradas artificialmente. A IA agora também consegue transcrever falas em texto, além de analisar o conteúdo de uma imagem e descrevê-la.
Já o DALL·E, também da OpenAI, é uma ferramenta treinada para criar imagens a partir de prompts em texto. Sua última versão, DALL·E 3, está disponível para usuários assinantes dos planos ChatGPT Plus e Enterprise, além de desenvolvedores que utilizarem a sua API. A ferramenta também está treinada a declinar pedidos de criação de imagens que imitem os estilos de um artista vivo.
O Midjourney funciona de maneira similar, gerando imagens a partir de um comando em texto por meio do Discord, ferramenta de chat e videoconferência, por meio de um plano de assinatura pago.
Compare as IAs generativas
Já estão disponíveis no mercado inúmeros ferramentas de IA generativa para diferentes propósitos. Desde programas conversacionais, a ferramentas de revisão de código de programação e geração de imagens e vídeos, usuários e empresas podem explorar os mais diferentes potenciais dos grandes modelos de linguagem comercializados.
Veja a tabela abaixo para comparar modelos e funcionalidades de cada um.
ChatGPT | Gemini | Copilot | DALL·E | Midjourney | Github Copilot | Code Llama | CodeWhisperer | |
---|---|---|---|---|---|---|---|---|
Empresa | OpenAI | Microsoft | OpenAI | Mindjourney Inc. | Microsoft | Meta | Amazon | |
Lançamento | Novembro de 2022 | Julho de 2023 (Bard) e Dezembro de 2023 (Gemini) | Setembro de 2023 | Janeiro de 2021 | Julho de 2022 | Junho de 2021 (preview) e Dezembro de 2023 | Agosto de 2023 | Junho de 2022 (preliminar) e abril de 2023 |
Onde | iOS, Android e navegadores. | iOS, Android e navegadores. | Windows 10 e 11 (gradualmente). | ChatGPT Plus e Enterprise (DALL·E 3), e Bing Chat, e navegadores (DALL·E 2). | Discord. | macOS, Windows e Linux. | macOS, Windows e Linux. | macOS, Windows e Linux. |
Funcionalidades | Conversacional (texto e voz), geração e edição de texto, leitura de imagens, respostas em áudio, capacidade de aprendizado contínuo, automatização de tarefas e análise de dados – de acordo com treinamento. | Conversacional, geração e edição ede texto, leitura de imagens, integração com recursos do Google. | Conversacional, comando de voz, geração e edição de texto e imagens, leitura de imagens, integração com recursos do Office 365, Bing Chat e Microsoft Edge. | Geração e edição de imagens. | Geração e edição de imagens. | Programação de pares de IA para escrever e revisar códigos de várias linguagens, especialmente Python, JavaScript, TypeScript, Ruby, Go, C# and C++. | Geração de códigos de programação a partir de comandos de códigos e de linguagem natural, em linguagens como Python, C++, Java, PHP, Typescript (Javascript), C# e Bash. | Geração de códigos de programação e sugestões em linguagens como Python, Java, SQL, PHP e C. |
Preços | Gratuito, a não ser nos planos Enterprise e Plus, por US$ 20 ao mês. | Gratuito e, no plano Google One AI Premium US$ 19,99 ao mês. | Gratuito no Windows 11. | É preciso comprar créditos para gerar uma imagem; preços variam de acordo com versão da ferramenta e resolução de imagem – entre US$ 0.016 e US$ 0.120. | Entre US$ 10 e US$ 120 por mês | Planos a partir de US$ 10 ao mês ou US$ 100 ao ano no plano individual, ou US$ 19 ao mês para o plano GitHub Copilot Business, e US$ 39 por usuário ao mês no plano Copilot Enterprise. | Gratuito. | US$19 ao mês na versão profissional, ou gratuito para uso individual. |