Nos corrida da inovação tecnológica, a busca incessante pela replicação perfeita da voz humana atinge novos patamares com uma descoberta promissora da OpenAI, o Voice Engine. Imagine a capacidade de recriar a voz de uma pessoa de maneira tão autêntica que é difícil distinguir entre a original e a replicada. Essa é a promessa da mais recente tecnologia da empresa, que utiliza apenas uma breve gravação de 15 segundos como base para a recriação. Esta façanha não apenas desafia os limites do que é possível em termos de síntese vocal, mas também levanta uma série de questões éticas, sociais e culturais sobre o poder e os limites da tecnologia em recriar a identidade humana.
Desenvolvido pela primeira vez em 2022, o Voice Engine tem sido um dos pilares para impulsionar as vozes predefinidas disponíveis na API de conversão de texto em fala, bem como nos recursos do ChatGPT Voice e do Read Aloud. Contudo, a empresa tem adotado uma postura cautelosa e criteriosa em relação à sua divulgação em larga escala. Isso acontece pelas preocupações com o potencial de uso indevido dessa voz sintética.
“Esperamos iniciar um diálogo sobre a utilização responsável de vozes sintéticas e sobre como a sociedade pode adaptar-se a estas novas capacidades. Com base nestas conversas e nos resultados destes testes em pequena escala, tomaremos uma decisão mais informada sobre como implementar esta tecnologia em escala”, comenta a OpenAI em nota.
Aplicação do Voice Engine, da OpenAI
No final de 2023, foram iniciados os testes da OpenAI com uma parcela de parceiros. Os resultados alcançados mostraram que as implementações em pequena escala têm desempenhado um papel fundamental na orientação da abordagem da empresa na definição de salvaguardas e na reflexão sobre como o Voice Engine pode ser utilizado para o bem em diversos setores. Diante disso, a OpenAI divulgou insights sobre o que foi visto dessa nova tecnologia até então.
Entre elas, a assistência na leitura para não leitores e crianças. Por meio de vozes emotivas e naturalmente sonoras, o Voice Engine possibilita representar uma variedade mais ampla de falantes do que é possível com vozes predefinidas. A empresa de tecnologia educacional Age of Learning, por exemplo, tem utilizado essa tecnologia para gerar conteúdo de narração pré-roteirizado. Além disso, tem utilizado o Voice Engine e o GPT-4 para criar respostas personalizadas em tempo real e interagir com os alunos. Essa tecnologia possibilitou que a Age of Learning expandisse sua oferta de conteúdo para atender a um público mais diversificado.
Além disso, a nova ferramenta permite ainda a tradução de conteúdos, como vídeos e podcasts. Os testes foram feitos por empresas como o HeyGen, plataforma de narrativa visual de IA, que usou o Voice Engine com o objetivo de ampliar seu alcance global. O HeyGen trabalha com clientes corporativos para criar avatares personalizados, tornando a comunicação mais fluente e autêntica. Através da tradução de vídeos, eles podem agora transmitir mensagens em múltiplos idiomas, mantendo o sotaque nativo do locutor original.
A tecnologia também se mostrou aliada da melhor prestação de serviços essenciais em comunidades remotas. A Dimagi, por exemplo, está desenvolvendo ferramentas para agentes comunitários de saúde. Assim, torna possível a comunicação eficaz em diversos idiomas, incluindo línguas regionais. Da mesma forma, o Livox encontrou na ferramenta a possibilidade de uso para apoiar pessoas que não falam. A empresa trabalha com comunicação alternativa ao oferecer vozes não-verbais, únicas e humanizadas, através de dispositivos de Comunicação Aumentativa e Alternativa (AAC). Com o Voice Engine, foi possível oferecer às pessoas vozes não-verbais, únicas e não robóticas, em diversos idiomas.
Inovação na saúde: restaurando a voz, reconstruindo vidas
No campo da saúde, o Voice Engine também tem deixado sua marca ao auxiliar pacientes que perderam a capacidade de fala devido a condições neurológicas ou oncológicas. O Norman Prince Neurosciences Institute da Lifespan, um sistema de saúde sem fins lucrativos que atua como principal afiliado de ensino da faculdade de medicina da Brown University, tem explorado o potencial desta tecnologia para restaurar a voz de pacientes. Assim, é possível proporcionar a eles uma chance de recuperar sua independência e qualidade de vida. Até agora, foi possível restaurar a voz de uma jovem que perdeu a fala após um tumor cerebral vascular.
Com o Voice Engine, como é possível manter a ética e a segurança?
A partir de um momento em que uma nova tecnologia é lançada no mercado, é necessário reconhecer riscos e entender como manter a ética e a segurança, para que o uso dessa ferramenta aconteça de forma consciente. Nesse cenário, a OpenAI reconhece os riscos inerentes à criação de vozes sintéticas e tem trabalhado em estreita colaboração com diversos setores para garantir sua utilização responsável.
“Os parceiros que testam o Voice Engine hoje concordaram com nossas políticas de uso, que proíbem a representação de outro indivíduo ou organização sem consentimento ou direito legal. Além disso, nossos termos com esses parceiros exigem consentimento explícito e informado do orador original e não permitimos que os desenvolvedores criem formas para que usuários individuais criem suas próprias vozes. Os parceiros também devem divulgar claramente ao seu público que as vozes que ouvem são geradas por IA. Por fim, implementamos um conjunto de medidas de segurança, incluindo marca d’água para rastrear a origem de qualquer áudio gerado pelo Voice Engine, bem como monitoramento proativo de como ele está sendo utilizado”, pontua a empresa.
Olhando para o futuro: desafios e oportunidades
Embora reconheçam o enorme potencial do Voice Engine, a OpenAI optou por uma abordagem cautelosa quanto à sua divulgação em larga escala. A empresa se afirma comprometida em continuar participando de conversas importantes sobre os desafios e oportunidades das vozes sintéticas, buscando soluções éticas e responsáveis para moldar o futuro desta tecnologia. À medida que avançam, é essencial permanecer vigilantes e atentos aos impactos sociais e éticos dessas inovações. Nesse cenário, a companhia comenta estar pronta para enfrentar os desafios e aproveitar as oportunidades que o futuro reserva.
Avanços e desafios na era da Inteligência Artificial
A prévia do Voice Engine busca destacar suas capacidades promissoras e, simultaneamente, enfatizar a urgência em fortalecer a resiliência da sociedade diante dos desafios apresentados por modelos generativos cada vez mais sofisticados. Nesse sentido, a OpenAI sugere que sejam adotadas algumas etapas, como a redução gradual da autenticação por voz como medida de segurança para acesso a informações sensíveis, como contas bancárias.
A empresa sugere ainda a exploração de políticas para salvaguardar o uso das vozes individuais na esfera da Inteligência Artificial (IA). Além disso, reafirma a necessidade da educação pública sobre as capacidades e limitações das tecnologias de IA, o que inclui a ameaça potencial de conteúdo enganoso gerado por IA. Ainda é importante a promoção do desenvolvimento e adoção de técnicas para rastrear a origem de conteúdo audiovisual, garantindo a transparência entre interações com indivíduos reais e IA.
“É importante que as pessoas em todo o mundo compreendam para onde esta tecnologia se dirige, quer nós próprios a implementemos amplamente ou não. Esperamos continuar a participar em conversas sobre os desafios e oportunidades das vozes sintéticas com decisores políticos, investigadores, criadores e criativos”, finaliza.
Vale lembrar que “O futuro da experiência: IA antecipando tendências” será um tema abordado no evento IA+CX: a experiência do cliente potencializada pela IA Generativa.
O evento ocorrerá no dia 23 de abril de 2024, na Casa Traffô, localizada na Rua Gomes de Carvalho, 560, bairro Vila Olímpia, São Paulo/SP.
Confira a programação completa, acesse: Programação – IA + CX – Inteligência Artificial + Customer Experience.
Foto: Shutterstock.com