MusicLM: Google lança modelo de AI que cria música

Inteligência Artificial é capaz de criar músicas a partir de descrições e pode ameaçar futuro da produção musical

Cecília Delgado
5 min leitura
fevereiro 6, 2023

O Google anunciou um novo modelo de inteligência artificial generativa batizada de MusicLM, capaz de criar músicas de 24 KHz a partir de descrições de texto, como “uma melodia tranquila de violino apoiada em riffs de guitarra distorcido”, explicam os pesquisadores do Google no artigo que apresenta o novo modelo.

O MusicLM foi treinado em um conjunto de dados de 280 mil horas de música para produzir músicas que fazem sentido a partir de descrições complexas. Isso só foi possível porque o MusicLM usa um modelo de IA treinado no que o Google chama de “um grande conjunto de dados de música não rotulada”, junto com legendas do MusicCaps, um grupo de dados composto por 5.521 pares de música e texto. As descrições de texto são elaboradas por especialistas humanos e seus clipes de áudio correspondentes do AudioSet do Google, uma coleção de mais de 2 milhões de clipes de som de 10 segundos rotulados extraídos de vídeos do YouTube.

Como o MusicLM funciona

O MusicLM funciona em duas partes principais: primeiro, pega uma sequência de tokens de áudio (literalmente pedaços de som) e os mapeia na forma de tokens semânticos (as palavras que representam significado) em legendas para treinamento. A segunda parte recebe legendas do usuário e/ou áudio de entrada e gera tokens acústicos (pedaços de som que compõem a saída da música resultante). O sistema ainda conta com outros componentes, como SoundStream e MuLan.

A capacidade do MusicLM vai de reproduzir instrumentos específicos, seja flauta, violoncelo, violão; navegar entre diferentes gêneros musicais; mas também trilhas sonoras de ambiente, como o barulho de uma academia ou um carro batendo, e períodos de tempo (uma discoteca dos anos 70 ou um clube de jazz da década de 1940). Além disso, o MusicLM é capaz de transformar uma coleção de descrições escritas sequencialmente em uma história musical ou em uma narrativa construída sobre melodias existentes, sejam elas assobiadas, cantaroladas, cantadas ou tocadas em um instrumento.

Assine nossa newsletter e fique atualizado sobre as principais notícias da experiência do cliente

O Google afirma que o MusicLM supera os geradores de música por inteligência artificial anteriores em qualidade de áudio e em equivalência às descrições de texto. Na página de demonstração do MusicLM, o Google fornece vários exemplos do modelo de IA em ação, criando áudio a partir de legendas complexas que descrevem a sensação da música e até mesmo vocais, que até então eram incompreensíveis para as IAs.

Será que a IA vai virar uma máquina de hits?

A música gerada por IA não é uma ideia nova, mas os métodos de geração de música pela IA geralmente criavam notações musicais que mais tarde eram tocada à mão ou por meio de sintetizadores, enquanto o MusicLM gera as frequências de áudio brutas da música.

Para produtor musical Pedro Moura, a substituição de profissionais pela ferramenta de AI ainda é uma perspectiva distante. Mas ele vê benefícios do MusicLM para o desenvolvimento, inclusive criativo. “Ainda estamos longe de efetivamente a tecnologia acabar com o emprego de músicos e produtores, mas por enquanto é uma ótima ferramenta pra criar referências e produzir a partir delas”, reflete.

Os criadores do MusicLM descrevem seus possíveis impactos, que incluem direitos autorais, pela apropriação indevida de conteúdo criativo, possíveis vieses para culturas sub-representadas nos dados do treinamento e possíveis problemas de apropriação cultural. Por isso, o Google enfatizou a necessidade de mais trabalho para lidar com esses riscos e decidiu reter o código do MusicLM: “Não temos planos de lançar modelos neste momento”.

Conheça o Mundo do CX

Os pesquisadores do Google já estão focados em aprimoramentos: “O trabalho futuro pode se concentrar na geração de letras, juntamente com a melhoria do condicionamento do texto e da qualidade vocal. Outro aspecto é a modelagem da estrutura da música de alto nível, como introdução, verso e refrão. Modelar a música com uma taxa de amostragem mais alta é um objetivo extra”.

A tendência é que pesquisadores de IA continuem a melhorar a tecnologia de geração de música, mas é impossível prever quando e se o MusicLM será capaz de criar música com qualidade de estúdio em qualquer estilo a partir apenas da descrição dos elementos da obra. Se a IA conseguirá eventualmente substituir os profissionais da música, como aventou Moura, e qual o impacto que terá na indústria da música, como foi o rádio e a reprodução digital por MP3, é um outro papo.