É como fazer um “reconhecimento facial à música” ou, como se mencionou na conferência de imprensa virtual da Google na quarta-feira à tarde, um Shazam aos trauteios de quem se batalha com um som obstinadamente guardado no fundo da cabeça. 

“Hum to Search”, a novidade anunciada em outubro pela Google, não precisa que se lembre sequer da letra da canção para acabar com a ânsia de descobrir a música que tem debaixo da língua. Basta trautear ou assobiar e o assunto fica resolvido, como explicou o Observador em outubro.

Basta assobiar ou trautear e a Google descobre que música não lhe sai da cabeça

Simples? Sim e não. Para os utilizadores da ferramenta, disponível tanto em smartphones Android como iOS, basta abrir a aplicação do Assistente da Google, clicar no comando de voz, dizer: “Qual é a música?” e começar a cantarolar. Dez a quinze segundos depois, o martírio de ter uma canção que não lhe sai da cabeça desvanece-se.

Mas o sistema que permite desvendar a música que não lhe sai na cabeça é muito mais complexo do que parece, explicou Christian Frank, o engenheiro da área de modelação em machine learning por trás desta nova ferramenta: “Os modelos transformam o som numa sequência numeral que representa a melodia”.

Não se concentra no timbre, na falta de instrumentos ou ruído de fundo”, prosseguiu o especialista. Como a cada ficheiro de som, tanto da música oficial como do trauteio, vai corresponder uma sequência, a rede neural “é procurada na base de dados e são mostradas as músicas com sequências mais semelhantes ao som do utilizador”.

Nem sempre foi assim, ressalva Christian Frank: “As primeiras versões da ferramenta funcionavam bem se as pessoas cantassem efetivamente, mas era mais resistente quando as canções eram trauteadas. Suspeitámos que estava a focar-se demais nas letras, o que era um problema”.

A solução foi dar um rosto às músicas e um rosto aos áudios introduzidos no programa. “O que fizemos foi gerar ficheiros de trauteios a partir de ficheiros em que as pessoas cantavam as músicas. Extraímos o tom desses ficheiros utilizando um software, o SPICE, e gerámos um trauteio”, concretizou o engenheiro.

Mais tarde, esse software foi substituído por uma rede neural que gera áudio zumbido ou assobiado com base na música original.

Como este é um mecanismo de machine learning, em que o sistema aprende à medida que é utilizado, a Google pediu aos próprios colaboradores para cederem voluntariamente sons deles a trautearem canções. Depois, levou a “Hum to Search” ao ginásio: quanto mais exercitava, melhor aprendia a identificar músicas. Neste momento, o sucesso é de quatro em cinco canções e funciona em canções de 22 línguas. O português de Portugal não é uma delas, mas o português do Brasil sim.

Agora, os sons que o utilizador trautear ao usar a ferramenta podem ser introduzido na base de dados, mas só se quiser: “Por defeito, não guarda. Se quiser que eles sejam usados para aperfeiçoar o sistema, tem de mudar as definições no telemóvel”, explicou Krishna Kumar, gestor sénior de produto.

A Google não é o primeiro sistema a identificar músicas com base em trauteios ou assobios. Mas a forma como o faz (e a taxa de sucesso) é que faz a diferença. Os sistemas que já existem no mercado convertem a amostra de áudio num espectrograma — ou seja, numa representação visual da evolução da frequência da música ao longo do tempo — ainda antes de processarem o som. Ora, os espectogramas das canções originais podem ser muito diferentes dos criados a partir das versões cantaroladas.

É aqui que entra o machine learning. Em 2017, os smartphones Pixel já tinha lançado a aplicação Now Playing, que usa uma rede neural profunda no dispositivo para reconhecer músicas sem a necessidade de uma conexão ao servidor. Depois, a Sound Search desenvolveu ainda mais esta tecnologia para fornecer um serviço de reconhecimento mais baseado num servidor com uma base de dados com 100 milhões de músicas.

O que a Google fez foi utilizar todos estes conhecimentos e levá-los mais longe: reconhecer trauteios ou assobios numa biblioteca igualmente vasta. Foi preciso modificar os modelos de reconhecimento usados pela Now Playing e pela Sound Search para “reconhecer pares de áudio que contêm a mesma melodia” a partir de uma espécie de código de barras. Quanto mais parecidos forem esses códigos, melhores são as correspondências.