Quando Serkan Sulun era pequeno, o pai ensinou-lhe Inglês e Matemática antes de ele ir para a escola primária. Mais tarde, iniciou-o no mundo do basquetebol, do póquer e do xadrez. A mãe desafiava-o com jogos de inteligência para exercitar a mente. Mas a música nunca fez parte da mentoria parental. “Talvez por isso eu não sei tocar nenhum instrumento”, graceja o turco de 29 anos, investigador do Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência (INESC TEC), no Porto. Mas depois confidencia que está a solucionar esse “problema”. “Resolvi fazer um Doutoramento em engenharia com foco na música”.
Sulun é natural de Akçay, uma pequena cidade na Baía de Edremit, na Turquia, na costa nordeste do Mar Egeu, com vista para a ilha grega de Lesbos. Ele está a investigar como é que, a partir das imagens de um vídeo, se pode criar música inédita exclusiva, que traduza, exatamente, de forma síncrona, as sensações dessa linguagem audiovisual.
Quando se produz um vídeo, queremos que a música de fundo seja engaging para o espectador. Eu estou a tentar criar um sistema que imite um compositor musical profissional. Mas, na verdade, quando se trata de criação artística, atualmente e no futuro próximo, a Inteligência Artificial [IA] está longe de ser uma performance humana. E o meu trabalho não mudará isso.”
A ideia, enfatiza, é que “nem sempre as bibliotecas de música, ou mesmo as músicas royalty free, livres de direitos, são as mais adequadas para uma experiência mais envolvente”.
Através do método de aprendizagem profunda [Deep Learning], um tipo de Machine Learning [ramo da Inteligência Artificial], Serkan Sulun está a desenvolver “um modelo” que possa ensinar o computador a identificar as melhores notas que vão compondo a música originada a partir do vídeo. Como? “Vou criar um software, utilizando a linguagem de programação Python”, responde. “A minha rede neural, composta por features and labels [características e categorias], vai ensinar a máquina a pensar a partir dessas variáveis propostas.”
E exemplifica: partindo de um quadro de referência de emoções conhecidas, como tristeza e alegria, que se associa a determinados géneros fílmicos — drama e aventura, por exemplo — aos quais está também associada a linguagem cinematográfica, como os tipos de planos. Se Sulun for bem sucedido, a investigação poderá revolucionar “o mundo da produção de vídeo”.
Ele quer fazer com que a música dialogue rigorosamente com as imagens criadas, utilizando as referências MIDI [Interface Digital de Instrumentos Musicais]. Desta forma, nota o investigador, os criadores de conteúdo de vídeo vão ter ao seu dispor “uma forma mais económica para produzir música”, relacionada diretamente com a imagem em movimento.
O estudante de Doutoramento cresceu a olhar para o mar e, aos oito anos, assegura, inventou “o sonho de viver fora da Turquia”. Começou por sair da cidade natal, em 2009. No primeiro ano do bacharelato em Engenharia Eletrónica na Sabanci University, em Istambul, inscreveu-se no programa de mobilidade académica Erasmus, na Eslovénia, aproveitando, ainda, para fazer interail pela Europa.
Antes do último ano de curso, foi selecionado para um estágio na Fundação Champalimaud, em Lisboa, entre julho e outubro de 2013. Integrou uma investigação de neurociência em que era o único engenheiro. A equipa de neurocientistas queria compreender como os ratos entendiam o sentido do tempo, filmando o seu comportamento, motivado por estímulos sonoros emitidos em intervalos de tempos distintos, com recompensas em espaços diferentes. “Eu fazia o processamento dos vídeos, modificando o design da placa, que controla os circuitos da experiência; também processava alguns sinais neurológicos e, às vezes, cuidava dos ratos”, relembra.
Em 2014, já bacharel, seguiu o sonho de continuar a viver fora da Turquia. Mas com uma ressalva: percebeu que estava “a tomar decisões profissionais depressa demais”. Por isso decidiu abrandar. Inscreveu-se no European Volunteering Service e fez um “gap year”. “Acabei a fazer voluntariado perto de Innsbruck, na Áustria, num centro para jovens entre os 12 e os 20 anos, onde o meu trabalho era entretê-los: jogar futebol, basquetebol, jogar dardos, Playstation, etc.” Simultaneamente, trabalhava como engenheiro de som no estúdio musical. “Os miúdos traziam os seus beats instrumentais do YouTube e faziam rap sobre a vida de gangster”.
Em setembro de 2015, quando regressou à Turquia, era tarde demais para se candidatar a mestrado. Resignado, fez mais um ano sabático. “Desta vez queria ficar longe da vida da cidade, por isso fiz voluntariado numa quinta orgânica perto da cidade de Çanakkale [na região do Egeu].” Nessa altura, ocupado com um trabalho puramente físico, o investigador percebeu o seu “propósito” profissional: preferia “o trabalho intelectual”.
Em 2018 inscreveu-se no Mestrado em Engenharia Elétrica e Eletrónica na Universidade de Koç, em Istambul. Durante dois anos, dedicou-se “a estudar compressão de vídeo, utilizando IA”, testando novas formas de armazenamento dos dados de vídeo, através de uma rede neural. Elaborou um modelo mais inteligente, baseado em Machine Learning, que pode diminuir a margem de erro da compressão de vídeo.
“A nossa experiência teve um desempenho melhor do que um padrão de vídeo bem conhecido, embora o seu desempenho seja um pouco pior do que os padrões de vídeo atuais”. Mas “há espaço para melhorias”, acreditando que, em breve, a IA será utilizada na compressão de vídeo.
Durante o Mestrado, o que mais o atraiu na investigação foi o facto de “sentir que estava a fazer um trabalho útil”, de que “até gostava” e “com liberdade de horário”. O próximo passo era apostar na pesquisa sobre compressão relacionada com a música, seguindo a antiga paixão. Encontrou o INESC TEC como centro de referência, mais concretamente o perfil de Matthew Davies, então investigador sénior do centro de Telecomunicações e Multimédia e coordenador do grupo de pesquisa de Som e Música Computorizados. Falaram por Skype e o atual orientador interessou-se pela ideia. E, em março de 2019, abriu-lhe as portas do INESC TEC, para que pudesse investigar “super resolução para música”.
Apesar de “não ter talento para a música”, reitera Sulun, que está agora a aprender percussão de forma autodidata, em setembro de 2019, resolveu candidatar-se ao Doutoramento em Engenharia Eletrotécnica e de Computadores, da Faculdade de Engenharia da Universidade do Porto, com a proposta “Video-Based Music Generation” [Geração de música baseada em vídeo]. “Não há muita literatura sobre o assunto e há, ainda, muito poucos estudos, até porque o que proponho ainda não é possível fazer”, ressalva. A novidade que esta pesquisa introduz é a criação dessa rede neural, utilizando uma “abordagem híbrida”, através de “modelos de processamento de vídeo e de música, depois combinados”. Por exemplo: “Esses recursos podem ser de baixo nível, como tempo e cor, ou de alto nível, como rótulos semânticos [grande plano, plano médio, profundidade de campo, etc]. “O que é mais promissor é usar as emoções”, uma vez que “poderemos prever, a partir do vídeo, o conteúdo emocional relacionando com o género fílmico”, “como de aventura e ação”. Isto pode gerar “conteúdos customizados e únicos daquele vídeo”, anima-se. Se tudo correr bem, Sulun terá um protótipo totalmente funcional até 2023.
Este artigo faz parte de uma série sobre investigação científica de ponta e é uma parceria entre o Observador, a Fundação “la Caixa” e o BPI. Serkan Sulun, atualmente a desenvolver o projeto New Methods for Multimedia Content Description, Retrieval and Browsing to Improve the User Experience and Enable Content Repurposing no INESC TEC, foi um dos 65 selecionados (três em Portugal) – entre 982 candidaturas – para financiamento pela fundação sediada em Barcelona, ao abrigo da edição de 2019 do programa de bolsas de doutoramento INPhINIT. O investigador recebeu 115 mil euros para desenvolver o projeto ao longo de três anos. As candidaturas para a edição de 2021 encerram a 4 de fevereiro ou 25 de fevereiro (de acordo com o local de realização da investigação).