Índice
Índice
“Sam, por favor não me tornes sem-abrigo”, pediu Mr. Beast, o youtuber que esta semana é capa da revista Time com a descrição “a pessoa mais vista do mundo”. A mensagem foi escrita na rede social X (antigo Twitter) em resposta a Sam Altman, CEO da OpenAI, a empresa que criou o ChatGPT. Mr. Beast, que tem 239 milhões de seguidores no YouTube, reagiu desta forma ao anúncio de um novo modelo da OpenAI, chamado Sora, céu em japonês.
Sam plz don’t make me homeless
— MrBeast (@MrBeast) February 15, 2024
“Aqui está o Sora, o nosso modelo de geração de vídeo”, anunciou o CEO da OpenAI, mostrando uma série de vídeos de até um minuto, simulando imagens realistas, como um casal a andar pelas ruas de Tóquio, até animação muito detalhada. “O Sora é um modelo de IA [inteligência artificial] que pode criar cenas realistas e imaginativas a partir de instruções de texto”.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
A OpenAI já tinha modelos de geração de imagem. Antes do ChatGPT, tinha-se tornado viral com o Dall-E. O Sora também não é a única opção no mercado que permite criar vídeo, mas os mais de 40 exemplos partilhados pela startup de São Francisco, que tem uma ligação muito próxima com a Microsoft, deixaram a internet surpreendida.
OpenAI revela ferramenta que produz vídeos instantâneos a partir de instruções escritas
Por questões de segurança, justificou a OpenAI, o Sora não vai estar disponível para acesso generalizado. Antes disso acontecer, vai ser sujeito a testes por uma equipa conhecida como “red teamers”, que vão avaliar como se comporta em áreas críticas e acautelar riscos e perigos desta tecnologia. Mesmo assim, Sam Altman quis mostrar ao público o que já é possível gerar em imagens e pediu aos utilizadores do X textos mais desafiantes. “Uma corrida de bicicleta no oceano com animais diferentes, como atletas, a andar de bicicleta, com uma vista de câmara por drone”, pediu um utilizador.
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
Outro pediu um “meio pato, meio dragão a voar com um bonito pôr do sol e um hamster vestido com equipamento de aventura às costas”. Ambos os pedidos tiveram resposta de Sam Altman ainda que, no exemplo do meio pato, meio dragão, a direção de voo estivesse errada.
here is a better one: https://t.co/WJQCMEH9QG pic.twitter.com/oymtmHVmZN
— Sam Altman (@sama) February 15, 2024
Manter a coerência é justamente um dos desafios deste tipo de modelo, explica Arlindo Oliveira, especialista em IA e presidente do INESC, ao Observador. Por isso, põe alguma água na fervura sobre o impacto do Sora, pelo menos para já. “Se as pessoas forem experimentar vão ver que vai falhar com certeza”, notando que, pelos exemplos apresentados, ainda demonstra “alguma dificuldade em manter a consistência.” Ou seja, garantir que ao longo do vídeo, por mais curto que seja, uma pessoa não aparece com mais membros do que é suposto ou, no exemplo apresentado acima, que o motivo principal se comporta da forma esperada.
Como funciona e o que promete o modelo Sora?
A OpenAI acredita que o Sora, que é um modelo de difusão, vai ser uma ferramenta “útil para os profissionais criativos”. O modelo de difusão gera imagens a partir de pontos aleatórios, parece uma imagem cheia do chamado ruído, até que, progressivamente vai limpando esse ruído até chegar à versão que considera mais adequada. A OpenAI explica que os “vídeos e as imagens são representadas como coleções de unidades de dados [fragmentos] ou ‘patches’” e que ao juntá-los se vai treinando o modelo num leque mais alargado, o que permite que seja possível alterar as durações, as resoluções e os rácios de aspeto dos vídeos. O utilizador pode dizer se quer um plano aproximado, imagens mais distantes ou outro tipo de movimento da câmara.
O Sora tira partido da investigação que já foi feita para o Dall-E, o modelo de geração de imagem, e dos modelos GPT, que são usados para o ChatGPT. No Dall-E 3, a OpenAI usou já “legendas altamente descritivas” para o treino dos dados visuais. Por isso, agora, o Sora “é capaz de seguir as instruções de texto para gerar um vídeo de forma mais fiel” ao pedido escrito.
A OpenAI, que foi processada pelo New York Times (NYT) devido ao alegado uso de conteúdos do jornal para treino do ChatGPT, não especifica que dados usou para treinar o Sora. Ao NYT, a empresa disse apenas que foram usados dados de vídeos disponíveis publicamente e que foram licenciados junto dos detentores dos direitos.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
O Sora foi gerado para conseguir desenvolver “cenas complexas com vários personagens, diferentes tipos de movimento e detalhes precisos do sujeito e do fundo”. Num dos exemplos, que representa uma mulher numa cidade, o vídeo aproxima-se gradualmente da mulher para mostrar determinados pormenores como a marca dos óculos de sol. A OpenAI diz que houve um treino não só para compreender o que o utilizador está a pedir, como também para saber como existem esses objetos no mundo real.
Tal como em outros anúncios da OpenAI, há um foco nas fraquezas do modelo. Por agora, o Sora demonstra dificuldades “em simular de forma correta a física de uma cena complexa e pode não compreender questões específicas de causa e efeito”, explica a OpenAI. Por exemplo, o pedido para criar um vídeo de alguém a comer uma bolacha implica que, à medida que a ação se desenvolve, a bolacha fique mais pequena. Com o Sora, a bolacha tem ainda sempre a mesma dimensão. Ou, noutro dos exemplos, não consegue conceber uma imagem de um líquido a ser derramado de um copo. “O modelo também pode confundir pormenores de um pedido, por exemplo, misturar a esquerda e a direita (…)”, continua a OpenAI.
Para já, o modelo está apenas disponível para uma equipa de “especialistas” que trabalham temas como a desinformação, o conteúdo de ódio e o preconceito, que vão testar de forma “adversa” o modelo. Ou seja, vão tentar perceber em que casos é que pode ter um comportamento que não cumpra com as normas estabelecidas. Também vai ser disponibilizado o acesso a “artistas visuais, designers e cineastas para que possam dar feedback” sobre o desempenho do modelo.
A OpenAI frisa que vai incluir medidas de segurança neste modelo antes de o disponibilizar noutros produtos. Para que pedidos de vídeos com “violência extrema, conteúdo sexual, imagens de ódio, semelhanças com celebridades ou usando a propriedade intelectual de outros” sejam rejeitados.
Que perigos é que pode trazer?
Tanto Arlindo Oliveira como David Matos, professor do Instituto Superior Técnico, falam em “democratização” da possibilidade de fazer vídeos mas, ao contrário dos comentários online ao Sora, não se mostram, para já, amedrontados com a tecnologia. “É uma tecnologia que não é nova, já existe”, indica Arlindo Oliveira, considerando que, por enquanto, não estará no “nível de causar riscos”. Ainda assim, acrescenta, “é tecnologia que está constantemente a evoluir”.
E “o potencial para fazer mal existe sempre” e em qualquer tecnologia, nota David Matos. Fala num “risco genérico” de as pessoas usarem uma solução deste género para gerar vídeos manipulados, os chamados ‘deepfakes’, mas, indica, seria preciso “treinar especificamente um modelo” para responder a um pedido de imitação de uma celebridade ou uma pessoa específica. De qualquer forma, não retira da lista de riscos a manipulação de vídeos. “É importante que as pessoas tenham consciência do que é possível fazer com a tecnologia”, reconhece o professor, “e que qualquer pessoa saiba que há uma quantidade de coisas [online] em que não se vai poder confiar”.
“Vamos ter de nos habituar a viver com isto”, completa Arlindo Oliveira, que considera que “ainda não é este” o modelo que vai ser totalmente certeiro em todas as utilizações. Em relação aos exemplos que a OpenAI revelou, “foram escolhidos de certeza” para mostrar os mais ambiciosos.
“É uma coisa que deve ser gerida com pinças”, diz quem trabalha na indústria publicitária
O desenvolvimento da inteligência artificial abriu o debate sobre os efeitos do uso desta tecnologia em várias indústrias e formas de trabalho. Na indústria do entretenimento, por exemplo, a greve do verão passado em Hollywood já se referiu às preocupações com o uso de IA, nomeadamente na utilização da imagem, sa voz e do trabalho dos atores para “alimentar” modelos generativos, na substituição de guionistas pelo ChatGPT.
O lançamento do Sora, ainda que limitado a vídeos até um minuto, começa a alimentar dúvidas sobre as consequências na produção audiovisual, mesmo que a OpenAI fale numa ferramenta virada para estes profissionais. João Vilela, CEO da produtora de filmes publicitários Krypton Films, conta ao Observador que tem recebido mensagens com ligações para os vídeos feitos com o modelo. Já analisou alguns e, com um olhar profissional, encontrou defeitos, como a luz, “que não é real”. “Nota-se uma grande falta do lado orgânico, da realidade das coisas”, explica, mas confessa que “é a sua perceção como profissional da área da imagem”, que nem toda a gente tem.
“Sou muito cético em relação à IA, acho que vai ser um condicionamento da espontaneidade e da criatividade”, continua, falando mesmo num uso que “deve ser gerido com pinças”. “Não querendo ser um purista ou um velho do Restelo, acho que há grandes diferenças” entre as imagens geradas por um modelo de IA e as imagens reais. João Vilela, que dirige a empresa que já produziu filmes para as campanhas publicitárias da Vodafone, EDP e McDonald’s, acredita “que nunca se vai conseguir chegar a um nível de realismo e pureza” como nas imagens reais, principalmente quando o objetivo final “tem a ver com emoção”. “É como ver um jogo de futebol na televisão ou no estádio – não se consegue recriar a experiência”, compara.
Porém, admite que, em alguns casos, possa vir a ser uma “ferramenta útil”, mas que tudo dependerá do “nível de exigência” das pessoas. “É evidente que pode reduzir custos” no desenvolvimento de algumas componentes de vídeo, assim como o tempo de produção, “mas que também pode soar a falso”. Por agora, recorre a uma expressão que diz ser usada com frequência no mundo da publicidade: “não se vê, mas sente-se”. “Mesmo que as pessoas não vejam, apercebem-se se as coisas são reais ou não.”