891kWh poupados com a
i

A opção Dark Mode permite-lhe poupar até 30% de bateria.

Reduza a sua pegada ecológica.
Saiba mais

Nenhuma das pessoas nesta imagem é real. É apenas um dos mais de 40 exemplos partilhados pela OpenAI
i

Nenhuma das pessoas nesta imagem é real. É apenas um dos mais de 40 exemplos partilhados pela OpenAI

OpenAI

Nenhuma das pessoas nesta imagem é real. É apenas um dos mais de 40 exemplos partilhados pela OpenAI

OpenAI

“Democratização” ou “condicionamento da criatividade”? Os prós, os contras (e as limitações) do gerador de vídeo a partir de texto da OpenAI

A dona do ChatGPT volta a atacar, desta vez com um modelo capaz de gerar vídeos a partir de texto. O debate sobre os riscos e as oportunidades já está instalado.

    Índice

    Índice

“Sam, por favor não me tornes sem-abrigo”, pediu Mr. Beast, o youtuber que esta semana é capa da revista Time com a descrição “a pessoa mais vista do mundo”. A mensagem foi escrita na rede social X (antigo Twitter) em resposta a Sam Altman, CEO da OpenAI, a empresa que criou o ChatGPT. Mr. Beast, que tem 239 milhões de seguidores no YouTube, reagiu desta forma ao anúncio de um novo modelo da OpenAI, chamado Sora, céu em japonês.

“Aqui está o Sora, o nosso modelo de geração de vídeo”, anunciou o CEO da OpenAI, mostrando uma série de vídeos de até um minuto, simulando imagens realistas, como um casal a andar pelas ruas de Tóquio, até animação muito detalhada. “O Sora é um modelo de IA [inteligência artificial] que pode criar cenas realistas e imaginativas a partir de instruções de texto”.

PUB • CONTINUE A LER A SEGUIR

A OpenAI já tinha modelos de geração de imagem. Antes do ChatGPT, tinha-se tornado viral com o Dall-E. O Sora também não é a única opção no mercado que permite criar vídeo, mas os mais de 40 exemplos partilhados pela startup de São Francisco, que tem uma ligação muito próxima com a Microsoft, deixaram a internet surpreendida.

OpenAI revela ferramenta que produz vídeos instantâneos a partir de instruções escritas

Por questões de segurança, justificou a OpenAI, o Sora não vai estar disponível para acesso generalizado. Antes disso acontecer, vai ser sujeito a testes por uma equipa conhecida como “red teamers”, que vão avaliar como se comporta em áreas críticas e acautelar riscos e perigos desta tecnologia. Mesmo assim, Sam Altman quis mostrar ao público o que já é possível gerar em imagens e pediu aos utilizadores do X textos mais desafiantes. “Uma corrida de bicicleta no oceano com animais diferentes, como atletas, a andar de bicicleta, com uma vista de câmara por drone”, pediu um utilizador.

Outro pediu um “meio pato, meio dragão a voar com um bonito pôr do sol e um hamster vestido com equipamento de aventura às costas”. Ambos os pedidos tiveram resposta de Sam Altman ainda que, no exemplo do meio pato, meio dragão, a direção de voo estivesse errada.

Manter a coerência é justamente um dos desafios deste tipo de modelo, explica Arlindo Oliveira, especialista em IA e presidente do INESC, ao Observador. Por isso, põe alguma água na fervura sobre o impacto do Sora, pelo menos para já. “Se as pessoas forem experimentar vão ver que vai falhar com certeza”, notando que, pelos exemplos apresentados, ainda demonstra “alguma dificuldade em manter a consistência.” Ou seja, garantir que ao longo do vídeo, por mais curto que seja, uma pessoa não aparece com mais membros do que é suposto ou, no exemplo apresentado acima, que o motivo principal se comporta da forma esperada.

Como funciona e o que promete o modelo Sora?

A OpenAI acredita que o Sora, que é um modelo de difusão, vai ser uma ferramenta “útil para os profissionais criativos”. O modelo de difusão gera imagens a partir de pontos aleatórios, parece uma imagem cheia do chamado ruído, até que, progressivamente vai limpando esse ruído até chegar à versão que considera mais adequada. A OpenAI explica que os “vídeos e as imagens são representadas como coleções de unidades de dados [fragmentos] ou ‘patches’” e que ao juntá-los se vai treinando o modelo num leque mais alargado, o que permite que seja possível alterar as durações, as resoluções e os rácios de aspeto dos vídeos. O utilizador pode dizer se quer um plano aproximado, imagens mais distantes ou outro tipo de movimento da câmara.

O Sora tira partido da investigação que já foi feita para o Dall-E, o modelo de geração de imagem, e dos modelos GPT, que são usados para o ChatGPT. No Dall-E 3, a OpenAI usou já “legendas altamente descritivas” para o treino dos dados visuais. Por isso, agora, o Sora “é capaz de seguir as instruções de texto para gerar um vídeo de forma mais fiel” ao pedido escrito.

A OpenAI, que foi processada pelo New York Times (NYT) devido ao alegado uso de conteúdos do jornal para treino do ChatGPT, não especifica que dados usou para treinar o Sora. Ao NYT, a empresa disse apenas que foram usados dados de vídeos disponíveis publicamente e que foram licenciados junto dos detentores dos direitos.

O Sora foi gerado para conseguir desenvolver “cenas complexas com vários personagens, diferentes tipos de movimento e detalhes precisos do sujeito e do fundo”. Num dos exemplos, que representa uma mulher numa cidade, o vídeo aproxima-se  gradualmente da mulher para mostrar determinados pormenores como a marca dos óculos de sol. A OpenAI diz que houve um treino não só para compreender o que o utilizador está a pedir, como também para saber como existem esses objetos no mundo real.

Tal como em outros anúncios da OpenAI, há um foco nas fraquezas do modelo. Por agora, o Sora demonstra dificuldades “em simular de forma correta a física de uma cena complexa e pode não compreender questões específicas de causa e efeito”, explica a OpenAI. Por exemplo, o pedido para criar um vídeo de alguém a comer uma bolacha implica que, à medida que a ação se desenvolve, a bolacha fique mais pequena. Com o Sora, a bolacha tem ainda sempre a mesma dimensão. Ou, noutro dos exemplos, não consegue conceber uma imagem de um líquido a ser derramado de um copo. “O modelo também pode confundir pormenores de um pedido, por exemplo, misturar a esquerda e a direita (…)”, continua a OpenAI.

A OpenAI mostrou alguns vídeos em que o Sora não teve um bom desempenho. Neste, o homem corre numa passadeira ao contrário

OpenAI

Para já, o modelo está apenas disponível para uma equipa de “especialistas” que trabalham temas como a desinformação, o conteúdo de ódio e o preconceito, que vão testar de forma “adversa” o modelo. Ou seja, vão tentar perceber em que casos é que pode ter um comportamento que não cumpra com as normas estabelecidas. Também vai ser disponibilizado o acesso a “artistas visuais, designers e cineastas para que possam dar feedback” sobre o desempenho do modelo.

A OpenAI frisa que vai incluir medidas de segurança neste modelo antes de o disponibilizar noutros produtos. Para que pedidos de vídeos com “violência extrema, conteúdo sexual, imagens de ódio, semelhanças com celebridades ou usando a propriedade intelectual de outros” sejam rejeitados.

NYT exige milhões à OpenAI e Microsoft por uso de notícias para treino do ChatGPT. Como ficam os direitos de autor no mundo da IA?

Que perigos é que pode trazer?

Tanto Arlindo Oliveira como David Matos, professor do Instituto Superior Técnico, falam em “democratização” da possibilidade de fazer vídeos mas, ao contrário dos comentários online ao Sora, não se mostram, para já, amedrontados com a tecnologia. “É uma tecnologia que não é nova, já existe”, indica Arlindo Oliveira, considerando que, por enquanto, não estará no “nível de causar riscos”. Ainda assim, acrescenta, “é tecnologia que está constantemente a evoluir”.

E “o potencial para fazer mal existe sempre” e em qualquer tecnologia, nota David Matos. Fala num “risco genérico” de as pessoas usarem uma solução deste género para gerar vídeos manipulados, os chamados ‘deepfakes’, mas, indica, seria preciso “treinar especificamente um modelo” para responder a um pedido de imitação de uma celebridade ou uma pessoa específica. De qualquer forma, não retira da lista de riscos a manipulação de vídeos. “É importante que as pessoas tenham consciência do que é possível fazer com a tecnologia”, reconhece o professor, “e que qualquer pessoa saiba que há uma quantidade de coisas [online] em que não se vai poder confiar”.

“Vamos ter de nos habituar a viver com isto”, completa Arlindo Oliveira, que considera que “ainda não é este” o modelo que vai ser totalmente certeiro em todas as utilizações. Em relação aos exemplos que a OpenAI revelou, “foram escolhidos de certeza” para mostrar os mais ambiciosos.

“É uma coisa que deve ser gerida com pinças”, diz quem trabalha na indústria publicitária

O desenvolvimento da inteligência artificial abriu o debate sobre os efeitos do uso desta tecnologia em várias indústrias e formas de trabalho. Na indústria do entretenimento, por exemplo, a greve do verão passado em Hollywood já se referiu às preocupações com o uso de IA, nomeadamente na utilização da imagem, sa voz e do trabalho dos atores para “alimentar” modelos generativos, na substituição de guionistas pelo ChatGPT.

Salários, streaming e Inteligência Artificial. Que greve é esta que ameaça parar Hollywood por tempo indeterminado?

O lançamento do Sora, ainda que limitado a vídeos até um minuto, começa a alimentar dúvidas sobre as consequências na produção audiovisual, mesmo que a OpenAI fale numa ferramenta virada para estes profissionais. João Vilela, CEO da produtora de filmes publicitários Krypton Films, conta ao Observador que tem recebido mensagens com ligações para os vídeos feitos com o modelo. Já analisou alguns e, com um olhar profissional, encontrou defeitos, como a luz, “que não é real”. “Nota-se uma grande falta do lado orgânico, da realidade das coisas”, explica, mas confessa que “é a sua perceção como profissional da área da imagem”, que nem toda a gente tem.

“Sou muito cético em relação à IA, acho que vai ser um condicionamento da espontaneidade e da criatividade”, continua, falando mesmo num uso que “deve ser gerido com pinças”. “Não querendo ser um purista ou um velho do Restelo, acho que há grandes diferenças” entre as imagens geradas por um modelo de IA e as imagens reais. João Vilela, que dirige a empresa que já produziu filmes para as campanhas publicitárias da Vodafone, EDP e McDonald’s, acredita “que nunca se vai conseguir chegar a um nível de realismo e pureza” como nas imagens reais, principalmente quando o objetivo final “tem a ver com emoção”. “É como ver um jogo de futebol na televisão ou no estádio – não se consegue recriar a experiência”, compara.

Porém, admite que, em alguns casos, possa vir a ser uma “ferramenta útil”, mas que tudo dependerá do “nível de exigência” das pessoas. “É evidente que pode reduzir custos” no desenvolvimento de algumas componentes de vídeo, assim como o tempo de produção, “mas que também pode soar a falso”. Por agora, recorre a uma expressão que diz ser usada com frequência no mundo da publicidade: “não se vê, mas sente-se”. “Mesmo que as pessoas não vejam, apercebem-se se as coisas são reais ou não.”

Ofereça este artigo a um amigo

Enquanto assinante, tem para partilhar este mês.

A enviar artigo...

Artigo oferecido com sucesso

Ainda tem para partilhar este mês.

O seu amigo vai receber, nos próximos minutos, um e-mail com uma ligação para ler este artigo gratuitamente.

Ofereça até artigos por mês ao ser assinante do Observador

Partilhe os seus artigos preferidos com os seus amigos.
Quem recebe só precisa de iniciar a sessão na conta Observador e poderá ler o artigo, mesmo que não seja assinante.

Este artigo foi-lhe oferecido pelo nosso assinante . Assine o Observador hoje, e tenha acesso ilimitado a todo o nosso conteúdo. Veja aqui as suas opções.

Atingiu o limite de artigos que pode oferecer

Já ofereceu artigos este mês.
A partir de 1 de poderá oferecer mais artigos aos seus amigos.

Aconteceu um erro

Por favor tente mais tarde.

Atenção

Para ler este artigo grátis, registe-se gratuitamente no Observador com o mesmo email com o qual recebeu esta oferta.

Caso já tenha uma conta, faça login aqui.