A Google voltou a abrir as portas da sede de Mountain View para o evento anual de programadores, o I/O, que, pelo segundo ano consecutivo, deu destaque à área da inteligência artificial (IA). A tecnológica revelou como vai incluir as capacidades do modelo de IA Gemini em praticamente todos os serviços da empresa, como a pesquisa, email, fotos, o navegador Chrome ou o Android. Ou até noutros campos, como no Project Astra, que quer ser “um agente universal de IA” disponível no telefone, capaz de responder diretamente ao utilizador, identificar objetos ou ajudar a resolver problemas — uma espécie de assistente digital.
No dia anterior ao evento, a tecnológica partilhou nas redes sociais um vídeo em que fazia a alusão a um modelo capaz de reconhecer o que está num palco, responder a questões em linguagem natural do utilizador e desenvolver uma conversa. As capacidades multimodais do modelo ficaram confirmadas ao longo das várias demonstrações feitas pela empresa durante a transmissão. A IA foi mesmo o tema dominante, com a expressão a ser mencionada mais de 120 vezes, uma contagem feita pela própria empresa.
One more day until #GoogleIO! We’re feeling ????. See you tomorrow for the latest news about AI, Search and more. pic.twitter.com/QiS1G8GBf9
— Google (@Google) May 13, 2024
“Para quem nunca viu o Google I/O, é como a Eras Tour, mas sem tantas mudanças de guarda-roupa”, gracejou Sundar Pichai, o CEO da Google, no início da apresentação, numa referência à digressão da cantora Taylor Swift.
Começou por fazer um resumo dos acontecimentos ligados ao modelo de IA Gemini ao longo dos últimos meses, antes de revelar que o Gemini vai estar presente na pesquisa, no serviço Google Fotos e vai identificar mais facilmente emails no Gmail. Na pesquisa, por exemplo, os utilizadores vão conseguir fazer questões mais longas e mais complexas, acompanhadas por imagens. Num exemplo mais rebuscado, foi usada a câmara do telefone apontada a uns ténis comprados online que é preciso devolver. Neste exemplo, o modelo conseguiu encontrar a fatura da compra no email e logo a seguir um formulário de entrega para a devolução da encomenda.
Ou, no exemplo do Google Fotos, responder à questão “qual é a matrícula do meu carro” ou perceber a evolução das capacidades de natação de uma criança ao longo dos anos, a partir de fotografias guardadas na cloud.
Foram dedicados mais alguns momentos à pesquisa com IA, descrita como a “pesquisa na era Gemini”. Liz Reid, a nova líder desta área, que assumiu o cargo em março, descreveu esta atividade como “multi-etapas”, prometendo que até ao fim do ano “mais de mil milhões de utilizadores” vão ter acesso a estas funcionalidades.
[Já saiu o primeiro episódio de “Matar o Papa”, o novo podcast Plus do Observador que recua a 1982 para contar a história da tentativa de assassinato de João Paulo II em Fátima por um padre conservador espanhol. Ouça aqui.]
“Pesquisas que poderiam demorar vários minutos, o Google vai conseguir fazer em segundos”, prometeu. Além das questões mais complexas, a pesquisa vai também evoluir para uma componente de planeamento – por exemplo, pedir para ter uma planificação de refeições para os próximos três dias, a partir de uma única questão. Em vez de ter de abrir um site e procurar a informação, como acontece agora, será apresentada uma indicação dos pratos e a opção de ter acesso automático à lista de ingredientes para facilitar as compras. Liz Reid explicou que os utilizadores vão começar a ver esta nova organização de pesquisa quando procuram por hotéis, livros, compras, música e mais.
Noutra das demonstrações feitas ao vivo, um gira-discos tinha um problema no funcionamento. Bastou apontar a câmara do telefone para que fosse identificado o modelo do equipamento e uma lista de sugestões para o problema.
And you’ll also be able to ask questions with video, right in Search. Coming soon. #GoogleIO pic.twitter.com/zFVu8yOWI1
— Google (@Google) May 14, 2024
Por agora, a IA na pesquisa, uma funcionalidade chamada AI Overviews, vai estar disponível esta semana nos EUA e em breve em mais mercados, sem indicação sobre Portugal. Já as capacidades de pesquisa mais apuradas nas Fotos só chegarão no verão, também sem indicação sobre mercados.
[Reveja no vídeo abaixo o evento de apresentação do Google I/O de 2024]
O evento da Google decorreu após a atualização de primavera da rival OpenAI, que esta segunda-feira apresentou o GPT-4o, um modelo mais desenvolvido e capaz de compreender texto, áudio e imagem. O GPT-4o consegue interagir com o utilizador através de voz. A startup responsável pelo ChatGPT anunciou que o modelo vai estar disponível de forma gratuita – atualmente, o modelo mais recente, o GPT-4, só está acessível aos subscritores da versão paga.
Em jeito de resposta às novidades da rival, a Google revelou o Project Astra, descrito como “um agente universal de IA capaz de ser realmente útil nas tarefas do dia-a-dia”. Na demonstração pré-gravada, uma aplicação no telefone, alimentada pelo modelo Gemini, conseguiu reconhecer e interagir com objetos num escritório (pensa numa aliteração com estas canetas num copo) ou até a ajudar a resolver uma questão de trabalho num quadro branco.
Modelo de IA Gemini vai ter uma versão mais rápida
Se o conceito IA foi referido mais de 120 vezes, as referências ao modelo Gemini certamente ultrapassaram esse número. A empresa já tinha as versões Gemini Advanced, Pro e Nano, caracterizados por dimensões diferentes e para uso em diferentes dispositivos (o Nano é usado no smartphone). No evento desta terça-feira, revelou mais um membro da família, o Gemini Flash.
Demis Hassabis, o co-fundador e CEO da DeepMind (empresa de investigação de IA comprada pela Google em 2014), descreveu o Gemini 1.5 Flash como “mais leve, mais rápido e mais eficaz”, para ser usado em “tarefas de menor latência”, que requerem um tempo de resposta mais rápido. Também é um modelo multimodal, ou seja, que conseguirá processar texto, imagem e vídeo.
Navegador Chrome também vai ter um assistente com IA
A Google é a responsável pelo navegador Chrome, o mais usado do mundo — segundo dados da StatCounter, tem uma quota de mercado de 63,6%. Na próxima versão, Chrome 126, o modelo de IA Gemini Nano vai ser o motor para fazer funcionar um assistente de IA diretamente no browser.
A integração vai permitir, além de gerar texto, criar publicações para as redes sociais ou fazer resumos de informação.
É, mais uma vez, uma resposta às rivais. A Microsoft, que é a principal investidora da OpenAI, a dona do ChatGPT, já tem um assistente de IA no navegador Edge. Antes, já tinha integrado componentes de IA para fazer mexer o motor de pesquisa Bing.
Veo é a resposta da Google ao Sora da OpenAI. Realizador Donald Glover é um dos criadores associados
A Google mostrou modelos capazes de gerar vídeo e imagem a partir de texto. O Veo, por exemplo, é a resposta da empresa à rival OpenAI, que em fevereiro lançou o Sora.
O modelo da Google vai ser capaz de gerar vídeos “de alta qualidade com resolução de 1080p”, que podem ser superiores a um minuto. É possível pedir que tipo de filmagem cinematográfica se quer. A empresa convidou o ator e realizador Donald Glover para experimentar o modelo através do seu estúdio criativo Gilga. No X, o antigo Twitter, foram partilhados alguns exemplos de vídeos gerados pelo modelo.
Introducing Veo: our most capable generative video model. ????
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. ???? #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024
[Veja o vídeo com alguns exemplos do modelo Veo]
Além do modelo para gerar vídeo, a Google apresentou o Imagen 3, uma atualização ao modelo que consegue gerar imagens a partir de pedidos de texto. A empresa contextualizou que, nesta versão, consegue gerar imagens mais detalhadas e fotorrealistas.
Sempre que se fala de imagens e vídeos gerados por IA, surge o tema da segurança. Já nos minutos finais da apresentação, dedicados ao desenvolvimento responsável de IA, a Google anunciou que vai expandir a funcionalidade de segurança SynthID, que acrescenta marcas de água “impercetíveis” a imagens e áudios gerados de forma sintética, aos formatos de texto e vídeo. O modelo de geração de vídeo Veo já vai ter disponível estas marcas de água.
Vídeos, imagens e sons manipulados andam à solta na internet. Quem pode resolver? Os caça deepfakes
Android vai ter mais capacidades de IA. “Circle to search” vai chegar a 200 milhões de smartphones
Sameer Samat, o executivo responsável pelo Android e pela loja de aplicações da Google, subiu ao palco do Google I/O para explicar como é que a IA se vai integrar no sistema operativo móvel. “Esta nova era é uma grande oportunidade para tornar os telefones mais inteligentes. (…) Reinventar o que os smartphones conseguem fazer”, salientou.
A funcionalidade “circle to search”, que foi lançada em janeiro nos smartphones da linha S24 da Galaxy e nos Pixel 8 e 8 Pro (os telefones da Google), vai ser alargada a mais dispositivos. De acordo com o executivo, atualmente já está disponível em 100 milhões de equipamentos, mas até ao final deste ano deverá chegar aos 200 milhões.
Google vai ter mais uma forma de pesquisar: basta desenhar um círculo à volta do que interessa
Neste tipo de pesquisa é apenas necessário fazer um círculo ou um rabisco em cima do que se quer pesquisar online, funcionando em qualquer aplicação. Agora, além das pesquisas, também vai conseguir ajudar com problemas de física ou matemática — uma ajuda para fazer os trabalhos de casa. A ideia não é que consiga dar a resposta ao problema, mas sim apresentar os passos para que o estudante consiga chegar à solução. Vai funcionar tanto no smartphone como em tablets com Android.
Mas há mais além da pesquisa. No Android, o modelo de IA vai ter acesso a mais contexto — por exemplo, se estiver a ver um vídeo no YouTube e ficar com alguma questão, o Gemini vai conseguir analisar o que é no ecrã e conseguir responder à pergunta. Também vai funcionar com documentos: por exemplo, se tiver um manual de instruções com mais de 100 páginas, poderá colocar uma questão e a IA analisa o documento para encontrar a resposta mais adequada.