Índice
Índice
O primeiro-ministro surpreendeu, na Web Summit, com o anúncio do lançamento de um grande modelo de linguagem (LLM, na sigla em inglês), um tipo de modelo de IA que consegue gerar e compreender pedidos em linguagem natural. “No primeiro trimestre de 2025, vamos lançar um LLM [grande modelo de linguagem] português para inovarmos em português, preservando o nosso idioma e utilizando a nossa cultura ao serviço da inovação”, declarou.
Luís Montenegro deu alguns exemplos de usos — cada aluno passaria a ter “um tutor educativo de inteligência artificial adaptado”, “cada cidadão o acesso aos serviços da administração pública de forma mais simples” e “cada empresa a oportunidade de projetar os seus serviços numa era de IA”. Ainda no palco, determinou o lançamento para “o primeiro trimestre de 2025”.
Algumas informações vieram depois, mas com limitações. Uma nota explicativa vinda do Ministério da Juventude e da Modernização Administrativa (MJM) avançou que “o LLM nacional será desenvolvido através da colaboração entre centros de investigação da Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa e do Instituto Superior Técnico da Universidade de Lisboa, devidamente articulados com a Fundação para a Ciência e a Tecnologia”. Sem menção aos custos.
Numa adenda à nota explicativa, enviada em resposta às questões colocadas pelo Observador, o Ministério acrescentou apenas que “o LLM português terá um tempo total de execução de 18 meses” e que, “numa primeira fase, proceder-se-á ao treino do modelo com dados em português, estando previsto que a primeira versão do modelo esteja pronta no final do primeiro trimestre de 2025”. Ficou a promessa de que será “divulgada oportunamente informação mais detalhada sobre o tema”.
O que é um LLM e o que pode fazer?
↓ Mostrar
↑ Esconder
O LLM é a sigla para large language model, em português grande modelo de linguagem.
São modelos de inteligência artificial que foram treinados com enormes quantidades de dados — daí o adjetivo grande na sigla — e que conseguem compreender pedidos feitos em linguagem natural (aquela que falamos e escrevemos) e gerar texto, responder a questões, etc.
Um LLM funciona através da tentativa de previsão de qual é a palavra mais provável de surgir a seguir.
Até na comunidade científica que trabalha na área da IA se vai apontando a escassez de informação sobre o projeto. E, do lado das universidades, quem está diretamente envolvido nos trabalhos do LLM prefere, neste momento, não revelar mais detalhes.
Além da nota explicativa divulgada pelo Ministério da Juventude e Modernização Administração, é Paulo Dimas, líder do consórcio Center for Responsible AI, vice-presidente de inovação da Unbabel e que está envolvido no projeto, quem dá a cara. À Lusa, revelou que o LLM se vai chamar Amália e que a versão final será lançada só em 2026. O prazo estabelecido por Montenegro será, afinal, para a versão “beta, inicial, para começar a ter ‘feedback’” e poder ser “melhorada”.
Ainda segundo Paulo Dimas, o LLM Amália vai “estar a trabalhar em cima de trabalho já desenvolvido por aqueles centros de investigação”, como o centro de investigação da Faculdade de Ciências e Tecnologia (FCT) da Nova e do Técnico.
Modelo de linguagem IA português chama-se Amália e versão final é lançada em 2026
Já depois das declarações à Lusa, o Observador tentou entrar em contacto com o líder do Center for Responsible AI sem sucesso. Também foram endereçadas mais questões por escrito sobre o tema, com a resposta de que, para já, não há mais informação que possa ser divulgada. Contactada sobre que tipo de envolvimento a Fundação para a Ciência e Tecnologia (FCT) vai ter no projeto e se está previsto algum reforço da capacidade de computação para esta tarefa, a FCT remete esclarecimentos para o Ministério de Margarida Balseiro Lopes.
Já o site do Instituto Superior Técnico detalha que o nome do modelo AMALIA é uma sigla para Assistente Multimodal Automático de Linguagem com Inteligência Artificial, que partirá de um modelo com cerca de 9 mil milhões de parâmetros (pré-treinado em 4 biliões de palavras) e afinado num conjunto de dados em português extraídos e filtrados a partir do Arquivo.pt.”
Qual é o objetivo de ter um LLM em português?
A ideia de avançar para o LLM português Amália foi justificada pelo Governo com a consideração de que “a dependência de LLM estrangeiros apresenta sérios riscos a Portugal, como a perda de representatividade cultural ou a dificuldade em diferenciar variantes do português, nomeadamente a variante europeia”, falada em Portugal.
Desde o lançamento que os grandes modelos de linguagem da OpenAI, Google, Meta e da Anthropic conseguem compreender pedidos em português e gerar texto. Mas, quem já usou chatbots como o ChatGPT ou o Claude, da Anthropic, percebe que as respostas têm, por vezes, nuances do português falado no Brasil — equipe em vez de equipa, um “como posso ajudar você” que surge pontualmente ou um encanador se tiver alguma pergunta sobre canalização.
António Branco, professor do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa e coordenador da equipa que está a desenvolver LLM em português, como o Albertina ou o Gervásio, explica ao Observador porque é que isto acontece: “Esses LLM são treinados em cima de dados que são descarregados, vou dizer assim, quase indiscriminadamente da internet e que surgem de textos em português, inglês, espanhol. É por isso que esses modelos têm uma capacidade multilíngua e, por isso, é que o ChatGPT é capaz de falar português.”
Tendo em conta que o português do Brasil tem um peso muito maior online, surge com maior tendência no ChatGPT e nos serviços desse género. “O Brasil tem mais de 200 milhões de pessoas a fazerem publicações; nós temos 10 milhões. Obviamente que o volume de dados do português do Brasil será muito maior”, pesando nos dados de treino dos modelos internacionais, nota o professor António Branco.
Virginia Dignum, especialista portuguesa em IA responsável e professora na Universidade de Umea, na Suécia, reconhece “várias vantagens em ter um LLM numa língua específica”, que consiga compreender as diferenças e até os regionalismos do português. “O que temos agora são LLM construídos por empresas americanas, baseados em informação que encontraram online”, começa por explicar. “A vantagem de ter um LLM em português é que será um português mais correto e ligado ao que falamos em Portugal, mais alinhado com a cultura portuguesa, com os valores e com aquilo em que acreditamos.” Além disso considera que, neste momento, o ChatGPT “dá respostas muito parecidas às que seriam dadas por um homem norte-americano com um nível social e de educação médio”.
“Consigo imaginar, enquanto cientista que não está envolvido nesse projeto [do LLM Amália], que seria porventura útil ter um modelo de linguagem treinado especificamente com o português”, reconheceu João Leite, presidente do Departamento de Informática da Nova FCT e especialista em Inteligência Artificial, à margem de uma conferência sobre o impacto da IA na ciência que aconteceu na passada semana. Aos olhos deste especialista, o LLM em português poderá ser “uma ferramenta que exista por si só, mas que depois pode ser utilizada pela indústria para fazer uma série de coisas”.
“Como hoje em dia há empresas que desenvolvem produtos sobre o ChatGPT, também poderá haver empresas que depois desenvolvam produtos direcionados para o mercado português, em português, usando um LLM treinado em português”, exemplifica João Leite. “Portanto, não é difícil perceber que é particularmente importante, do ponto de vista do desenvolvimento da indústria, que haja um modelo especificamente treinado para o português de Portugal, por oposição ao português do Brasil.”
Mas também há quem tenha visto o anúncio feito por Montenegro com “desconfiança”. Carlos Fiolhais, físico e divulgador de ciência, considera ao Observador, “enquanto cidadão”, que “o Governo, neste caso, está a ser puramente oportunista, porque é um tema da moda”. “Os LLM já existem há algum tempo e funcionam em português, e, portanto, dizer que o Estado quer ser concorrente de empresas que fornecem serviços é uma coisa que dá mau resultado”, acrescenta.
Outro das questões que levanta dúvidas ao cientista é a ausência de “concurso” neste tema. Fiolhais considera que o executivo “resolveu, sem concurso, contratar alguns, escolhidos não se sabe como”. As questões da IA “são mais sérias” e “a política, quando entra nestas questões, devia ser mais prudente”.
“Estou cético”, confessa em relação ao prazo estipulado para o projeto, até março para a primeira fase e 18 meses no total do projeto. “Mas adorava estar enganado, como eu adorava ver em março Portugal à frente na IA, mas a ver os índices de produção nesta área — que é uma área em que temos alguma competência, com certeza, como em outras — a promoção de competência não se faz com esforços voluntaristas.”
A propósito da necessidade ou não de concurso público, Paulo de Jesus Correia, advogado e sócio da Santiago Mediano e Associados, refere em resposta ao Observador que “nestes temas de investigação não existe propriamente uma obrigação de submeter o projeto à concorrência, o que deve existir é uma avaliação da mais valia científica do projeto e da equipa de investigação para existir financiamento público”.
LLM em português é boa ideia, mas por si só não chega
A especialista Virginia Dignum vê com bons olhos a ideia de ter um LLM em português — ou até mais do que um. “É importante haver vários modelos”, nota, mas defende que será melhor “investir em modelos mais pequenos do que em modelos gigantes, para ter uma realidade mais diversa”.
Mas o ponto de ordem para a investigadora é mesmo desenvolver as ferramentas que permitam ao utilizador ter uma interação com o futuro LLM Amália. “Só o modelo não chega. Terá de ser feito investimento nas ferramentas que nos permitem interagir com isto”, sublinha. Os modelos LLM ganharam popularidade e entraram no dia-a-dia global quando uma ferramenta, o ChatGPT, permitiu pôr as mãos na massa a quem estava fora da comunidade mais especializada.
“É importante para o sucesso do empreendimento que haja ferramentas para utilizar. Se não houver, até pode ser o modelo mais perfeito do mundo”, mas não será utilizado por quem já se habitou ao ChatGPT e derivados. “É importante termos o modelo, mas não chega. Enquanto não tivermos a capacidade de construir as ferramentas e de as distribuir, continuaremos dependentes do que as grandes empresas estão a fazer”, referindo-se às gigantes norte-americanas.
Albertina, Gervásio ou GlórIA: os LLM em português que já mexem
António Branco é o coordenador de um projeto que já fez mexer LLM virados para o português, ainda que “nas duas variantes”, o europeu e o do Brasil. O professor da Faculdade de Ciências da Universidade de Lisboa explica que “uma língua pode ter vários LLM”, dando o exemplo da língua inglesa, “a mais trabalhada, e que terá milhares de LLM.”
A diversidade de LLM é positiva também em Portugal, defende. “É bom que haja vários LLM. Nós já libertámos vários e estamos a continuar a trabalhar ao longo do projeto para lançar mais”, explica o coordenador do projeto de onde já saíram as famílias de modelos Albertina, Gervásio ou o Serafim. Ou seja, dentro das famílias de cada um “há vários Albertina, com tamanhos e características diferentes”, exemplifica.
Cada um tem funções e aptidões específicas. “O LLM Albertina é da família dos encoders [codificadores], que são especialmente aptos para tarefas de classificação. O Gervásio é da família dos decoders, a família dos GPT, que são especialmente aptos para gerar textos.” E o Serafim “é uma terceira família, mais técnica, que em inglês se chama sentence embedder.” Em linguagem comum, este LLM analisa as “representações semânticas para frases”, os contextos em que uma palavra pode aparecer (por exemplo, a palavra banco tanto pode ser uma instituição financeira como um sítio para sentar). António Branco considera que estes LLM são “absolutamente cruciais para a tarefa de procura de informação” que seja adequada ao contexto.
Os três LLM (ou famílias de LLM) que estão a ser desenvolvidos neste projeto têm mais algumas características. “São de pesos abertos, ou seja, quem quiser alterar e trabalhar com eles pode, a licença é o mais aberta possível e, portanto, ninguém fica obrigado a pagar-nos, pode usar para investigação ou pode usar em termos comerciais”, enumera. O Albertina, por exemplo, já deu frutos. “Uma startup fez, a partir do Albertina, um modelo para usar na área da saúde, para diagnóstico médico, a que chamaram Medi-Albertina.” Como se trata de um sistema de classificação, a partir de uma lista de sintomas, consegue dar uma classificação “de qual é a doença mais provável associada aos sintomas”.
O projeto destes modelos está integrado no consórcio Accelerate.ai, que tem financiamento do PRR e é liderado pela empresa de IA portuguesa Defined.ai. Ao Observador, fonte da empresa comentou o anúncio do LLM Amália como “um excelente passo na direção de posicionar Portugal no caminho certo para se tornar um líder em IA”. “Estamos muito contentes com o anúncio e, claro, estamos disponíveis para apoiar no que for necessário para que o projeto seja bem-sucedido.”
Outro modelo de LLM que já nasceu em Portugal é o GlórIA, desenvolvido por investigadores no LINCS da Nova FCT por David Semedo, Ricardo Lopes e João Magalhães. O modelo usa apenas dados em português europeu e foi “desenvolvido com mais de 35 mil milhões de tokens”, ou expressões que as máquinas conseguem processar, criado em parceria com a Arquivo.pt, o arquivo português da internet. O Observador contactou os responsáveis pelo desenvolvimento do modelo, sem sucesso nas respostas.
O que está a ser feito noutros países?
É sabido que uma boa parte dos LLM mais usados — o GPT-4, o ‘motor’ do ChatGPT, o Llama da Meta ou os modelos LLM da startup Claude — foram desenvolvidos por empresas norte-americanas, com gigantescas quantidades de dados. E, ainda que estas opções tenham sido treinadas com dados de vários idiomas e consigam compreender e interagir em muitas línguas, há muitos países a desenvolver LLM para ter resultados mais fidedignos no seu idioma.
Aqui ao lado, em Espanha, existe, desde setembro de 2022, um modelo de IA chamado MarIA, que é capaz de gerar textos e resumir informação em espanhol. Na altura, o governo de Pedro Sánchez considerou que ter um sistema capaz de compreender as nuances da língua iria “contribuir para o desenvolvimento de uma economia digital em espanhol”. A MarIA foi treinada com mais de 135,7 mil milhões de palavras que constavam em páginas web recolhidas pela Biblioteca Nacional espanhola, ocupando um total de 570 GB de informação.
Já em abril deste ano, o executivo de Pedro Sánchez assinou um memorando de entendimento com a norte-americana IBM para a colaboração na IA e na supercomputação. Entre as atividades previstas está o desenvolvimento de modelos LLM mas também de modelos de menores dimensões, em espanhol, catalão ou galego.
A Bulgária também tem o seu próprio LLM, chamado BgGPT, que funciona em búlgaro. Lançado esta semana, o modelo foi desenvolvido pelo INSAIT, o Instituto para a Ciência Computacional, IA e Tecnologia. Segundo o anúncio feito pelo instituto tecnológico, o BgGPT estará disponível em três tamanhos (2,6 mil milhões de parâmetros, 9 mil milhões e 27 mil milhões) e foi “desenvolvido em cima da família Gemma-2, da Google, mas com mais extensões, incluindo nova investigação”.
???? Groundbreaking news! INSAIT launches new state-of-the-art language models for Bulgarian, setting a standard for national open LLMs worldwide!
???? The unprecedented performance of BgGPT models is enabled by new research from INSAIT which shows how to train an LLM with new… pic.twitter.com/ug50d1gsVd
— INSAIT Institute (@INSAITinstitute) November 19, 2024
Para que a população consiga interagir com o LLM, foi lançado um chatbot. “Esta é a primeira vez a nível mundial que um sistema desta qualidade foi lançado por uma instituição governamental”, acrescentou o INSAIT no anúncio.
No espaço dos falantes de português, o Brasil também tem planos para o desenvolvimento de um LLM. O governo de Lula anunciou, no fim de junho, um financiamento de 1.100 milhões de reais, o equivalente a 181,8 milhões de euros para a criação de um LLM em português do Brasil, que recebeu o nome de Amazónia. O LLM, desenvolvido pela startup WideLabs, faz parte de um plano maior do Brasil para a IA, com um orçamento que prevê o investimento de 23 mil milhões de reais ao longo dos próximos quatro anos, o equivalente a 3,8 mil milhões de euros.