O Amália, o grande modelo de linguagem em português (LLM, em inglês), tem previsto um investimento de 5,5 milhões de euros, indica o Ministério da Juventude e Modernização (MJM), em comunicado esta sexta-feira.
Além deste montante é indicado que “acresce o vasto investimento já realizado em infraestrutura de computação, projetos de desenvolvimento e recursos humanos especializados que contribuirão em grande medida para o desenvolvimento do LLM”. O financiamento necessário à concretização do LLM português é “assegurado no âmbito do Plano de Recuperação e Resiliência (PRR) e será desenvolvido inteiramente por entidades públicas”. “O financiamento do projeto estará exclusivamente destinado às entidades públicas envolvidas no desenvolvimento do Amália [Assistente Multimodal Automático de Linguagem com Inteligência Artificial]”, é ainda acrescentando.
Este é, até agora, o comunicado mais extenso feito pelo Governo sobre esta iniciativa. O LLM português foi anunciado por Luís Montenegro na Web Summit, a 11 de novembro. Segundo a informação desta sexta, a iniciativa do LLM é a “primeira divulgada no âmbito da Agenda Nacional de Inteligência Artificial”, que o Governo pretende apresentar “de forma consolidada no primeiro trimestre de 2025”.
A nota do MJM é feita no mesmo dia em que se realizou uma “reunião interministerial entre os dois ministros que coordenam a iniciativa – a ministra da Juventude e Modernização e o ministro da Educação, Ciência e Inovação.”
O comunicado refere que a execução operacional da iniciativa vai ser “liderada pela Agência para a Modernização Administrativa (AMA, I.P.), que será responsável pela gestão da iniciativa e por assegurar as condições necessárias para a futura disseminação do LLM por todos os seus potenciais utilizadores públicos e privados, e pela Fundação para a Ciência e Tecnologia (FCT, I.P.), que será responsável por coordenar, junto dos centros de investigação, o treino e desenvolvimento do LLM, assegurar a infraestrutura necessária para o treino e alojamento do LLM, e pelo tratamento e curadoria dos dados que serão utilizados para este treino e desenvolvimento”.
É ainda explicado que “será com as infraestruturas e recursos humanos existentes nestas entidades que será possível executar uma iniciativa com objetivos e calendário ambiciosos.
Tal como já tinha sido referido na nota explicativa, divulgada no dia a seguir ao anúncio de Montenegro, o treino e desenvolvimento do modelo “será executado por um consórcio liderado pelos centros de investigação Nova LINCS da Universidade Nova de Lisboa, Instituto de Telecomunicações e Instituto Superior Técnico, e integrará outros centros de investigação nacionais com reconhecido mérito no âmbito da inteligência artificial”.
O objetivo passará por “aproveitar sinergias de projetos e investimentos já realizados, nomeadamente os projetos de desenvolvimento do EuroLLM no Instituto de Telecomunicações e Instituto Superior Técnico, e do GlórIA e v-GlórIA no NOVA LINCS, que utilizam a infraestrutura europeia da entidade europeia de computação de alta-performance EuroHPC, e que no caso do GlórIA e v-GlórIA já estão treinados em português de Portugal, o projeto de curadoria dos dados do Arquivo.pt, que está a ser realizado pela FCT, I.P., e o o investimento realizado pelo Governo em infraestrutura de computação de alta-performance do ‘Deucalion’ e ‘Mare Nostrum 5′”.
A primeira versão do Amália, diz a nota do MJM, será criada “através da conjugação dos esforços realizados no desenvolvimento do EuroLLM, do GlórIA e do v-Glória”, outros exemplos modelos de linguagem em português que já foram desenvolvidos no mundo académico. É detalhado que o Amália deverá ser “capaz de diferenciar as variantes da língua portuguesa e será treinado com dados do Arquivo.pt previamente curados”.
Modelo de linguagem IA português chama-se Amália e versão final é lançada em 2026
Será também criado um Comité de Acompanhamento Especializado, que será “constituído por peritos em IA, como é disso exemplo o Center for Responsible AI, o qual será presidido por uma personalidade de reconhecido mérito na área”, explica a nota. “Este grupo será responsável por assegurar as melhores práticas de desenvolvimento de Modelos de Linguagem de Grande Escala, o cumprimento dos princípios éticos e de segurança e aconselhar sobre o potencial de aplicações do modelo nos diversos setores de atividade.”
Governo detalha calendário do LLM
No anúncio na Web Summit, Montenegro referiu que o LLM seria lançado no primeiro trimestre de 2025. Mais tarde, foi detalhado que esse prazo contempla apenas a versão beta, uma versão experimental do modelo. Segundo o MJM, a versão beta “conseguirá receber e interpretar instruções em formato de texto e responder com base no conhecimento adquirido, também em texto escrito em português de Portugal”.
Depois dessa versão, haverá ainda mais dois lançamentos: uma versão base “no final do terceiro trimestre de 2025” e uma versão multimodal, ou seja, capaz de compreender também imagem e vídeo, “no final do segundo trimestre de 2026”.
Na versão final do LLM, o Governo espera conseguir uma versão “diferenciadora na interpretação e geração de texto de língua portuguesa, no conhecimento que tem da literatura, cultura e história de Portugal”. Mas é explicado que “objetivo deste LLM não é de responder a perguntas genéricas em que o foco é a realização de raciocínios ou cálculos complexos, havendo outros LLM no mercado com bom desempenho nessas tarefas”.
Em relação aos dados para treinar o modelo, é explicado que até ao final do terceiro trimestre de 2025 “serão curados novos dados sobre a língua, a cultura e história de Portugal”, provenientes de “fontes como o Arquivo.pt, e serão utilizados para treinar o Amália na sua versão base”. “Só nesta versão será possível gerar respostas fiáveis e precisas sobre estas temáticas, bem como responder a questões com total segurança e sem risco para o utilizador”, continua. “Nesta altura, o Amália já poderá ser integrado noutras aplicações externas e utilizar dados dessas fontes para gerar respostas de texto.”
Todas as versões do LLM vão ser disponibilizadas “de forma gratuita e em open source, para que seja utilizado por todos, incluindo academia, centros de investigação, entidades públicas, empresas e cidadãos”.