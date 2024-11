Qual é o objetivo de ter um LLM em português?

A ideia de avançar para o LLM português Amália foi justificada pelo Governo com a consideração de que “a dependência de LLM estrangeiros apresenta sérios riscos a Portugal, como a perda de representatividade cultural ou a dificuldade em diferenciar variantes do português, nomeadamente a variante europeia”, falada em Portugal.

Desde o lançamento que os grandes modelos de linguagem da OpenAI, Google, Meta e da Anthropic conseguem compreender pedidos em português e gerar texto. Mas, quem já usou chatbots como o ChatGPT ou o Claude, da Anthropic, percebe que as respostas têm, por vezes, nuances do português falado no Brasil — equipe em vez de equipa, um “como posso ajudar você” que surge pontualmente ou um encanador se tiver alguma pergunta sobre canalização.

António Branco, professor do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa e coordenador da equipa que está a desenvolver LLM em português, como o Albertina ou o Gervásio, explica ao Observador porque é que isto acontece: “Esses LLM são treinados em cima de dados que são descarregados, vou dizer assim, quase indiscriminadamente da internet e que surgem de textos em português, inglês, espanhol. É por isso que esses modelos têm uma capacidade multilíngua e, por isso, é que o ChatGPT é capaz de falar português.”

Tendo em conta que o português do Brasil tem um peso muito maior online, surge com maior tendência no ChatGPT e nos serviços desse género. “O Brasil tem mais de 200 milhões de pessoas a fazerem publicações; nós temos 10 milhões. Obviamente que o volume de dados do português do Brasil será muito maior”, pesando nos dados de treino dos modelos internacionais, nota o professor António Branco.

Virginia Dignum, especialista portuguesa em IA responsável e professora na Universidade de Umea, na Suécia, reconhece “várias vantagens em ter um LLM numa língua específica”, que consiga compreender as diferenças e até os regionalismos do português. “O que temos agora são LLM construídos por empresas americanas, baseados em informação que encontraram online”, começa por explicar. “A vantagem de ter um LLM em português é que será um português mais correto e ligado ao que falamos em Portugal, mais alinhado com a cultura portuguesa, com os valores e com aquilo em que acreditamos.” Além disso considera que, neste momento, o ChatGPT “dá respostas muito parecidas às que seriam dadas por um homem norte-americano com um nível social e de educação médio”.

“Consigo imaginar, enquanto cientista que não está envolvido nesse projeto [do LLM Amália], que seria porventura útil ter um modelo de linguagem treinado especificamente com o português”, reconheceu João Leite, presidente do Departamento de Informática da Nova FCT e especialista em Inteligência Artificial, à margem de uma conferência sobre o impacto da IA na ciência que aconteceu na passada semana. Aos olhos deste especialista, o LLM em português poderá ser “uma ferramenta que exista por si só, mas que depois pode ser utilizada pela indústria para fazer uma série de coisas”.