Modelo de IA português ainda não sabe cantar, mas já reconhece a fadista que lhe dá nome. Projeto tem respeitado o calendário do Governo, mas só deverá ser público em 2026, contrariando expectativas.
- Este artigo integra a 15.ª edição do ECO magazine. Pode comprar aqui.

Foi um coelho tirado da cartola. A 11 de novembro, em plena abertura da Web Summit 2024, o primeiro-ministro, Luís Montenegro, anunciou de surpresa que o Governo iria “lançar um LLM português” (Large Language Model, na sigla em inglês) “no primeiro trimestre de 2025”. “Para inovarmos em português, preservando o nosso idioma e utilizando a nossa cultura ao serviço da inovação.”
Falando num “passo crítico” para o país, o chefe do Executivo elencou algumas das utilizações daquele que viria a ser designado de Amália (acrónimo de “Assistente Multimodal Automático de Linguagem com Inteligência Artificial”): dar “a cada aluno um tutor educativo de inteligência artificial” (IA); oferecer aos cidadãos o acesso a serviços públicos “de forma mais simples, direta e personalizada”; e possibilitar às empresas “a oportunidade de projetar os seus serviços” com IA “também em português”.
5,5 milhões de euros
ㅤㅤ
É o montante atribuído pelo Governo para desenvolver o Amália no prazo de 18 meses, enquadrando-o no PRR. Deste valor, 2,475 milhões foram afetos à Universidade Nova de Lisboa e um milhão ao Instituto Superior Técnico. As universidades do Porto, Minho e Coimbra recebem 375 mil cada uma e 900 mil serão executados pela própria FCT. A estes montantes acrescem sinergias geradas por investimentos já realizados pelo país, incluindo nos supercomputadores Deucalion e Mare Nostrum 5.
Portugal soberano
A ideia do Amália foi recebida com alguma estupefação — em alguns círculos, ridicularizada até. Durante um evento de balanço dos projetos digitais inseridos no Plano de Recuperação e Resiliência (PRR), Luís Montenegro reconheceu a reação “um pouco insólita” e “de descrença” com que o anúncio foi recebido, com interrogações como “mas o que é isto?” e “o Governo português vai agora ombrear com nações que investem centenas de milhões de euros em IA?”, indicou.
As justificações oficiais multiplicam-se e vão do reforço da “soberania da língua portuguesa e dos dados nacionais” à preservação do “património cultural, histórico, científico e literário de Portugal”, passando pelo incentivo da “investigação e inovação” e da “competitividade e produtividade” das empresas.
“Não há interesse nenhum da OpenAI em suportar o português europeu”, comenta Paulo Dimas, referindo-se à empresa que criou o ChatGPT, uma das mais proeminentes nesta área. Essa é, por isso, a ideia fundamental: se a IA é assim tão crítica para a competitividade, como é hoje amplamente reconhecido, “Portugal tem de ser soberano sobre este tipo de recurso”, diz o CEO do Centro para a IA Responsável e um dos elementos do comité de acompanhamento da Agenda Nacional para a Inteligência Artificial nomeado pelo Governo.
Não é o único a defender essa posição. Logo depois de ter sido anunciado o projeto, Daniela Braga, fundadora da Defined.ai e membro do mesmo comité, defendia a necessidade de um LLM português, por questões de soberania.
“Desenvolver um LLM português é uma questão de soberania nacional. Tenho dito isso muitas vezes, em muitos lados, porque senão vamos estar dependentes de tecnologia americana, que só chegará ao português numa linha muito longa do roadmap”, argumentou, em entrevista ao ECO, na mesma Web Summit em que o anúncio do ‘ChatGPT português’ foi feito.
“Além de que, para já, os GPT são baratinhos ou de borla, mas chegará o dia em que isto vai-se pagar, e bem. E há a questão do enviesamento. Se não são os próprios países a tratar das suas diferenças culturais e das suas segmentações sociais, não vai ser uma empresa estrangeira que vai conseguir ir ao pormenor de incluir toda a gente. Essa é a realidade”, disse também a empreendedora, que lidera um dos consórcios de Inteligência Artificial financiados pelo Plano de Recuperação e Resiliência (PRR) e, em 2021, foi convidada pela administração de Joe Biden para integrar a task force criada para ajudar a definir a estratégia de IA nos Estados Unidos.
E Portugal não é o único a desenvolver um LLM soberano. Países como Suécia e Finlândia estão a desenvolver os seus próprios modelos.
🪪 Passaporte do LLM
ㅤ
Nome: ALIA
Idiomas: Espanhol, catalão, galego, valenciano, basco e inglês
Coordenador: Barcelona Supercomputing Center
ㅤ
Nome: Viking 7B
Idiomas: Dinamarquês, finlandês, norueguês, islandês, sueco e inglês
Coordenadores: University of Turku (Finlândia) e Silo AI (AMD)
ㅤ
Nome: PLLuM
Idiomas: Polaco, línguas eslavas, línguas bálticas e inglês
Coordenador: Wrocław University of Science and Technology
ㅤ
Nome: GPT-SW3
Idiomas: Sueco, dinamarquês, norueguês, islandês e inglês
Coordenador: AI Sweden (Centro Nacional para a IA Aplicada)
Agenda Nacional de IA adiada
O Amália seria o primeiro projeto a emergir da Agenda Nacional de Inteligência Artificial, cuja apresentação, anunciada para o primeiro trimestre, foi adiada por conta das eleições. Mais de seis meses depois daquela intervenção na Web Summit, a versão beta do LLM português, prometida para março, está concluída, garantem vários envolvidos no projeto. Mas ao contrário da expectativa criada e nunca desmentida, e até do que foi contratualizado, o Amália ainda não foi disponibilizado ao público, mantendo-se acessível só para as equipas de investigação.
O modelo de nove mil milhões de parâmetros já reconhece a fadista que lhe dá nome, sabe o teorema de Pitágoras e é capaz de se fazer passar por Carlos da Maia, personagem principal de “Os Maias”, de Eça de Queirós, respondendo a perguntas como “quem foi o teu grande amor?” (spoiler alert: foi Maria Eduarda, sua irmã). Para chegarem aqui, as equipas não começaram do zero e trabalharam sobre modelos já existentes, como o EuroLLM e o GlórIA, acelerando o seu desenvolvimento.
O calendário de 18 meses não sofreu alterações apesar da queda do anterior Governo e das eleições antecipadas, que deram a vitória à Aliança Democrática (AD). Agora, a próxima meta será no final de setembro, quando está previsto ser disponibilizada a versão base. “Terá capacidade para gerar respostas fiáveis e precisas sobre a língua, a cultura, e história de Portugal, bem como responder a questões com total segurança e sem risco para o utilizador”, determina a Resolução do Conselho de Ministros que lhe deu enquadramento legal.
A partir desse momento, o Amália poderá ser usado pela Agência para a Modernização Administrativa (AMA) e incorporado nos serviços públicos. Mas, para ‘conversar’ diretamente com ele, será preciso esperar mais um pouco. A publicação do modelo em código aberto só está prevista para meados de 2026.
“A versão beta do Amália já foi divulgada junto dos centros de investigação. Foi acordada a não disponibilização de forma geral, uma vez que o modelo ainda se encontra em testes e em desenvolvimento, tendo em vista a disponibilização de uma versão consolidada e final no segundo trimestre de 2026 (a versão multimodal)”, esclareceu fonte oficial do Ministério da Juventude e da Modernização, cuja ministra Margarida Balseiro Lopes tinha a tutela da pasta IA no primeiro Governo de Luís Montenegro.
Entretanto, a versão atual, que “já atingiu uma certa maturidade”, “vai continuar a ser trabalhada e vai ser melhorada, e depois há aqui questões que são só técnicas”, aponta Paulo Dimas, CEO do Centro para a IA Responsável. “Há uma comunicação fluida com as equipas, como acontece naturalmente”, assegura.
9 mil milhões
ㅤ
O Amália tem nove mil milhões de parâmetros. São valores que o modelo aprende na fase de treino e que, no fundo, determinam o seu comportamento. O número é elevado, mas relativamente baixo quando comparado com alguns modelos populares. Por exemplo, o GPT-3.5, o modelo usado pelo ChatGPT quando foi lançado em 2022, tinha 175 mil milhões.
Modelo na academia
Desde que o projeto foi apresentado, a informação relativamente ao Amália tem sido escassa, pouco clara e algumas vezes contraditória. O Governo prometeu que seria “desenvolvido inteiramente por entidades públicas”. Quais? Sabe-se que envolvidas no projeto estão quase uma dezena de entidades, sobretudo da academia, com coordenação da AMA e da Fundação para a Ciência e a Tecnologia (FCT).
A Universidade Nova de Lisboa e o Instituto Superior Técnico estão a trabalhar no modelo core (em conjunto com o Instituto das Telecomunicações), enquanto as universidades do Porto, de Coimbra e do Minho estão incumbidas de afinar o Amália nos “domínios específicos” de media, ciência e educação, respetivamente. A estes juntam-se o domínio dos museus (a cargo da Nova) e da fala (Técnico).
Dos contactos realizados é também possível identificar duas pessoas-chave. Uma é João Magalhães, professor da Universidade Nova de Lisboa e membro do Nova Lincs, laboratório de ciência da computação e informática que desenvolveu o GlórIA. Foi quem apresentou publicamente o Amália, no início de abril, durante uma sessão sobre Inovação e Digitalização no Museu das Comunicações. O ECO tentou contactar o investigador, mas este nunca respondeu até ao fecho deste artigo.
Outra é André Martins, professor do Técnico, investigador do Instituto de Telecomunicações e head of research da startup Unbabel. Precisamente as três entidades portuguesas envolvidas no desenvolvimento do EuroLLM, de acordo com o respetivo site.
Sabia que…
ㅤ
Apesar de a primeira versão do Amália não ter sido tornada pública, a disponibilização do modelo aos cidadãos em todas as fases de desenvolvimento está prevista no contrato assinado entre a FCT e as universidades. “Todas as versões desenvolvidas do Amália ao longo da vigência do contrato serão disponibilizadas de forma gratuita e numa plataforma de LLM aberta […] para que seja utilizado por todos, incluindo a academia, os centros de investigação, as entidades públicas, entidades privadas e os cidadãos”, lê-se no documento. Confrontado, o Governo diz que “foi acordada a não disponibilização de forma geral”, porque “o modelo ainda se encontra em testes”.
A 10 de março, o consórcio de universidades foi oficializado num contrato assinado com a FCT. O documento foi publicado no portal Base dois dias depois, com informações mais técnicas e detalhadas sobre o Amália, estipulando, por exemplo, que o treino do modelo é feito com dados “massivos em português europeu”, tais como livros, artigos e páginas da web. Uma das fontes mencionadas é o Arquivo.pt, plataforma gerida pela FCT que preserva no tempo milhões de páginas portuguesas na internet desde a década de 1990, incluindo artigos noticiosos.
Essa opção tem estado a suscitar dúvidas do ponto de vista dos direitos de autor. E uma das organizações que já se pronunciaram publicamente foi o Sindicato dos Jornalistas (SJ). “É essencial saber se, no treino do nosso LLM público, a utilização dos conteúdos do Arquivo.pt […] está a ter em conta os direitos de autor dos jornalistas, ao aceder a conteúdos de órgãos de comunicação social. Importa ainda perceber como operará este modelo no recurso e referência a conteúdos jornalísticos, que vêm sendo canibalizados sem atribuição por inteligências artificiais”, apontou o sindicato num comunicado divulgado a 19 de maio, um dia depois das eleições legislativas. Na mesma nota, a direção do SJ alegou ainda que os responsáveis pelo LLM português estão “há dois meses a ignorar os contactos do SJ para discutir” as implicações do Amália, algo que disse “estranhar”.
O contrato determina ainda que, no final, o LLM português será “capaz de responder a questões sobre conteúdo visual, como documentos, imagens ou vídeo”, além de apenas texto. Nesse sentido, está previsto que o Amália seja “estendido” tecnicamente para “ligar a modalidade de texto e de imagem”, “ampliando” as suas capacidades “para além do processamento textual”. Ademais, não tivesse ele o nome de uma fadista, o modelo terá de ser capaz de “processar fala humana”, para permitir “o desenvolvimento de aplicações que ofereçam interação de forma conversacional”.
Assine o ECO Premium
No momento em que a informação é mais importante do que nunca, apoie o jornalismo independente e rigoroso.
De que forma? Assine o ECO Premium e tenha acesso a notícias exclusivas, à opinião que conta, às reportagens e especiais que mostram o outro lado da história.
Esta assinatura é uma forma de apoiar o ECO e os seus jornalistas. A nossa contrapartida é o jornalismo independente, rigoroso e credível.
Comentários ({{ total }})
O fado do Amália
{{ noCommentsLabel }}