O ChatGPT português poderá implicar um investimento global entre 20 e 30 milhões. Vasco Pedro e Paulo Dimas, da Unbabel, explicam o projeto do qual são parceiros.
A Unbabel é um dos parceiros envolvidos no projeto do Large Language Model (LLM) português, a tecnologia por trás do ChatGPT, anunciado por Luís Montenegro para estar ‘no ar’ no primeiro trimestre de 2025. O prazo “é ambicioso, mas acho que é possível e vamos conseguir”, garante Vasco Pedro, fundador e CEO da Unbabel, ao ECO.
O projeto parte de uma base em open source já existente, o Tower LLM, da Unbabel, a que se vai juntar dados da Fundação Científica de Cálculo Nacional (FCCN). Além da Unbabel, está envolvida a equipa de investigação da Faculdade de Ciência e Tecnologia da Universidade Nova, liderada pelo professor João Magalhães; e a equipa de investigação no Instituto Superior Técnico (IST), liderada pelo professor André Martins, explica Paulo Dimas, vice-presidente de Inovação da Unbabel e CEO do Centro para IA Responsável, do qual a scaleup nacional é membro fundador.
O ChatGPT português poderá implicar um investimento global entre 20 a 30 milhões.
Luís Montenegro anunciou um LLM, um ChatGPT português, para o primeiro trimestre de 2025. A Unbabel está num consórcio do PRR sobre IA. Está envolvido neste projeto?
Vasco Pedro: Estamos envolvidos. Temos advogado bastante haver uma estratégia coesa de inteligência artificial e temos estado sempre disponíveis para trabalhar com o Governo nesse sentido. Temos estado a trabalhar com a ministra da Juventude e Modernização, Margarida Balseiro Lopes, a pessoa no Governo que está a coordenar a agenda de IA e a criar a estratégia de IA para o país, no sentido de propor algumas ideias.
Na sequência do brainstorming sobre o LLM português — que acho super importante para manter a nossa cultura, soberania enquanto país, agilizar os serviços, com o impacto económico que pode daí advir — está a considerar-se várias estratégias. A que me parece mais provável, a que advogamos, é haver uma primeira versão [do LLM português], em cima de uma versão open source que existe do nosso LLM.
Uma das coisas, por exemplo, que temos sugerido e advogado, é que o próprio Centro de IA Responsável seja elevado para Centro Nacional de IA, completamente fora da Unbabel, isento, independente, sob o controlo do Governo. Vai ser preciso alguma entidade que ajude a coordenar, a fazer o deployment deste modelo.
A Unbabel lançou um LLM há cinco meses, o Tower LLM. Foi construído com apoios europeus, em conjunto com o IST, portanto já tem uma grande base. Há uma versão open source que pode ser usada como base e depois ser aumentada com os dados da FCCN, que, por sua vez, precisam de ser trabalhados.
A FCCN tem neste momento uma quantidade de dados muito interessante, mas só se conseguem usar, mais ou menos, 10%, porque os dados têm que ser pré-processados. A conjunção destas duas coisas é que vai levar à primeira versão do LLM português e acho que vai ser feito perfeitamente a tempo.
Daniela Braga, da Defined.ai, considera que seria um prazo demasiado otimista. Dizia até que se calhar não seria um LLM mas um small model.
Vasco Pedro: O LLM é bastante large. A versão open source foi treinada em cima de 70 mil milhões de parâmetros, algo interessante. Obviamente, é importante que estes recursos estejam sob o controlo do Governo. Uma das coisas, por exemplo, que temos sugerido e advogado, é que o próprio Centro de IA Responsável seja elevado para Centro Nacional de IA, completamente fora da Unbabel, isento, independente, sob o controlo do Governo.
Vai ser preciso alguma entidade que ajude a coordenar, a fazer o deployment deste modelo, que ajude a que haja uma integração dos serviços do Estado. Toda esta estratégia é bastante coesa. Do ponto de vista de ambição, é claro que é ambicioso, mas por ser ambicioso, não quer dizer que não seja possível. Pelo contrário, temos de estar motivados.
Vão trabalhar com dados da FCCN?
Paulo Dimas: A Fundação Científica de Cálculo Nacional (FCCN) é uma organização criada há muitos anos pela FCT, para autonomizar o acesso à computação, mas que entretanto já foi integrada na FCT. Neste projeto, esta equipa dentro da FCT, é um dos parceiros fundamentais. É o parceiro que disponibiliza os recursos computacionais através de investimento que está a ser feito na AI Factory Ibérica, que está a ser criada.
Fisicamente está em Barcelona, mas está disponível para o ecossistema nacional de IA e que, esperemos que — enquanto estamos a falar ainda não sabemos isso — seja financiado pela Euro HPC, a Rede Europeia de Super Computação. Se houver esse financiamento, o investimento nacional vai ser duplicado.
Que investimento pode implicar este projeto?
Paulo Dimas: Não sei exatamente os valores, é uma questão que a FCT deverá responder com rigor, porque a proposta da nossa candidatura, em conjunto com Espanha, não é pública. Mas tenho ideia que, com a duplicação do HPC, poderá alcançar entre 20 e 30 milhões de euros para a computação.
Fundos detidos pelo Estado português, imagino que está na ordem dos 15 milhões, mas com a duplicação, vamos aumentar a nossa capacidade de computação significativamente. Neste momento, temos de 5% da computação deste supercomputador, localizado no Barcelona, no Super Computing Center.
Não estamos a partir do zero. A Unbabel está a trabalhar em LLM, embora mais pequenos, há muitos anos, desde 2017, quando surgiu o Transformer Model, o modelo por trás do ChatGPT PT. No fundo, isto é algo construído em cima já de muito trabalho, trabalho de anos nesta área.
Não é apenas a Unbabel envolvida neste projeto, portanto.
Paulo Dimas: Não. O projeto, na medida do que é possível divulgar neste momento, é uma parceria que resulta da colaboração entre dois centros de investigação nacionais: o Centro de Investigação da Faculdade de Ciências e Tecnologia da Nova e um centro de investigação do Instituto Superior Técnico. Há uma equipa que tem colaborado muito com a Unbabel. Há aqui uma transferência do know-how da Unbabel nesta área.
O LLM português parte de uma base, em open source, da Unbabel…
Paulo Dimas: Não estamos a partir do zero. A Unbabel está a trabalhar em LLM, embora mais pequenos, há muitos anos, desde 2017, quando surgiu o Transformer Model, o modelo por trás do ChatGPT PT. No fundo, isto é algo construído em cima já de muito trabalho, trabalho de anos nesta área.
Mas há quanto tempo estão a trabalhar neste projeto?
Paulo Dimas: A Unbabel opera no mercado global, portanto, a nossa fonte de receitas, não é o mercado nacional. Exportamos mais de 95% do que fazemos. O mercado nacional um mercado que tem a sua importância, mas é sempre relativa. Nunca foi uma prioridade desenvolver, até a este momento. É uma parceria que nem sequer é liderada pela Unababel, que apoiou em termos de tecnologia. Indiretamente, estamos a trabalhar há vários anos na tecnologia que permite que isso aconteça. Os nossos primeiros modelos com IA generativa foram criados há três, quatro anos
Mas quando é que houve a chamada telefónica ou o WhatsApp a convidar para se juntarem?
Paulo Dimas: Foi um caminho bidirecional. Nós achamos que era fundamental Portugal ter este ativo tecnológico, absolutamente essencial para preservar a soberania da nossa língua e da nossa cultura, fundamental no domínio da administração pública, para garantir que os dados da nossa administração pública, dos nossos hospitais, que usem este tipo de tecnologia, não passem para modelos de empresas tecnológicas americanas. Temos de ter controlo sobre a IA em Portugal. E, portanto, isso tornou-se e algo incontornável e até urgente.
Vasco Pedro: Foi uma conjugação. Do nosso lado, já estávamos há bastante tempo a pensar sobre o que achávamos que era importante. E depois o senhor primeiro-ministro, através do seu chefe de gabinete, começou a consultar algumas entidades a nível Portugal, e uma das pessoas consultadas fui eu. No meio desta conversa, dissemos que se fosse preciso ajuda estávamos cá. Tem sido um processo colaborativo. Mas era muito claro que o primeiro-ministro já estava bastante preocupado com termos de ter um plano para IA português e, portanto, havia movimentos no sentido de ir procurar como vamos construir este plano, consultando os maiores experts em Portugal na área.
O Governo diz estar disponível para criar uma Agência para o IA. A avançar, o que seria importante que estivesse na lista de prioridades?
Paulo Dimas: Temos sempre uma certa, digamos, aversão a mais agências. No mundo das startups, as coisas fazem-se, fazendo-se, não é criando mais agências. A nossa preocupação é haver um alinhamento. Há uns meses, perguntaram-me se devia haver um ministro para a IA. A minha resposta na altura foi que o primeiro-ministro devia ser esse ministro, devia ter essa pasta.
E tem, o que foi uma agradável surpresa, que delegou na ministra da Juventude e Modernização. Portanto, já existe essa liderança. A criação de agências é sempre uma questão que, às vezes, nos pode distrair no curto prazo. É bom pensar estrategicamente nisso, mas no curto prazo sabemos o que temos que fazer.
E o prazo de março é ‘fazível’?
Vasco Pedro: É ambicioso, mas acho que é possível e vamos conseguir.
Assine o ECO Premium
No momento em que a informação é mais importante do que nunca, apoie o jornalismo independente e rigoroso.
De que forma? Assine o ECO Premium e tenha acesso a notícias exclusivas, à opinião que conta, às reportagens e especiais que mostram o outro lado da história.
Esta assinatura é uma forma de apoiar o ECO e os seus jornalistas. A nossa contrapartida é o jornalismo independente, rigoroso e credível.
Comentários ({{ total }})
“O ChatGPT português vai ser feito perfeitamente a tempo e não será pequeno”
{{ noCommentsLabel }}