A internet já não é a melhor fonte de informação para treinar algoritmos. A matéria-prima da IA escasseia, mas pode ser uma vantagem competitiva para algumas empresas.
- Este artigo integra a 17.ª edição do ECO magazine. Pode comprar aqui

“Dados existem e sempre existiram. Estamos sempre a criar mais dados. Mas no passado, para criar Large Language Models [grandes modelos de linguagem, em português], houve muitas empresas que simplesmente foram à internet”, recorda Daan Baldewijns, VP de marketplace da Defined.ai, que vende conjuntos de dados para treino desses modelos. A realidade atual, porém, é muito diferente.
Os próximos capítulos da IA generativa enfrentam múltiplos desafios, como as crescentes necessidades de energia e de capacidade de computação. Simultaneamente, a abundância de informação que nos permitiu chegar até aqui está a dar lugar a uma escassez de dados abertos de qualidade, o que poderá dificultar o progresso futuro nestas áreas.
À primeira vista, parece um contrassenso. Vivemos no período da história em que mais dados se recolhe sobre a vida das pessoas — desde as compras que pagamos com cartão ao tempo que passamos a olhar para um vídeo numa rede social. Enquanto isso, nas empresas as fontes de dados estão a ganhar visibilidade e são internamente mais valorizadas.
Só que nem todos os dados estão estruturados, bem catalogados, ou podem ser legalmente usados para treinar estes algoritmos. E à medida que vamos explorando novas capacidades desta tecnologia, o problema tende a agravar-se. “Agora, há uma necessidade de aperfeiçoar esses modelos para tarefas muito específicas, dentro do contexto das empresas ou de uma área do saber muito específica. É aí que pode haver, de facto, uma escassez de dados”, explica o responsável da Defined.ai.
Bruxelas facilita acesso a dados
ㅤ
A Comissão Europeia apresentou em novembro a Data Union Strategy, destinada a ampliar o acesso das empresas a dados fiáveis para aplicações de IA. Entre as medidas está a criação de “laboratórios de dados” integrados nas fábricas de IA, que darão a investigadores e empresas, incluindo PME, acesso a conjuntos de dados diversos e apoio técnico para o seu uso seguro. As fontes incluem operadores públicos e empresas participantes. A estratégia prevê ainda o desenvolvimento de dados sintéticos em áreas onde a informação real escasseia.
Para alcançar melhorias muito significativas em modelos de grande dimensão, a internet deixou de ser a opção adequada. Não só porque muita da informação já foi ‘consumida’ por estes modelos como boa parte dela é, crescentemente, gerada por IA. Segundo um estudo da Graphite, uma consultora privada especializada em IA, o número de artigos criados por IA disponíveis na web superou o número de artigos escritos por humanos em novembro de 2024, dois anos depois do lançamento do chatbot da OpenAI.
A utilização deste tipo de conteúdo ‘artificial’ acarreta os seus próprios riscos, podendo, por exemplo, amplificar enviesamentos já existentes. Adicionalmente, a própria IA tem vindo a ser usada para mitigar esta escassez por via da geração de dados sintéticos, isto é, dados “completamente criados por IA” — tais como um conjunto de milhões de casos fictícios para treinar um algoritmo de deteção de fraude financeira.
Esta prática é cada vez mais comum, mas pode potenciar “alucinações” e “erros”, alerta Daan Baldewijns. Segundo o especialista, a qualidade dos resultados “vai simplesmente diminuir” e, no limite, pode conduzir ao colapso do modelo, tornando-o inútil e desajustado do mundo real.
Se esta escassez de dados pode ser um problema para algumas empresas, nomeadamente as que fornecem modelos de IA, para outras será mais uma vantagem competitiva, nota Ivo Bernardo, cofundador da Daredata, empresa especializada no desenvolvimento de soluções de IA.
Dando como exemplo a Procter & Gamble (P&G), gigante do grande consumo dona de marcas como Oral-B, Pantene e Gilette, Ivo Bernardo sublinha que esta empresa “terá uma quantidade de dados enorme sobre o consumidor que não são públicos”. Ou seja, “para empresas com dados proprietários, a escassez de dados pode ser uma vantagem”, diz. “A P&G pode treinar o seu próprio LLM especialista em bens de consumidor.”
O que fazer então se o poço dos dados secar? A resposta encontra-se nos “modelos mais pequenos” e nos “agentes adaptados a tarefas específicas”. Mas os modelos, esses, continuarão insaciáveis, consumindo todos os dados em que conseguirem deitar as ‘mãos’ — desde episódios de podcasts a gravações de chamadas telefónicas para call centers.
A dieta dos algoritmos
ㅤ
Os dados para “reconhecimento de discurso” são, atualmente, um dos pratos preferidos das empresas que alimentam algoritmos de IA generativa, segundo a Defined.ai. Há também um forte apetite por “pares de pergunta-resposta”, que permitam aos modelos aprender “a resposta adequada” a uma dada questão. Entre as iguarias mais procuradas estão também os dados para ensinar modelos a programar.
Assine o ECO Premium
No momento em que a informação é mais importante do que nunca, apoie o jornalismo independente e rigoroso.
De que forma? Assine o ECO Premium e tenha acesso a notícias exclusivas, à opinião que conta, às reportagens e especiais que mostram o outro lado da história.
Esta assinatura é uma forma de apoiar o ECO e os seus jornalistas. A nossa contrapartida é o jornalismo independente, rigoroso e credível.
Comentários ({{ total }})
Os dados são o novo petróleo. Estará o poço a secar?
{{ noCommentsLabel }}