Negócios

Dados de treino de IA: o negócio de 10 mil milhões que potencia a inteligência artificial

A IA de escala vale 29 mil milhões de dólares e provavelmente nunca ouviu falar dela. É a indústria invisível de dados de treinamento que torna possível o ChatGPT e a difusão estável - um mercado de US $ 9,58 bilhões com crescimento anual de 27,7%. Os custos explodiram 4.300% desde 2020 (Gemini Ultra: $192M). Mas, em 2028, ficará sem texto público humano disponível. Enquanto isso, ações judiciais de direitos autorais e milhões de passaportes encontrados em conjuntos de dados. Para as empresas: podem começar gratuitamente com Hugging Face e Google Colab.

A indústria invisível que torna possível o ChatGPT, a Difusão Estável e todos os outros sistemas modernos de IA

O segredo mais bem guardado da IA

Quando utiliza o ChatGPT para escrever um e-mail ou gerar uma imagem com o Midjourney, raramente pensa no que está por detrás da "magia" da inteligência artificial. No entanto, por detrás de cada resposta inteligente e de cada imagem gerada está uma indústria multibilionária de que poucas pessoas falam: o mercado de dados de treino de IA.

Este sector, que, segundo a MarketsandMarkets, atingirá 9,58 mil milhões de dólares em 2029, com uma taxa de crescimento de 27,7% ao ano, é o verdadeiro motor da inteligência artificial moderna. Mas como funciona exatamente este negócio oculto?

O ecossistema invisível que movimenta milhares de milhões

Os gigantes comerciais

Algumas empresas dominam o mundo dos dados de treino de IA de que a maioria das pessoas nunca ouviu falar:

A Scale AI, a maior empresa do sector com uma quota de mercado de 28%, foi recentemente avaliada em 29 mil milhões de dólares após o investimento da Meta. Os seus clientes empresariais pagam entre 100 000 e vários milhões de dólares por ano por dados de elevada qualidade.

A Appen, sediada na Austrália, opera uma rede global de mais de 1 milhão de especialistas em 170 países que marcam e selecionam manualmente os dados para a IA. Empresas como a Airbnb, a John Deere e a Procter & Gamble utilizam os seus serviços para "ensinar" os seus modelos de IA.

O mundo da fonte aberta

Paralelamente, existe um ecossistema de fonte aberta liderado por organizações como a LAION (Large-scale Artificial Intelligence Open Network), uma organização alemã sem fins lucrativos que criou o LAION-5B, o conjunto de dados de 5,85 mil milhões de pares imagem-texto que tornou possível a Stable Diffusion.

O Common Crawl liberta mensalmente terabytes de dados brutos da Web utilizados para treinar o GPT-3, o LLaMA e muitos outros modelos linguísticos.

Os custos ocultos da Inteligência Artificial

O que o público não sabe é quão dispendioso se tornou treinar um modelo moderno de IA. De acordo com a Epoch AI, os custos aumentaram 2 a 3 vezes por ano nos últimos oito anos.

Exemplos de custos reais:

O número mais surpreendente? De acordo com o AltIndex.com, os custos de formação em IA aumentaram 4 300% desde 2020.

Os desafios éticos e jurídicos do sector

A questão dos direitos de autor

Uma das questões mais controversas diz respeito à utilização de material protegido por direitos de autor. Em fevereiro de 2025, o tribunal do Delaware decidiu no processo Thomson Reuters v. ROSS Intelligence que a formação em IA pode constituir uma violação direta dos direitos de autor, rejeitando a defesa da "utilização justa".

O Gabinete de Direitos de Autor dos EUA publicou um relatório de 108 páginas que conclui que certas utilizações não podem ser defendidas como utilização justa, abrindo caminho a custos de licenciamento potencialmente enormes para as empresas de IA.

Privacidade e dados pessoais

Uma investigação do MIT Technology Review revelou que o DataComp CommonPool, um dos conjuntos de dados mais utilizados, contém milhões de imagens de passaportes, cartões de crédito e certidões de nascimento. Com mais de 2 milhões de descarregamentos nos últimos dois anos, este facto levanta enormes problemas de privacidade.

O futuro: escassez e inovação

O problema dos dados de pico

Os especialistas prevêem que, até 2028, a maioria dos textos públicos gerados por humanos disponíveis em linha será utilizada. Este cenário de "pico de dados" está a levar as empresas a procurar soluções inovadoras:

  • Dados sintéticos: geração artificial de dados de treino
  • Acordos de licença: Parcerias estratégicas como a existente entre a OpenAI e o Financial Times
  • Dados multimodais: combinação de texto, imagens, áudio e vídeo

Novos regulamentos em breve

A Lei da Transparência da IA da Califórnia exigirá que as empresas divulguem os conjuntos de dados utilizados para formação, enquanto a UE está a implementar requisitos semelhantes na Lei da IA.

Oportunidades para as empresas italianas

Para as empresas que pretendem desenvolver soluções de IA, é crucial compreender este ecossistema:

Opções económicas:

Soluções empresariais:

  • Escalas de IA e Appen para projectos de missão crítica
  • Serviços especializados: Como a Nexdata para PNL ou a FileMarket AI para dados áudio

Conclusões

O mercado de dados de treino de IA vale 9,58 mil milhões de dólares e está a crescer 27,7% ao ano. Esta indústria invisível não só é o motor da IA moderna, como também representa um dos maiores desafios éticos e jurídicos do nosso tempo.

No próximo artigo, iremos explorar a forma como as empresas podem entrar concretamente neste mundo, com um guia prático para começar a desenvolver soluções de IA utilizando os conjuntos de dados e as ferramentas atualmente disponíveis.

Para aqueles que querem saber mais agora, compilámos um guia detalhado com o roteiro de implementação, custos específicos e conjunto completo de ferramentas - descarregável gratuitamente com a subscrição newsletter.

Ligações úteis para começar de imediato:

Fontes técnicas:

Não fique à espera da "revolução da IA". Crie-a. Daqui a um mês, poderá ter o seu primeiro modelo funcional, enquanto outros ainda estão a planear.

Recursos para o crescimento das empresas

9 de novembro de 2025

Regulamentar o que não é criado: a Europa arrisca-se a ser irrelevante do ponto de vista tecnológico?

A Europa atrai apenas um décimo do investimento mundial em inteligência artificial, mas pretende ditar as regras mundiais. Este é o "Efeito Bruxelas" - impor regras à escala planetária através do poder de mercado sem impulsionar a inovação. A Lei da IA entra em vigor num calendário escalonado até 2027, mas as empresas multinacionais de tecnologia respondem com estratégias criativas de evasão: invocando segredos comerciais para evitar revelar dados de formação, produzindo resumos tecnicamente conformes mas incompreensíveis, utilizando a autoavaliação para rebaixar os sistemas de "alto risco" para "risco mínimo", escolhendo os Estados-Membros com controlos menos rigorosos. O paradoxo dos direitos de autor extraterritoriais: a UE exige que a OpenAI cumpra as leis europeias, mesmo no caso de formação fora da Europa - um princípio nunca antes visto no direito internacional. Surge o "modelo duplo": versões europeias limitadas versus versões mundiais avançadas dos mesmos produtos de IA. Risco real: a Europa torna-se uma "fortaleza digital" isolada da inovação mundial, com os cidadãos europeus a acederem a tecnologias inferiores. O Tribunal de Justiça, no processo relativo à pontuação de crédito, já rejeitou a defesa dos "segredos comerciais", mas a incerteza interpretativa continua a ser enorme - o que significa exatamente "resumo suficientemente pormenorizado"? Ninguém sabe. Última pergunta sem resposta: estará a UE a criar uma terceira via ética entre o capitalismo americano e o controlo estatal chinês, ou simplesmente a exportar burocracia para uma área em que não compete? Para já: líder mundial na regulação da IA, marginal no seu desenvolvimento. Vasto programa.
9 de novembro de 2025

Outliers: onde a ciência dos dados encontra histórias de sucesso

A ciência dos dados inverteu o paradigma: os valores atípicos já não são "erros a eliminar", mas sim informações valiosas a compreender. Um único outlier pode distorcer completamente um modelo de regressão linear - alterar o declive de 2 para 10 - mas eliminá-lo pode significar perder o sinal mais importante do conjunto de dados. A aprendizagem automática introduz ferramentas sofisticadas: O Isolation Forest isola os valores atípicos através da construção de árvores de decisão aleatórias, o Local Outlier Fator analisa a densidade local, os Autoencoders reconstroem dados normais e comunicam o que não conseguem reproduzir. Existem valores anómalos globais (temperatura de -10°C nos trópicos), valores anómalos contextuais (gastar 1000 euros num bairro pobre), valores anómalos colectivos (picos de tráfego de rede sincronizados que indicam um ataque). Paralelismo com Gladwell: a "regra das 10.000 horas" é contestada - Paul McCartney dixit "muitas bandas fizeram 10.000 horas em Hamburgo sem sucesso, a teoria não é infalível". O sucesso matemático asiático não é genético mas cultural: o sistema numérico chinês é mais intuitivo, o cultivo do arroz exige um aperfeiçoamento constante, ao contrário da expansão territorial da agricultura ocidental. Aplicações reais: os bancos britânicos recuperam 18% de perdas potenciais através da deteção de anomalias em tempo real, a indústria transformadora detecta defeitos microscópicos que a inspeção humana não detectaria, os cuidados de saúde validam dados de ensaios clínicos com uma sensibilidade de deteção de anomalias superior a 85%. Lição final: à medida que a ciência dos dados passa da eliminação de anomalias para a sua compreensão, temos de encarar as carreiras não convencionais não como anomalias a corrigir, mas como trajectórias valiosas a estudar.