Negócios

Para além do algoritmo: como são treinados e aperfeiçoados os modelos de inteligência artificial

"Os dados são a chave. O Santo Graal da IA generativa."-Hilary Packer, CTO da American Express. A recolha de dados é responsável por 80% do esforço em projectos de IA. O DeepSeek mudou as regras: o custo da inferência é 1/30 em comparação com o OpenAI. Dario Amodei: os custos baixam 4x por ano. "Espero que o custo chegue a zero"-CDO da Intuit. A combinação de destilação + RAG é onde reside a magia para a maioria das empresas. O futuro? Uma grande quantidade de modelos específicos e económicos baseados nos dados da empresa.

Como treinar um modelo de inteligência artificial

O treino de modelos de inteligência artificial representa um dos desafios mais complexos do desenvolvimento tecnológico contemporâneo. Muito mais do que uma simples questão algorítmica, o treino eficaz de um modelo requer uma abordagem metódica e multidisciplinar que integre dados, ciência dos dados, conhecimento do domínio e engenharia de software. Como James Luke salienta no seu texto seminal"Beyond Algorithms: Delivering AI for Business", o sucesso de uma implementação de IA depende muito mais da gestão de dados e da conceção sistémica do que dos próprios algoritmos. O panorama está a mudar rapidamente, com inovações como o modelo DeepSeek-R1 a redefinir o custo e a acessibilidade.

A base: recolha e gestão de dados

Qualidade em vez de quantidade

Contrariamente ao que muitas vezes se pensa, a quantidade de dados nem sempre é o fator determinante para o sucesso. A qualidade e a representatividade dos dados são significativamente mais importantes. Neste contexto, é fundamental integrar diferentes fontes:

  • Dados proprietários: recolhidos eticamente e tornados anónimos pelas implementações existentes
  • Dados autorizados: Obtidos de fornecedores fiáveis que cumprem normas de qualidade rigorosas
  • Conjuntos de dados de fonte aberta: cuidadosamente verificados para garantir diversidade e exatidão
  • Dados sintéticos: gerados artificialmente para preencher lacunas e resolver problemas de privacidade

Esta integração cria uma base de formação abrangente que capta cenários do mundo real, mantendo os padrões éticos e de privacidade.

O desafio da preparação dos dados

O processo de "manipulação de dados" representa até 80 por cento do esforço necessário em projectos de inteligência artificial. Esta fase envolve:

  • Limpeza de dados: eliminação de incoerências, duplicações e valores anómalos
  • Transformação de dados: Conversão para formatos adequados ao processamento
  • Integração de dados: Fusão de diferentes fontes que utilizam frequentemente esquemas e formatos incompatíveis
  • Tratamento de dados em falta: Estratégias como a imputação estatística ou a utilização de dados de substituição

Como Hilary Packer, CTO da American Express, salientou : "O momento aha! para nós, honestamente, foram os dados. Pode fazer-se a melhor seleção de modelos do mundo... mas os dados são a chave. A validação e a precisão são o Santo Graal neste momento na IA generativa."

Arquitetura do modelo: dimensionamento correto

A escolha da arquitetura do modelo deve ser orientada pela natureza específica do problema a resolver, e não por tendências ou preferências pessoais. Diferentes tipos de problemas exigem abordagens diferentes:

  • Modelos linguísticos baseados em transformadores para tarefas que exigem uma compreensão linguística profunda
  • Redes neurais convolucionais para reconhecimento de imagens e padrões
  • Redes neurais gráficas paraa análise de relações complexas entre entidades
  • Aprendizagem por reforço para problemas de otimização e decisão
  • Arquitecturas híbridas que combinam múltiplas abordagens para casos de utilização complexos

A otimização da arquitetura requer uma avaliação sistemática entre diferentes configurações, com ênfase no equilíbrio entre o desempenho e os requisitos computacionais, um aspeto que se tornou ainda mais relevante com o advento de modelos como o DeepSeek-R1, que oferecem capacidades de raciocínio avançadas a custos significativamente mais baixos.

Metodologias de formação avançadas

Modelo de destilação

A destilação surgiu como uma ferramenta particularmente poderosa no atual ecossistema de IA. Este processo permite criar modelos mais pequenos e específicos que herdam as capacidades de raciocínio de modelos maiores e mais complexos, como o DeepSeek-R1.

Como demonstrado no caso da DeepSeek, aempresa destilou as suas capacidades de raciocínio em vários modelos mais pequenos, incluindo modelos de código aberto da família Llama da Meta e da família Qwen da Alibaba. Estes modelos mais pequenos podem ser subsequentemente optimizados para tarefas específicas, acelerando a tendência para modelos rápidos e especializados.

Sam Witteveen, programador de aprendizagem automática, observa: "Estamos a começar a entrar num mundo em que as pessoas utilizam vários modelos. Não utilizam apenas um modelo a toda a hora". Isto inclui modelos fechados de baixo custo, como o Gemini Flash e o GPT-4o Mini, que "funcionam muito bem em 80% dos casos de utilização".

Aprendizagem multi-tarefa

Em vez de treinar modelos separados para competências relacionadas, a aprendizagem multitarefa permite que os modelos partilhem conhecimentos entre diferentes funções:

  • Os modelos optimizam simultaneamente vários objectivos relacionados
  • A funcionalidade básica beneficia de uma maior exposição a diferentes tarefas
  • O desempenho melhora em todas as tarefas, especialmente naquelas com dados limitados
  • A eficiência computacional aumenta através da partilha de componentes

Afinação supervisionada (SFT)

Para as empresas que operam em domínios muito específicos, onde a informação não está amplamente disponível na Web ou nos livros normalmente utilizados para treinar modelos linguísticos, a afinação supervisionada (SFT) é uma opção eficaz.

O DeepSeek demonstrou que é possível obter bons resultados com "milhares" de conjuntos de dados de perguntas e respostas. Por exemplo, o engenheiro da IBM Chris Hay mostrou como criou um pequeno modelo utilizando os seus próprios conjuntos de dados específicos de matemática e obteve respostas extremamente rápidas que excederam o desempenho do modelo o1 da OpenAI nas mesmas tarefas.

Aprendizagem por reforço (RL)

As empresas que pretendam treinar um modelo com um maior alinhamento com preferências específicas - por exemplo, tornar um chatbot de apoio ao cliente empático mas conciso - vão querer implementar técnicas de aprendizagem por reforço (RL). Esta abordagem é particularmente útil se uma empresa quiser que o seu chatbot adapte o seu tom e as suas recomendações com base no feedback do utilizador.

Geração Aumentada por Recuperação (RAG)

Para a maioria das empresas, a Geração Aumentada por Recuperação (RAG) é a via mais simples e mais segura. Trata-se de um processo relativamente simples que permite às organizações ancorar os seus modelos com dados proprietários contidos nas suas bases de dados, garantindo que os resultados são exactos e específicos do domínio.

Esta abordagem também ajuda a contrariar alguns dos problemas de alucinação associados a modelos como o DeepSeek, que atualmente alucinam em 14% dos casos, em comparação com 8% para o modelo o3 da OpenAI, de acordo com um estudo realizado pela Vectara.

A combinação de destilação de modelos e RAG é onde reside a magia para a maioria das empresas, tendo-se tornado incrivelmente fácil de implementar, mesmo para aqueles com competências limitadas em ciência de dados ou programação.

Avaliação e aperfeiçoamento: para além dos indicadores de exatidão

Uma IA eficaz não se mede apenas em termos de precisão bruta, mas requer um quadro de avaliação abrangente que tenha em conta:

  • Exatidão funcional: Frequência com que o modelo produz resultados corretos
  • Robustez: Consistência do desempenho com entradas e condições variáveis
  • Equidade: desempenho consistente em diferentes grupos de utilizadores e cenários
  • Calibração: Alinhamento entre os resultados de confiança e a exatidão real
  • Eficiência: Requisitos computacionais e de memória
  • Explicabilidade: Transparência dos processos de decisão, um aspeto em que os modelos destilados do DeepSeek se destacam, mostrando o seu processo de raciocínio

O impacto da curva de custos

O impacto mais imediato do lançamento do DeepSeek é a sua agressiva redução de preços. O setor de tecnologia esperava que os custos caíssem com o tempo, mas poucos previram a rapidez com que isso aconteceria. O DeepSeek demonstrou que modelos poderosos e abertos podem ser baratos e eficientes, criando oportunidades para uma experimentação generalizada e uma implementação económica.

Amr Awadallah, CEO da Vectara, sublinhou este ponto, observando que o verdadeiro ponto de viragem não é apenas o custo da formação, mas o custo da inferência, que para o DeepSeek é cerca de 1/30 do custo dos modelos o1 ou o3 da OpenAI por inferência e por token. "As margens que a OpenAI, a Anthropic e a Google Gemini conseguiram captar terão agora de ser reduzidas em pelo menos 90%, porque não podem manter-se competitivas com preços tão elevados", afirmou Awadallah.

Para além disso, estes custos continuarão a diminuir. O Diretor Executivo da Anthropic, Dario Amodei, declarou recentemente que o custo de desenvolvimento de modelos continua a diminuir a um ritmo de cerca de quatro vezes por ano. Consequentemente, a taxa que os fornecedores de LLM cobram pela sua utilização também continuará a diminuir.

"Espero que o custo chegue a zero", disse Ashok Srivastava, CDO da Intuit, uma empresa que tem impulsionado fortemente a IA nas suas ofertas de software fiscal e contabilístico, como o TurboTax e o Quickbooks. "E a latência chegará a zero. Eles simplesmente se tornarão recursos básicos que podemos usar.

Conclusão: O futuro da IA empresarial é aberto, barato e orientado para os dados

O DeepSeek e o Deep Research da OpenAI são mais do que apenas novas ferramentas no arsenal da IA - são sinais de uma mudança profunda em que as empresas irão implementar massas de modelos criados especificamente para o efeito, que são extremamente rentáveis, competentes e enraizados nos dados e na abordagem da própria empresa.

Para as empresas, a mensagem é clara: as ferramentas para criar aplicações de IA poderosas e específicas de um domínio estão à mão. Se não tirar partido dessas ferramentas, corre o risco de ficar para trás. Mas o verdadeiro sucesso virá da forma como se selecionam os dados, se exploram técnicas como o RAG e a destilação e se inova para além da fase de pré-treino.

Como Packer, da AmEx, afirmou: as empresas que gerem corretamente os seus dados serão as que liderarão a próxima vaga de inovação em IA.

Recursos para o crescimento das empresas

9 de novembro de 2025

Regulamentação da IA para aplicações de consumo: como se preparar para os novos regulamentos de 2025

2025 marca o fim da era do "Oeste Selvagem" da IA: AI Act EU operacional a partir de agosto de 2024 com obrigações de literacia em IA a partir de 2 de fevereiro de 2025, governação e GPAI a partir de 2 de agosto. A Califórnia é pioneira com o SB 243 (nascido após o suicídio de Sewell Setzer, um jovem de 14 anos que desenvolveu uma relação emocional com um chatbot), que impõe a proibição de sistemas de recompensa compulsivos, a deteção de ideação suicida, a lembrança de 3 em 3 horas de que "não sou humano", auditorias públicas independentes, sanções de 1000 dólares por infração. SB 420 exige avaliações de impacto para "decisões automatizadas de alto risco" com direitos de recurso de revisão humana. Aplicação efectiva: Noom citou 2022 por causa de bots que se faziam passar por treinadores humanos, acordo de 56 milhões de dólares. Tendência nacional: Alabama, Havaí, Illinois, Maine, Massachusetts classificam a falha em notificar chatbots de IA como violação do UDAP. Abordagem de sistemas críticos de risco de três níveis (cuidados de saúde/transporte/energia) certificação de pré-implantação, divulgação transparente virada para o consumidor, registo de uso geral + testes de segurança. Mosaico regulamentar sem preempção federal: as empresas multi-estatais têm de navegar por requisitos variáveis. UE a partir de agosto de 2026: informar os utilizadores sobre a interação com a IA, a menos que seja óbvio, e os conteúdos gerados por IA devem ser rotulados como legíveis por máquinas.
9 de novembro de 2025

Regulamentar o que não é criado: a Europa arrisca-se a ser irrelevante do ponto de vista tecnológico?

A Europa atrai apenas um décimo do investimento mundial em inteligência artificial, mas pretende ditar as regras mundiais. Este é o "Efeito Bruxelas" - impor regras à escala planetária através do poder de mercado sem impulsionar a inovação. A Lei da IA entra em vigor num calendário escalonado até 2027, mas as empresas multinacionais de tecnologia respondem com estratégias criativas de evasão: invocando segredos comerciais para evitar revelar dados de formação, produzindo resumos tecnicamente conformes mas incompreensíveis, utilizando a autoavaliação para rebaixar os sistemas de "alto risco" para "risco mínimo", escolhendo os Estados-Membros com controlos menos rigorosos. O paradoxo dos direitos de autor extraterritoriais: a UE exige que a OpenAI cumpra as leis europeias, mesmo no caso de formação fora da Europa - um princípio nunca antes visto no direito internacional. Surge o "modelo duplo": versões europeias limitadas versus versões mundiais avançadas dos mesmos produtos de IA. Risco real: a Europa torna-se uma "fortaleza digital" isolada da inovação mundial, com os cidadãos europeus a acederem a tecnologias inferiores. O Tribunal de Justiça, no processo relativo à pontuação de crédito, já rejeitou a defesa dos "segredos comerciais", mas a incerteza interpretativa continua a ser enorme - o que significa exatamente "resumo suficientemente pormenorizado"? Ninguém sabe. Última pergunta sem resposta: estará a UE a criar uma terceira via ética entre o capitalismo americano e o controlo estatal chinês, ou simplesmente a exportar burocracia para uma área em que não compete? Para já: líder mundial na regulação da IA, marginal no seu desenvolvimento. Vasto programa.
9 de novembro de 2025

Outliers: onde a ciência dos dados encontra histórias de sucesso

A ciência dos dados inverteu o paradigma: os valores atípicos já não são "erros a eliminar", mas sim informações valiosas a compreender. Um único outlier pode distorcer completamente um modelo de regressão linear - alterar o declive de 2 para 10 - mas eliminá-lo pode significar perder o sinal mais importante do conjunto de dados. A aprendizagem automática introduz ferramentas sofisticadas: O Isolation Forest isola os valores atípicos através da construção de árvores de decisão aleatórias, o Local Outlier Fator analisa a densidade local, os Autoencoders reconstroem dados normais e comunicam o que não conseguem reproduzir. Existem valores anómalos globais (temperatura de -10°C nos trópicos), valores anómalos contextuais (gastar 1000 euros num bairro pobre), valores anómalos colectivos (picos de tráfego de rede sincronizados que indicam um ataque). Paralelismo com Gladwell: a "regra das 10.000 horas" é contestada - Paul McCartney dixit "muitas bandas fizeram 10.000 horas em Hamburgo sem sucesso, a teoria não é infalível". O sucesso matemático asiático não é genético mas cultural: o sistema numérico chinês é mais intuitivo, o cultivo do arroz exige um aperfeiçoamento constante, ao contrário da expansão territorial da agricultura ocidental. Aplicações reais: os bancos britânicos recuperam 18% de perdas potenciais através da deteção de anomalias em tempo real, a indústria transformadora detecta defeitos microscópicos que a inspeção humana não detectaria, os cuidados de saúde validam dados de ensaios clínicos com uma sensibilidade de deteção de anomalias superior a 85%. Lição final: à medida que a ciência dos dados passa da eliminação de anomalias para a sua compreensão, temos de encarar as carreiras não convencionais não como anomalias a corrigir, mas como trajectórias valiosas a estudar.