Como treinar um modelo de inteligência artificial
O treino de modelos de inteligência artificial representa um dos desafios mais complexos do desenvolvimento tecnológico contemporâneo. Muito mais do que uma simples questão algorítmica, o treino eficaz de um modelo requer uma abordagem metódica e multidisciplinar que integre a ciência dos dados, o conhecimento do domínio e a engenharia de software. Como James Luke salienta no seu texto seminal"Beyond Algorithms: Delivering AI for Business", o sucesso de uma implementação de IA depende muito mais da gestão de dados e da conceção sistémica do que dos próprios algoritmos. O panorama está a mudar rapidamente, com inovações como o modelo DeepSeek-R1 a redefinir o custo e a acessibilidade.
A base: recolha e gestão de dados
Qualidade em vez de quantidade
Contrariamente ao que muitas vezes se pensa, a quantidade de dados nem sempre é o fator determinante para o sucesso. A qualidade e a representatividade dos dados são significativamente mais importantes. Neste contexto, é fundamental integrar diferentes fontes:
- Dados proprietários: recolhidos eticamente e tornados anónimos pelas implementações existentes
- Dados autorizados: Obtidos de fornecedores fiáveis que cumprem normas de qualidade rigorosas
- Conjuntos de dados de fonte aberta: cuidadosamente verificados para garantir diversidade e exatidão
- Dados sintéticos: gerados artificialmente para preencher lacunas e resolver problemas de privacidade
Esta integração cria uma base de formação abrangente que capta cenários do mundo real, mantendo os padrões éticos e de privacidade.
O desafio da preparação dos dados
O processo de "manipulação de dados" representa até 80 por cento do esforço necessário em projectos de inteligência artificial. Esta fase envolve:
- Limpeza de dados: eliminação de incoerências, duplicações e valores anómalos
- Transformação de dados: Conversão para formatos adequados ao processamento
- Integração de dados: Fusão de diferentes fontes que utilizam frequentemente esquemas e formatos incompatíveis
- Tratamento de dados em falta: Estratégias como a imputação estatística ou a utilização de dados de substituição
Como Hilary Packer, CTO da American Express, salientou : "O momento aha! para nós, honestamente, foram os dados. Pode fazer-se a melhor seleção de modelos do mundo... mas os dados são a chave. A validação e a precisão são o Santo Graal neste momento na IA generativa."
Arquitetura do modelo: dimensionamento correto
A escolha da arquitetura do modelo deve ser orientada pela natureza específica do problema a resolver, e não por tendências ou preferências pessoais. Diferentes tipos de problemas exigem abordagens diferentes:
- Modelos linguísticos baseados em transformadores para tarefas que exigem uma compreensão linguística profunda
- Redes neurais convolucionais para reconhecimento de imagens e padrões
- Redes neurais gráficas para a análise de relações complexas entre entidades
- Aprendizagem por reforço para problemas de otimização e decisão
- Arquitecturas híbridas que combinam múltiplas abordagens para casos de utilização complexos
A otimização da arquitetura requer uma avaliação sistemática entre diferentes configurações, com ênfase no equilíbrio entre o desempenho e os requisitos computacionais, um aspeto que se tornou ainda mais relevante com o advento de modelos como o DeepSeek-R1, que oferecem capacidades de raciocínio avançadas a custos significativamente mais baixos.
Metodologias de formação avançadas
Modelo de destilação
A destilação surgiu como uma ferramenta particularmente poderosa no atual ecossistema de IA. Este processo permite criar modelos mais pequenos e específicos que herdam as capacidades de raciocínio de modelos maiores e mais complexos, como o DeepSeek-R1.
Como demonstrado no caso da DeepSeek, a empresa destilou as suas capacidades de raciocínio em vários modelos mais pequenos, incluindo modelos de código aberto da família Llama da Meta e da família Qwen da Alibaba. Estes modelos mais pequenos podem ser subsequentemente optimizados para tarefas específicas, acelerando a tendência para modelos rápidos e especializados.
Sam Witteveen, programador de aprendizagem automática, observa: "Estamos a começar a entrar num mundo em que as pessoas utilizam vários modelos. Não utilizam apenas um modelo a toda a hora". Isto inclui modelos fechados de baixo custo, como o Gemini Flash e o GPT-4o Mini, que "funcionam muito bem em 80% dos casos de utilização".
Aprendizagem multi-tarefa
Em vez de treinar modelos separados para competências relacionadas, a aprendizagem multitarefa permite que os modelos partilhem conhecimentos entre diferentes funções:
- Os modelos optimizam simultaneamente vários objectivos relacionados
- A funcionalidade básica beneficia de uma maior exposição a diferentes tarefas
- O desempenho melhora em todas as tarefas, especialmente naquelas com dados limitados
- A eficiência computacional aumenta através da partilha de componentes
Afinação supervisionada (SFT)
Para as empresas que operam em domínios muito específicos, onde a informação não está amplamente disponível na Web ou nos livros normalmente utilizados para treinar modelos linguísticos, a afinação supervisionada (SFT) é uma opção eficaz.
O DeepSeek demonstrou que é possível obter bons resultados com "milhares" de conjuntos de dados de perguntas e respostas. Por exemplo, o engenheiro da IBM Chris Hay mostrou como criou um pequeno modelo utilizando os seus próprios conjuntos de dados específicos de matemática e obteve respostas extremamente rápidas que excederam o desempenho do modelo o1 da OpenAI nas mesmas tarefas.
Aprendizagem por reforço (RL)
As empresas que pretendam treinar um modelo com um maior alinhamento com preferências específicas - por exemplo, tornar um chatbot de apoio ao cliente empático mas conciso - vão querer implementar técnicas de aprendizagem por reforço (RL). Esta abordagem é particularmente útil se uma empresa quiser que o seu chatbot adapte o seu tom e as suas recomendações com base no feedback do utilizador.
Geração Aumentada por Recuperação (RAG)
Para a maioria das empresas, a Geração Aumentada por Recuperação (RAG) é a via mais simples e mais segura. Trata-se de um processo relativamente simples que permite às organizações ancorar os seus modelos com dados proprietários contidos nas suas bases de dados, garantindo que os resultados são exactos e específicos do domínio.
Esta abordagem também ajuda a contrariar alguns dos problemas de alucinação associados a modelos como o DeepSeek, que atualmente alucinam em 14% dos casos, em comparação com 8% para o modelo o3 da OpenAI, de acordo com um estudo realizado pela Vectara.
A combinação de destilação de modelos e RAG é onde reside a magia para a maioria das empresas, tendo-se tornado incrivelmente fácil de implementar, mesmo para aqueles com competências limitadas em ciência de dados ou programação.
Avaliação e aperfeiçoamento: para além dos indicadores de exatidão
Uma IA eficaz não se mede apenas em termos de precisão bruta, mas requer um quadro de avaliação abrangente que tenha em conta:
- Exatidão funcional: Frequência com que o modelo produz resultados corretos
- Robustez: Consistência do desempenho com entradas e condições variáveis
- Equidade: desempenho consistente em diferentes grupos de utilizadores e cenários
- Calibração: Alinhamento entre os resultados de confiança e a exatidão real
- Eficiência: Requisitos computacionais e de memória
- Explicabilidade: Transparência dos processos de decisão, um aspeto em que os modelos destilados do DeepSeek se destacam, mostrando o seu processo de raciocínio
O impacto da curva de custos
O impacto mais imediato do lançamento do DeepSeek é a sua agressiva redução de preços. O setor de tecnologia esperava que os custos caíssem com o tempo, mas poucos previram a rapidez com que isso aconteceria. O DeepSeek demonstrou que modelos poderosos e abertos podem ser baratos e eficientes, criando oportunidades para uma experimentação generalizada e uma implementação económica.
Amr Awadallah, CEO da Vectara, sublinhou este ponto, observando que o verdadeiro ponto de viragem não é apenas o custo da formação, mas o custo da inferência, que para o DeepSeek é cerca de 1/30 do custo dos modelos o1 ou o3 da OpenAI por inferência e por token. "As margens que a OpenAI, a Anthropic e a Google Gemini conseguiram captar terão agora de ser reduzidas em pelo menos 90%, porque não podem manter-se competitivas com preços tão elevados", afirmou Awadallah.
Para além disso, estes custos continuarão a diminuir. O Diretor Executivo da Anthropic, Dario Amodei, declarou recentemente que o custo de desenvolvimento de modelos continua a diminuir a um ritmo de cerca de quatro vezes por ano. Consequentemente, a taxa que os fornecedores de LLM cobram pela sua utilização também continuará a diminuir.
"Espero que o custo chegue a zero", disse Ashok Srivastava, CDO da Intuit, uma empresa que tem impulsionado fortemente a IA nas suas ofertas de software fiscal e contabilístico, como o TurboTax e o Quickbooks. "E a latência chegará a zero. Eles simplesmente se tornarão recursos básicos que podemos usar.
Conclusão: O futuro da IA empresarial é aberto, barato e orientado para os dados
O DeepSeek e o Deep Research da OpenAI são mais do que apenas novas ferramentas no arsenal da IA - são sinais de uma mudança profunda em que as empresas irão implementar massas de modelos criados especificamente para o efeito, que são extremamente rentáveis, competentes e enraizados nos dados e na abordagem da própria empresa.
Para as empresas, a mensagem é clara: as ferramentas para criar aplicações de IA poderosas e específicas de um domínio estão à mão. Se não tirar partido destas ferramentas, corre o risco de ficar para trás. Mas o verdadeiro sucesso virá da forma como se selecionam os dados, se exploram técnicas como o RAG e a destilação e se inova para além da fase de pré-treino.
Como Packer, da AmEx, afirmou: as empresas que gerem corretamente os seus dados serão as que liderarão a próxima vaga de inovação em IA.