Como treinar um modelo de inteligência artificial

O treino de modelos de inteligência artificial representa um dos desafios mais complexos do desenvolvimento tecnológico contemporâneo. Muito mais do que uma simples questão algorítmica, o treino eficaz de um modelo requer uma abordagem metódica e multidisciplinar que integre a ciência dos dados, o conhecimento do domínio e a engenharia de software. Como James Luke salienta no seu texto seminal"Beyond Algorithms: Delivering AI for Business", o sucesso de uma implementação de IA depende muito mais da gestão de dados e da conceção sistémica do que dos próprios algoritmos. O panorama está a mudar rapidamente, com inovações como o modelo DeepSeek-R1 a redefinir o custo e a acessibilidade.

‍

A base: recolha e gestão de dados

Qualidade em vez de quantidade

Contrariamente ao que muitas vezes se pensa, a quantidade de dados nem sempre é o fator determinante para o sucesso. A qualidade e a representatividade dos dados são significativamente mais importantes. Neste contexto, é fundamental integrar diferentes fontes:

‍

Dados proprietários: recolhidos eticamente e tornados anónimos pelas implementações existentes
Dados autorizados: Obtidos de fornecedores fiáveis que cumprem normas de qualidade rigorosas
Conjuntos de dados de fonte aberta: cuidadosamente verificados para garantir diversidade e exatidão
Dados sintéticos: gerados artificialmente para preencher lacunas e resolver problemas de privacidade

Esta integração cria uma base de formação abrangente que capta cenários do mundo real, mantendo os padrões éticos e de privacidade.

O desafio da preparação dos dados

O processo de "manipulação de dados" representa até 80 por cento do esforço necessário em projectos de inteligência artificial. Esta fase envolve:

Limpeza de dados: eliminação de incoerências, duplicações e valores anómalos
Transformação de dados: Conversão para formatos adequados ao processamento
Integração de dados: Fusão de diferentes fontes que utilizam frequentemente esquemas e formatos incompatíveis
Tratamento de dados em falta: Estratégias como a imputação estatística ou a utilização de dados de substituição

Como Hilary Packer, CTO da American Express, salientou : "O momento aha! para nós, honestamente, foram os dados. Pode fazer-se a melhor seleção de modelos do mundo... mas os dados são a chave. A validação e a precisão são o Santo Graal neste momento na IA generativa."

‍

Arquitetura do modelo: dimensionamento correto

A escolha da arquitetura do modelo deve ser orientada pela natureza específica do problema a resolver, e não por tendências ou preferências pessoais. Diferentes tipos de problemas exigem abordagens diferentes:

‍

Modelos linguísticos baseados em transformadores para tarefas que exigem uma compreensão linguística profunda
Redes neurais convolucionais para reconhecimento de imagens e padrões
Redes neurais gráficas para a análise de relações complexas entre entidades
Aprendizagem por reforço para problemas de otimização e decisão
Arquitecturas híbridas que combinam múltiplas abordagens para casos de utilização complexos

A otimização da arquitetura requer uma avaliação sistemática entre diferentes configurações, com ênfase no equilíbrio entre o desempenho e os requisitos computacionais, um aspeto que se tornou ainda mais relevante com o advento de modelos como o DeepSeek-R1, que oferecem capacidades de raciocínio avançadas a custos significativamente mais baixos.

‍

Metodologias de formação avançadas

‍

Modelo de destilação

A destilação surgiu como uma ferramenta particularmente poderosa no atual ecossistema de IA. Este processo permite criar modelos mais pequenos e específicos que herdam as capacidades de raciocínio de modelos maiores e mais complexos, como o DeepSeek-R1.

‍

Como demonstrado no caso da DeepSeek, a empresa destilou as suas capacidades de raciocínio em vários modelos mais pequenos, incluindo modelos de código aberto da família Llama da Meta e da família Qwen da Alibaba. Estes modelos mais pequenos podem ser subsequentemente optimizados para tarefas específicas, acelerando a tendência para modelos rápidos e especializados.

‍

Sam Witteveen, programador de aprendizagem automática, observa: "Estamos a começar a entrar num mundo em que as pessoas utilizam vários modelos. Não utilizam apenas um modelo a toda a hora". Isto inclui modelos fechados de baixo custo, como o Gemini Flash e o GPT-4o Mini, que "funcionam muito bem em 80% dos casos de utilização".

Aprendizagem multi-tarefa

Em vez de treinar modelos separados para competências relacionadas, a aprendizagem multitarefa permite que os modelos partilhem conhecimentos entre diferentes funções:

Os modelos optimizam simultaneamente vários objectivos relacionados
A funcionalidade básica beneficia de uma maior exposição a diferentes tarefas
O desempenho melhora em todas as tarefas, especialmente naquelas com dados limitados
A eficiência computacional aumenta através da partilha de componentes

Afinação supervisionada (SFT)

Para as empresas que operam em domínios muito específicos, onde a informação não está amplamente disponível na Web ou nos livros normalmente utilizados para treinar modelos linguísticos, a afinação supervisionada (SFT) é uma opção eficaz.

O DeepSeek demonstrou que é possível obter bons resultados com "milhares" de conjuntos de dados de perguntas e respostas. Por exemplo, o engenheiro da IBM Chris Hay mostrou como criou um pequeno modelo utilizando os seus próprios conjuntos de dados específicos de matemática e obteve respostas extremamente rápidas que excederam o desempenho do modelo o1 da OpenAI nas mesmas tarefas.

Aprendizagem por reforço (RL)

As empresas que pretendam treinar um modelo com um maior alinhamento com preferências específicas - por exemplo, tornar um chatbot de apoio ao cliente empático mas conciso - vão querer implementar técnicas de aprendizagem por reforço (RL). Esta abordagem é particularmente útil se uma empresa quiser que o seu chatbot adapte o seu tom e as suas recomendações com base no feedback do utilizador.

Geração Aumentada por Recuperação (RAG)

Para a maioria das empresas, a Geração Aumentada por Recuperação (RAG) é a via mais simples e mais segura. Trata-se de um processo relativamente simples que permite às organizações ancorar os seus modelos com dados proprietários contidos nas suas bases de dados, garantindo que os resultados são exactos e específicos do domínio.

Esta abordagem também ajuda a contrariar alguns dos problemas de alucinação associados a modelos como o DeepSeek, que atualmente alucinam em 14% dos casos, em comparação com 8% para o modelo o3 da OpenAI, de acordo com um estudo realizado pela Vectara.

A combinação de destilação de modelos e RAG é onde reside a magia para a maioria das empresas, tendo-se tornado incrivelmente fácil de implementar, mesmo para aqueles com competências limitadas em ciência de dados ou programação.

‍

Avaliação e aperfeiçoamento: para além dos indicadores de exatidão

Uma IA eficaz não se mede apenas em termos de precisão bruta, mas requer um quadro de avaliação abrangente que tenha em conta:

Exatidão funcional: Frequência com que o modelo produz resultados corretos
Robustez: Consistência do desempenho com entradas e condições variáveis
Equidade: desempenho consistente em diferentes grupos de utilizadores e cenários
Calibração: Alinhamento entre os resultados de confiança e a exatidão real
Eficiência: Requisitos computacionais e de memória
Explicabilidade: Transparência dos processos de decisão, um aspeto em que os modelos destilados do DeepSeek se destacam, mostrando o seu processo de raciocínio

O impacto da curva de custos

O impacto mais imediato do lançamento do DeepSeek é a sua agressiva redução de preços. O setor de tecnologia esperava que os custos caíssem com o tempo, mas poucos previram a rapidez com que isso aconteceria. O DeepSeek demonstrou que modelos poderosos e abertos podem ser baratos e eficientes, criando oportunidades para uma experimentação generalizada e uma implementação económica.

‍

Amr Awadallah, CEO da Vectara, sublinhou este ponto, observando que o verdadeiro ponto de viragem não é apenas o custo da formação, mas o custo da inferência, que para o DeepSeek é cerca de 1/30 do custo dos modelos o1 ou o3 da OpenAI por inferência e por token. "As margens que a OpenAI, a Anthropic e a Google Gemini conseguiram captar terão agora de ser reduzidas em pelo menos 90%, porque não podem manter-se competitivas com preços tão elevados", afirmou Awadallah.

‍

Para além disso, estes custos continuarão a diminuir. O Diretor Executivo da Anthropic, Dario Amodei, declarou recentemente que o custo de desenvolvimento de modelos continua a diminuir a um ritmo de cerca de quatro vezes por ano. Consequentemente, a taxa que os fornecedores de LLM cobram pela sua utilização também continuará a diminuir.

‍

"Espero que o custo chegue a zero", disse Ashok Srivastava, CDO da Intuit, uma empresa que tem impulsionado fortemente a IA nas suas ofertas de software fiscal e contabilístico, como o TurboTax e o Quickbooks. "E a latência chegará a zero. Eles simplesmente se tornarão recursos básicos que podemos usar.

‍

Conclusão: O futuro da IA empresarial é aberto, barato e orientado para os dados

O DeepSeek e o Deep Research da OpenAI são mais do que apenas novas ferramentas no arsenal da IA - são sinais de uma mudança profunda em que as empresas irão implementar massas de modelos criados especificamente para o efeito, que são extremamente rentáveis, competentes e enraizados nos dados e na abordagem da própria empresa.

‍

Para as empresas, a mensagem é clara: as ferramentas para criar aplicações de IA poderosas e específicas de um domínio estão à mão. Se não tirar partido destas ferramentas, corre o risco de ficar para trás. Mas o verdadeiro sucesso virá da forma como se selecionam os dados, se exploram técnicas como o RAG e a destilação e se inova para além da fase de pré-treino.

‍

Como Packer, da AmEx, afirmou: as empresas que gerem corretamente os seus dados serão as que liderarão a próxima vaga de inovação em IA.

Para além do algoritmo: como são treinados e aperfeiçoados os modelos de inteligência artificial