O treino de modelos de inteligência artificial representa um dos desafios mais complexos do desenvolvimento tecnológico contemporâneo. Muito mais do que uma simples questão algorítmica, o treino eficaz de um modelo requer uma abordagem metódica e multidisciplinar que integre dados, ciência dos dados, conhecimento do domínio e engenharia de software. Como James Luke salienta no seu texto seminal"Beyond Algorithms: Delivering AI for Business", o sucesso de uma implementação de IA depende muito mais da gestão de dados e da conceção sistémica do que dos próprios algoritmos. O panorama está a mudar rapidamente, com inovações como o modelo DeepSeek-R1 a redefinir o custo e a acessibilidade.
Contrariamente ao que muitas vezes se pensa, a quantidade de dados nem sempre é o fator determinante para o sucesso. A qualidade e a representatividade dos dados são significativamente mais importantes. Neste contexto, é fundamental integrar diferentes fontes:
Esta integração cria uma base de formação abrangente que capta cenários do mundo real, mantendo os padrões éticos e de privacidade.
O processo de "manipulação de dados" representa até 80 por cento do esforço necessário em projectos de inteligência artificial. Esta fase envolve:
Como Hilary Packer, CTO da American Express, salientou : "O momento aha! para nós, honestamente, foram os dados. Pode fazer-se a melhor seleção de modelos do mundo... mas os dados são a chave. A validação e a precisão são o Santo Graal neste momento na IA generativa."
A escolha da arquitetura do modelo deve ser orientada pela natureza específica do problema a resolver, e não por tendências ou preferências pessoais. Diferentes tipos de problemas exigem abordagens diferentes:
A otimização da arquitetura requer uma avaliação sistemática entre diferentes configurações, com ênfase no equilíbrio entre o desempenho e os requisitos computacionais, um aspeto que se tornou ainda mais relevante com o advento de modelos como o DeepSeek-R1, que oferecem capacidades de raciocínio avançadas a custos significativamente mais baixos.
A destilação surgiu como uma ferramenta particularmente poderosa no atual ecossistema de IA. Este processo permite criar modelos mais pequenos e específicos que herdam as capacidades de raciocínio de modelos maiores e mais complexos, como o DeepSeek-R1.
Como demonstrado no caso da DeepSeek, aempresa destilou as suas capacidades de raciocínio em vários modelos mais pequenos, incluindo modelos de código aberto da família Llama da Meta e da família Qwen da Alibaba. Estes modelos mais pequenos podem ser subsequentemente optimizados para tarefas específicas, acelerando a tendência para modelos rápidos e especializados.
Sam Witteveen, programador de aprendizagem automática, observa: "Estamos a começar a entrar num mundo em que as pessoas utilizam vários modelos. Não utilizam apenas um modelo a toda a hora". Isto inclui modelos fechados de baixo custo, como o Gemini Flash e o GPT-4o Mini, que "funcionam muito bem em 80% dos casos de utilização".
Em vez de treinar modelos separados para competências relacionadas, a aprendizagem multitarefa permite que os modelos partilhem conhecimentos entre diferentes funções:
Para as empresas que operam em domínios muito específicos, onde a informação não está amplamente disponível na Web ou nos livros normalmente utilizados para treinar modelos linguísticos, a afinação supervisionada (SFT) é uma opção eficaz.
O DeepSeek demonstrou que é possível obter bons resultados com "milhares" de conjuntos de dados de perguntas e respostas. Por exemplo, o engenheiro da IBM Chris Hay mostrou como criou um pequeno modelo utilizando os seus próprios conjuntos de dados específicos de matemática e obteve respostas extremamente rápidas que excederam o desempenho do modelo o1 da OpenAI nas mesmas tarefas.
As empresas que pretendam treinar um modelo com um maior alinhamento com preferências específicas - por exemplo, tornar um chatbot de apoio ao cliente empático mas conciso - vão querer implementar técnicas de aprendizagem por reforço (RL). Esta abordagem é particularmente útil se uma empresa quiser que o seu chatbot adapte o seu tom e as suas recomendações com base no feedback do utilizador.
Para a maioria das empresas, a Geração Aumentada por Recuperação (RAG) é a via mais simples e mais segura. Trata-se de um processo relativamente simples que permite às organizações ancorar os seus modelos com dados proprietários contidos nas suas bases de dados, garantindo que os resultados são exactos e específicos do domínio.
Esta abordagem também ajuda a contrariar alguns dos problemas de alucinação associados a modelos como o DeepSeek, que atualmente alucinam em 14% dos casos, em comparação com 8% para o modelo o3 da OpenAI, de acordo com um estudo realizado pela Vectara.
A combinação de destilação de modelos e RAG é onde reside a magia para a maioria das empresas, tendo-se tornado incrivelmente fácil de implementar, mesmo para aqueles com competências limitadas em ciência de dados ou programação.
Uma IA eficaz não se mede apenas em termos de precisão bruta, mas requer um quadro de avaliação abrangente que tenha em conta:
O impacto mais imediato do lançamento do DeepSeek é a sua agressiva redução de preços. O setor de tecnologia esperava que os custos caíssem com o tempo, mas poucos previram a rapidez com que isso aconteceria. O DeepSeek demonstrou que modelos poderosos e abertos podem ser baratos e eficientes, criando oportunidades para uma experimentação generalizada e uma implementação económica.
Amr Awadallah, CEO da Vectara, sublinhou este ponto, observando que o verdadeiro ponto de viragem não é apenas o custo da formação, mas o custo da inferência, que para o DeepSeek é cerca de 1/30 do custo dos modelos o1 ou o3 da OpenAI por inferência e por token. "As margens que a OpenAI, a Anthropic e a Google Gemini conseguiram captar terão agora de ser reduzidas em pelo menos 90%, porque não podem manter-se competitivas com preços tão elevados", afirmou Awadallah.
Para além disso, estes custos continuarão a diminuir. O Diretor Executivo da Anthropic, Dario Amodei, declarou recentemente que o custo de desenvolvimento de modelos continua a diminuir a um ritmo de cerca de quatro vezes por ano. Consequentemente, a taxa que os fornecedores de LLM cobram pela sua utilização também continuará a diminuir.
"Espero que o custo chegue a zero", disse Ashok Srivastava, CDO da Intuit, uma empresa que tem impulsionado fortemente a IA nas suas ofertas de software fiscal e contabilístico, como o TurboTax e o Quickbooks. "E a latência chegará a zero. Eles simplesmente se tornarão recursos básicos que podemos usar.
O DeepSeek e o Deep Research da OpenAI são mais do que apenas novas ferramentas no arsenal da IA - são sinais de uma mudança profunda em que as empresas irão implementar massas de modelos criados especificamente para o efeito, que são extremamente rentáveis, competentes e enraizados nos dados e na abordagem da própria empresa.
Para as empresas, a mensagem é clara: as ferramentas para criar aplicações de IA poderosas e específicas de um domínio estão à mão. Se não tirar partido dessas ferramentas, corre o risco de ficar para trás. Mas o verdadeiro sucesso virá da forma como se selecionam os dados, se exploram técnicas como o RAG e a destilação e se inova para além da fase de pré-treino.
Como Packer, da AmEx, afirmou: as empresas que gerem corretamente os seus dados serão as que liderarão a próxima vaga de inovação em IA.