Newsletter

Evolução dos LLM: uma breve panorâmica do mercado

Menos de 2 pontos percentuais separam os principais LLMs nos principais benchmarks - a guerra tecnológica terminou num empate. A verdadeira batalha de 2025 é travada nos ecossistemas, distribuição e custo: DeepSeek provou que pode competir com $5,6M vs $78-191M do GPT-4. O ChatGPT domina a marca (76% de notoriedade), apesar de a Claude ter ganho 65% dos benchmarks técnicos. Para as empresas, a estratégia vencedora não consiste em escolher "o melhor modelo", mas em orquestrar modelos complementares para diferentes casos de utilização.

A guerra dos modelos linguísticos 2025: da paridade técnica à batalha dos ecossistemas

O desenvolvimento de modelos de grandes linguagens atingiu um ponto de viragem crítico em 2025: a concorrência já não se joga nas capacidades fundamentais dos modelos - agora essencialmente equivalentes nos principais parâmetros de referência - mas no ecossistema, na integração e na estratégia de implantação. Embora o Claude Sonnet 4.5 da Anthropic mantenha margens estreitas de superioridade técnica em parâmetros de referência específicos, a verdadeira batalha deslocou-se para outro terreno.

O sorteio técnico: quando os números se igualam

Benchmark MMLU (Massive Multitask Language Understanding)

  • Claude Sonnet 4.5: 88,7%.
  • GPT-4o: 88,0%.
  • Gemini 2.0 Flash: 86,9%.
  • DeepSeek-V3: 87,1%.

As diferenças são marginais - menos de 2 pontos percentuais separam os melhores desempenhos. De acordo com o Relatório do Índice de IA 2025 de Stanford, "a convergência das principais capacidades dos modelos de linguagem representa uma das tendências mais significativas de 2024-2025, com profundas implicações para as estratégias competitivas das empresas de IA".

Aptidões de raciocínio (GPQA Diamond)

  • Claude Sonnet 4: 65,0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

O Claude mantém uma vantagem significativa em tarefas de raciocínio complexas, mas o GPT-4o destaca-se na velocidade de resposta (latência média de 1,2s contra 2,1s do Claude) e o Gemini no processamento multimodal nativo.

A revolução DeepSeek: A mudança de jogo chinesa

Em janeiro de 2025, assistiu-se à entrada disruptiva do DeepSeek-V3, que demonstrou como podem ser desenvolvidos modelos competitivos com 5,6 milhões de dólares contra 78-191 milhões de dólares do GPT-4/Gemini Ultra. Marc Andreessen chamou-lhe "uma das mais espantosas descobertas - e, como código aberto, uma profunda dádiva para o mundo".

Especificações do DeepSeek-V3:

  • 671 mil milhões de parâmetros totais (37 mil milhões activos através da mistura de peritos)
  • Custo da formação: 5,576 milhões de dólares
  • Desempenho: supera o GPT-4o em alguns testes matemáticos de referência
  • Arquitetura: Atenção latente de várias cabeças (MLA) + DeepSeekMoE

Impacto: As acções da Nvidia caíram 17% numa única sessão após o anúncio, com o mercado a reavaliar as barreiras à entrada de modelos de desenvolvimento.

Perceção pública vs. realidade técnica

O ChatGPT mantém o domínio incontestado do conhecimento da marca: a investigação do Pew Research Center (fevereiro de 2025) mostra que 76% dos americanos associam a "IA conversacional" exclusivamente ao ChatGPT, enquanto apenas 12% conhecem o Claude e 8% utilizam ativamente o Gemini.

Paradoxo: o Claude Sonnet 4 bate o GPT-4o em 65% dos parâmetros de referência técnicos, mas tem apenas 8% de quota de mercado dos consumidores contra 71% do ChatGPT (dados da Similarweb, março de 2025).

A Google responde com uma integração maciça: Gemini 2.0 nativo na Pesquisa, Gmail, Docs, Drive - ecossistema estratégico em vez de produto autónomo. 2,1 mil milhões de utilizadores do Google Workspace representam uma distribuição instantânea sem aquisição de clientes.

Utilização de computadores e agentes: A próxima fronteira

Claude Computer Use (beta outubro 2024, produção Q1 2025)

  • Capacidades: controlo direto do rato/teclado, navegação no browser, interação com aplicações
  • Adoção: 12% de clientes empresariais Utilização antrópica de computadores na produção
  • Limitações: ainda 14% de taxa de insucesso em tarefas complexas de várias etapas

GPT-4o com Visão e Acções

  • Integração Zapier: mais de 6000 aplicações controláveis
  • GPTs personalizados: 3 milhões publicados, 800K utilizados ativamente
  • Partilha de receitas por criador GPTs: 10 milhões de dólares distribuídos no quarto trimestre de 2024

Gemini Deep Research (janeiro de 2025)

  • Investigação autónoma de fontes múltiplas com aferição de desempenhos
  • Gerar relatórios completos a partir de um único comando
  • Tempo médio: 8-12 minutos por relatório de mais de 5000 palavras

A Gartner prevê que 33% dos trabalhadores do conhecimento utilizarão agentes de IA autónomos até ao final de 2025, contra os actuais 5%.

Diferenças filosóficas em matéria de segurança

OpenAI: abordagem "segurança através da restrição

  • Rejeita 8,7% de consumidores imediatos (dados internos de fugas da OpenAI)
  • Uma política de conteúdos rigorosa faz com que 23% dos programadores optem por alternativas
  • Quadro de preparação do público com formação contínua de equipas vermelhas

Antrópico: "IA constitucional

  • Modelo formado com base em princípios éticos explícitos
  • Rejeição selectiva: 3,1% (OpenAI mais permissiva)
  • Transparência na tomada de decisões: explicar por que razão recusa os pedidos

Google: "Segurança máxima, controvérsia mínima".

  • Filtros de mercado mais apertados: 11,2% de pedidos bloqueados
  • Gémeos Falha na imagem fevereiro de 2024 (sobrecorrecção de tendência) orienta para extrema cautela
  • A focalização na empresa reduz a tolerância ao risco

Meta Llama 3.1: zero filtros incorporados, responsabilidade na filosofia oposta do implementador.

Especialização vertical: o verdadeiro diferenciador

Cuidados de saúde:

  • Med-PaLM 2 (Google): 85,4% no MedQA (contra 77% dos melhores médicos humanos)
  • Claude in Epic Systems: adotado por 305 hospitais dos EUA para apoio à decisão clínica

Legal:

  • Harvey AI (GPT-4 personalizado): 102 escritórios de advocacia do top-100, $100M ARR
  • CoCounsel (Thomson Reuters + Claude): 98% de precisão na investigação jurídica

Finanças:

  • Bloomberg GPT: treinado em 363B tokens financeiros proprietários
  • Goldman Sachs Marcus AI (base GPT-4): aprova empréstimos 40% mais rapidamente

A verticalização gera uma disponibilidade para pagar 3,5x superior à dos modelos genéricos (inquérito McKinsey, 500 compradores empresariais).

Llama 3.1: A estratégia de código aberto da Meta

Parâmetros 405B, capacidades competitivas com o GPT-4o em muitos parâmetros de referência, pesos totalmente abertos. Meta-estratégia: tornar a camada de infra-estruturas numa mercadoria para competir na camada de produtos (óculos Ray-Ban Meta, WhatsApp AI).

Adoção Llama 3.1:

  • Mais de 350 mil transferências no primeiro mês
  • Mais de 50 empresas em fase de arranque criam verticais de IA na Llama
  • Custo de alojamento auto-gerido: $12K/mês vs $50K+ Custos de API modelos fechados para utilização equivalente

Contra-intuitivo: a Meta perde biliões de dólares nos Reality Labs mas investe maciçamente em IA aberta para proteger a atividade principal da publicidade.

Context Windows: A corrida por milhões de fichas

  • Claude Sonnet 4.5: 200K fichas
  • Gemini 2.0 Pro: ficha de 2M (a mais longa disponível no mercado)
  • GPT-4 Turbo: 128K tokens

O contexto Gemini 2M permite a análise de bases de código inteiras, mais de 10 horas de vídeo, milhares de páginas de documentação - casos de utilização transformadores para empresas. O Google Cloud informa que 43% dos POCs empresariais utilizam contexto >500K tokens.

Adaptabilidade e personalização

Projectos e estilos Claude:

  • Instruções personalizadas e persistentes para conversas cruzadas
  • Predefinições de estilo: Formal, Conciso, Explicativo
  • Carregamento de bases de dados de conhecimento (até 5GB de documentos)

Loja GPT e GPTs personalizados:

  • 3 milhões de GPTs publicados, 800 mil utilizações mensais activas
  • O criador de topo ganha 63 mil dólares por mês (partilha de receitas)
  • 71% das empresas utilizam ≥1 GPT personalizada internamente

Extensões Gemini:

  • Integração nativa Gmail, Calendário, Drive, Mapas
  • Contexto do espaço de trabalho: lê o correio eletrónico e o calendário para sugestões proactivas
  • 1,2 mil milhões de acções no espaço de trabalho realizadas no quarto trimestre de 2024

Legenda: 'prompt único' para 'assistente persistente com memória e contexto inter-sessões'.

Desenvolvimentos do 1º trimestre de 2025 e trajectórias futuras

Tendência 1: Dominância da Mistura de EspecialistasTodos osmodelos de topo de 2025 utilizam a Mistura de Especialistas(activam parâmetros de subconjunto por consulta):

  • Redução dos custos de inferência em 40-60%.
  • Melhor latência, mantendo a qualidade
  • DeepSeek, GPT-4, Gemini Ultra, todos baseados em MoE

Tendência 2: MultimodalidadeNativamente multimodalGemini2.0 nativamente multimodal (não módulos separados colados):

  • Compreensão simultânea de texto+imagens+áudio+vídeo
  • Raciocínio intermodal: "comparar uma fotografia de um edifício com estilo arquitetónico com uma descrição textual de um período histórico".

Tendência 3: Computação em tempo de teste (modelos de raciocínio)OpenAI o1, DeepSeek-R1: utilizam mais tempo de processamento para raciocínios complexos:

  • o1: 30-60s por problema matemático complexo vs. 2s GPT-4o
  • Precisão AIME 2024: 83,3% vs 13,4% GPT-4o
  • Compensação explícita entre latência e precisão

Tendência 4: Fluxos de trabalho agênticosModelContext Protocol (MCP) Anthropic, novembro de 2024:

  • Norma aberta para os agentes de IA interagirem com ferramentas/bases de dados
  • Mais de 50 parceiros de adoção nos primeiros 3 meses
  • Permite que os agentes criem interações cruzadas persistentes "memória

Custos e guerras de preços

Preço da API para 1M de tokens (entrada):

  • GPT-4o: $2.50
  • Soneto de Claude 4: $3.00
  • Flash Gemini 2.0: $0,075 (33x mais barato)
  • DeepSeek-V3: $0,27 (código aberto, custos de alojamento)

Estudo de caso Gemini Flash: a compactação de IA de uma startup reduz os custos em 94% ao mudar de GPT-4o - mesma qualidade, latência comparável.

A mercantilização acelera: custos de inferência -70% em termos anuais em 2023-2024 (dados da Epoch AI).

Implicações estratégicas para as empresas

Quadro de decisão: que modelo escolher?

Cenário 1: Empresa de segurança crítica→Claude Sonnet 4

  • Cuidados de saúde, jurídicos e financeiros onde os erros custam milhões
  • A IA constitucional reduz os riscos de responsabilidade
  • Preço do prémio justificado pela redução do risco

Cenário 2: Grande volume, sensível aos custos→Gemini Flash ou DeepSeek

  • Chatbots de serviço ao cliente, moderação de conteúdos, classificação
  • Desempenho "suficientemente bom", volume 10x-100x
  • Custo do principal diferenciador

Cenário 3: Bloqueio do ecossistema→Gemini para o Google Workspace, GPT para a Microsoft

  • Já investiu no ecossistema
  • Integração nativa > desempenho marginal superior
  • Custos de formação dos trabalhadores na plataforma existente

Cenário 4: Personalização/Controlo→Llama 3.1 ou DeepSeek aberto

  • Requisitos de conformidade específicos (residência de dados, auditoria)
  • Grande precisão nos dados proprietários
  • Auto-hospedagem económica em volume

Conclusão: Da guerra tecnológica à guerra das plataformas

A competição do LLM 2025 já não é "qual o modelo que raciocina melhor", mas sim "qual o ecossistema que capta o maior valor". A OpenAI domina a marca do consumidor, a Google tira partido da distribuição de milhares de milhões de utilizadores, a Anthropic conquista a segurança das empresas e a Meta transforma a infraestrutura em mercadoria.

Previsão 2026-2027:

  • Maior convergência do desempenho dos núcleos (~90% MMLU em todos os 5 principais)
  • Diferenciação em: velocidade, custo, integrações, especialização vertical
  • Os agentes autónomos com várias etapas tornam-se comuns (33% de trabalhadores do conhecimento)
  • A fonte aberta reduz a diferença de qualidade e mantém a vantagem em termos de custos/personalização

Vencedor final? Provavelmente não será um único interveniente, mas ecossistemas complementares que servem diferentes grupos de casos de utilização. Tal como acontece com os sistemas operativos dos smartphones (iOS + Android coexistem), não é o "vencedor leva tudo" mas sim o "vencedor leva o segmento".

Para as empresas: a estratégia multi-modelo torna-se a norma - GPT para tarefas genéricas, Claude para raciocínios de alto risco, Gemini Flash para o volume, Llama ajustado à medida para a propriedade.

2025 não é o ano do "melhor modelo", mas da orquestração inteligente entre modelos complementares.

Fontes:

  • Relatório do Índice de IA de Stanford 2025
  • Cartão de modelo antrópico Soneto de Claude 4.5
  • Relatório técnico OpenAI GPT-4o
  • Placa de sistema do Google DeepMind Gemini 2.0
  • Documento técnico do DeepSeek-V3 (arXiv)
  • Epoch AI - Tendências na aprendizagem automática
  • Cimeira da Gartner sobre IA e análise 2025
  • Relatório McKinsey sobre o estado da IA em 2025
  • Inquérito de adoção de IA do Pew Research Center
  • Similarweb Platform Intelligence

Recursos para o crescimento das empresas