Newsletter

Evolução dos LLM: uma breve panorâmica do mercado

Menos de 2 pontos percentuais separam os principais LLMs nos principais benchmarks - a guerra tecnológica terminou num empate. A verdadeira batalha de 2025 é travada nos ecossistemas, distribuição e custo: DeepSeek provou que pode competir com $5,6M vs $78-191M do GPT-4. O ChatGPT domina a marca (76% de notoriedade), apesar de a Claude ter ganho 65% dos benchmarks técnicos. Para as empresas, a estratégia vencedora não consiste em escolher "o melhor modelo", mas em orquestrar modelos complementares para diferentes casos de utilização.

A guerra dos modelos linguísticos 2025: da paridade técnica à batalha dos ecossistemas

O desenvolvimento de modelos de grandes linguagens atingiu um ponto de viragem crítico em 2025: a concorrência já não se joga nas capacidades fundamentais dos modelos - agora essencialmente equivalentes nos principais parâmetros de referência - mas no ecossistema, na integração e na estratégia de implantação. Embora o Claude Sonnet 4.5 da Anthropic mantenha margens estreitas de superioridade técnica em parâmetros de referência específicos, a verdadeira batalha deslocou-se para outro terreno.

O sorteio técnico: quando os números se igualam

Benchmark MMLU (Massive Multitask Language Understanding)

  • Claude Sonnet 4.5: 88,7%.
  • GPT-4o: 88,0%.
  • Gemini 2.0 Flash: 86,9%.
  • DeepSeek-V3: 87,1%.

As diferenças são marginais - menos de 2 pontos percentuais separam os melhores desempenhos. De acordo com o Relatório do Índice de IA 2025 de Stanford, "a convergência das principais capacidades dos modelos de linguagem representa uma das tendências mais significativas de 2024-2025, com profundas implicações para as estratégias competitivas das empresas de IA".

Aptidões de raciocínio (GPQA Diamond)

  • Claude Sonnet 4: 65,0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

O Claude mantém uma vantagem significativa em tarefas de raciocínio complexas, mas o GPT-4o destaca-se na velocidade de resposta (latência média de 1,2s contra 2,1s do Claude) e o Gemini no processamento multimodal nativo.

A revolução DeepSeek: A mudança de jogo chinesa

Em janeiro de 2025, assistiu-se à entrada disruptiva do DeepSeek-V3, que demonstrou como podem ser desenvolvidos modelos competitivos com 5,6 milhões de dólares contra 78-191 milhões de dólares do GPT-4/Gemini Ultra. Marc Andreessen chamou-lhe "uma das mais espantosas descobertas - e, como código aberto, uma profunda dádiva para o mundo".

Especificações do DeepSeek-V3:

  • 671 mil milhões de parâmetros totais (37 mil milhões activos através da mistura de peritos)
  • Custo da formação: 5,576 milhões de dólares
  • Desempenho: supera o GPT-4o em alguns testes matemáticos de referência
  • Arquitetura: Atenção latente de várias cabeças (MLA) + DeepSeekMoE

Impacto: As acções da Nvidia caíram 17% numa única sessão após o anúncio, com o mercado a reavaliar as barreiras à entrada de modelos de desenvolvimento.

Perceção pública vs. realidade técnica

O ChatGPT mantém o domínio incontestado do conhecimento da marca: a investigação do Pew Research Center (fevereiro de 2025) mostra que 76% dos americanos associam a "IA conversacional" exclusivamente ao ChatGPT, enquanto apenas 12% conhecem o Claude e 8% utilizam ativamente o Gemini.

Paradoxo: o Claude Sonnet 4 bate o GPT-4o em 65% dos parâmetros de referência técnicos, mas tem apenas 8% de quota de mercado dos consumidores contra 71% do ChatGPT (dados da Similarweb, março de 2025).

A Google responde com uma integração maciça: Gemini 2.0 nativo na Pesquisa, Gmail, Docs, Drive - ecossistema estratégico em vez de produto autónomo. 2,1 mil milhões de utilizadores do Google Workspace representam uma distribuição instantânea sem aquisição de clientes.

Utilização de computadores e agentes: A próxima fronteira

Claude Computer Use (beta outubro 2024, produção Q1 2025)

  • Capacidades: controlo direto do rato/teclado, navegação no browser, interação com aplicações
  • Adoção: 12% de clientes empresariais Utilização antrópica de computadores na produção
  • Limitações: ainda 14% de taxa de insucesso em tarefas complexas de várias etapas

GPT-4o com Visão e Acções

  • Integração Zapier: mais de 6000 aplicações controláveis
  • GPTs personalizados: 3 milhões publicados, 800K utilizados ativamente
  • Partilha de receitas por criador GPTs: 10 milhões de dólares distribuídos no quarto trimestre de 2024

Gemini Deep Research (janeiro de 2025)

  • Investigação autónoma de fontes múltiplas com aferição de desempenhos
  • Gerar relatórios completos a partir de um único comando
  • Tempo médio: 8-12 minutos por relatório de mais de 5000 palavras

A Gartner prevê que 33% dos trabalhadores do conhecimento utilizarão agentes de IA autónomos até ao final de 2025, contra os actuais 5%.

Diferenças filosóficas em matéria de segurança

OpenAI: abordagem "segurança através da restrição

  • Rejeita 8,7% de consumidores imediatos (dados internos de fugas da OpenAI)
  • Uma política de conteúdos rigorosa faz com que 23% dos programadores optem por alternativas
  • Quadro de preparação do público com formação contínua de equipas vermelhas

Antrópico: "IA constitucional

  • Modelo formado com base em princípios éticos explícitos
  • Rejeição selectiva: 3,1% (OpenAI mais permissiva)
  • Transparência na tomada de decisões: explicar por que razão recusa os pedidos

Google: "Segurança máxima, controvérsia mínima".

  • Filtros de mercado mais apertados: 11,2% de pedidos bloqueados
  • Gémeos Falha na imagem fevereiro de 2024 (sobrecorrecção de tendência) orienta para extrema cautela
  • A focalização na empresa reduz a tolerância ao risco

Meta Llama 3.1: zero filtros incorporados, responsabilidade na filosofia oposta do implementador.

Especialização vertical: o verdadeiro diferenciador

Cuidados de saúde:

  • Med-PaLM 2 (Google): 85,4% no MedQA (contra 77% dos melhores médicos humanos)
  • Claude in Epic Systems: adotado por 305 hospitais dos EUA para apoio à decisão clínica

Legal:

  • Harvey AI (GPT-4 personalizado): 102 escritórios de advocacia do top-100, $100M ARR
  • CoCounsel (Thomson Reuters + Claude): 98% de precisão na investigação jurídica

Finanças:

  • Bloomberg GPT: treinado em 363B tokens financeiros proprietários
  • Goldman Sachs Marcus AI (base GPT-4): aprova empréstimos 40% mais rapidamente

A verticalização gera uma disponibilidade para pagar 3,5x superior à dos modelos genéricos (inquérito McKinsey, 500 compradores empresariais).

Llama 3.1: A estratégia de código aberto da Meta

Parâmetros 405B, capacidades competitivas com o GPT-4o em muitos parâmetros de referência, pesos totalmente abertos. Meta-estratégia: tornar a camada de infra-estruturas numa mercadoria para competir na camada de produtos (óculos Ray-Ban Meta, WhatsApp AI).

Adoção Llama 3.1:

  • Mais de 350 mil transferências no primeiro mês
  • Mais de 50 empresas em fase de arranque criam verticais de IA na Llama
  • Custo de alojamento auto-gerido: $12K/mês vs $50K+ Custos de API modelos fechados para utilização equivalente

Contra-intuitivo: a Meta perde biliões de dólares nos Reality Labs mas investe maciçamente em IA aberta para proteger a atividade principal da publicidade.

Context Windows: A corrida por milhões de fichas

  • Claude Sonnet 4.5: 200K fichas
  • Gemini 2.0 Pro: ficha de 2M (a mais longa disponível no mercado)
  • GPT-4 Turbo: 128K tokens

O contexto Gemini 2M permite a análise de bases de código inteiras, mais de 10 horas de vídeo, milhares de páginas de documentação - casos de utilização transformadores para empresas. O Google Cloud informa que 43% dos POCs empresariais utilizam contexto >500K tokens.

Adaptabilidade e personalização

Projectos e estilos Claude:

  • Instruções personalizadas e persistentes para conversas cruzadas
  • Predefinições de estilo: Formal, Conciso, Explicativo
  • Carregamento de bases de dados de conhecimento (até 5GB de documentos)

Loja GPT e GPTs personalizados:

  • 3 milhões de GPTs publicados, 800 mil utilizações mensais activas
  • O criador de topo ganha 63 mil dólares por mês (partilha de receitas)
  • 71% das empresas utilizam ≥1 GPT personalizada internamente

Extensões Gemini:

  • Integração nativa Gmail, Calendário, Drive, Mapas
  • Contexto do espaço de trabalho: lê o correio eletrónico e o calendário para sugestões proactivas
  • 1,2 mil milhões de acções no espaço de trabalho realizadas no quarto trimestre de 2024

Legenda: 'prompt único' para 'assistente persistente com memória e contexto inter-sessões'.

Desenvolvimentos do 1º trimestre de 2025 e trajectórias futuras

Tendência 1: Dominância da Mistura de EspecialistasTodos osmodelos de topo de 2025 utilizam a Mistura de Especialistas(activam parâmetros de subconjunto por consulta):

  • Redução dos custos de inferência em 40-60%.
  • Melhor latência, mantendo a qualidade
  • DeepSeek, GPT-4, Gemini Ultra, todos baseados em MoE

Tendência 2: MultimodalidadeNativamente multimodalGemini2.0 nativamente multimodal (não módulos separados colados):

  • Compreensão simultânea de texto+imagens+áudio+vídeo
  • Raciocínio intermodal: "comparar uma fotografia de um edifício com estilo arquitetónico com uma descrição textual de um período histórico".

Tendência 3: Computação em tempo de teste (modelos de raciocínio)OpenAI o1, DeepSeek-R1: utilizam mais tempo de processamento para raciocínios complexos:

  • o1: 30-60s por problema matemático complexo vs. 2s GPT-4o
  • Precisão AIME 2024: 83,3% vs 13,4% GPT-4o
  • Compensação explícita entre latência e precisão

Tendência 4: Fluxos de trabalho agênticosModelContext Protocol (MCP) Anthropic, novembro de 2024:

  • Norma aberta para os agentes de IA interagirem com ferramentas/bases de dados
  • Mais de 50 parceiros de adoção nos primeiros 3 meses
  • Permite que os agentes criem interações cruzadas persistentes "memória

Custos e guerras de preços

Preço da API para 1M de tokens (entrada):

  • GPT-4o: $2.50
  • Soneto de Claude 4: $3.00
  • Flash Gemini 2.0: $0,075 (33x mais barato)
  • DeepSeek-V3: $0,27 (código aberto, custos de alojamento)

Estudo de caso Gemini Flash: a compactação de IA de uma startup reduz os custos em 94% ao mudar de GPT-4o - mesma qualidade, latência comparável.

A mercantilização acelera: custos de inferência -70% em termos anuais em 2023-2024 (dados da Epoch AI).

Implicações estratégicas para as empresas

Quadro de decisão: que modelo escolher?

Cenário 1: Empresa de segurança crítica→Claude Sonnet 4

  • Cuidados de saúde, jurídicos e financeiros onde os erros custam milhões
  • A IA constitucional reduz os riscos de responsabilidade
  • Preço do prémio justificado pela redução do risco

Cenário 2: Grande volume, sensível aos custos→Gemini Flash ou DeepSeek

  • Chatbots de serviço ao cliente, moderação de conteúdos, classificação
  • Desempenho "suficientemente bom", volume 10x-100x
  • Custo do principal diferenciador

Cenário 3: Bloqueio do ecossistema→Gemini para o Google Workspace, GPT para a Microsoft

  • Já investiu no ecossistema
  • Integração nativa > desempenho marginal superior
  • Custos de formação dos trabalhadores na plataforma existente

Cenário 4: Personalização/Controlo→Llama 3.1 ou DeepSeek aberto

  • Requisitos de conformidade específicos (residência de dados, auditoria)
  • Grande precisão nos dados proprietários
  • Auto-hospedagem económica em volume

Conclusão: Da guerra tecnológica à guerra das plataformas

A competição do LLM 2025 já não é "qual o modelo que raciocina melhor", mas sim "qual o ecossistema que capta o maior valor". A OpenAI domina a marca do consumidor, a Google tira partido da distribuição de milhares de milhões de utilizadores, a Anthropic conquista a segurança das empresas e a Meta transforma a infraestrutura em mercadoria.

Previsão 2026-2027:

  • Maior convergência do desempenho dos núcleos (~90% MMLU em todos os 5 principais)
  • Diferenciação em: velocidade, custo, integrações, especialização vertical
  • Os agentes autónomos com várias etapas tornam-se comuns (33% de trabalhadores do conhecimento)
  • A fonte aberta reduz a diferença de qualidade e mantém a vantagem em termos de custos/personalização

Vencedor final? Provavelmente não será um único interveniente, mas ecossistemas complementares que servem diferentes grupos de casos de utilização. Tal como acontece com os sistemas operativos dos smartphones (iOS + Android coexistem), não é o "vencedor leva tudo" mas sim o "vencedor leva o segmento".

Para as empresas: a estratégia multi-modelo torna-se a norma - GPT para tarefas genéricas, Claude para raciocínios de alto risco, Gemini Flash para o volume, Llama ajustado à medida para a propriedade.

2025 não é o ano do "melhor modelo", mas da orquestração inteligente entre modelos complementares.

Fontes:

  • Relatório do Índice de IA de Stanford 2025
  • Cartão de modelo antrópico Soneto de Claude 4.5
  • Relatório técnico OpenAI GPT-4o
  • Placa de sistema do Google DeepMind Gemini 2.0
  • Documento técnico do DeepSeek-V3 (arXiv)
  • Epoch AI - Tendências na aprendizagem automática
  • Cimeira da Gartner sobre IA e análise 2025
  • Relatório McKinsey sobre o estado da IA em 2025
  • Inquérito de adoção de IA do Pew Research Center
  • Similarweb Platform Intelligence

Recursos para o crescimento das empresas

9 de novembro de 2025

Regulamentação da IA para aplicações de consumo: como se preparar para os novos regulamentos de 2025

2025 marca o fim da era do "Oeste Selvagem" da IA: AI Act EU operacional a partir de agosto de 2024 com obrigações de literacia em IA a partir de 2 de fevereiro de 2025, governação e GPAI a partir de 2 de agosto. A Califórnia é pioneira com o SB 243 (nascido após o suicídio de Sewell Setzer, um jovem de 14 anos que desenvolveu uma relação emocional com um chatbot), que impõe a proibição de sistemas de recompensa compulsivos, a deteção de ideação suicida, a lembrança de 3 em 3 horas de que "não sou humano", auditorias públicas independentes, sanções de 1000 dólares por infração. SB 420 exige avaliações de impacto para "decisões automatizadas de alto risco" com direitos de recurso de revisão humana. Aplicação efectiva: Noom citou 2022 por causa de bots que se faziam passar por treinadores humanos, acordo de 56 milhões de dólares. Tendência nacional: Alabama, Havaí, Illinois, Maine, Massachusetts classificam a falha em notificar chatbots de IA como violação do UDAP. Abordagem de sistemas críticos de risco de três níveis (cuidados de saúde/transporte/energia) certificação de pré-implantação, divulgação transparente virada para o consumidor, registo de uso geral + testes de segurança. Mosaico regulamentar sem preempção federal: as empresas multi-estatais têm de navegar por requisitos variáveis. UE a partir de agosto de 2026: informar os utilizadores sobre a interação com a IA, a menos que seja óbvio, e os conteúdos gerados por IA devem ser rotulados como legíveis por máquinas.
9 de novembro de 2025

Regulamentar o que não é criado: a Europa arrisca-se a ser irrelevante do ponto de vista tecnológico?

A Europa atrai apenas um décimo do investimento mundial em inteligência artificial, mas pretende ditar as regras mundiais. Este é o "Efeito Bruxelas" - impor regras à escala planetária através do poder de mercado sem impulsionar a inovação. A Lei da IA entra em vigor num calendário escalonado até 2027, mas as empresas multinacionais de tecnologia respondem com estratégias criativas de evasão: invocando segredos comerciais para evitar revelar dados de formação, produzindo resumos tecnicamente conformes mas incompreensíveis, utilizando a autoavaliação para rebaixar os sistemas de "alto risco" para "risco mínimo", escolhendo os Estados-Membros com controlos menos rigorosos. O paradoxo dos direitos de autor extraterritoriais: a UE exige que a OpenAI cumpra as leis europeias, mesmo no caso de formação fora da Europa - um princípio nunca antes visto no direito internacional. Surge o "modelo duplo": versões europeias limitadas versus versões mundiais avançadas dos mesmos produtos de IA. Risco real: a Europa torna-se uma "fortaleza digital" isolada da inovação mundial, com os cidadãos europeus a acederem a tecnologias inferiores. O Tribunal de Justiça, no processo relativo à pontuação de crédito, já rejeitou a defesa dos "segredos comerciais", mas a incerteza interpretativa continua a ser enorme - o que significa exatamente "resumo suficientemente pormenorizado"? Ninguém sabe. Última pergunta sem resposta: estará a UE a criar uma terceira via ética entre o capitalismo americano e o controlo estatal chinês, ou simplesmente a exportar burocracia para uma área em que não compete? Para já: líder mundial na regulação da IA, marginal no seu desenvolvimento. Vasto programa.
9 de novembro de 2025

Outliers: onde a ciência dos dados encontra histórias de sucesso

A ciência dos dados inverteu o paradigma: os valores atípicos já não são "erros a eliminar", mas sim informações valiosas a compreender. Um único outlier pode distorcer completamente um modelo de regressão linear - alterar o declive de 2 para 10 - mas eliminá-lo pode significar perder o sinal mais importante do conjunto de dados. A aprendizagem automática introduz ferramentas sofisticadas: O Isolation Forest isola os valores atípicos através da construção de árvores de decisão aleatórias, o Local Outlier Fator analisa a densidade local, os Autoencoders reconstroem dados normais e comunicam o que não conseguem reproduzir. Existem valores anómalos globais (temperatura de -10°C nos trópicos), valores anómalos contextuais (gastar 1000 euros num bairro pobre), valores anómalos colectivos (picos de tráfego de rede sincronizados que indicam um ataque). Paralelismo com Gladwell: a "regra das 10.000 horas" é contestada - Paul McCartney dixit "muitas bandas fizeram 10.000 horas em Hamburgo sem sucesso, a teoria não é infalível". O sucesso matemático asiático não é genético mas cultural: o sistema numérico chinês é mais intuitivo, o cultivo do arroz exige um aperfeiçoamento constante, ao contrário da expansão territorial da agricultura ocidental. Aplicações reais: os bancos britânicos recuperam 18% de perdas potenciais através da deteção de anomalias em tempo real, a indústria transformadora detecta defeitos microscópicos que a inspeção humana não detectaria, os cuidados de saúde validam dados de ensaios clínicos com uma sensibilidade de deteção de anomalias superior a 85%. Lição final: à medida que a ciência dos dados passa da eliminação de anomalias para a sua compreensão, temos de encarar as carreiras não convencionais não como anomalias a corrigir, mas como trajectórias valiosas a estudar.