Newsletter

A ilusão do raciocínio: o debate que está a abalar o mundo da IA

A Apple publica dois artigos devastadores - 'GSM-Symbolic' (outubro de 2024) e 'The Illusion of Thinking' (junho de 2025) - que demonstram como o LLM falha em pequenas variações de problemas clássicos (Torre de Hanói, travessia de um rio): 'o desempenho diminui quando apenas os valores numéricos são alterados'. Sucesso zero na complexa Torre de Hanói. Mas Alex Lawsen (Open Philanthropy) responde com "The Illusion of Thinking" (A Ilusão do Pensamento), demonstrando o fracasso da metodologia: os fracassos eram limites de resultados simbólicos e não colapsos de raciocínio, os scripts automáticos classificavam incorretamente resultados parcialmente corretos, alguns puzzles eram matematicamente insolúveis. Repetindo testes com funções recursivas em vez de listar jogadas, Claude/Gemini/GPT resolveram a Torre de Hanói 15 vezes. Gary Marcus adopta a tese da Apple sobre a "mudança de distribuição", mas o documento sobre o calendário pré-WWDC levanta questões estratégicas. Implicações para as empresas: até que ponto confiar na IA para tarefas críticas? Solução: abordagens neurossimbólicas redes neuronais para reconhecimento de padrões + linguagem, sistemas simbólicos para lógica formal. Exemplo: A contabilidade da IA compreende "quanto custam as despesas de deslocação?", mas SQL/cálculos/auditorias fiscais = código determinístico.
Fabio Lauria
Diretor executivo e fundador da Electe‍
Quando o raciocínio da IA encontra a realidade: o robô aplica corretamente a regra lógica mas identifica a bola de basquetebol como uma laranja. Uma metáfora perfeita para a forma como os LLM podem simular processos lógicos sem possuir uma verdadeira compreensão.

Nos últimos meses, a comunidade da inteligência artificial tem vivido um debate aceso, desencadeado por dois artigos de investigação influentes publicados pela Apple. O primeiro, 'GSM-Symbolic' (outubro de 2024), e o segundo, 'A Ilusão do Pensamento' (junho de 2025), questionavam as alegadas capacidades de raciocínio dos modelos de linguagem de grande dimensão, provocando reacções mistas em toda a indústria.

Como já analisámos no nosso artigo anterior sobre "A ilusão do progresso: simular a inteligência artificial geral sem a alcançar".a questão do raciocínio artificial toca no cerne do que consideramos inteligência nas máquinas.

O que diz a pesquisa da Apple

Os investigadores da Apple efectuaram uma análise sistemática de Modelos de Raciocínio Amplos (LRM) - os modelos que geram traços de raciocínio detalhados antes de fornecerem uma resposta. Os resultados foram surpreendentes e, para muitos, alarmantes.

Testes efectuados

O estudo submeteu os modelos mais avançados a puzzles algorítmicos clássicos, tais como:

  • Torre de Hanói: um puzzle matemático resolvido pela primeira vez em 1957
  • Problemas de travessia de rios: puzzles lógicos com restrições específicas
  • GSM-Symbolic Benchmark: Variações de problemas matemáticos de nível elementar

Testar o raciocínio com puzzles clássicos: o problema do agricultor, do lobo, da cabra e da couve é um dos puzzles lógicos utilizados nos estudos da Apple para avaliar as capacidades de raciocínio dos PMT. A dificuldade reside em encontrar a sequência correta de cruzamentos, evitando que o lobo coma a cabra ou que a cabra coma a couve quando deixada sozinha. Um teste simples mas eficaz para distinguir entre a compreensão algorítmica e a memorização de padrões.

Resultados controversos

Os resultados mostraram que mesmo pequenas alterações na formulação do problema conduzem a variações significativas no desempenho, sugerindo uma fragilidade preocupante no raciocínio. Conforme relatado na cobertura do AppleInsidero desempenho de todos os modelos diminui quando apenas são alterados os valores numéricos nas perguntas do teste de referência GSM-Symbolic".

A contraofensiva: a ilusão de pensar

A resposta da comunidade de IA não tardou a chegar. Alex Lawsen da Open Philanthropy, em colaboração com Claude Opus da Anthropic, publicou uma refutação pormenorizada intitulada "A ilusão de pensar".contestando as metodologias e as conclusões do estudo da Apple.

As principais objecções

  1. Limites de saída ignorados: Muitas falhas atribuídas ao "colapso do raciocínio" deveram-se, na realidade, a limites simbólicos de saída do modelo
  2. Avaliação incorrecta: Os guiões automáticos também classificaram os resultados parciais mas algoritmicamente corretos como falhas totais
  3. Problemas impossíveis: Alguns puzzles eram matematicamente insolúveis, mas os modelos eram penalizados por não os resolverem

Testes de confirmação

Quando Lawsen repetiu os testes com metodologias alternativas - pedindo aos modelos que gerassem funções recursivas em vez de listar todos os movimentos - os resultados foram dramaticamente diferentes. Modelos como Claude, Gemini e GPT resolveram corretamente problemas da Torre de Hanói com 15 registos, muito para além da complexidade em que a Apple reportou zero sucessos.

Vozes autorizadas no debate

Gary Marcus: O crítico histórico

Gary Marcusum crítico de longa data das capacidades de raciocínio dos LLM, aceitou as conclusões da Apple como uma confirmação da sua tese de 20 anos. De acordo com Marcus, os licenciados em Direito continuam a debater-se com a "mudança de distribuição" - a capacidade de generalizar para além dos dados de formação - embora continuem a ser "bons solucionadores de problemas que já foram resolvidos".

A comunidade LocalLlama

O debate também se alargou a comunidades especializadas, como LocalLlama no Redditonde programadores e investigadores debatem as implicações práticas dos modelos de código aberto e da implementação local.

Para além da controvérsia: o que significa para as empresas

Implicações estratégicas

Este debate não é meramente académico. Tem implicações diretas para:

  • Implementação da IA na produção: até que ponto podemos confiar nos modelos para tarefas críticas?
  • Investimentos em I&D: onde concentrar os recursos para a próxima descoberta?
  • Comunicação com as partes interessadas: Como gerir expectativas realistas em relação às capacidades da IA?

A via neurosimbólica

Conforme salientado em várias conhecimentos técnicoshá uma necessidade crescente de abordagens híbridas que combinem:

  • Redes neuronais para reconhecimento de padrões e compreensão da linguagem
  • Sistemas simbólicos para raciocínio algorítmico e lógica formal

Exemplo trivial: um assistente de IA que ajuda na contabilidade. O modelo de linguagem compreende quando se pergunta "quanto é que gastei em viagens este mês?" e extrai os parâmetros relevantes (categoria: viagens, período: este mês). Mas a consulta SQL que consulta a base de dados, calcula a soma e verifica as restrições fiscais? Isso é feito por código determinístico, não pelo modelo neural.

Calendário e contexto estratégico

Não passou despercebido aos observadores o facto de o documento da Apple ter sido publicado pouco antes da WWDC, o que levanta questões sobre as motivações estratégicas. Conforme aanálise do 9to5Mac"o momento em que o documento da Apple foi publicado - mesmo antes da WWDC - levantou algumas sobrancelhas. Foi um marco de pesquisa ou um movimento estratégico para reposicionar a Apple no cenário mais amplo da IA?"

Lições para o futuro

Para os investigadores

  • Conceção experimental: A importância de distinguir entre limitações arquitectónicas e restrições de implementação
  • Avaliação rigorosa: a necessidade de parâmetros de referência sofisticados que separem as capacidades cognitivas dos condicionalismos práticos
  • Transparência metodológica: a obrigação de documentar integralmente as configurações e limitações experimentais

Para empresas

  • Expectativas realistas: reconhecer os limites actuais sem renunciar ao potencial futuro
  • Abordagens híbridas: Investir em soluções que combinem os pontos fortes de diferentes tecnologias
  • Avaliação contínua: Implementar sistemas de teste que reflictam cenários de utilização reais

Conclusões: Navegar na incerteza

O debate desencadeado pelos documentos da Apple recorda-nos que ainda estamos na fase inicial da compreensão da inteligência artificial. Como salientámos no nosso artigo anteriora distinção entre simulação e raciocínio autêntico continua a ser um dos desafios mais complexos do nosso tempo.

A verdadeira lição não é se os LLMs podem ou não "raciocinar" no sentido humano do termo, mas sim como podemos construir sistemas que explorem os seus pontos fortes e compensem as suas limitações. Num mundo em que a IA já está a transformar sectores inteiros, a questão já não é saber se estas ferramentas são "inteligentes", mas sim como utilizá-las de forma eficaz e responsável.

O futuro da IA empresarial não residirá provavelmente numa única abordagem revolucionária, mas na orquestração inteligente de várias tecnologias complementares. E, neste cenário, a capacidade de avaliar de forma crítica e honesta as capacidades das nossas ferramentas torna-se numa vantagem competitiva.

Para obter informações sobre a estratégia de IA da sua organização e a implementação de soluções sólidas, a nossa equipa de especialistas está disponível para consultas personalizadas.

Fontes e referências:

Recursos para o crescimento das empresas

9 de novembro de 2025

Sistema de arrefecimento Google DeepMind AI: como a inteligência artificial revoluciona a eficiência energética dos centros de dados

A Google DeepMind consegue -40% de energia de arrefecimento do centro de dados (mas apenas -4% do consumo total, uma vez que o arrefecimento representa 10% do total) - precisão de 99,6% com um erro de 0,4% em PUE 1.1 através de aprendizagem profunda de 5 camadas, 50 nós, 19 variáveis de entrada em 184 435 amostras de formação (2 anos de dados). Confirmado em 3 instalações: Singapura (primeira implantação em 2016), Eemshaven, Council Bluffs (investimento de 5 mil milhões de dólares). PUE Google em toda a frota 1,09 vs. média da indústria 1,56-1,58. O Controlo Preditivo de Modelos prevê a temperatura/pressão na hora seguinte, gerindo simultaneamente as cargas de TI, as condições meteorológicas e o estado do equipamento. Segurança garantida: verificação a dois níveis, os operadores podem sempre desativar a IA. Limitações críticas: nenhuma verificação independente por parte de empresas de auditoria/laboratórios nacionais, cada centro de dados requer um modelo personalizado (8 anos sem ser comercializado). A implementação em 6-18 meses requer uma equipa multidisciplinar (ciência dos dados, AVAC, gestão de instalações). Aplicável para além dos centros de dados: instalações industriais, hospitais, centros comerciais, escritórios de empresas. 2024-2025: transição da Google para o arrefecimento líquido direto para a TPU v5p, indicando os limites práticos da otimização da IA.