A ilusão do raciocínio: o debate que está a abalar o mundo da IA

Newsletter

A ilusão do raciocínio: o debate que está a abalar o mundo da IA

A Apple publica dois artigos devastadores - 'GSM-Symbolic' (outubro de 2024) e 'The Illusion of Thinking' (junho de 2025) - que demonstram como o LLM falha em pequenas variações de problemas clássicos (Torre de Hanói, travessia de um rio): 'o desempenho diminui quando apenas os valores numéricos são alterados'. Sucesso zero na complexa Torre de Hanói. Mas Alex Lawsen (Open Philanthropy) responde com "The Illusion of Thinking" (A Ilusão do Pensamento), demonstrando o fracasso da metodologia: os fracassos eram limites de resultados simbólicos e não colapsos de raciocínio, os scripts automáticos classificavam incorretamente resultados parcialmente corretos, alguns puzzles eram matematicamente insolúveis. Repetindo testes com funções recursivas em vez de listar jogadas, Claude/Gemini/GPT resolveram a Torre de Hanói 15 vezes. Gary Marcus adopta a tese da Apple sobre a "mudança de distribuição", mas o documento sobre o calendário pré-WWDC levanta questões estratégicas. Implicações para as empresas: até que ponto confiar na IA para tarefas críticas? Solução: abordagens neurossimbólicas redes neuronais para reconhecimento de padrões + linguagem, sistemas simbólicos para lógica formal. Exemplo: A contabilidade da IA compreende "quanto custam as despesas de deslocação?", mas SQL/cálculos/auditorias fiscais = código determinístico.

Fabio Lauria

Diretor executivo e fundador da Electe‍

Quando o raciocínio da IA encontra a realidade: o robô aplica corretamente a regra lógica mas identifica a bola de basquetebol como uma laranja. Uma metáfora perfeita para a forma como os LLM podem simular processos lógicos sem possuir uma verdadeira compreensão.

‍

Nos últimos meses, a comunidade da inteligência artificial tem vivido um debate aceso, desencadeado por dois artigos de investigação influentes publicados pela Apple. O primeiro, 'GSM-Symbolic' (outubro de 2024), e o segundo, 'A Ilusão do Pensamento' (junho de 2025), questionavam as alegadas capacidades de raciocínio dos modelos de linguagem de grande dimensão, provocando reacções mistas em toda a indústria.

‍

Como já analisámos no nosso artigo anterior sobre "A ilusão do progresso: simular a inteligência artificial geral sem a alcançar".a questão do raciocínio artificial toca no cerne do que consideramos inteligência nas máquinas.

‍

O que diz a pesquisa da Apple

Os investigadores da Apple efectuaram uma análise sistemática de Modelos de Raciocínio Amplos (LRM) - os modelos que geram traços de raciocínio detalhados antes de fornecerem uma resposta. Os resultados foram surpreendentes e, para muitos, alarmantes.

‍

Testes efectuados

O estudo submeteu os modelos mais avançados a puzzles algorítmicos clássicos, tais como:

Torre de Hanói: um puzzle matemático resolvido pela primeira vez em 1957
Problemas de travessia de rios: puzzles lógicos com restrições específicas
GSM-Symbolic Benchmark: Variações de problemas matemáticos de nível elementar

‍

Testar o raciocínio com puzzles clássicos: o problema do agricultor, do lobo, da cabra e da couve é um dos puzzles lógicos utilizados nos estudos da Apple para avaliar as capacidades de raciocínio dos PMT. A dificuldade reside em encontrar a sequência correta de cruzamentos, evitando que o lobo coma a cabra ou que a cabra coma a couve quando deixada sozinha. Um teste simples mas eficaz para distinguir entre a compreensão algorítmica e a memorização de padrões.

‍

Resultados controversos

Os resultados mostraram que mesmo pequenas alterações na formulação do problema conduzem a variações significativas no desempenho, sugerindo uma fragilidade preocupante no raciocínio. Conforme relatado na cobertura do AppleInsidero desempenho de todos os modelos diminui quando apenas são alterados os valores numéricos nas perguntas do teste de referência GSM-Symbolic".

‍

A contraofensiva: a ilusão de pensar

‍

A resposta da comunidade de IA não tardou a chegar. Alex Lawsen da Open Philanthropy, em colaboração com Claude Opus da Anthropic, publicou uma refutação pormenorizada intitulada "A ilusão de pensar".contestando as metodologias e as conclusões do estudo da Apple.

As principais objecções

Limites de saída ignorados: Muitas falhas atribuídas ao "colapso do raciocínio" deveram-se, na realidade, a limites simbólicos de saída do modelo
Avaliação incorrecta: Os guiões automáticos também classificaram os resultados parciais mas algoritmicamente corretos como falhas totais
Problemas impossíveis: Alguns puzzles eram matematicamente insolúveis, mas os modelos eram penalizados por não os resolverem

Testes de confirmação

Quando Lawsen repetiu os testes com metodologias alternativas - pedindo aos modelos que gerassem funções recursivas em vez de listar todos os movimentos - os resultados foram dramaticamente diferentes. Modelos como Claude, Gemini e GPT resolveram corretamente problemas da Torre de Hanói com 15 registos, muito para além da complexidade em que a Apple reportou zero sucessos.

‍

Vozes autorizadas no debate

‍

Gary Marcus: O crítico histórico

Gary Marcusum crítico de longa data das capacidades de raciocínio dos LLM, aceitou as conclusões da Apple como uma confirmação da sua tese de 20 anos. De acordo com Marcus, os licenciados em Direito continuam a debater-se com a "mudança de distribuição" - a capacidade de generalizar para além dos dados de formação - embora continuem a ser "bons solucionadores de problemas que já foram resolvidos".

‍

A comunidade LocalLlama

O debate também se alargou a comunidades especializadas, como LocalLlama no Redditonde programadores e investigadores debatem as implicações práticas dos modelos de código aberto e da implementação local.

‍

Para além da controvérsia: o que significa para as empresas

Implicações estratégicas

Este debate não é meramente académico. Tem implicações diretas para:

Implementação da IA na produção: até que ponto podemos confiar nos modelos para tarefas críticas?
Investimentos em I&D: onde concentrar os recursos para a próxima descoberta?
Comunicação com as partes interessadas: Como gerir expectativas realistas em relação às capacidades da IA?

A via neurosimbólica

Conforme salientado em várias conhecimentos técnicoshá uma necessidade crescente de abordagens híbridas que combinem:

Redes neuronais para reconhecimento de padrões e compreensão da linguagem
Sistemas simbólicos para raciocínio algorítmico e lógica formal

Exemplo trivial: um assistente de IA que ajuda na contabilidade. O modelo de linguagem compreende quando se pergunta "quanto é que gastei em viagens este mês?" e extrai os parâmetros relevantes (categoria: viagens, período: este mês). Mas a consulta SQL que consulta a base de dados, calcula a soma e verifica as restrições fiscais? Isso é feito por código determinístico, não pelo modelo neural.

‍

Calendário e contexto estratégico

Não passou despercebido aos observadores o facto de o documento da Apple ter sido publicado pouco antes da WWDC, o que levanta questões sobre as motivações estratégicas. Conforme aanálise do 9to5Mac"o momento em que o documento da Apple foi publicado - mesmo antes da WWDC - levantou algumas sobrancelhas. Foi um marco de pesquisa ou um movimento estratégico para reposicionar a Apple no cenário mais amplo da IA?"

‍

Lições para o futuro

Para os investigadores

Conceção experimental: A importância de distinguir entre limitações arquitectónicas e restrições de implementação
Avaliação rigorosa: a necessidade de parâmetros de referência sofisticados que separem as capacidades cognitivas dos condicionalismos práticos
Transparência metodológica: a obrigação de documentar integralmente as configurações e limitações experimentais

Para empresas

Expectativas realistas: reconhecer os limites actuais sem renunciar ao potencial futuro
Abordagens híbridas: Investir em soluções que combinem os pontos fortes de diferentes tecnologias
Avaliação contínua: Implementar sistemas de teste que reflictam cenários de utilização reais

Conclusões: Navegar na incerteza

‍

O debate desencadeado pelos documentos da Apple recorda-nos que ainda estamos na fase inicial da compreensão da inteligência artificial. Como salientámos no nosso artigo anteriora distinção entre simulação e raciocínio autêntico continua a ser um dos desafios mais complexos do nosso tempo.

‍

A verdadeira lição não é se os LLMs podem ou não "raciocinar" no sentido humano do termo, mas sim como podemos construir sistemas que explorem os seus pontos fortes e compensem as suas limitações. Num mundo em que a IA já está a transformar sectores inteiros, a questão já não é saber se estas ferramentas são "inteligentes", mas sim como utilizá-las de forma eficaz e responsável.

‍

O futuro da IA empresarial não residirá provavelmente numa única abordagem revolucionária, mas na orquestração inteligente de várias tecnologias complementares. E, neste cenário, a capacidade de avaliar de forma crítica e honesta as capacidades das nossas ferramentas torna-se numa vantagem competitiva.

‍

Para obter informações sobre a estratégia de IA da sua organização e a implementação de soluções sólidas, a nossa equipa de especialistas está disponível para consultas personalizadas.

‍

Fontes e referências:

GSM-Symbolic: Compreender as limitações do raciocínio matemático em modelos de linguagem de grande dimensão - Investigação sobre aprendizagem automática da Apple
A ilusão de pensar: compreender os pontos fortes e as limitações dos modelos de raciocínio - Investigação sobre aprendizagem automática da Apple
Novo artigo refuta o estudo da Apple sobre o "colapso do raciocínio" do LLM - 9to5Mac
Sete respostas ao artigo viral sobre o raciocínio da Apple - Gary Marcus
A ilusão de pensar: o que o documento da Apple sobre a IA diz sobre o raciocínio nos LLM - Arize AI
O estudo da Apple prova que os modelos de IA baseados em LLM têm falhas - AppleInsider
A ilusão do progresso: simular a inteligência artificial geral sem a alcançar - Electe

Recursos para o crescimento das empresas

9 de novembro de 2025

Regulamentação da IA para aplicações de consumo: como se preparar para os novos regulamentos de 2025

2025 marca o fim da era do "Oeste Selvagem" da IA: AI Act EU operacional a partir de agosto de 2024 com obrigações de literacia em IA a partir de 2 de fevereiro de 2025, governação e GPAI a partir de 2 de agosto. A Califórnia é pioneira com o SB 243 (nascido após o suicídio de Sewell Setzer, um jovem de 14 anos que desenvolveu uma relação emocional com um chatbot), que impõe a proibição de sistemas de recompensa compulsivos, a deteção de ideação suicida, a lembrança de 3 em 3 horas de que "não sou humano", auditorias públicas independentes, sanções de 1000 dólares por infração. SB 420 exige avaliações de impacto para "decisões automatizadas de alto risco" com direitos de recurso de revisão humana. Aplicação efectiva: Noom citou 2022 por causa de bots que se faziam passar por treinadores humanos, acordo de 56 milhões de dólares. Tendência nacional: Alabama, Havaí, Illinois, Maine, Massachusetts classificam a falha em notificar chatbots de IA como violação do UDAP. Abordagem de sistemas críticos de risco de três níveis (cuidados de saúde/transporte/energia) certificação de pré-implantação, divulgação transparente virada para o consumidor, registo de uso geral + testes de segurança. Mosaico regulamentar sem preempção federal: as empresas multi-estatais têm de navegar por requisitos variáveis. UE a partir de agosto de 2026: informar os utilizadores sobre a interação com a IA, a menos que seja óbvio, e os conteúdos gerados por IA devem ser rotulados como legíveis por máquinas.

9 de novembro de 2025

Quando é que a IA se tornará a sua única opção (e porque é que vai gostar dela)

9 de novembro de 2025

Regulamentar o que não é criado: a Europa arrisca-se a ser irrelevante do ponto de vista tecnológico?

**TITULO: European AI Act - The Paradox of Who Regulates What Doesn't Develop** **SUMÁRIO:** A Europa atrai apenas um décimo do investimento global em inteligência artificial, mas afirma ditar as regras globais. Este é o "Efeito Bruxelas" - impor regulamentos a uma escala planetária através do poder de mercado sem impulsionar a inovação. A Lei da IA entra em vigor num calendário escalonado até 2027, mas as empresas multinacionais de tecnologia respondem com estratégias criativas de evasão: invocando segredos comerciais para evitar revelar dados de formação, produzindo resumos tecnicamente conformes mas incompreensíveis, utilizando a autoavaliação para reduzir a classificação dos sistemas de "alto risco" para "risco mínimo", escolhendo os Estados-Membros com controlos menos rigorosos. O paradoxo dos direitos de autor extraterritoriais: a UE exige que a OpenAI cumpra as leis europeias, mesmo no caso de formação fora da Europa - um princípio nunca antes visto no direito internacional. Surge o "modelo duplo": versões europeias limitadas versus versões mundiais avançadas dos mesmos produtos de IA. Risco real: a Europa torna-se uma "fortaleza digital" isolada da inovação mundial, com os cidadãos europeus a acederem a tecnologias inferiores. O Tribunal de Justiça, no processo relativo à pontuação de crédito, já rejeitou a defesa dos "segredos comerciais", mas a incerteza interpretativa continua a ser enorme - o que significa exatamente "resumo suficientemente pormenorizado"? Ninguém sabe. Última pergunta sem resposta: estará a UE a criar uma terceira via ética entre o capitalismo americano e o controlo estatal chinês, ou simplesmente a exportar burocracia para uma área em que não compete? Para já: líder mundial na regulação da IA, marginal no seu desenvolvimento. Vasto programa.

9 de novembro de 2025

Outliers: onde a ciência dos dados encontra histórias de sucesso

A ciência dos dados inverteu o paradigma: os valores atípicos já não são "erros a eliminar", mas sim informações valiosas a compreender. Um único outlier pode distorcer completamente um modelo de regressão linear - alterar o declive de 2 para 10 - mas eliminá-lo pode significar perder o sinal mais importante do conjunto de dados. A aprendizagem automática introduz ferramentas sofisticadas: O Isolation Forest isola os valores atípicos através da construção de árvores de decisão aleatórias, o Local Outlier Fator analisa a densidade local, os Autoencoders reconstroem dados normais e comunicam o que não conseguem reproduzir. Existem valores anómalos globais (temperatura de -10°C nos trópicos), valores anómalos contextuais (gastar 1000 euros num bairro pobre), valores anómalos colectivos (picos de tráfego de rede sincronizados que indicam um ataque). Paralelismo com Gladwell: a "regra das 10.000 horas" é contestada - Paul McCartney dixit "muitas bandas fizeram 10.000 horas em Hamburgo sem sucesso, a teoria não é infalível". O sucesso matemático asiático não é genético mas cultural: o sistema numérico chinês é mais intuitivo, o cultivo do arroz exige um aperfeiçoamento constante, ao contrário da expansão territorial da agricultura ocidental. Aplicações reais: os bancos britânicos recuperam 18% de perdas potenciais através da deteção de anomalias em tempo real, a indústria transformadora detecta defeitos microscópicos que a inspeção humana não detectaria, os cuidados de saúde validam dados de ensaios clínicos com uma sensibilidade de deteção de anomalias superior a 85%. Lição final: à medida que a ciência dos dados passa da eliminação de anomalias para a sua compreensão, temos de encarar as carreiras não convencionais não como anomalias a corrigir, mas como trajectórias valiosas a estudar.