Newsletter

Porque é que a matemática é difícil (mesmo quando se é uma IA)

Os modelos linguísticos não sabem memorizar resultados como nós memorizamos o pi, mas isso não faz deles matemáticos. O problema é estrutural: aprendem por semelhança estatística, não por compreensão algorítmica. Mesmo os novos "modelos de raciocínio", como o o1, falham em tarefas triviais: conta corretamente o "r" em "morango" após segundos de processamento, mas erra quando tem de escrever um parágrafo em que a segunda letra de cada frase constitui uma palavra. A versão premium de 200 dólares por mês demora quatro minutos a resolver o que uma criança faz instantaneamente. O DeepSeek e o Mistral em 2025 continuam a contar mal as letras. A solução emergente? Abordagem híbrida - os modelos mais inteligentes já perceberam quando devem chamar uma calculadora real em vez de tentarem fazer o cálculo sozinhos. Mudança de paradigma: a IA não tem de saber fazer tudo, mas tem de orquestrar as ferramentas certas. Paradoxo final: o GPT-4 pode explicar-lhe brilhantemente a teoria dos limites, mas engana-se nas multiplicações que uma calculadora de bolso resolve sempre corretamente. Para a educação matemática, são excelentes - explicam com uma paciência infinita, adaptam exemplos, decompõem raciocínios complexos. Para cálculos exactos? Confie na calculadora, não na inteligência artificial.

Muitos recorrem a LLM também para efetuar operações matemáticas. Esta abordagem não funciona.

A questão é, de facto, simples: os modelos de linguagem de grande dimensão (LLM) não sabem realmente como multiplicar. Por vezes, podem acertar no resultado, tal como eu sei de cor o valor de pi. Mas isso não significa que eu seja um matemático, nem que os LLM saibam realmente fazer matemática.

Exemplo prático

Exemplo: 49858 *59949 = 298896167242 Este resultado é sempre o mesmo, não há meio-termo. Ou está certo ou está errado.

Mesmo com uma enorme formação matemática, os melhores modelos só conseguem resolver corretamente uma parte das operações. Uma simples calculadora de bolso, por outro lado, obtém 100% dos resultados corretos, sempre. E quanto maiores são os números, pior é o desempenho dos LLMs.

É possível resolver este problema?

O problema básico é que estes modelos aprendem por semelhança e não por compreensão. Funcionam melhor com problemas semelhantes àqueles em que foram treinados, mas nunca desenvolvem uma verdadeira compreensão do que estão a dizer.

Para quem quiser saber mais, sugiro este artigo sobre "como funciona um LLM".

Uma calculadora, por outro lado, utiliza um algoritmo preciso programado para efetuar a operação matemática.

É por isso que nunca devemos confiar completamente nas LLM para cálculos matemáticos: mesmo nas melhores condições, com enormes quantidades de dados de treino específicos, não podem garantir a fiabilidade mesmo nas operações mais básicas. Uma abordagem híbrida pode funcionar, mas as LLM por si só não são suficientes. Talvez esta abordagem venha a ser adoptada para resolver o chamado"problema do morango".

Aplicações dos LLM no estudo da matemática

No contexto educativo, os LLM podem atuar como tutores personalizados, capazes de adaptar as explicações ao nível de compreensão do aluno. Por exemplo, quando um aluno enfrenta um problema de cálculo diferencial, o MLT pode decompor o raciocínio em passos mais simples, fornecendo explicações detalhadas para cada etapa do processo de solução. Esta abordagem ajuda a construir uma compreensão sólida dos conceitos fundamentais.

Um aspeto particularmente interessante é a capacidade dos MLT de gerar exemplos relevantes e variados. Se um aluno está a tentar compreender o conceito de limite, o MLM pode apresentar diferentes cenários matemáticos, partindo de casos simples para situações mais complexas, permitindo assim uma compreensão progressiva do conceito.

Uma aplicação promissora é a utilização da LLM para a tradução de conceitos matemáticos complexos numa linguagem natural mais acessível. Isto facilita a comunicação da matemática a um público mais vasto e pode ajudar a ultrapassar a tradicional barreira de acesso a esta disciplina.

Os LLM podem também ajudar na preparação de material didático, gerando exercícios de dificuldade variável e fornecendo feedback detalhado sobre as soluções propostas pelos alunos. Isto permite que os professores personalizem melhor o percurso de aprendizagem dos seus alunos.

A verdadeira vantagem

De uma forma mais geral, há que ter em conta a extrema "paciência" para ajudar o aluno, mesmo o menos "capaz", a aprender: neste caso, a ausência de emoções ajuda. Apesar disso, mesmo o ai por vezes "perde a paciência". Ver este exemplo "divertido exemplo.

Atualização 2025: Modelos de raciocínio e a abordagem híbrida

2024-2025 trouxe desenvolvimentos significativos com a chegada dos chamados "modelos de raciocínio", como o OpenAI o1 e o deepseek R1. Estes modelos obtiveram resultados impressionantes em testes de matemática: o o1 resolve corretamente 83% dos problemas das Olimpíadas Internacionais de Matemática, contra 13% do GPT-4o. Mas atenção: não resolveram o problema fundamental descrito acima.

O problema do morango - contar o 'r' em "strawberry" - ilustra perfeitamente a limitação persistente. O o1 resolve-o corretamente após alguns segundos de "raciocínio", mas se lhe pedirmos para escrever um parágrafo em que a segunda letra de cada frase constitui a palavra "CODE", ele falha. o1-pro, a versão de 200 dólares/mês, resolve-o... após 4 minutos de processamento. O DeepSeek R1 e outros modelos recentes continuam a enganar-se na contagem básica. Em fevereiro de 2025, o Mistral continuava a responder que só há dois "r" em "strawberry".

O truque que está a surgir é a abordagem híbrida: quando têm de multiplicar 49858 por 5994949, os modelos mais avançados já não tentam "adivinhar" o resultado com base em semelhanças com cálculos vistos durante o treino. Em vez disso, chamam uma calculadora ou executam código Python - exatamente como faria um ser humano inteligente que sabe quais são os seus limites.

Esta "utilização de ferramentas" representa uma mudança de paradigma: a inteligência artificial não tem de ser capaz de fazer tudo sozinha, mas deve ser capaz de orquestrar as ferramentas corretas. Os modelos de raciocínio combinam a capacidade linguística para compreender o problema, o raciocínio passo a passo para planear a solução e a delegação a ferramentas especializadas (calculadoras, interpretadores Python, bases de dados) para uma execução precisa.

A lição? Os LLMs de 2025 são mais úteis em matemática não porquetenham "aprendido" a multiplicar - na verdade, ainda não o fizeram - mas porque alguns deles começaram a perceber quando devem delegar a multiplicação naqueles que realmente a sabem fazer. O problema básico mantém-se: funcionam por semelhança estatística, não por compreensão algorítmica. Uma calculadora de 5 euros continua a ser infinitamente mais fiável para cálculos precisos.

Recursos para o crescimento das empresas

9 de novembro de 2025

Tendências da IA para 2025: 6 soluções estratégicas para uma implementação harmoniosa da inteligência artificial

87% das empresas reconhecem a IA como uma necessidade competitiva, mas muitas falham na integração - o problema não é a tecnologia, mas a abordagem. 73% dos executivos citam a transparência (IA explicável) como crucial para a adesão das partes interessadas, enquanto as implementações bem sucedidas seguem a estratégia "começar pequeno, pensar grande": projectos-piloto orientados de elevado valor em vez da transformação total da empresa. Caso real: a empresa transformadora implementa a manutenção preditiva da IA numa única linha de produção, consegue -67% de tempo de inatividade em 60 dias e catalisa a adoção em toda a empresa. Melhores práticas verificadas: favorecer a integração através de API/middleware em vez de uma substituição completa para reduzir as curvas de aprendizagem; dedicar 30% dos recursos à gestão da mudança com formação específica para cada função gera uma taxa de adoção de +40% e uma satisfação do utilizador de +65%; implementação paralela para validar os resultados da IA em comparação com os métodos existentes; degradação gradual com sistemas de recurso; ciclos de revisão semanais nos primeiros 90 dias para monitorizar o desempenho técnico, o impacto comercial, as taxas de adoção e o ROI. O êxito exige o equilíbrio entre factores técnicos e humanos: defensores internos da IA, concentração nos benefícios práticos, flexibilidade evolutiva.