Muitos recorrem a LLM também para efetuar operações matemáticas. Esta abordagem não funciona.
A questão é, de facto, simples: os modelos de linguagem de grande dimensão (LLM) não sabem realmente como multiplicar. Por vezes, podem acertar no resultado, tal como eu sei de cor o valor de pi. Mas isso não significa que eu seja um matemático, nem que os LLM saibam realmente fazer matemática.
Exemplo prático
Exemplo: 49858 *59949 = 298896167242 Este resultado é sempre o mesmo, não há meio-termo. Ou está certo ou está errado.

Mesmo com uma enorme formação matemática, os melhores modelos só conseguem resolver corretamente uma parte das operações. Uma simples calculadora de bolso, por outro lado, obtém 100% dos resultados corretos, sempre. E quanto maiores são os números, pior é o desempenho dos LLMs.

É possível resolver este problema?
O problema básico é que estes modelos aprendem por semelhança e não por compreensão. Funcionam melhor com problemas semelhantes àqueles em que foram treinados, mas nunca desenvolvem uma verdadeira compreensão do que estão a dizer.
Para quem quiser saber mais, sugiro este artigo sobre "como funciona um LLM".
Uma calculadora, por outro lado, utiliza um algoritmo preciso programado para efetuar a operação matemática.
É por isso que nunca devemos confiar completamente nas LLM para cálculos matemáticos: mesmo nas melhores condições, com enormes quantidades de dados de treino específicos, não podem garantir a fiabilidade mesmo nas operações mais básicas. Uma abordagem híbrida pode funcionar, mas as LLM por si só não são suficientes. Talvez esta abordagem venha a ser adoptada para resolver o chamado"problema do morango".
Aplicações dos LLM no estudo da matemática
No contexto educativo, os LLM podem atuar como tutores personalizados, capazes de adaptar as explicações ao nível de compreensão do aluno. Por exemplo, quando um aluno enfrenta um problema de cálculo diferencial, o MLT pode decompor o raciocínio em passos mais simples, fornecendo explicações detalhadas para cada etapa do processo de solução. Esta abordagem ajuda a construir uma compreensão sólida dos conceitos fundamentais.
Um aspeto particularmente interessante é a capacidade dos MLT de gerar exemplos relevantes e variados. Se um aluno está a tentar compreender o conceito de limite, o MLM pode apresentar diferentes cenários matemáticos, partindo de casos simples para situações mais complexas, permitindo assim uma compreensão progressiva do conceito.
Uma aplicação promissora é a utilização da LLM para a tradução de conceitos matemáticos complexos numa linguagem natural mais acessível. Isto facilita a comunicação da matemática a um público mais vasto e pode ajudar a ultrapassar a tradicional barreira de acesso a esta disciplina.
Os LLM podem também ajudar na preparação de material didático, gerando exercícios de dificuldade variável e fornecendo feedback detalhado sobre as soluções propostas pelos alunos. Isto permite que os professores personalizem melhor o percurso de aprendizagem dos seus alunos.
A verdadeira vantagem
De uma forma mais geral, há que ter em conta a extrema "paciência" para ajudar o aluno, mesmo o menos "capaz", a aprender: neste caso, a ausência de emoções ajuda. Apesar disso, mesmo o ai por vezes "perde a paciência". Ver este exemplo "divertido exemplo.

Atualização 2025: Modelos de raciocínio e a abordagem híbrida
2024-2025 trouxe desenvolvimentos significativos com a chegada dos chamados "modelos de raciocínio", como o OpenAI o1 e o deepseek R1. Estes modelos obtiveram resultados impressionantes em testes de matemática: o o1 resolve corretamente 83% dos problemas das Olimpíadas Internacionais de Matemática, contra 13% do GPT-4o. Mas atenção: não resolveram o problema fundamental descrito acima.
O problema do morango - contar o 'r' em "strawberry" - ilustra perfeitamente a limitação persistente. O o1 resolve-o corretamente após alguns segundos de "raciocínio", mas se lhe pedirmos para escrever um parágrafo em que a segunda letra de cada frase constitui a palavra "CODE", ele falha. o1-pro, a versão de 200 dólares/mês, resolve-o... após 4 minutos de processamento. O DeepSeek R1 e outros modelos recentes continuam a enganar-se na contagem básica. Em fevereiro de 2025, o Mistral continuava a responder que só há dois "r" em "strawberry".
O truque que está a surgir é a abordagem híbrida: quando têm de multiplicar 49858 por 5994949, os modelos mais avançados já não tentam "adivinhar" o resultado com base em semelhanças com cálculos vistos durante o treino. Em vez disso, chamam uma calculadora ou executam código Python - exatamente como faria um ser humano inteligente que sabe quais são os seus limites.
Esta "utilização de ferramentas" representa uma mudança de paradigma: a inteligência artificial não tem de ser capaz de fazer tudo sozinha, mas deve ser capaz de orquestrar as ferramentas corretas. Os modelos de raciocínio combinam a capacidade linguística para compreender o problema, o raciocínio passo a passo para planear a solução e a delegação a ferramentas especializadas (calculadoras, interpretadores Python, bases de dados) para uma execução precisa.
A lição? Os LLMs de 2025 são mais úteis em matemática não porquetenham "aprendido" a multiplicar - na verdade, ainda não o fizeram - mas porque alguns deles começaram a perceber quando devem delegar a multiplicação naqueles que realmente a sabem fazer. O problema básico mantém-se: funcionam por semelhança estatística, não por compreensão algorítmica. Uma calculadora de 5 euros continua a ser infinitamente mais fiável para cálculos precisos.