Newsletter

Porque é que a matemática é difícil (mesmo quando se é uma IA)

Os modelos linguísticos não sabem memorizar resultados como nós memorizamos o pi, mas isso não faz deles matemáticos. O problema é estrutural: aprendem por semelhança estatística, não por compreensão algorítmica. Mesmo os novos "modelos de raciocínio", como o o1, falham em tarefas triviais: conta corretamente o "r" em "morango" após segundos de processamento, mas erra quando tem de escrever um parágrafo em que a segunda letra de cada frase constitui uma palavra. A versão premium de 200 dólares por mês demora quatro minutos a resolver o que uma criança faz instantaneamente. O DeepSeek e o Mistral em 2025 continuam a contar mal as letras. A solução emergente? Abordagem híbrida - os modelos mais inteligentes já perceberam quando devem chamar uma calculadora real em vez de tentarem fazer o cálculo sozinhos. Mudança de paradigma: a IA não tem de saber fazer tudo, mas tem de orquestrar as ferramentas certas. Paradoxo final: o GPT-4 pode explicar-lhe brilhantemente a teoria dos limites, mas engana-se nas multiplicações que uma calculadora de bolso resolve sempre corretamente. Para a educação matemática, são excelentes - explicam com uma paciência infinita, adaptam exemplos, decompõem raciocínios complexos. Para cálculos exactos? Confie na calculadora, não na inteligência artificial.

Muitos recorrem a LLM também para efetuar operações matemáticas. Esta abordagem não funciona.

A questão é, de facto, simples: os modelos de linguagem de grande dimensão (LLM) não sabem realmente como multiplicar. Por vezes, podem acertar no resultado, tal como eu sei de cor o valor de pi. Mas isso não significa que eu seja um matemático, nem que os LLM saibam realmente fazer matemática.

Exemplo prático

Exemplo: 49858 *59949 = 298896167242 Este resultado é sempre o mesmo, não há meio-termo. Ou está certo ou está errado.

Mesmo com uma enorme formação matemática, os melhores modelos só conseguem resolver corretamente uma parte das operações. Uma simples calculadora de bolso, por outro lado, obtém 100% dos resultados corretos, sempre. E quanto maiores são os números, pior é o desempenho dos LLMs.

É possível resolver este problema?

O problema básico é que estes modelos aprendem por semelhança e não por compreensão. Funcionam melhor com problemas semelhantes àqueles em que foram treinados, mas nunca desenvolvem uma verdadeira compreensão do que estão a dizer.

Para quem quiser saber mais, sugiro este artigo sobre "como funciona um LLM".

Uma calculadora, por outro lado, utiliza um algoritmo preciso programado para efetuar a operação matemática.

É por isso que nunca devemos confiar completamente nas LLM para cálculos matemáticos: mesmo nas melhores condições, com enormes quantidades de dados de treino específicos, não podem garantir a fiabilidade mesmo nas operações mais básicas. Uma abordagem híbrida pode funcionar, mas as LLM por si só não são suficientes. Talvez esta abordagem venha a ser adoptada para resolver o chamado"problema do morango".

Aplicações dos LLM no estudo da matemática

No contexto educativo, os LLM podem atuar como tutores personalizados, capazes de adaptar as explicações ao nível de compreensão do aluno. Por exemplo, quando um aluno enfrenta um problema de cálculo diferencial, o MLT pode decompor o raciocínio em passos mais simples, fornecendo explicações detalhadas para cada etapa do processo de solução. Esta abordagem ajuda a construir uma compreensão sólida dos conceitos fundamentais.

Um aspeto particularmente interessante é a capacidade dos MLT de gerar exemplos relevantes e variados. Se um aluno está a tentar compreender o conceito de limite, o MLM pode apresentar diferentes cenários matemáticos, partindo de casos simples para situações mais complexas, permitindo assim uma compreensão progressiva do conceito.

Uma aplicação promissora é a utilização da LLM para a tradução de conceitos matemáticos complexos numa linguagem natural mais acessível. Isto facilita a comunicação da matemática a um público mais vasto e pode ajudar a ultrapassar a tradicional barreira de acesso a esta disciplina.

Os LLM podem também ajudar na preparação de material didático, gerando exercícios de dificuldade variável e fornecendo feedback detalhado sobre as soluções propostas pelos alunos. Isto permite que os professores personalizem melhor o percurso de aprendizagem dos seus alunos.

A verdadeira vantagem

De uma forma mais geral, há que ter em conta a extrema "paciência" para ajudar o aluno, mesmo o menos "capaz", a aprender: neste caso, a ausência de emoções ajuda. Apesar disso, mesmo o ai por vezes "perde a paciência". Ver este exemplo "divertido exemplo.

Atualização 2025: Modelos de raciocínio e a abordagem híbrida

2024-2025 trouxe desenvolvimentos significativos com a chegada dos chamados "modelos de raciocínio", como o OpenAI o1 e o deepseek R1. Estes modelos obtiveram resultados impressionantes em testes de matemática: o o1 resolve corretamente 83% dos problemas das Olimpíadas Internacionais de Matemática, contra 13% do GPT-4o. Mas atenção: não resolveram o problema fundamental descrito acima.

O problema do morango - contar o 'r' em "strawberry" - ilustra perfeitamente a limitação persistente. O o1 resolve-o corretamente após alguns segundos de "raciocínio", mas se lhe pedirmos para escrever um parágrafo em que a segunda letra de cada frase constitui a palavra "CODE", ele falha. o1-pro, a versão de 200 dólares/mês, resolve-o... após 4 minutos de processamento. O DeepSeek R1 e outros modelos recentes continuam a enganar-se na contagem básica. Em fevereiro de 2025, o Mistral continuava a responder que só há dois "r" em "strawberry".

O truque que está a surgir é a abordagem híbrida: quando têm de multiplicar 49858 por 5994949, os modelos mais avançados já não tentam "adivinhar" o resultado com base em semelhanças com cálculos vistos durante o treino. Em vez disso, chamam uma calculadora ou executam código Python - exatamente como faria um ser humano inteligente que sabe quais são os seus limites.

Esta "utilização de ferramentas" representa uma mudança de paradigma: a inteligência artificial não tem de ser capaz de fazer tudo sozinha, mas deve ser capaz de orquestrar as ferramentas corretas. Os modelos de raciocínio combinam a capacidade linguística para compreender o problema, o raciocínio passo a passo para planear a solução e a delegação a ferramentas especializadas (calculadoras, interpretadores Python, bases de dados) para uma execução precisa.

A lição? Os LLMs de 2025 são mais úteis em matemática não porquetenham "aprendido" a multiplicar - na verdade, ainda não o fizeram - mas porque alguns deles começaram a perceber quando devem delegar a multiplicação naqueles que realmente a sabem fazer. O problema básico mantém-se: funcionam por semelhança estatística, não por compreensão algorítmica. Uma calculadora de 5 euros continua a ser infinitamente mais fiável para cálculos precisos.

Recursos para o crescimento das empresas

9 de novembro de 2025

Regulamentação da IA para aplicações de consumo: como se preparar para os novos regulamentos de 2025

2025 marca o fim da era do "Oeste Selvagem" da IA: AI Act EU operacional a partir de agosto de 2024 com obrigações de literacia em IA a partir de 2 de fevereiro de 2025, governação e GPAI a partir de 2 de agosto. A Califórnia é pioneira com o SB 243 (nascido após o suicídio de Sewell Setzer, um jovem de 14 anos que desenvolveu uma relação emocional com um chatbot), que impõe a proibição de sistemas de recompensa compulsivos, a deteção de ideação suicida, a lembrança de 3 em 3 horas de que "não sou humano", auditorias públicas independentes, sanções de 1000 dólares por infração. SB 420 exige avaliações de impacto para "decisões automatizadas de alto risco" com direitos de recurso de revisão humana. Aplicação efectiva: Noom citou 2022 por causa de bots que se faziam passar por treinadores humanos, acordo de 56 milhões de dólares. Tendência nacional: Alabama, Havaí, Illinois, Maine, Massachusetts classificam a falha em notificar chatbots de IA como violação do UDAP. Abordagem de sistemas críticos de risco de três níveis (cuidados de saúde/transporte/energia) certificação de pré-implantação, divulgação transparente virada para o consumidor, registo de uso geral + testes de segurança. Mosaico regulamentar sem preempção federal: as empresas multi-estatais têm de navegar por requisitos variáveis. UE a partir de agosto de 2026: informar os utilizadores sobre a interação com a IA, a menos que seja óbvio, e os conteúdos gerados por IA devem ser rotulados como legíveis por máquinas.
9 de novembro de 2025

Regulamentar o que não é criado: a Europa arrisca-se a ser irrelevante do ponto de vista tecnológico?

A Europa atrai apenas um décimo do investimento mundial em inteligência artificial, mas pretende ditar as regras mundiais. Este é o "Efeito Bruxelas" - impor regras à escala planetária através do poder de mercado sem impulsionar a inovação. A Lei da IA entra em vigor num calendário escalonado até 2027, mas as empresas multinacionais de tecnologia respondem com estratégias criativas de evasão: invocando segredos comerciais para evitar revelar dados de formação, produzindo resumos tecnicamente conformes mas incompreensíveis, utilizando a autoavaliação para rebaixar os sistemas de "alto risco" para "risco mínimo", escolhendo os Estados-Membros com controlos menos rigorosos. O paradoxo dos direitos de autor extraterritoriais: a UE exige que a OpenAI cumpra as leis europeias, mesmo no caso de formação fora da Europa - um princípio nunca antes visto no direito internacional. Surge o "modelo duplo": versões europeias limitadas versus versões mundiais avançadas dos mesmos produtos de IA. Risco real: a Europa torna-se uma "fortaleza digital" isolada da inovação mundial, com os cidadãos europeus a acederem a tecnologias inferiores. O Tribunal de Justiça, no processo relativo à pontuação de crédito, já rejeitou a defesa dos "segredos comerciais", mas a incerteza interpretativa continua a ser enorme - o que significa exatamente "resumo suficientemente pormenorizado"? Ninguém sabe. Última pergunta sem resposta: estará a UE a criar uma terceira via ética entre o capitalismo americano e o controlo estatal chinês, ou simplesmente a exportar burocracia para uma área em que não compete? Para já: líder mundial na regulação da IA, marginal no seu desenvolvimento. Vasto programa.
9 de novembro de 2025

Outliers: onde a ciência dos dados encontra histórias de sucesso

A ciência dos dados inverteu o paradigma: os valores atípicos já não são "erros a eliminar", mas sim informações valiosas a compreender. Um único outlier pode distorcer completamente um modelo de regressão linear - alterar o declive de 2 para 10 - mas eliminá-lo pode significar perder o sinal mais importante do conjunto de dados. A aprendizagem automática introduz ferramentas sofisticadas: O Isolation Forest isola os valores atípicos através da construção de árvores de decisão aleatórias, o Local Outlier Fator analisa a densidade local, os Autoencoders reconstroem dados normais e comunicam o que não conseguem reproduzir. Existem valores anómalos globais (temperatura de -10°C nos trópicos), valores anómalos contextuais (gastar 1000 euros num bairro pobre), valores anómalos colectivos (picos de tráfego de rede sincronizados que indicam um ataque). Paralelismo com Gladwell: a "regra das 10.000 horas" é contestada - Paul McCartney dixit "muitas bandas fizeram 10.000 horas em Hamburgo sem sucesso, a teoria não é infalível". O sucesso matemático asiático não é genético mas cultural: o sistema numérico chinês é mais intuitivo, o cultivo do arroz exige um aperfeiçoamento constante, ao contrário da expansão territorial da agricultura ocidental. Aplicações reais: os bancos britânicos recuperam 18% de perdas potenciais através da deteção de anomalias em tempo real, a indústria transformadora detecta defeitos microscópicos que a inspeção humana não detectaria, os cuidados de saúde validam dados de ensaios clínicos com uma sensibilidade de deteção de anomalias superior a 85%. Lição final: à medida que a ciência dos dados passa da eliminação de anomalias para a sua compreensão, temos de encarar as carreiras não convencionais não como anomalias a corrigir, mas como trajectórias valiosas a estudar.