Newsletter

O problema dos morangos

"Quantos 'r' há no morango?" - O GPT-4o responde "dois", uma criança de seis anos sabe que são três. O problema é a tokenização: o modelo vê [str][aw][berry], não letras. A OpenAI não resolveu o problema com o o1 - contornou-o ensinando o modelo a "pensar antes de falar". Resultado: 83% vs. 13% nas Olimpíadas de Matemática, mas 30 segundos em vez de 3 e o triplo do custo. Os modelos de linguagem são ferramentas probabilísticas extraordinárias - mas continua a ser necessário um ser humano para contar.

Do problema dos morangos ao modelo o1: como a OpenAI resolveu (em parte) o limite de tokenização

No verão de 2024, um meme viral da Internet envergonhou os modelos linguísticos mais avançados do mundo: "Quantos 'r's' há na palavra 'strawberry'?" A resposta correta é três, mas o GPT-4o teimou em responder "dois". Um erro aparentemente trivial que revelou uma limitação fundamental dos modelos de linguagem: a sua incapacidade de analisar letras individuais dentro das palavras.

Em 12 de setembro de 2024, a OpenAI lançou o1 - conhecido internamente pelo nome de código "Strawberry" - o primeiro modelo de uma nova série de "modelos de raciocínio" concebidos especificamente para ultrapassar este tipo de limitação. E sim, o nome não é por acaso: como confirmou um investigador da OpenAI, o1 consegue finalmente contar corretamente o 'r' em 'strawberry'.

Mas a solução não é a que o artigo original imaginava. A OpenAI não "ensinou" o modelo a analisar as palavras letra a letra. Em vez disso, desenvolveu uma abordagem completamente diferente: ensinar o modelo a "raciocinar" antes de responder.

O problema da contagem: porque é que os modelos se enganam

O problema continua a estar enraizado na tokenização - o processo fundamental através do qual os modelos de linguagem processam o texto. Como explicado num artigo técnico publicado no arXiv em maio de 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), os modelos não vêem as palavras como sequências de letras mas como "tokens" - unidades de significado convertidas em números.

Quando o GPT-4 processa a palavra "strawberry", o seu tokenizador divide-a em três partes: [str][aw][berry], cada uma com um ID numérico específico (496, 675, 15717). Para o modelo, "morango" não é uma sequência de 10 letras, mas uma sequência de 3 tokens numéricos. É como se ele estivesse a ler um livro em que cada palavra é substituída por um código e depois alguém lhe pedisse para contar as letras de um código que ele nunca viu escrito.

O problema agrava-se com palavras compostas. "Cronometrista" está dividido em tokens separados, o que torna impossível para o modelo determinar a posição exacta das letras sem um processo de raciocínio explícito. A fragmentação afecta não só a contagem das letras, mas também a compreensão da estrutura interna das palavras.

A solução o1: Raciocinar antes de responder

O OpenAI o1 resolveu o problema de uma forma inesperada: em vez de modificar a tokenização - o que é tecnicamente difícil e comprometeria a eficiência do modelo - ensinou o sistema a "pensar antes de falar", utilizando uma técnica chamada "raciocínio em cadeia".

Quando se pergunta a o1 quantos 'r's existem em 'strawberry', o modelo não responde imediatamente. Passa vários segundos - por vezes até minutos para perguntas complexas - a processar internamente uma "cadeia de raciocínio" oculta ao utilizador. Este processo permite-lhe:

  1. Reconhecer que a procura exige uma análise ao nível dos caracteres
  2. Desenvolver uma estratégia para decompor a palavra
  3. Testar a resposta através de diferentes abordagens
  4. Corrigir eventuais erros antes de dar a resposta final

Como explicou Noam Brown, investigador da OpenAI, numa série de publicações no X: "o1 é treinado com aprendizagem por reforço para 'pensar' antes de responder através de uma cadeia de pensamento privada. O modelo recebe recompensas durante o treino por cada passo correto no processo de raciocínio, e não apenas pela resposta final correta.

Os resultados são impressionantes mas dispendiosos. Num exame de qualificação para as Olimpíadas Internacionais de Matemática, o1 resolveu 83% dos problemas corretamente contra 13% do GPT-4o. Em questões de nível de doutoramento em ciências, atingiu 78% de precisão contra 56% do GPT-4o. Mas este poder tem um preço: o1 demora mais de 30 segundos a responder a questões que o GPT-4o resolve em 3 segundos, e custa 15 dólares por milhão de tokens introduzidos contra 5 dólares do GPT-4o.

Cadeia de pensamento: como funciona realmente

A técnica não é mágica, mas metódica. Quando recebe um pedido, o1 gera internamente uma longa sequência de "pensamentos" que não são mostrados ao utilizador. Para o problema 'r' em 'strawberry', o processo interno poderia ser:

"Primeiro, tenho de perceber a estrutura das palavras. Morango pode ser tokenizado como [str][aw][berry]. Para contar o 'r', tenho de reconstruir a palavra completa ao nível dos caracteres. Str contém: s-t-r (1 'r'). Aw contém: a-w (0 'r'). Berry contém: b-e-r-y (2 'r'). Total: 1+0+2 = 3 "r". Verifico: morango = s-t-r-a-w-b-e-r-r-r-y. Conto os "r": posição 3, posição 8, posição 9. Confirmado: 3 r's".

Este raciocínio interno está oculto por definição. A OpenAI proíbe explicitamente os utilizadores de tentarem revelar a cadeia de raciocínio da o1, monitorizando os prompts e potencialmente revogando o acesso àqueles que violam esta regra. A empresa cita razões de segurança da IA e de vantagem competitiva, mas a decisão foi criticada como uma perda de transparência para os programadores que trabalham com modelos de linguagem.

Limites persistentes: o1 Não é perfeito

Apesar dos progressos, o o1 não resolveu completamente o problema. Uma investigação publicada na revista Language Log em janeiro de 2025 testou vários modelos num desafio mais complexo: "Escreva um parágrafo em que a segunda letra de cada frase constitua a palavra 'CODE'".

o1 standard ($20/mês) falhou, contando erradamente a primeira letra de cada palavra inicial como a 'segunda letra'. o1-pro ($200/mês) corrigiu o problema... após 4 minutos e 10 segundos de 'pensamento'. O DeepSeek R1, o modelo chinês que abalou o mercado em janeiro de 2025, cometeu o mesmo erro que o o1 standard.

O problema fundamental mantém-se: os modelos continuam a ver o texto através de tokens, não de letras. O o1 aprendeu a "contornar" esta limitação através do raciocínio, mas não a eliminou. Como um investigador observou no Language Log: "A tokenização faz parte da essência do que são os modelos de linguagem; para qualquer resposta errada, a explicação é precisamente 'bem, tokenização'".

Investigação académica: Emergência da compreensão ao nível dos caracteres

Um artigo importante publicado no arXiv em maio de 2025 ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models") analisa este fenómeno de uma perspetiva teórica. Os investigadores criaram 19 tarefas sintéticas que isolam o raciocínio ao nível dos caracteres em contextos controlados, demonstrando que estas capacidades surgem subitamente e apenas tardiamente no treino.

O estudo propõe que a aprendizagem da composição de caracteres não é fundamentalmente diferente da aprendizagem do conhecimento de senso comum - surge através de processos de "percolação concetual" quando o modelo atinge uma massa crítica de exemplos e ligações.

Os investigadores sugerem uma modificação arquitetónica ligeira que melhora significativamente o raciocínio ao nível dos caracteres, preservando as vantagens indutivas dos modelos baseados em subpalavras. No entanto, estas modificações continuam a ser experimentais e não foram implementadas em modelos comerciais.

Implicações práticas: Quando confiar e quando não confiar

O caso do morango ensina uma lição importante sobre a fiabilidade dos modelos de linguagem: são ferramentas probabilísticas, não são calculadoras determinísticas. Como Mark Liberman observou no Language Log: "É preciso ter cuidado ao confiar na resposta de qualquer sistema de IA atual em tarefas que envolvam contar coisas".

Isto não significa que os modelos sejam inúteis. Como observou um comentador: "Só porque um gato comete o erro estúpido de se assustar com um pepino, não significa que não devamos confiar ao gato a tarefa muito mais difícil de manter os roedores fora do edifício". Os modelos linguísticos não são a ferramenta certa se quiser contar sistematicamente as letras, mas são excelentes para processar automaticamente milhares de transcrições de podcasts e extrair nomes de convidados e anfitriões.

Para tarefas que exigem uma precisão absoluta - aterrar uma nave espacial em Marte, calcular dosagens farmacêuticas, verificar a conformidade legal - os modelos linguísticos actuais continuam a ser inadequados sem supervisão humana ou verificação externa. A sua natureza probabilística torna-os poderosos para a correspondência de padrões e a geração criativa, mas pouco fiáveis para tarefas em que o erro não é aceitável.

O futuro: rumo a modelos que raciocinam à hora

A OpenAI declarou que tenciona fazer experiências com modelos o1 que "raciocinam durante horas, dias ou mesmo semanas" para aumentar ainda mais as suas capacidades de raciocínio. Em dezembro de 2024, foi anunciado o o3 (o nome o2 foi omitido para evitar conflitos de marca registada com o operador móvel O2) e, em março de 2025, foi lançada a API do o1-pro, o modelo de IA mais caro da OpenAI até à data, a um preço de 150 dólares por milhão de tokens de entrada e 600 dólares por milhão de saída.

A direção é clara: em vez de tornar os modelos cada vez maiores (escalonamento), a OpenAI está a investir em fazê-los "pensar" durante mais tempo (computação em tempo de teste). Esta abordagem pode ser mais sustentável do ponto de vista energético e computacional do que treinar modelos cada vez mais maciços.

Mas há uma questão em aberto: estes modelos estão realmente a "raciocinar" ou estão simplesmente a simular o raciocínio através de padrões estatísticos mais sofisticados? A investigação da Apple, publicada em outubro de 2024, indicou que modelos como o o1 podiam replicar passos de raciocínio a partir dos seus próprios dados de treino. Ao alterar números e nomes em problemas matemáticos, ou simplesmente ao repetir o mesmo problema, os modelos tiveram um desempenho significativamente pior. Ao adicionar informações estranhas, mas logicamente irrelevantes, o desempenho caiu 65% em alguns modelos.

Conclusão: Ferramentas poderosas com limites fundamentais

O problema do morango e a solução o1 revelam tanto o potencial como as limitações inerentes aos modelos linguísticos actuais. A OpenAI demonstrou que, através de treino direcionado e tempo de processamento adicional, os modelos podem ultrapassar certas limitações estruturais da tokenização. Mas não as eliminaram - contornaram-nas.

Para os utilizadores e programadores, a lição prática é clara: compreender como funcionam estes sistemas - o que fazem bem e onde falham - é crucial para os utilizar eficazmente. Os modelos de linguagem são óptimas ferramentas para tarefas probabilísticas, correspondência de padrões, geração criativa e síntese de informação. Mas para tarefas que exigem precisão determinística - calcular, calcular, verificar factos específicos - continuam a não ser fiáveis sem supervisão externa ou ferramentas complementares.

O nome "Strawberry" permanecerá como um lembrete irónico desta limitação fundamental: mesmo os sistemas de IA mais avançados do mundo podem tropeçar em questões que uma criança de seis anos resolveria instantaneamente. Não porque sejam estúpidos, mas porque "pensam" de formas profundamente diferentes de nós - e talvez devêssemos deixar de esperar que pensem como os humanos.

Fontes:

  • OpenAI - 'Learning to Reason with LLMs' (publicação no blogue oficial, setembro de 2024)
  • Wikipédia - 'OpenAI o1' (entrada actualizada em janeiro de 2025)
  • Cosma, Adrian et al. - 'The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models', arXiv:2505.14172 (maio de 2025)
  • Liberman, Mark - 'AI systems still can't count', Language Log (janeiro de 2025)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word?", Medium (fevereiro de 2025)
  • Orland, Kyle - "Como é que o DeepSeek R1 se comporta realmente contra os melhores modelos de raciocínio da OpenAI?", Ars Technica
  • Brown, Noam (OpenAI) - Série de mensagens no X/Twitter (setembro de 2024)
  • TechCrunch - 'OpenAI revela o1, um modelo capaz de se verificar a si próprio' (setembro de 2024)
  • 16x Prompt - 'Porque é que o ChatGPT não consegue contar quantos Rs tem o morango' (atualizado em junho de 2025)

Recursos para o crescimento das empresas

9 de novembro de 2025

Regulamentação da IA para aplicações de consumo: como se preparar para os novos regulamentos de 2025

2025 marca o fim da era do "Oeste Selvagem" da IA: AI Act EU operacional a partir de agosto de 2024 com obrigações de literacia em IA a partir de 2 de fevereiro de 2025, governação e GPAI a partir de 2 de agosto. A Califórnia é pioneira com o SB 243 (nascido após o suicídio de Sewell Setzer, um jovem de 14 anos que desenvolveu uma relação emocional com um chatbot), que impõe a proibição de sistemas de recompensa compulsivos, a deteção de ideação suicida, a lembrança de 3 em 3 horas de que "não sou humano", auditorias públicas independentes, sanções de 1000 dólares por infração. SB 420 exige avaliações de impacto para "decisões automatizadas de alto risco" com direitos de recurso de revisão humana. Aplicação efectiva: Noom citou 2022 por causa de bots que se faziam passar por treinadores humanos, acordo de 56 milhões de dólares. Tendência nacional: Alabama, Havaí, Illinois, Maine, Massachusetts classificam a falha em notificar chatbots de IA como violação do UDAP. Abordagem de sistemas críticos de risco de três níveis (cuidados de saúde/transporte/energia) certificação de pré-implantação, divulgação transparente virada para o consumidor, registo de uso geral + testes de segurança. Mosaico regulamentar sem preempção federal: as empresas multi-estatais têm de navegar por requisitos variáveis. UE a partir de agosto de 2026: informar os utilizadores sobre a interação com a IA, a menos que seja óbvio, e os conteúdos gerados por IA devem ser rotulados como legíveis por máquinas.
9 de novembro de 2025

Regulamentar o que não é criado: a Europa arrisca-se a ser irrelevante do ponto de vista tecnológico?

A Europa atrai apenas um décimo do investimento mundial em inteligência artificial, mas pretende ditar as regras mundiais. Este é o "Efeito Bruxelas" - impor regras à escala planetária através do poder de mercado sem impulsionar a inovação. A Lei da IA entra em vigor num calendário escalonado até 2027, mas as empresas multinacionais de tecnologia respondem com estratégias criativas de evasão: invocando segredos comerciais para evitar revelar dados de formação, produzindo resumos tecnicamente conformes mas incompreensíveis, utilizando a autoavaliação para rebaixar os sistemas de "alto risco" para "risco mínimo", escolhendo os Estados-Membros com controlos menos rigorosos. O paradoxo dos direitos de autor extraterritoriais: a UE exige que a OpenAI cumpra as leis europeias, mesmo no caso de formação fora da Europa - um princípio nunca antes visto no direito internacional. Surge o "modelo duplo": versões europeias limitadas versus versões mundiais avançadas dos mesmos produtos de IA. Risco real: a Europa torna-se uma "fortaleza digital" isolada da inovação mundial, com os cidadãos europeus a acederem a tecnologias inferiores. O Tribunal de Justiça, no processo relativo à pontuação de crédito, já rejeitou a defesa dos "segredos comerciais", mas a incerteza interpretativa continua a ser enorme - o que significa exatamente "resumo suficientemente pormenorizado"? Ninguém sabe. Última pergunta sem resposta: estará a UE a criar uma terceira via ética entre o capitalismo americano e o controlo estatal chinês, ou simplesmente a exportar burocracia para uma área em que não compete? Para já: líder mundial na regulação da IA, marginal no seu desenvolvimento. Vasto programa.
9 de novembro de 2025

Outliers: onde a ciência dos dados encontra histórias de sucesso

A ciência dos dados inverteu o paradigma: os valores atípicos já não são "erros a eliminar", mas sim informações valiosas a compreender. Um único outlier pode distorcer completamente um modelo de regressão linear - alterar o declive de 2 para 10 - mas eliminá-lo pode significar perder o sinal mais importante do conjunto de dados. A aprendizagem automática introduz ferramentas sofisticadas: O Isolation Forest isola os valores atípicos através da construção de árvores de decisão aleatórias, o Local Outlier Fator analisa a densidade local, os Autoencoders reconstroem dados normais e comunicam o que não conseguem reproduzir. Existem valores anómalos globais (temperatura de -10°C nos trópicos), valores anómalos contextuais (gastar 1000 euros num bairro pobre), valores anómalos colectivos (picos de tráfego de rede sincronizados que indicam um ataque). Paralelismo com Gladwell: a "regra das 10.000 horas" é contestada - Paul McCartney dixit "muitas bandas fizeram 10.000 horas em Hamburgo sem sucesso, a teoria não é infalível". O sucesso matemático asiático não é genético mas cultural: o sistema numérico chinês é mais intuitivo, o cultivo do arroz exige um aperfeiçoamento constante, ao contrário da expansão territorial da agricultura ocidental. Aplicações reais: os bancos britânicos recuperam 18% de perdas potenciais através da deteção de anomalias em tempo real, a indústria transformadora detecta defeitos microscópicos que a inspeção humana não detectaria, os cuidados de saúde validam dados de ensaios clínicos com uma sensibilidade de deteção de anomalias superior a 85%. Lição final: à medida que a ciência dos dados passa da eliminação de anomalias para a sua compreensão, temos de encarar as carreiras não convencionais não como anomalias a corrigir, mas como trajectórias valiosas a estudar.