Fabio Lauria

O problema dos morangos

17 de março de 2025
Partilhar nas redes sociais

O anúncio de 'Strawberry" da OpenAI chamou a atenção para uma limitação fundamental dos modelos linguísticos: a sua incapacidade de analisar letras individuais dentro das palavras. Esta fraqueza revela aspectos profundos sobre o seu funcionamento.

O problema da contagem

Quando se pede ao ChatGPT para contar os 'r' na palavra 'strawberry', o modelo engana-se frequentemente. Este erro não se deve a uma falta de inteligência, mas à forma como os modelos linguísticos analisam o texto. Para perceber porquê, é preciso conhecer o conceito de tokenização.

O mundo visto através de fichas

Os modelos linguísticos não vêem as palavras como sequências de letras, mas como 'tokens' - unidades de significado convertidas em números. É como ler um livro em que cada palavra é substituída por um código numérico. A palavra "livros escolares", por exemplo, é dividida em dois tokens separados: "escola" e "livros". Isto explica porque é que o modelo tem dificuldade em contar corretamente o 'o' desta palavra - na realidade, não o vê como uma palavra.

Um exemplo elucidativo

Imagina aprender uma língua em que a palavra "escola" é sempre representada pelo número "412". Se alguém nos perguntasse quantos 'o's' há em '412', não seríamos capazes de responder corretamente sem nunca termos visto a palavra escrita por extenso. Os modelos linguísticos encontram-se numa situação semelhante: processam os significados através de números, sem acesso à composição literal das palavras.

O desafio das palavras compostas

O problema agrava-se ainda mais com palavras compostas. 'Timekeeper' está dividido em tokens separados, o que torna difícil para o modelo determinar a posição exacta das letras 'e'. Esta fragmentação afecta não só a contagem das letras, mas também a compreensão da estrutura interna da palavra.

A solução para o problema dos morangos (talvez)

O futuro modelo OpenAI, Strawberry, deve ultrapassar esta limitação introduzindo uma abordagem inovadora ao processamento de texto. Em vez de se basear apenas na tokenização tradicional, o modelo deverá ser capaz de analisar as palavras ao nível das letras individuais, permitindo operações de contagem e análise mais precisas.

Implicações futuras

A importância deste problema vai para além da simples contagem de letras. Esta capacidade de análise granular poderia melhorar significativamente a compreensão linguística dos modelos de IA, permitindo-lhes resolver problemas que exigem uma análise detalhada do texto ao nível dos caracteres.

A integração planeada desta tecnologia será um grande avanço na direção de modelos linguísticos mais capazes de "raciocinar" sobre os pormenores fundamentais da linguagem, e não apenas sobre padrões estatísticos.

Fabio Lauria

CEO e fundador | Electe

Diretor Executivo da Electe, ajudo as PME a tomar decisões baseadas em dados. Escrevo sobre inteligência artificial no mundo dos negócios.

Mais populares
Inscreva-se para receber as últimas notícias

Receba mensalmente notícias e informações na sua caixa de correio eletrónico
. Não perca!

Obrigado! Seu envio foi recebido!
Ops! Algo deu errado ao enviar o formulário.