O anúncio de 'Strawberry" da OpenAI chamou a atenção para uma limitação fundamental dos modelos linguísticos: a sua incapacidade de analisar letras individuais dentro das palavras. Esta fraqueza revela aspectos profundos sobre o seu funcionamento.
O problema da contagem
Quando se pede ao ChatGPT para contar os 'r' na palavra 'strawberry', o modelo engana-se frequentemente. Este erro não se deve a uma falta de inteligência, mas à forma como os modelos linguísticos analisam o texto. Para perceber porquê, é preciso conhecer o conceito de tokenização.
O mundo visto através de fichas
Os modelos linguísticos não vêem as palavras como sequências de letras, mas como 'tokens' - unidades de significado convertidas em números. É como ler um livro em que cada palavra é substituída por um código numérico. A palavra "livros escolares", por exemplo, é dividida em dois tokens separados: "escola" e "livros". Isto explica porque é que o modelo tem dificuldade em contar corretamente o 'o' desta palavra - na realidade, não o vê como uma palavra.
Um exemplo elucidativo
Imagina aprender uma língua em que a palavra "escola" é sempre representada pelo número "412". Se alguém nos perguntasse quantos 'o's' há em '412', não seríamos capazes de responder corretamente sem nunca termos visto a palavra escrita por extenso. Os modelos linguísticos encontram-se numa situação semelhante: processam os significados através de números, sem acesso à composição literal das palavras.
O desafio das palavras compostas
O problema agrava-se ainda mais com palavras compostas. 'Timekeeper' está dividido em tokens separados, o que torna difícil para o modelo determinar a posição exacta das letras 'e'. Esta fragmentação afecta não só a contagem das letras, mas também a compreensão da estrutura interna da palavra.
A solução para o problema dos morangos (talvez)
O futuro modelo OpenAI, Strawberry, deve ultrapassar esta limitação introduzindo uma abordagem inovadora ao processamento de texto. Em vez de se basear apenas na tokenização tradicional, o modelo deverá ser capaz de analisar as palavras ao nível das letras individuais, permitindo operações de contagem e análise mais precisas.
Implicações futuras
A importância deste problema vai para além da simples contagem de letras. Esta capacidade de análise granular poderia melhorar significativamente a compreensão linguística dos modelos de IA, permitindo-lhes resolver problemas que exigem uma análise detalhada do texto ao nível dos caracteres.
A integração planeada desta tecnologia será um grande avanço na direção de modelos linguísticos mais capazes de "raciocinar" sobre os pormenores fundamentais da linguagem, e não apenas sobre padrões estatísticos.