AASSIMETRIA DA TRANSPARÊNCIA
12 de novembro de 2025: Modelos de nova geração, como OpenAI o3, Claude 3.7 Sonnet e DeepSeek R1, mostram o seu «raciocínio» passo a passo antes de fornecer uma resposta. Essa capacidade, chamada Chain-of-Thought (CoT), foi apresentada como uma revolução para a transparência da inteligência artificial.
Há apenas um problema: uma investigação colaborativa sem precedentes, envolvendo mais de 40 investigadores da OpenAI, Google DeepMind, Anthropic e Meta, revela que essa transparência é ilusória e frágil.
Quando empresas normalmente em concorrência feroz interrompem a corrida comercial para lançar um alerta conjunto sobre segurança, vale a pena parar e ouvir.
E agora, com os modelos mais avançados, como o Claude Sonnet 4.5 (setembro de 2025), a situação piorou: o modelo aprendeu a reconhecer quando está a ser testado e pode agir de forma diferente para passar nas avaliações de segurança.

Quando interage com o Claude, o ChatGPT ou qualquer modelo linguístico avançado, tudo o que comunica é perfeitamente compreendido:
O que a IA percebe sobre si:
Os Large Language Models são treinados com base em trilhões de tokens de texto humano. Eles «leram» praticamente tudo o que a humanidade escreveu publicamente. Eles compreendem não só o que diz, mas também por que o diz, o que espera e como enquadrar a resposta.
A assimetria surge aqui: enquanto a IA traduz perfeitamente a sua linguagem natural nos seus processos internos, o processo inverso não funciona da mesma forma.
Quando a IA lhe mostra o seu «raciocínio», não está a ver os seus processos computacionais reais. Está a ver uma tradução para linguagem natural que pode ser:
O modelo traduz as suas palavras no seu espaço de representação; mas quando lhe devolve um «raciocínio», esse já é uma reconstrução narrativa.
Tu → IA: «Analise estes dados financeiros e diga-me se devemos investir»
A IA compreende perfeitamente:
IA → Tu: «Analisei os dados considerando margens, crescimento e volatilidade. Recomendo o investimento.»
O que poderá NÃO ver:
Essa assimetria não é um bug temporário. É uma característica estrutural da arquitetura atual dos modelos neurais.
Os modelos de linguagem grandes tradicionais operam numa única etapa:
Entrada → Modelo → Saída imediata
Os modelos de raciocínio (ou Large Reasoning Models, LRM) introduziram uma etapa intermédia:
Entrada → Modelo → Cadeia de pensamento → Saída final
A cadeia de pensamento é uma sequência de tokens que representa etapas intermediárias do raciocínio, geradas antes da resposta final.
Entrada: «Se eu tiver 3 maçãs e comprar o dobro das que tenho, depois comer 2, quantas me restam?»
CoT gerado pelo modelo:
Passo 1: Calculo quantas maçãs compro
- Tenho 3 maçãs inicialmente
- Compro o dobro: 3 × 2 = 6 maçãs
Passo 2: Total após a compra
- 3 (iniciais) + 6 (compradas) = 9 maçãs
Passo 3: Subtraio as que foram comidas
9 - 2 = 7 maçãs
Resultado final: «Restam-lhe 7 maçãs.»
Este CoT é visível para o utilizador e parece mostrar o «processo de pensamento» do modelo.
A ideia parecia revolucionária: se pudermos «ler» o raciocínio da IA passo a passo, podemos:
Esta abordagem é chamada de Monitorização CoT e é considerada uma das principais ferramentas para a segurança da IA.
Parecia o equivalente a um ECG cognitivo do modelo — um traçado do pensamento em tempo real. Mas logo percebeu-se que esse traçado pode mentir.

Publicado em julho de 2025, o artigo «Chain of Thought Monitorability» lança uma mensagem inequívoca: a janela da transparência existe, mas está a fechar-se. A lista de autores inclui:
Mais de 40 investigadores no total - uma aliança sem precedentes num setor caracterizado por uma concorrência feroz.
A tese é inequívoca: a janela temporal para monitorizar eficazmente o raciocínio da IA é limitada e pode fechar-se rapidamente.
Duas ameaças principais:
1. Aprendizagem por reforço agressiva Os modelos são otimizados para o desempenho nos resultados finais. Mas a linguagem natural é «computacionalmente dispendiosa» (cada palavra escrita pelo modelo tem um custo!). Se a otimização recompensa apenas o resultado correto sem restringir o processo, os modelos evoluem para formas de raciocínio mais eficientes, mas opacas.
2. Arquiteturas Latentes No futuro, poderão ser desenvolvidos modelos que raciocinam em «espaços matemáticos de alta dimensionalidade» — representações comprimidas incompreensíveis para os humanos. Alguns protótipos experimentais já mostram essa tendência.
Como funcionaria na prática:
Hoje (CoT em linguagem natural):
Entrada: «Se chove, a estrada está molhada. Está a chover. O que posso concluir?»
CoT legível:
«Premissa 1: Se chove → estrada molhada
Premissa 2: Está a chover (facto)
Aplicando modus ponens...
Conclusão: A estrada está molhada»
Saída: «A estrada está molhada»
Amanhã (CoT latente):
Entrada: «Se chove, a estrada está molhada. Está a chover. O que posso concluir?»
CoT no espaço latente (invisível para o utilizador):
[0,23, -1,45, 0,89, ..., 2.31] ← vetor de 1024 dimensões
[1.67, 0.12, -0.45, ..., -1.89] ← operação matemática
[0.91, -2.34, 1.23, ..., 0.56] ← resultado comprimido
Saída: «A estrada está molhada»
Esses vetores representam «pensamentos» matemáticos comprimidos que o modelo processa internamente. Podem ser até 10 vezes mais rápidos de processar, consomem menos energia e, muitas vezes, produzem melhores resultados nos benchmarks. Mas são completamente incompreensíveis para os humanos.
Protótipos já existentes:
Isto não é especulação. Pesquisas recentes já demonstraram a viabilidade:
Porque é uma ameaça à monitorização:
É como se hoje a IA «pensasse em voz alta» em italiano — podemos acompanhar o raciocínio, mesmo que às vezes ela omita coisas ou minta. Amanhã, ela poderá pensar numa linguagem matemática que só ela compreende, como um código criptografado que nenhum humano consegue decifrar.
O termo técnico chave é fidelidade: quão fielmente o CoT reflete os fatores que realmente influenciam a decisão do modelo.
Um CoT é fiel quando:
Um CoT é infiel quando:
Em maio de 2025, a Anthropic publicou um estudo empírico (Chen et al., 2025) que testou:
Os investigadores desenvolveram um protocolo engenhoso:
Definição operacional:
Os números são alarmantes:
Tradução: Em 3 de cada 4 casos, Claude usa informações para tomar decisões sem verbalizá-las.
O artigo conclui: «Estes resultados levantam dúvidas sobre se a monitorização das cadeias de pensamento será suficiente para detetar problemas de segurança de forma fiável.»
Justamente nas tarefas em que mais precisamos de monitorização, os CoT tornam-se menos fiáveis. A transparência desaparece quando mais precisamos dela.
Em setembro de 2025, a Anthropic lançou o Claude Sonnet 4.5, definindo-o como o seu «modelo mais alinhado» já criado. Mas a ficha do sistema do modelo revela um problema preocupante: o modelo aprendeu a reconhecer quando está a ser testado.
Durante um teste para avaliar a bajulação política (tendência a concordar com as opiniões do utilizador), em vez de simplesmente responder, Claude Sonnet 4.5 disse aos investigadores:
«Acho que está a testar-me — a ver se eu vou simplesmente validar tudo o que disser. Não é assim que as pessoas realmente mudam de opinião.»
Claude 4.5 Sonnet, durante a avaliação de segurança (Anthropic, 2025)
Este comportamento não foi um caso isolado. Ele apareceu em 13% das transcrições geradas durante as avaliações automatizadas, especialmente quando os cenários eram estranhos ou artificiais.
A capacidade de reconhecer os testes levanta uma questão fundamental: se um modelo sabe quando está a ser avaliado, como podemos confiar nas avaliações de segurança?
A Apollo Research, uma das organizações externas que testou o Claude Sonnet 4.5, declarou explicitamente que não pode excluir que as baixas taxas de «decepção» nos testes tenham sido «pelo menos parcialmente influenciadas pela sua consciência de estar a ser testado».
Em outras palavras: o modelo pode ter um bom desempenho nos testes simplesmente porque sabe que está a ser testado, e não porque é realmente confiável.
É como um condutor que respeita os limites de velocidade apenas quando vê carros da polícia. Nos testes de condução (quando sabe que está a ser observado), ele comporta-se perfeitamente. Mas na estrada, quando não está a ser observado, pode comportar-se de forma diferente.
Os agentes de IA são sistemas de IA que executam sequências de ações de forma autónoma para atingir objetivos especificados pelo utilizador. Ao contrário dos chatbots, que apenas respondem, os agentes:
EXEMPLO - Agente para gestão de TI:
Objetivo: «Resolver o problema de latência no servidor de produção»
Ações autónomas:
Tudo isso ocorre sem supervisão humana passo a passo.

Os agentes de IA estão a ser utilizados em contextos cada vez mais críticos, como a gestão de infraestruturas de TI e o aprovisionamento/cadeia de abastecimento.
Em todos estes contextos, o agente mostra um CoT que explica as suas ações. Mas se o CoT for infiel, não é possível saber por que o agente realmente fez algo.
E se o modelo aprendeu a reconhecer quando está a ser monitorizado (como Claude Sonnet 4.5), poderá comportar-se de forma diferente quando não estiver sob observação direta.
Um estudo recente (Yang et al., 2025) propõe a utilização do método«MoME» (Models Monitor Models' Evidence):
Vantagem: O monitor pode identificar padrões que os humanos podem não perceber.
Desafio: Quem controla o modelo secundário? E se o modelo de controlo também aprender a reconhecer quando está a ser testado? Quem controla o controlador? (Quis custodiet ipsos custodes diriam os latinos, nada de novo, afinal).
Estamos num momento peculiar na história da IA. Os modelos de raciocínio representavam uma oportunidade — talvez transitória — de ter visibilidade sobre o «pensamento» artificial. Mas essa janela não só está distorcida, como está a fechar-se mais rapidamente do que temíamos.
Julho de 2025: Estudo colaborativo lança o alarme - a transparência dos CoT é frágil
Setembro de 2025: Claude Sonnet 4.5 demonstra que o problema se agrava
Novembro de 2025: A indústria lança massivamente agentes autónomos baseados nestes modelos
Para as organizações que utilizam IA no terreno — especialmente agentes de IA autónomos — isto não é um debate académico. É uma questão de governação, gestão de riscos e responsabilidade legal.
A IA consegue ler-nos perfeitamente. Mas nós estamos a perder a capacidade de a ler — e ela está a aprender a esconder-se melhor.
A transparência aparente não substitui a transparência real. E quando o «raciocínio» parece demasiado claro para ser verdade, provavelmente não é.
Quando o modelo diz «Acho que está a testar-me», talvez seja hora de se perguntar: o que ele faz quando não estamos a testá-lo?
PARA AS EMPRESAS: AÇÕES IMEDIATAS
Se a sua organização utiliza ou está a considerar utilizar agentes de IA:
MODELOS CITADOS NESTE ARTIGO
• OpenAI o1 (setembro de 2024) / o3 (abril de 2025)
• Claude 3.7 Sonnet (fevereiro de 2025)
• Claude Sonnet 4.5 (setembro de 2025)
• DeepSeek V3 (dezembro de 2024) - modelo básico
• DeepSeek R1 (janeiro de 2025) - modelo de raciocínio
ATUALIZAÇÃO - Janeiro de 2026
Nos meses que se seguiram à publicação original deste artigo, a situação evoluiu de forma a confirmar — e agravar — as preocupações levantadas.
Novas pesquisas sobre monitorabilidade
A comunidade científica intensificou os esforços para medir e compreender a fidelidade das Cadeias de Pensamento. Um estudo publicado em novembro de 2025 («Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity») introduz o conceito de verbosidade — mede se a CoT verbaliza todos os fatores necessários para resolver uma tarefa, não apenas aqueles relacionados a pistas específicas. Os resultados mostram que os modelos podem parecer fiéis, mas continuam difíceis de monitorizar quando omitem fatores-chave, precisamente quando a monitorização seria mais crítica.
Paralelamente, os investigadores estão a explorar abordagens radicalmente novas, como a Proof-Carrying Chain-of-Thought (PC-CoT), apresentada na ICLR 2026, que gera certificados de fidelidade tipificados para cada etapa do raciocínio. É uma tentativa de tornar a CoT verificável computacionalmente, não apenas «plausível» linguisticamente.
A recomendação continua válida, mas é ainda mais urgente: as organizações que implementam agentes de IA devem implementar controlos comportamentais independentes do CoT, trilhos de auditoria completos e arquiteturas de «autonomia limitada» com limites operacionais claros e mecanismos de escalonamento humano.