Notas de Engenharia

O Que 1,2 Milhão de Respostas do ChatGPT Revelam Sobre Padrões de Citação de LLMs

TV
Thiago Victorino
10 min de leitura
O Que 1,2 Milhão de Respostas do ChatGPT Revelam Sobre Padrões de Citação de LLMs

Um novo campo chamado “Generative Engine Optimization” — GEO — está ganhando tração. A promessa é clara: otimize seu conteúdo para ser citado por LLMs, da mesma forma que SEO otimizava conteúdo para aparecer no Google.

Kevin Indig, da Gauge, publicou uma análise de 1,2 milhão de respostas do ChatGPT mapeando padrões de citação. Os dados são reais. Os padrões são parcialmente verificáveis. A interpretação é onde o cuidado precisa começar.

O que segue é uma tentativa de separar o sinal verificado do ruído de marketing — e explorar o que esses padrões significam para quem opera IA em produção.

Os Padrões Que Têm Suporte

Vamos começar pelo que é direcionalmente verdadeiro.

Posição importa. 44,2% das citações vêm dos primeiros ~30% de uma página. Isso não é novo. Liu et al., em Stanford, documentaram o fenômeno “Lost in the Middle” em 2023 — LLMs prestam atenção desproporcional ao início e ao fim de sequências longas, com uma depressão significativa no meio. O artigo foi publicado na TACL em 2024 e replicado em trabalhos subsequentes, incluindo um estudo na RANLP 2025 sobre como explorar o efeito de primazia.

A novidade do dado de Indig não é o fenômeno. É a escala da confirmação: 1,2 milhão de respostas mostrando que o viés de posição se manifesta também nos padrões de citação, não apenas na compreensão.

Densidade de entidades importa. Conteúdo com 20,6% de entidades nomeadas — nomes próprios, marcas, ferramentas, pessoas — é mais citado que conteúdo com os 5-8% típicos do inglês padrão. As baselines de 5-8% são verificáveis: o Brown Corpus e o Penn Treebank, referências clássicas em linguística computacional, documentam essa faixa.

A explicação provável é que entidades nomeadas criam âncoras semânticas. Num espaço vetorial, “a ferramenta de análise” é vago. “Redshift” é específico. Especificidade cria embeddings mais diferenciáveis, o que facilita recuperação por sistemas RAG.

Linguagem definitiva supera linguagem vaga. Frases como “X é definido como Y” são citadas com frequência 36,2% maior que formulações hesitantes (20,2%). O paper de Princeton — “GEO: Generative Engine Optimization”, publicado no ACM KDD 2024 por pesquisadores de Princeton, Georgia Tech e Allen AI — encontrou independentemente que “linguagem autoritativa” aumenta visibilidade em motores generativos em até 40%.

Essa convergência entre dados comerciais e pesquisa acadêmica é significativa. Quando uma análise de marketing e um paper revisado por pares chegam à mesma conclusão por caminhos diferentes, a confiança no achado aumenta.

Headings como fronteiras de chunking. Perguntas em headings H2 correlacionam com o dobro de citações. A explicação mais provável não é que LLMs “preferem” perguntas. É que sistemas RAG dividem documentos por headings, e um heading formulado como pergunta produz um chunk que é semanticamente autocontido — título e resposta no mesmo bloco. O sistema de recuperação encontra o chunk relevante com mais precisão.

Legibilidade tem um sweet spot. Conteúdo com Flesch-Kincaid grade 16 — nível universitário — supera conteúdo de grade 19.1 — nível de doutorado. Isso sugere que existe um ponto ótimo: denso o suficiente para ter substância, claro o suficiente para ser parseável por modelos treinados predominantemente em texto da web.

O Que Está Errado ou Exagerado

Aqui é onde a análise precisa de honestidade intelectual.

O artigo confunde três processos distintos. Recuperação (como o sistema RAG seleciona documentos), atenção (o mecanismo interno do transformer que pondera tokens) e geração (como o modelo constrói a resposta citando fontes) são processos fundamentalmente diferentes. Dizer que mapeou “como IA presta atenção” quando mediu padrões de citação é como dizer que mapeou o pensamento de um juiz analisando suas sentenças. As sentenças são evidência. Não são o processo.

“P-value of 0.0” é estatisticamente iletrado. P-values não podem ser exatamente zero. Com uma amostra de 18.012 páginas, significância estatística é trivialmente garantida para praticamente qualquer diferença observada, por menor que seja. O tamanho da amostra garante que o valor-p será minúsculo para correlações reais. Reportar “0.0” não é rigor — é sinal de que a análise estatística foi superficial.

A afirmação sobre a palavra “is” como ponte em bancos vetoriais é incorreta. Modelos de embedding modernos usam representações contextuais. A palavra “is” não tem papel especial como “ponte” em espaços vetoriais. Em modelos como BERT ou seus derivados, cada token recebe um embedding contextualizado que depende da frase inteira. A importância de “is” numa frase definitiva vem da estrutura semântica da afirmação, não de uma propriedade mágica do token.

O threshold de similaridade coseno de 0.55 é baixo. Na literatura acadêmica sobre recuperação de informação, thresholds de similaridade coseno de 0.65 ou superiores são padrão para considerar que dois documentos são semanticamente relacionados. O uso de 0.55 aumenta recall ao custo de precision — mais matches, mas mais matches irrelevantes. Sem essa informação de contexto, os resultados de similaridade reportados no artigo são difíceis de avaliar.

O Conflito que Precisa Ser Declarado

O artigo é da Gauge — uma plataforma comercial de visibilidade em IA. Os dados foram coletados pela Gauge. A análise foi conduzida pela Gauge. O artigo inclui desconto para a Gauge.

Isso não invalida os dados. Mas muda o enquadramento necessário para interpretá-los. Pesquisa de marketing industrial não é pesquisa acadêmica independente. Os incentivos são diferentes. A seleção do que reportar é diferente. A disposição para publicar achados que contradizem o modelo de negócio é diferente.

Contraponha com o Tow Center da Columbia, que em março de 2025 encontrou que motores de busca baseados em IA produzem citações incorretas em mais de 60% dos casos. Esse dado não aparece em nenhuma análise de “como otimizar para ser citado por IA”. Porque o dado implica algo desconfortável: otimizar para ser citado por um sistema que cita errado 60% das vezes é uma proposta de valor questionável.

O Que Está Realmente Provado

Se filtrarmos o ruído de marketing e cruzarmos com a literatura acadêmica, o que resta?

Viés de posição é real e previsível. LLMs dão peso desproporcional ao início de documentos. Isso é consequência da arquitetura de atenção dos transformers e dos padrões de treinamento. Não vai desaparecer com a próxima geração de modelos — está codificado na estrutura.

Especificidade ajuda na recuperação. Conteúdo rico em entidades nomeadas e afirmações definitivas é mais facilmente recuperado por sistemas RAG. Isso é consequência de como espaços vetoriais funcionam, não de uma preferência do modelo.

Estrutura de headings funciona como API para RAG. Headings bem formulados facilitam chunking eficaz. O heading é, na prática, o rótulo do chunk. Chunks bem rotulados são mais facilmente recuperados.

Existe um sweet spot de legibilidade. Conteúdo muito simples não tem densidade informacional suficiente. Conteúdo muito denso excede o que os modelos processam com eficácia. O ponto ótimo está entre eles.

Esses quatro achados são direcionalmente sólidos. Não porque Indig os descobriu, mas porque convergem com evidência acadêmica independente.

As Implicações Que Ninguém Discute

Aqui é onde a discussão fica interessante para quem opera IA em produção — e onde a indústria de GEO não quer que você pense.

Viés de citação previsível é um problema de governança. Se sabemos que LLMs citam desproporcionalmente o início de documentos, conteúdo rico em entidades e linguagem definitiva, então sabemos que LLMs têm viés sistemático de citação. Esse viés não é neutro.

Conteúdo que afirma com confiança é citado mais que conteúdo que reconhece incerteza. Conteúdo que nomeia marcas e ferramentas é citado mais que conteúdo genérico. Conteúdo no topo da página é citado mais que conteúdo no meio.

Para organizações que usam LLMs para pesquisa, análise ou tomada de decisão, isso significa que o output do modelo é sistematicamente enviesado em direção a fontes que são assertivas, específicas e posicionadas no topo — independentemente de serem corretas. O viés de citação recompensa confiança, não acurácia.

GEO pode se tornar o novo SEO — incluindo os piores aspectos. SEO começou como disciplina legítima: ajudar motores de busca a encontrar conteúdo relevante. Degenerou em uma indústria de manipulação: keyword stuffing, link farms, conteúdo gerado para algoritmos, não para humanos.

GEO está no mesmo caminho. Se sabemos que linguagem definitiva aumenta citações, o incentivo é escrever com confiança exagerada — mesmo quando a honestidade exigiria ressalvas. Se sabemos que entidades nomeadas aumentam recuperação, o incentivo é saturar texto com nomes de marcas e ferramentas, mesmo quando são irrelevantes.

A pergunta não é se isso vai acontecer. É quando — e que mecanismos de governança existem para detectar conteúdo otimizado para citação em vez de otimizado para verdade.

Sistemas RAG herdam os vieses do conteúdo que indexam. Organizações que constroem pipelines RAG sobre documentação interna precisam entender que a estrutura dos seus documentos afeta diretamente a qualidade das respostas. Documentos com informações críticas enterradas no meio serão sistematicamente ignorados pelo retrieval. Documentos com afirmações incorretas, mas posicionadas no topo e escritas com linguagem definitiva, serão citados com confiança.

Isso transforma a qualidade da documentação interna em questão de governança de IA. Não é mais apenas “boa prática de documentação”. É requisito para que o sistema RAG não produza respostas enviesadas.

O Que Fazer Com Isso

Três recomendações concretas, uma para cada audiência.

Para quem produz conteúdo: Os achados sobre estrutura — headings como perguntas, informação crítica no topo, especificidade sobre generalidade — são práticas de boa escrita que existem há décadas. Adote-as porque melhoram a comunicação, não porque otimizam para IA. Se o único motivo para melhorar sua escrita é ser citado por um chatbot, seus incentivos estão desalinhados.

Para quem constrói sistemas RAG: Trate a estrutura de documentos como parte da engenharia do sistema. Audite onde informações críticas estão posicionadas nos documentos do seu corpus. Teste se o chunking por headings está capturando unidades semânticas coerentes. Meça se o viés de posição está afetando a qualidade das respostas. Essas são decisões de engenharia, não de “otimização de conteúdo”.

Para quem governa IA: O viés previsível de citação é um risco documentado. Se sua organização depende de LLMs para pesquisa ou análise, o output é sistematicamente enviesado em direção a fontes que são assertivas e posicionadas no topo — não necessariamente corretas. Isso precisa entrar na avaliação de risco. Não como ameaça hipotética, mas como propriedade documentada do sistema.

A Distinção que Define o Campo

O campo de GEO vai se dividir em dois.

De um lado, pesquisadores sérios estudando como sistemas de recuperação e geração interagem com conteúdo — trabalho que tem valor real para a engenharia de sistemas de IA. O paper de Princeton, o trabalho de Stanford sobre “Lost in the Middle”, os estudos do Tow Center sobre precisão de citação. Essa é pesquisa necessária.

Do outro lado, uma indústria de consultoria vendendo “otimização para IA” da mesma forma que vendeu “otimização para Google” — com as mesmas dinâmicas de hype, as mesmas métricas questionáveis, os mesmos conflitos de interesse entre quem pesquisa e quem vende a solução.

A diferença entre os dois lados é simples: um pergunta “como esses sistemas funcionam?” O outro pergunta “como manipulamos esses sistemas?”

Para quem constrói e opera IA, a primeira pergunta é a única que importa.


Referências acadêmicas: Liu et al., “Lost in the Middle: How Language Models Use Long Contexts” (Stanford, TACL 2024). Aggarwal et al., “GEO: Generative Engine Optimization” (Princeton/GT/Allen AI, ACM KDD 2024). Tow Center for Digital Journalism, Columbia University (março 2025). Dados comerciais: Kevin Indig/Gauge, análise de 1,2M respostas do ChatGPT (2026).

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa