Moderação por LLM: Quem Governa o Governante?

Cinco pesquisadores do Google publicaram um survey mapeando como LLMs são usados na moderação de conteúdo. O paper cobre quatro etapas: rotulagem de dados, detecção de abuso, revisão de apelações e auditoria de sistemas. Em cada etapa, a mesma classe de tecnologia aparece.

A conclusão óbvia é que LLMs estão transformando a moderação. A conclusão mais honesta é outra: quando a mesma tecnologia ocupa cada checkpoint do pipeline, quem verifica o verificador?

O método de alinhamento é uma decisão política

A descoberta mais reveladora do paper não é sobre desempenho. É sobre como modelos são treinados.

Modelos ajustados por instrução (instruction-tuned) tendem a sub-predizer abuso. Deixam conteúdo nocivo passar. Modelos treinados com RLHF (feedback humano) fazem o oposto: sinalizam conteúdo benigno como abusivo. A direção do erro muda conforme o método de treinamento.

Isso parece uma questão técnica. É uma questão de política. Quando uma plataforma escolhe um método de alinhamento, está escolhendo quem sofre mais com os erros. Sub-predição protege o alcance de quem publica, mas expõe quem consome. Super-predição protege consumidores, mas silencia publicadores legítimos. Nenhum modelo acerta os dois lados. A escolha é sobre qual erro a organização tolera.

E a maioria das organizações faz essa escolha sem saber que a fez.

Explicações que mentem com fluência

O paper documenta um problema que deveria preocupar qualquer time de compliance: explicações chain-of-thought são “infiéis”. O modelo gera uma justificativa textual para sua decisão, mas essa justificativa não corresponde ao raciocínio real que produziu o resultado.

O dado concreto: moderadores humanos classificam explicações incorretas como aceitáveis. A fluência do texto engana. Se a explicação parece razoável e está bem escrita, o revisor aceita. O modelo não precisa estar certo. Precisa ser convincente.

Para reguladores, isso é um problema estrutural. A EU Digital Services Act exige explicabilidade nas decisões de moderação. Se a explicação que o sistema fornece é desconectada da decisão real, a conformidade é aparente, não substantiva. A organização apresenta documentação que satisfaz a forma da lei sem satisfazer a substância.

Como documentamos sobre governança de plataformas, as decisões de moderação já carregam consequências comerciais concretas. Reddit e ChatGPT escolheram modelos opostos de governança de presença de IA, e ambas as decisões alteraram o terreno para marcas. Quando essas decisões são tomadas por sistemas cujas explicações não são confiáveis, o risco se multiplica.

O problema da escala e do viés

Filtros de toxicidade testados pelo paper mostram disparidades sistemáticas ao longo de 1.200 grupos identitários. Populações marginalizadas são afetadas desproporcionalmente. O viés não é aleatório. É estrutural e reproduzível.

A solução mais comum em produção é voto majoritário entre múltiplos modelos. A lógica parece sólida: se três modelos concordam, a decisão provavelmente está correta. O problema é que modelos treinados com dados semelhantes carregam vieses semelhantes. Voto majoritário entre sistemas enviesados na mesma direção não corrige o viés. Amplifica.

No Facebook, 1% de falso positivo significa dezenas de milhões de ações erradas por dia. Qualquer melhoria percentual é significativa. Qualquer viés sistemático é catastrófico.

Instabilidade temporal: o chão que se move

Os pesquisadores documentam que scores de toxicidade mudam quando modelos são atualizados. GPT-5 apresenta taxas de sinalização mais baixas que GPT-4.1 em quase todos os temas testados.

A implicação prática: uma política de moderação calibrada para um modelo específico se descalibra quando o modelo é atualizado. A organização que não monitora essa variação descobre o problema quando os números de remoção mudam sem explicação, ou quando um regulador pergunta por que o mesmo conteúdo recebe tratamento diferente em momentos diferentes.

Isso não é bug. É consequência de usar modelos que mudam como infraestrutura que deveria ser estável.

O conflito de interesses que ninguém menciona

O paper vem de pesquisadores do Google. A empresa vende LLMs e é simultaneamente obrigada a moderar conteúdo em escala (YouTube, Google Play, Google Ads). Esse conflito não invalida a pesquisa, mas contextualiza as ausências.

Os benchmarks documentados são quase exclusivamente em inglês. O F1-score de 0,75 que aparece como resultado competitivo significa erro em um quarto das decisões. Para uma ferramenta de produtividade, 25% de erro é aceitável. Para decisões de segurança que afetam bilhões de usuários, é medíocre.

O mercado de moderação de conteúdo movimenta US$ 11,63 bilhões em 2025 e deve alcançar US$ 26 bilhões até 2031. Vinte e sete por cento dos líderes de trust and safety citam custo como o maior desafio. A pressão econômica para automatizar é real. A pressão para verificar a automação é, por enquanto, regulatória e reputacional.

Roteamento como governança implícita

O paper descreve sistemas como SafeRoute, que direcionam conteúdo fácil para modelos menores e baratos, reservando modelos frontier para casos difíceis. Outro sistema, FraudSquad, alcança 44% de melhoria de precisão sobre baselines na detecção de spam gerado por LLM.

Esses sistemas de roteamento são, na prática, camadas de governança disfarçadas de otimização de custo. A decisão de qual modelo avalia qual conteúdo determina quem recebe atenção cuidadosa e quem recebe triagem automatizada. Quando essa decisão é tratada como engenharia de custos (e não como política de moderação), as consequências distributivas ficam invisíveis.

A Cloudflare fez movimento semelhante: tornou detecção de endpoints de IA gratuita, estabelecendo um piso de governança como infraestrutura. A diferença é que a Cloudflare foi explícita sobre o que estava fazendo. Sistemas de roteamento de moderação fazem governança sem chamar de governança.

O déficit que importa

O problema real não é técnico. LLMs podem melhorar em moderação. F1-scores vão subir. Novos métodos de alinhamento vão surgir. A questão é organizacional.

Quem decide qual método de alinhamento usar, e com base em quais critérios? Quem monitora a variação temporal dos scores quando modelos são atualizados? Quem audita se as explicações chain-of-thought correspondem às decisões reais? Quem verifica se o sistema de roteamento não cria tratamento desigual por design?

Como argumentamos sobre publicidade e governança, a indústria tende a tratar governança como custo a ser minimizado. A moderação de conteúdo segue o mesmo padrão: pressão para automatizar, resistência a verificar.

A resposta não é parar de usar LLMs para moderação. É tratar o pipeline de moderação como o que ele é: infraestrutura de governança que precisa de sua própria governança. Sem isso, a organização opera um sistema que toma decisões sobre bilhões de interações, com explicações que mentem, vieses que se amplificam e calibrações que mudam sem aviso.

O custo de governar esse sistema é alto. O custo de não governar é regulatório, reputacional e, para as populações mais afetadas por viés algorítmico, pessoal.

Fontes

Kath, Badhe, Shah, Sampathkumar, Gupta. “Large Language Models in the Abuse Detection Pipeline.” Março 2026.
Help Net Security. “Google researchers outline how LLMs are used in content moderation.” Abril 2026.
Shi et al. “SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails.” Fevereiro 2025.
Lanham et al. “Measuring Faithfulness in Chain-of-Thought Reasoning.” Maio 2023.
Srinivasan et al. “Longitudinal Monitoring of LLM Content Moderation.” Outubro 2025.
Wang et al. “FraudSquad: Multi-Agent Framework for LLM-Generated Fraud Detection.” Outubro 2025.
Springer. “Content moderation and artificial intelligence: A systematic literature review.” 2025.

Victorino Group ajuda organizações a construir governança de IA que sobrevive ao contato com produção: contato@victorino.com.br | www.victorino.com.br