- Início
- The Thinking Wire
- Moderação por LLM: Quem Governa o Governante?
Cinco pesquisadores do Google publicaram um survey mapeando como LLMs são usados na moderação de conteúdo. O paper cobre quatro etapas: rotulagem de dados, detecção de abuso, revisão de apelações e auditoria de sistemas. Em cada etapa, a mesma classe de tecnologia aparece.
A conclusão óbvia é que LLMs estão transformando a moderação. A conclusão mais honesta é outra: quando a mesma tecnologia ocupa cada checkpoint do pipeline, quem verifica o verificador?
O método de alinhamento é uma decisão política
A descoberta mais reveladora do paper não é sobre desempenho. É sobre como modelos são treinados.
Modelos ajustados por instrução (instruction-tuned) tendem a sub-predizer abuso. Deixam conteúdo nocivo passar. Modelos treinados com RLHF (feedback humano) fazem o oposto: sinalizam conteúdo benigno como abusivo. A direção do erro muda conforme o método de treinamento.
Isso parece uma questão técnica. É uma questão de política. Quando uma plataforma escolhe um método de alinhamento, está escolhendo quem sofre mais com os erros. Sub-predição protege o alcance de quem publica, mas expõe quem consome. Super-predição protege consumidores, mas silencia publicadores legítimos. Nenhum modelo acerta os dois lados. A escolha é sobre qual erro a organização tolera.
E a maioria das organizações faz essa escolha sem saber que a fez.
Explicações que mentem com fluência
O paper documenta um problema que deveria preocupar qualquer time de compliance: explicações chain-of-thought são “infiéis”. O modelo gera uma justificativa textual para sua decisão, mas essa justificativa não corresponde ao raciocínio real que produziu o resultado.
O dado concreto: moderadores humanos classificam explicações incorretas como aceitáveis. A fluência do texto engana. Se a explicação parece razoável e está bem escrita, o revisor aceita. O modelo não precisa estar certo. Precisa ser convincente.
Para reguladores, isso é um problema estrutural. A EU Digital Services Act exige explicabilidade nas decisões de moderação. Se a explicação que o sistema fornece é desconectada da decisão real, a conformidade é aparente, não substantiva. A organização apresenta documentação que satisfaz a forma da lei sem satisfazer a substância.
Como documentamos sobre governança de plataformas, as decisões de moderação já carregam consequências comerciais concretas. Reddit e ChatGPT escolheram modelos opostos de governança de presença de IA, e ambas as decisões alteraram o terreno para marcas. Quando essas decisões são tomadas por sistemas cujas explicações não são confiáveis, o risco se multiplica.
O problema da escala e do viés
Filtros de toxicidade testados pelo paper mostram disparidades sistemáticas ao longo de 1.200 grupos identitários. Populações marginalizadas são afetadas desproporcionalmente. O viés não é aleatório. É estrutural e reproduzível.
A solução mais comum em produção é voto majoritário entre múltiplos modelos. A lógica parece sólida: se três modelos concordam, a decisão provavelmente está correta. O problema é que modelos treinados com dados semelhantes carregam vieses semelhantes. Voto majoritário entre sistemas enviesados na mesma direção não corrige o viés. Amplifica.
No Facebook, 1% de falso positivo significa dezenas de milhões de ações erradas por dia. Qualquer melhoria percentual é significativa. Qualquer viés sistemático é catastrófico.
Instabilidade temporal: o chão que se move
Os pesquisadores documentam que scores de toxicidade mudam quando modelos são atualizados. GPT-5 apresenta taxas de sinalização mais baixas que GPT-4.1 em quase todos os temas testados.
A implicação prática: uma política de moderação calibrada para um modelo específico se descalibra quando o modelo é atualizado. A organização que não monitora essa variação descobre o problema quando os números de remoção mudam sem explicação, ou quando um regulador pergunta por que o mesmo conteúdo recebe tratamento diferente em momentos diferentes.
Isso não é bug. É consequência de usar modelos que mudam como infraestrutura que deveria ser estável.
O conflito de interesses que ninguém menciona
O paper vem de pesquisadores do Google. A empresa vende LLMs e é simultaneamente obrigada a moderar conteúdo em escala (YouTube, Google Play, Google Ads). Esse conflito não invalida a pesquisa, mas contextualiza as ausências.
Os benchmarks documentados são quase exclusivamente em inglês. O F1-score de 0,75 que aparece como resultado competitivo significa erro em um quarto das decisões. Para uma ferramenta de produtividade, 25% de erro é aceitável. Para decisões de segurança que afetam bilhões de usuários, é medíocre.
O mercado de moderação de conteúdo movimenta US$ 11,63 bilhões em 2025 e deve alcançar US$ 26 bilhões até 2031. Vinte e sete por cento dos líderes de trust and safety citam custo como o maior desafio. A pressão econômica para automatizar é real. A pressão para verificar a automação é, por enquanto, regulatória e reputacional.
Roteamento como governança implícita
O paper descreve sistemas como SafeRoute, que direcionam conteúdo fácil para modelos menores e baratos, reservando modelos frontier para casos difíceis. Outro sistema, FraudSquad, alcança 44% de melhoria de precisão sobre baselines na detecção de spam gerado por LLM.
Esses sistemas de roteamento são, na prática, camadas de governança disfarçadas de otimização de custo. A decisão de qual modelo avalia qual conteúdo determina quem recebe atenção cuidadosa e quem recebe triagem automatizada. Quando essa decisão é tratada como engenharia de custos (e não como política de moderação), as consequências distributivas ficam invisíveis.
A Cloudflare fez movimento semelhante: tornou detecção de endpoints de IA gratuita, estabelecendo um piso de governança como infraestrutura. A diferença é que a Cloudflare foi explícita sobre o que estava fazendo. Sistemas de roteamento de moderação fazem governança sem chamar de governança.
O déficit que importa
O problema real não é técnico. LLMs podem melhorar em moderação. F1-scores vão subir. Novos métodos de alinhamento vão surgir. A questão é organizacional.
Quem decide qual método de alinhamento usar, e com base em quais critérios? Quem monitora a variação temporal dos scores quando modelos são atualizados? Quem audita se as explicações chain-of-thought correspondem às decisões reais? Quem verifica se o sistema de roteamento não cria tratamento desigual por design?
Como argumentamos sobre publicidade e governança, a indústria tende a tratar governança como custo a ser minimizado. A moderação de conteúdo segue o mesmo padrão: pressão para automatizar, resistência a verificar.
A resposta não é parar de usar LLMs para moderação. É tratar o pipeline de moderação como o que ele é: infraestrutura de governança que precisa de sua própria governança. Sem isso, a organização opera um sistema que toma decisões sobre bilhões de interações, com explicações que mentem, vieses que se amplificam e calibrações que mudam sem aviso.
O custo de governar esse sistema é alto. O custo de não governar é regulatório, reputacional e, para as populações mais afetadas por viés algorítmico, pessoal.
Fontes
- Kath, Badhe, Shah, Sampathkumar, Gupta. “Large Language Models in the Abuse Detection Pipeline.” Março 2026.
- Help Net Security. “Google researchers outline how LLMs are used in content moderation.” Abril 2026.
- Shi et al. “SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails.” Fevereiro 2025.
- Lanham et al. “Measuring Faithfulness in Chain-of-Thought Reasoning.” Maio 2023.
- Srinivasan et al. “Longitudinal Monitoring of LLM Content Moderation.” Outubro 2025.
- Wang et al. “FraudSquad: Multi-Agent Framework for LLM-Generated Fraud Detection.” Outubro 2025.
- Springer. “Content moderation and artificial intelligence: A systematic literature review.” 2025.
Victorino Group ajuda organizações a construir governança de IA que sobrevive ao contato com produção: contato@victorino.com.br | www.victorino.com.br
Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →
Se isso faz sentido, vamos conversar
Ajudamos empresas a implementar IA sem perder o controle.
Agendar uma Conversa