Moderação por LLM: Quem Governa o Governante?

TV
Thiago Victorino
9 min de leitura
Moderação por LLM: Quem Governa o Governante?
Ouvir este artigo

Cinco pesquisadores do Google publicaram um survey mapeando como LLMs são usados na moderação de conteúdo. O paper cobre quatro etapas: rotulagem de dados, detecção de abuso, revisão de apelações e auditoria de sistemas. Em cada etapa, a mesma classe de tecnologia aparece.

A conclusão óbvia é que LLMs estão transformando a moderação. A conclusão mais honesta é outra: quando a mesma tecnologia ocupa cada checkpoint do pipeline, quem verifica o verificador?

O método de alinhamento é uma decisão política

A descoberta mais reveladora do paper não é sobre desempenho. É sobre como modelos são treinados.

Modelos ajustados por instrução (instruction-tuned) tendem a sub-predizer abuso. Deixam conteúdo nocivo passar. Modelos treinados com RLHF (feedback humano) fazem o oposto: sinalizam conteúdo benigno como abusivo. A direção do erro muda conforme o método de treinamento.

Isso parece uma questão técnica. É uma questão de política. Quando uma plataforma escolhe um método de alinhamento, está escolhendo quem sofre mais com os erros. Sub-predição protege o alcance de quem publica, mas expõe quem consome. Super-predição protege consumidores, mas silencia publicadores legítimos. Nenhum modelo acerta os dois lados. A escolha é sobre qual erro a organização tolera.

E a maioria das organizações faz essa escolha sem saber que a fez.

Explicações que mentem com fluência

O paper documenta um problema que deveria preocupar qualquer time de compliance: explicações chain-of-thought são “infiéis”. O modelo gera uma justificativa textual para sua decisão, mas essa justificativa não corresponde ao raciocínio real que produziu o resultado.

O dado concreto: moderadores humanos classificam explicações incorretas como aceitáveis. A fluência do texto engana. Se a explicação parece razoável e está bem escrita, o revisor aceita. O modelo não precisa estar certo. Precisa ser convincente.

Para reguladores, isso é um problema estrutural. A EU Digital Services Act exige explicabilidade nas decisões de moderação. Se a explicação que o sistema fornece é desconectada da decisão real, a conformidade é aparente, não substantiva. A organização apresenta documentação que satisfaz a forma da lei sem satisfazer a substância.

Como documentamos sobre governança de plataformas, as decisões de moderação já carregam consequências comerciais concretas. Reddit e ChatGPT escolheram modelos opostos de governança de presença de IA, e ambas as decisões alteraram o terreno para marcas. Quando essas decisões são tomadas por sistemas cujas explicações não são confiáveis, o risco se multiplica.

O problema da escala e do viés

Filtros de toxicidade testados pelo paper mostram disparidades sistemáticas ao longo de 1.200 grupos identitários. Populações marginalizadas são afetadas desproporcionalmente. O viés não é aleatório. É estrutural e reproduzível.

A solução mais comum em produção é voto majoritário entre múltiplos modelos. A lógica parece sólida: se três modelos concordam, a decisão provavelmente está correta. O problema é que modelos treinados com dados semelhantes carregam vieses semelhantes. Voto majoritário entre sistemas enviesados na mesma direção não corrige o viés. Amplifica.

No Facebook, 1% de falso positivo significa dezenas de milhões de ações erradas por dia. Qualquer melhoria percentual é significativa. Qualquer viés sistemático é catastrófico.

Instabilidade temporal: o chão que se move

Os pesquisadores documentam que scores de toxicidade mudam quando modelos são atualizados. GPT-5 apresenta taxas de sinalização mais baixas que GPT-4.1 em quase todos os temas testados.

A implicação prática: uma política de moderação calibrada para um modelo específico se descalibra quando o modelo é atualizado. A organização que não monitora essa variação descobre o problema quando os números de remoção mudam sem explicação, ou quando um regulador pergunta por que o mesmo conteúdo recebe tratamento diferente em momentos diferentes.

Isso não é bug. É consequência de usar modelos que mudam como infraestrutura que deveria ser estável.

O conflito de interesses que ninguém menciona

O paper vem de pesquisadores do Google. A empresa vende LLMs e é simultaneamente obrigada a moderar conteúdo em escala (YouTube, Google Play, Google Ads). Esse conflito não invalida a pesquisa, mas contextualiza as ausências.

Os benchmarks documentados são quase exclusivamente em inglês. O F1-score de 0,75 que aparece como resultado competitivo significa erro em um quarto das decisões. Para uma ferramenta de produtividade, 25% de erro é aceitável. Para decisões de segurança que afetam bilhões de usuários, é medíocre.

O mercado de moderação de conteúdo movimenta US$ 11,63 bilhões em 2025 e deve alcançar US$ 26 bilhões até 2031. Vinte e sete por cento dos líderes de trust and safety citam custo como o maior desafio. A pressão econômica para automatizar é real. A pressão para verificar a automação é, por enquanto, regulatória e reputacional.

Roteamento como governança implícita

O paper descreve sistemas como SafeRoute, que direcionam conteúdo fácil para modelos menores e baratos, reservando modelos frontier para casos difíceis. Outro sistema, FraudSquad, alcança 44% de melhoria de precisão sobre baselines na detecção de spam gerado por LLM.

Esses sistemas de roteamento são, na prática, camadas de governança disfarçadas de otimização de custo. A decisão de qual modelo avalia qual conteúdo determina quem recebe atenção cuidadosa e quem recebe triagem automatizada. Quando essa decisão é tratada como engenharia de custos (e não como política de moderação), as consequências distributivas ficam invisíveis.

A Cloudflare fez movimento semelhante: tornou detecção de endpoints de IA gratuita, estabelecendo um piso de governança como infraestrutura. A diferença é que a Cloudflare foi explícita sobre o que estava fazendo. Sistemas de roteamento de moderação fazem governança sem chamar de governança.

O déficit que importa

O problema real não é técnico. LLMs podem melhorar em moderação. F1-scores vão subir. Novos métodos de alinhamento vão surgir. A questão é organizacional.

Quem decide qual método de alinhamento usar, e com base em quais critérios? Quem monitora a variação temporal dos scores quando modelos são atualizados? Quem audita se as explicações chain-of-thought correspondem às decisões reais? Quem verifica se o sistema de roteamento não cria tratamento desigual por design?

Como argumentamos sobre publicidade e governança, a indústria tende a tratar governança como custo a ser minimizado. A moderação de conteúdo segue o mesmo padrão: pressão para automatizar, resistência a verificar.

A resposta não é parar de usar LLMs para moderação. É tratar o pipeline de moderação como o que ele é: infraestrutura de governança que precisa de sua própria governança. Sem isso, a organização opera um sistema que toma decisões sobre bilhões de interações, com explicações que mentem, vieses que se amplificam e calibrações que mudam sem aviso.

O custo de governar esse sistema é alto. O custo de não governar é regulatório, reputacional e, para as populações mais afetadas por viés algorítmico, pessoal.


Fontes

Victorino Group ajuda organizações a construir governança de IA que sobrevive ao contato com produção: contato@victorino.com.br | www.victorino.com.br

Todos os artigos do The Thinking Wire são escritos com o auxílio do modelo LLM Opus da Anthropic. Cada publicação passa por pesquisa multi-agente para verificar fatos e identificar contradições, seguida de revisão e aprovação humana antes da publicação. Se você encontrar alguma informação imprecisa ou deseja entrar em contato com o editorial, escreva para editorial@victorino.com.br . Sobre o The Thinking Wire →

Se isso faz sentido, vamos conversar

Ajudamos empresas a implementar IA sem perder o controle.

Agendar uma Conversa