Os detectores de IA funcionam? São confiáveis?

Não de forma confiável o suficiente para embasar acusações. Os detectores mais usados têm taxas significativas de falsos positivos, ou seja, classificam texto humano como gerado por IA. Estudantes não nativos em inglês, pessoas com estilo de escrita conciso e formal, e textos sobre certos temas são especialmente vulneráveis a falsos positivos.

O que acontece se meu texto for marcado pelo detector de IA?

Depende da política da instituição. Em muitos casos, o detector é apenas um ponto de atenção, não uma prova definitiva. Você tem o direito de questionar o resultado e apresentar seu processo de trabalho (rascunhos, notas, histórico de versões). Um resultado positivo no detector não é evidência suficiente para uma acusação de má conduta acadêmica.

Como provar que escrevi meu texto sem usar IA?

Manter um registro do processo é a melhor proteção: rascunhos salvos, histórico de versões no Google Docs ou Word, anotações manuscritas, emails trocados com orientador sobre o conteúdo. Não existe prova definitiva, assim como não existe detector definitivo. O que existe é um conjunto de evidências que sustentam a autoria.

Detector de IA: a Nova Paranoia da Academia

Uma ferramenta que criou mais problemas do que resolveu

Vamos lá. Os detectores de IA chegaram na academia com a promessa de resolver um problema legítimo: identificar trabalhos acadêmicos gerados por ferramentas como ChatGPT sem o esforço intelectual do estudante.

A intenção faz sentido. O problema é que a tecnologia não cumpriu a promessa. E enquanto isso, uma nova forma de paranoia institucional se instalou: a suspeita generalizada, o texto marcado com porcentagem de “probabilidade de IA” como se fosse um veredito, e estudantes sendo acusados de desonestidade acadêmica com base em ferramentas que cometem erros sistematicamente.

Esse é um debate que a academia precisa ter com mais honestidade. E minha posição aqui é clara: detectores de IA não são evidência suficiente para qualquer acusação, e tratá-los como tal é um problema sério.

O que os detectores realmente medem

Para entender o problema, é preciso entender como essas ferramentas funcionam.

Os detectores de IA mais usados (Turnitin AI, GPTZero, Originality.ai, entre outros) funcionam basicamente identificando padrões de “perplexidade” e “burstiness” no texto. Perplexidade mede o quanto o texto é “previsível” estatisticamente: texto gerado por IA tende a ser mais previsível do que texto humano. Burstiness mede a variação na complexidade das frases: humanos tendem a alternar entre frases mais simples e mais complexas; IA tende a ser mais uniforme.

O problema é que esses marcadores estilísticos não são exclusivos de texto gerado por IA. Texto humano com estilo formal e objetivo, vocabulário técnico consistente, frases bem estruturadas pode ser tão “previsível” quanto texto gerado por IA. E é exatamente esse tipo de texto que se espera em contextos acadêmicos.

Resultado: estudantes que escrevem de forma clara, técnica e objetiva são mais vulneráveis a falsos positivos. Estudantes não nativos em inglês que usam construções mais diretas são mais vulneráveis a falsos positivos. Textos sobre certos temas com vocabulário especializado são mais vulneráveis a falsos positivos.

A pesquisa publicada sobre a precisão dessas ferramentas é preocupante. Estudos independentes encontraram taxas de falsos positivos que vão de alguns por cento até mais de 60% em certos tipos de texto. Isso é inaceitável para qualquer ferramenta usada em processos disciplinares.

O problema da acusação invertida

Aqui está o que mais me incomoda na forma como os detectores têm sido usados: eles invertem o ônus da prova.

Em qualquer processo de integridade acadêmica sério, a acusação precisa ser sustentada por evidências. O acusado tem o direito de defender sua autoria. A ferramente de detecção seria, no máximo, um motivo para investigação, não uma conclusão.

Na prática, o que acontece em muitos casos é o oposto: o detector marca o texto, o estudante recebe uma acusação de uso de IA, e agora precisa provar que não usou. Provar um negativo é muito mais difícil do que a acusação.

Isso é especialmente grave porque os impactos são reais: reprovações, processos disciplinares, manchas no histórico acadêmico. Tudo baseado em uma ferramenta que os próprios desenvolvedores reconhecem não ser confiável para uso como evidência única.

O caso específico dos falsos positivos em escrita não nativa

Há um dado que pouca gente menciona nessa discussão, mas que é relevante demais para ignorar: estudantes que não escrevem em sua língua nativa são desproporcionalmente afetados pelos detectores de IA.

Quando alguém aprende a escrever em uma segunda ou terceira língua, especialmente em contexto acadêmico, o texto tende a ser mais padronizado, com vocabulário mais controlado e estruturas mais previsíveis. Isso não é desonestidade. É o reflexo do esforço de escrever em uma língua que não é sua.

E esse padrão de escrita é justamente o que os detectores classificam como “suspeito”.

Num campo acadêmico cada vez mais globalizado, onde estudantes de países não anglófonos publicam em inglês e pesquisadores em formação escrevem em línguas que aprenderam formalmente, usar detectores de IA sem considerar esse viés é um problema de equidade, não apenas de precisão técnica.

Pesquisas que documentaram esse padrão foram publicadas nos últimos anos em veículos como o International Journal for Educational Integrity, e os próprios desenvolvedores de algumas ferramentas admitiram que o viés existe. Mesmo assim, o uso continua.

O silêncio das instituições sobre as margens de erro

Uma coisa que raramente aparece quando um detector é usado contra um estudante: a margem de erro da ferramenta.

Se um detector afirma que um texto tem “87% de probabilidade de ter sido gerado por IA”, o que isso significa? Probabilidade calculada como? Com base em que dados de treinamento? Com qual taxa de falsos positivos verificada em estudos independentes?

Essas informações raramente estão disponíveis de forma transparente. Os relatórios que as ferramentas geram costumam apresentar porcentagens com aparência de precisão técnica sem revelar a incerteza real por trás delas.

Quando uma instituição usa esse tipo de output para embasar uma decisão disciplinar sem questionar esses limites, está sendo técnica sem ser rigorosa, que é uma combinação particularmente perigosa.

Por que as universidades adotaram mesmo assim

Entendo o que levou as instituições a adotarem essas ferramentas. A explosão do uso de IA generativa a partir de 2023 criou uma pressão real: o que fazer quando trabalhos entregues poderiam ser gerados automaticamente?

A resposta fácil foi adotar ferramentas tecnológicas que prometiam uma solução técnica para um problema pedagógico. E essa lógica é compreensível, mesmo que seja equivocada.

O problema é que uma solução técnica não existe para esse problema. Uso de IA na escrita é um espectro, não um binário. Detectores trabalham com probabilidades, não com certezas. E as questões fundamentais, sobre o que significa autoria, quais usos de IA são legítimos, como avaliar aprendizado genuíno, são questões pedagógicas que nenhum algoritmo vai resolver.

Adotar detectores sem discutir políticas claras de uso de IA e sem desenvolver formas de avaliação mais robustas é pular uma etapa necessária.

O que seria uma abordagem mais honesta

Isso não é um argumento contra políticas de integridade acadêmica. É um argumento por políticas que funcionem de fato.

Uma abordagem mais honesta incluiria: definir claramente quais usos de IA são permitidos e quais não são (e isso varia por disciplina, por tipo de avaliação, por objetivo de aprendizado); criar processos de avaliação que tornem a geração automática de texto menos útil (avaliações orais, portfólios, apresentações, escrita em etapas com feedback); e quando houver suspeita de uso inadequado, investigar com múltiplas evidências, não com um único score de detector.

O detector pode ser um gatilho para conversa, não um tribunal. “Seu texto teve uma pontuação alta nessa ferramenta. Vamos conversar sobre seu processo de escrita?” é radicalmente diferente de “Seu texto foi detectado como IA. Você está reprovado.”

O que isso significa para quem está escrevendo agora

Se você é pós-graduanda e está com medo de que seu texto seja injustamente marcado, o melhor investimento que você pode fazer é documentar o processo.

Não porque você precise provar inocência. Mas porque ter rascunhos, histórico de versões, anotações e registros do processo de orientação é uma proteção natural contra qualquer questionamento sobre a autoria.

Escrever tem processo. Se o processo existiu, as evidências dele também existem. Isso é mais robusto do que qualquer score de detector.

A pergunta que sempre voltará a ser central não é “o detector disse que…”. É “esse trabalho representa o pensamento de quem o assina?”. E para essa pergunta, a resposta está no conteúdo, na defesa, nas escolhas que o texto demonstra, não em uma porcentagem de probabilidade.

Sobre o que eu acho que a academia deveria fazer diferente com IA no geral, há outros textos neste pilar que exploram esse terreno. Se quiser começar por outro ângulo, veja o post sobre IA na escrita acadêmica: ferramenta ou muleta?.

Detector de IA: a Nova Paranoia da Academia

Uma ferramenta que criou mais problemas do que resolveu

O que os detectores realmente medem

O problema da acusação invertida

O caso específico dos falsos positivos em escrita não nativa

O silêncio das instituições sobre as margens de erro

Por que as universidades adotaram mesmo assim

O que seria uma abordagem mais honesta

O que isso significa para quem está escrevendo agora

Perguntas frequentes

Leia também

Briga de 20 anos na ciência: como divergir sem se destruir

IA que faz ciência: o que o Google I/O sinaliza pra você

A IA que você usa tem corpo: cabos, mar e geopolítica

Receba estratégias de escrita acadêmica direto no seu feed