ChatGPT inventa referências: como verificar e nunca citar fantasmas
ChatGPT e outros LLMs frequentemente geram referências bibliográficas falsas. Saiba por que isso acontece e como verificar qualquer referência antes de usar.
O problema que está passando por debaixo do radar
Olha só: uma coisa que acontece com frequência nos trabalhos acadêmicos que chegam às bancas e aos periódicos é a presença de referências que não existem. Títulos plausíveis, autores com nomes reais de pessoas que existem, periódicos legítimos, anos e volumes que parecem corretos. Mas que, quando você tenta acessar, simplesmente não estão lá.
Esse fenômeno tem um nome no campo da IA: alucinação. O modelo de linguagem não está mentindo intencionalmente, porque ele não tem a capacidade de intenção. Ele está gerando texto que statisicamente se parece com o que uma referência deveria ser, sem ter acesso ao artigo real.
E o pesquisador que não verifica inclui essa referência no trabalho.
O problema é sério. Uma referência falsa em um artigo científico é uma violação da integridade da pesquisa, mesmo que não tenha sido intencional. Periódicos com boas práticas de revisão têm sistemas para detectar isso. Bancas atentas verificam. E quando a referência falsa é descoberta depois da publicação, o processo de retratação ou correção é constrangedor e potencialmente prejudicial para a carreira.
Por que os modelos de linguagem fazem isso
Para entender o problema, é útil entender a mecânica.
Modelos como o ChatGPT foram treinados em quantidades enormes de texto da internet, incluindo artigos científicos, resumos, referências e metadados bibliográficos. Durante o treinamento, o modelo aprendeu os padrões estatísticos de como referências se estruturam: como se escreve um autor de artigo acadêmico, como se estrutura um título, quais periódicos existem em cada área, como se formata uma referência ABNT ou APA.
Quando você pede ao ChatGPT que liste referências sobre um tema, ele não consulta um banco de dados de publicações. Ele gera texto que segue os padrões que aprendeu. Esse texto pode coincidir com artigos reais (se eles existem e estavam no corpus de treinamento), mas pode também ser uma combinação plausível de elementos que produz algo que não existe.
O modelo não sabe que está inventando. Ele não tem um mecanismo de verificação que consulte uma base de dados externa em tempo real durante a geração do texto. Ele produz o que statisicamente parece mais provável dado o contexto.
Os tipos de erro que você vai encontrar
As referências fabricadas por LLMs costumam apresentar alguns padrões identificáveis.
Combinação de elementos reais em configuração falsa. Um autor que existe de fato, publicando em um periódico que existe de fato, em um ano plausível, sobre um tema que a pessoa realmente pesquisa. Mas o artigo específico não existe. É a combinação de elementos reais que cria o artigo fictício.
DOI inválido. O modelo pode gerar um número de DOI que segue o formato correto mas que não corresponde a nenhum documento real. Isso é fácil de verificar: qualquer DOI válido pode ser resolvido em doi.org.
Título com palavras-chave certas mas detalhes errados. O artigo sobre o tema existe, mas não com aquele título, ou não daquele autor, ou não naquele periódico. O modelo combinou elementos de dois ou três artigos reais em um artigo fictício.
Referência de edição diferente. O artigo existe, mas a edição, volume ou páginas estão errados. Menos grave, mas ainda é um erro que precisa ser corrigido.
Como verificar: o protocolo em três passos
Para qualquer referência que você recebeu de um modelo de linguagem ou de qualquer fonte que você não verificou diretamente na base de dados original, siga este processo.
Passo 1: buscar o DOI no CrossRef
O CrossRef (crossref.org) é o principal repositório de DOIs de publicações científicas. Se o artigo tem um DOI e você digitar esse DOI no buscador do CrossRef, ele vai retornar os metadados do documento, que você pode comparar com o que o modelo gerou.
Se o DOI não retornar nada, ou se retornar um documento diferente do que foi indicado, a referência está errada.
Passo 2: buscar o título exato no Google Scholar
O Google Scholar indexa uma quantidade enorme de publicações científicas. Busque o título exato entre aspas. Se o artigo existir, ele vai aparecer (a maioria deles, pelo menos).
Atenção: se você encontrar um resultado com título semelhante mas não idêntico, não assuma que é o mesmo artigo. Leia os metadados e verifique.
Passo 3: buscar diretamente no periódico indicado
Se os dois passos anteriores não foram conclusivos, acesse o site do periódico indicado e busque o artigo por título, autor ou volume/número. Periódicos sérios têm sistemas de busca nos próprios sites.
Se o artigo não está lá, ele não foi publicado naquele periódico. Simples assim.
O que fazer quando a referência não existe
Se você verificou e confirmou que a referência é falsa, o caminho é simples: não a use.
Não modifique a referência falsa para tentar fazer ela ficar certa. Não use um artigo diferente fingindo ser o que você precisava. Não cite algo que não leu.
Se a referência falsa apontava para um tema que você precisa citar, faça uma busca real: no Google Scholar, no Scopus, no SciELO, nas bases de dados específicas da sua área. Encontre artigos reais que tratam do assunto e os leia. Cite o que você leu.
Esse processo leva mais tempo do que aceitar as referências que o modelo gerou. É exatamente por isso que é necessário.
Um uso legítimo do ChatGPT na busca bibliográfica
Não estou dizendo que o ChatGPT não tem nenhum papel no processo bibliográfico. Ele tem, mas é um papel diferente do que muitos pesquisadores tentam atribuir.
O que o ChatGPT pode fazer bem nesse contexto: sugerir termos de busca que você não havia pensado, indicar autores ou pesquisadores de referência em uma área (que você vai então verificar), descrever o debate em torno de um tema e ajudar você a calibrar o que precisa buscar, ou explicar conceitos que você precisa entender antes de saber o que buscar.
O que você nunca deve fazer: usar as referências exatas que ele gerou sem verificar cada uma nas fontes primárias. Nem uma. Nenhuma exceção.
A regra de ouro é: o ChatGPT pode te ajudar a saber o que buscar. Você é quem busca e quem verifica.
Integridade bibliográfica como prática, não como burocracia
Fechar este texto com uma reflexão que vai além do procedimento técnico.
A integridade das referências bibliográficas não é uma formalidade acadêmica. É o que garante que o conhecimento científico se constrói de forma rastreável, verificável e honesta. Quando você cita um artigo, você está dizendo: esta afirmação ou dado que estou fazendo tem um lastro em um trabalho específico que qualquer pessoa pode verificar.
Uma referência falsa quebra essa cadeia. Ela diz que existe um suporte para algo que não existe. Mesmo sem intenção de enganar, o efeito é o mesmo.
O uso crescente de IA na pesquisa não muda esse princípio. Ele torna a verificação mais necessária, não menos. Porque agora existe uma fonte de geração de texto muito fluente e muito plausível que não tem nenhum compromisso com a existência real do que produz.
Verificar é parte do trabalho. Sempre foi.