Por que o ChatGPT inventa referências bibliográficas?

O ChatGPT e outros modelos de linguagem geram referências falsas porque foram treinados para produzir texto que parece plausível, não para recuperar informações reais de um banco de dados. Quando solicitado a fornecer referências, o modelo gera títulos, autores e periódicos que seguem o padrão estatístico de como referências reais se parecem, mas sem acesso a uma base de dados real de publicações. O resultado parece legítimo mas pode ser completamente inventado.

Como verificar se uma referência do ChatGPT é real?

Os três passos principais são: (1) buscar o DOI exato no CrossRef (crossref.org); (2) buscar o título exato no Google Scholar; (3) buscar o artigo diretamente na base de dados do periódico indicado. Se a referência não aparecer em nenhuma dessas fontes, ela provavelmente não existe. Nunca cite uma referência sem verificar a existência do documento original.

Preciso declarar que usei ChatGPT se ele me ajudou a encontrar referências?

Sim, se você usou IA em alguma etapa do processo de pesquisa bibliográfica, a transparência é esperada em publicações científicas atuais. Mais importante: você não deve citar nenhuma referência que não verificou diretamente, independentemente de como a encontrou. Usar o ChatGPT como ponto de partida para uma busca bibliográfica e depois verificar tudo nas fontes primárias é diferente de usar as referências que ele gerou sem checar.

ChatGPT e referências falsas: como verificar antes de citar

O problema que está passando por debaixo do radar

Referências bibliográficas fabricadas por IA parecem absolutamente reais. Título plausível, autores que existem, periódico legítimo, ano dentro do esperado. O artigo específico, porém, não está lá. Isso acontece com frequência nos trabalhos que chegam às bancas e periódicos, e a maioria dos pesquisadores não percebe até que alguém tenta acessar.

Esse fenômeno tem um nome no campo da IA: alucinação. Alucinação é a geração de texto factualmente incorreto por um modelo de linguagem, com aparência plena de confiabilidade. O modelo não está mentindo intencionalmente, porque ele não tem a capacidade de intenção. Ele está gerando texto que parece estatisticamente correto para o que uma referência deveria ser, sem ter acesso ao artigo real.

E o pesquisador que não verifica inclui essa referência no trabalho.

O problema é sério. Uma referência falsa em um artigo científico é uma violação da integridade da pesquisa, mesmo que não tenha sido intencional. Periódicos com boas práticas de revisão têm sistemas para detectar isso. Bancas atentas verificam. E quando a referência falsa é descoberta depois da publicação, o processo de retratação ou correção é constrangedor e potencialmente prejudicial para a carreira.

Por que os modelos de linguagem fazem isso

Para entender o problema, é útil entender a mecânica.

Modelos como o ChatGPT foram treinados em quantidades enormes de texto da internet, incluindo artigos científicos, resumos, referências e metadados bibliográficos. Durante o treinamento, o modelo aprendeu os padrões estatísticos de como referências se estruturam: como se escreve um autor de artigo acadêmico, como se estrutura um título, quais periódicos existem em cada área, como se formata uma referência ABNT ou APA.

Quando você pede ao ChatGPT que liste referências sobre um tema, ele não consulta um banco de dados de publicações. Ele gera texto que segue os padrões que aprendeu. Esse texto pode coincidir com artigos reais (se eles existem e estavam no corpus de treinamento), mas pode também ser uma combinação plausível de elementos que produz algo que não existe.

O modelo não sabe que está inventando. Ele não tem um mecanismo de verificação que consulte uma base de dados externa em tempo real durante a geração do texto. Ele produz o que estatisticamente parece mais provável dado o contexto.

Os tipos de erro que você vai encontrar

As referências fabricadas por LLMs costumam apresentar alguns padrões identificáveis.

Combinação de elementos reais em configuração falsa. Um autor que existe de fato, publicando em um periódico que existe de fato, em um ano plausível, sobre um tema que a pessoa realmente pesquisa. Mas o artigo específico não existe. É a combinação de elementos reais que cria o artigo fictício.

DOI inválido. O modelo pode gerar um número de DOI que segue o formato correto mas que não corresponde a nenhum documento real. Isso é fácil de verificar: qualquer DOI válido pode ser resolvido em doi.org.

Título com palavras-chave certas mas detalhes errados. O artigo sobre o tema existe, mas não com aquele título, ou não daquele autor, ou não naquele periódico. O modelo combinou elementos de dois ou três artigos reais em um artigo fictício.

Referência de edição diferente. O artigo existe, mas a edição, volume ou páginas estão errados. Menos grave, mas ainda é um erro que precisa ser corrigido.

Reconhecer esses padrões ajuda a identificar rapidamente quais referências merecem verificação prioritária, especialmente quando o tempo é curto. Quanto mais você verificar, mais familiarizado fica com o que parece suspeito numa lista de referências gerada por IA.

Como verificar: o protocolo em três passos

Para qualquer referência que você recebeu de um modelo de linguagem ou de qualquer fonte que você não verificou diretamente na base de dados original, siga este processo.

Buscar o DOI no CrossRef: o CrossRef (crossref.org) é o principal repositório de DOIs de publicações científicas. Digite o DOI exato no buscador e compare os metadados retornados com o que o modelo gerou. Se não retornar nada, ou retornar um documento diferente do indicado, a referência está errada. Nenhum DOI válido some do CrossRef.
Buscar o título exato no Google Scholar: pesquise o título entre aspas. O Scholar indexa a maioria das publicações científicas acessíveis. Se encontrar resultado com título semelhante mas não idêntico, leia os metadados e verifique autor e periódico antes de assumir que é o mesmo artigo.
Buscar diretamente no periódico indicado: acesse o site do periódico e busque por título, autor ou volume/número. Periódicos sérios têm sistema de busca nos próprios sites. Se o artigo não aparece na busca do próprio periódico, ele não foi publicado ali. Essa etapa também confirma se o volume e as páginas indicadas existem.

O que fazer quando a referência não existe

Se você verificou e confirmou que a referência é falsa, o caminho é simples: não a use.

Não modifique a referência falsa para tentar fazer ela ficar certa. Não use um artigo diferente fingindo ser o que você precisava. Não cite algo que não leu. A tentação de ajustar o título ou o volume para que a referência pareça existir é real, mas o resultado continua sendo uma referência falsa, agora com uma camada extra de manipulação intencional.

Se a referência falsa apontava para um tema que você precisa citar, faça uma busca real: no Google Scholar, no Scopus, no SciELO, nas bases de dados específicas da sua área. Encontre artigos reais que tratam do assunto e os leia. Cite o que você leu.

Esse processo leva mais tempo do que aceitar as referências que o modelo gerou. É exatamente por isso que é necessário.

Um uso legítimo do ChatGPT na busca bibliográfica

Não estou dizendo que o ChatGPT não tem nenhum papel no processo bibliográfico. Ele tem, mas é um papel diferente do que muitos pesquisadores tentam atribuir.

O que o ChatGPT pode fazer bem nesse contexto: sugerir termos de busca que você não havia pensado, indicar autores ou pesquisadores de referência em uma área (que você vai então verificar), descrever o debate em torno de um tema e ajudar você a calibrar o que precisa buscar, ou explicar conceitos que você precisa entender antes de saber o que buscar.

O que você nunca deve fazer: usar as referências exatas que ele gerou sem verificar cada uma nas fontes primárias. Nem uma. Nenhuma exceção.

A regra de ouro é: o ChatGPT pode te ajudar a saber o que buscar. Você é quem busca e quem verifica.

Pesquisadores que usam o ChatGPT dessa forma, como orientador de busca e não como fonte de citações, relatam que o processo fica mais eficiente sem aumentar o risco de referências fantasmas. A distinção é simples: o modelo sugere caminhos, o pesquisador percorre e confirma cada um deles nas bases de dados reais antes de incluir qualquer item na lista de referências.

Integridade bibliográfica como prática, não como burocracia

Fechar este texto com uma reflexão que vai além do procedimento técnico.

A integridade das referências bibliográficas não é uma formalidade acadêmica. É o que garante que o conhecimento científico se constrói de forma rastreável, verificável e honesta. Quando você cita um artigo, você está dizendo: esta afirmação ou dado que estou fazendo tem um lastro em um trabalho específico que qualquer pessoa pode verificar.

Uma referência falsa quebra essa cadeia. Ela diz que existe um suporte para algo que não existe. Mesmo sem intenção de enganar, o efeito é o mesmo.

O uso crescente de IA na pesquisa não muda esse princípio. Ele torna a verificação mais necessária, não menos. Porque agora existe uma fonte de geração de texto muito fluente e muito plausível que não tem nenhum compromisso com a existência real do que produz.

Verificar é parte do trabalho. Sempre foi.

ChatGPT e referências falsas: como verificar antes de citar

O problema que está passando por debaixo do radar

Por que os modelos de linguagem fazem isso

Os tipos de erro que você vai encontrar

Como verificar: o protocolo em três passos

O que fazer quando a referência não existe

Um uso legítimo do ChatGPT na busca bibliográfica

Integridade bibliográfica como prática, não como burocracia

Perguntas frequentes

Leia também

Claude para análise qualitativa: como funciona na prática

Como usar o Claude na revisão de literatura acadêmica

Plágio no TCC: o que a porcentagem realmente indica

Receba estratégias de escrita acadêmica direto no seu feed