IA para Pesquisa em História e Ciências Humanas
Como usar inteligência artificial em pesquisas de História e Ciências Humanas: ferramentas para análise de fontes, limites epistemológicos e o que não dá para delegar.
IA em História e Ciências Humanas: um encontro com muita tensão
Olha só: poucas áreas discutem a inteligência artificial com mais desconforto do que História e Ciências Humanas em geral. Não é resistência tecnológica. É algo mais profundo: o reconhecimento de que a forma como a IA produz conhecimento é fundamentalmente diferente da forma como a pesquisa histórica e humanística produz conhecimento.
A IA trabalha com padrões em dados. A história trabalha com a singularidade dos acontecimentos, com o que não se repete, com o que escapa ao padrão. Como acomodar isso?
Não existe resposta simples. Mas existe uma posição crítica productiva: entender o que a IA pode fazer de útil nesse contexto, e ser explícito sobre o que ela não pode substituir.
O que muda com as fontes digitalizadas
O maior impacto prático da IA em pesquisa histórica vem de uma mudança que antecede a IA: a digitalização massiva de acervos. Arquivos que antes exigiam viagens presenciais, meses de trabalho em salas de documentos, são agora acessíveis online. A Biblioteca Nacional, o Arquivo Nacional, a Hemeroteca Digital Brasileira e dezenas de arquivos estaduais têm acervos digitalizados crescentes.
O problema: digitalizar não é transcrever. Uma foto de um documento do século XIX é digitalmente acessível, mas ainda precisa ser lida, e ler documentos históricos manuscritos tem uma curva de aprendizagem específica que se chama paleografia.
É aqui que ferramentas de reconhecimento de texto com IA entram de forma relevante.
Transkribus: reconhecimento de texto em documentos históricos
O Transkribus é uma plataforma desenvolvida pela equipe do projeto READ (Recognition and Enrichment of Archival Documents) que usa machine learning para transcrição automática de documentos históricos manuscritos e impressos.
A lógica do sistema é diferente de um OCR comum: você treinala com amostras do documento que você quer transcrever, e o modelo aprende a reconhecer aquela caligrafia ou tipografia específica. Para coleções com volume suficiente de documentos de um mesmo escriba ou de um mesmo período, o desempenho pode ser muito bom.
Para pesquisas no Brasil, a plataforma funciona melhor com documentos a partir do século XIX, quando a padronização da escrita é maior. Documentos coloniais têm caligrafia altamente variável e abreviações específicas que exigem treinamento mais extenso.
O Transkribus tem plano gratuito com créditos mensais para pesquisa acadêmica.
Análise de corpus textual histórico
A análise de grandes volumes de texto histórico com ferramentas computacionais não é nova. A história digital como campo já existe há décadas. O que a IA generativa acrescenta é a capacidade de processar e sintetizar esses corpora de forma mais flexível.
Para análise de jornais históricos, discursos parlamentares, correspondências, diários e outros textos em série, ferramentas como o AntConc, o Voyant Tools e o NLTK (para quem tem base em programação com Python) permitem análises de frequência, colocações e padrões discursivos em escala que seriam impossíveis manualmente.
O Projeto Hemeroteca Digital da Biblioteca Nacional tem acervos de jornais brasileiros do século XIX e início do XX. Pesquisas que combinam essa base com análise computacional têm gerado trabalhos interessantes sobre história da imprensa, história das ideias e história social.
O problema epistemológico central
Aqui está a tensão que não se resolve com mais ferramentas.
A pesquisa histórica, e as ciências humanas em geral, não é apenas análise de dados. É interpretação. E interpretação pressupõe uma posição: quem está olhando, de onde, com quais perguntas, com quais pressupostos teóricos.
Um modelo de IA não tem posição. Ele processa textos com os pesos aprendidos no treinamento, que refletem os textos com que foi treinado. Quando você pede para uma IA “analisar” um conjunto de fontes históricas sobre a abolição da escravidão no Brasil, ela vai produzir um texto plausível que reflete os padrões de como esse tema aparece nos textos do seu corpus de treinamento. Isso não é análise histórica. É síntese estatística.
A diferença importa. A análise histórica pressupõe que o pesquisador faz escolhas teóricas explícitas, usa fontes com crítica interna e externa, e produz uma interpretação que pode ser questionada por outros pesquisadores com outras escolhas. Isso é verificável, debatível, tem responsabilidade autoral.
Um texto produzido por IA não tem nada disso.
Pesquisa sobre populações silenciadas e o arquivo parcial
Um ponto específico que Ciências Humanas precisa levar a sério: a pesquisa sobre grupos historicamente marginalizados enfrenta o problema do arquivo parcial. Povos indígenas, populações negras escravizadas e libertas, mulheres, grupos LGBTQ+ históricos — a produção desses grupos chegou a nós de forma fragmentada, mediada por registros feitos majoritariamente por quem detinha o poder de registro.
Quando você usa IA para análise de corpus histórico, está usando um modelo treinado em texto que reproduz essa estrutura de silêncios e apagamentos. A IA vai identificar padrões no arquivo disponível, não no que foi perdido. Uma pesquisa histórica crítica precisa questionar o próprio arquivo, problematizar sua constituição, e isso exige teoria e posição política — não algoritmo.
Isso não invalida o uso de ferramentas computacionais em pesquisa sobre esses grupos. Mas coloca o pesquisador na responsabilidade de explicitar os limites do corpus, não apresentar os resultados como representativos de uma experiência histórica mais ampla.
O que funciona bem na prática
Apesar de tudo isso, há usos genuinamente úteis de IA em pesquisa em História e Ciências Humanas:
Transcrição como primeiro passo — não como produto final. O Transkribus pode fazer uma primeira transcrição que o pesquisador depois revisa. Isso é mais eficiente que transcrever tudo manualmente do zero.
Levantamento bibliométrico. Quais autores, em quais décadas, em quais periódicos publicaram sobre um tema? Ferramentas computacionais respondem isso com muito mais abrangência que uma revisão manual.
Georreferenciamento de dados históricos. Para pesquisas de história social e económica que trabalham com dados de censos históricos, cartografias e registros paroquiais, a combinação de IA com SIG (Sistemas de Informação Geográfica) abre possibilidades interessantes de visualização e análise espacial.
Suporte à escrita acadêmica. Para revisar estrutura, coerência interna de argumentos, consistência de terminologia ao longo de um capítulo longo, assistentes de escrita com IA podem ajudar. A interpretação histórica ainda é do pesquisador.
A responsabilidade declarativa
Se você usa qualquer ferramenta de IA na sua pesquisa em História ou Ciências Humanas, precisa declarar isso na metodologia. Com precisão: qual ferramenta, para quê, com quais limitações reconhecidas.
Isso não é só transparência ética. É parte do argumento científico. Mostrar que você sabe o que a ferramenta pode e não pode fazer fortalece a credibilidade do trabalho.
O Método V.O.E. tem uma abordagem para integrar ferramentas ao processo de pesquisa sem abrir mão do rigor. A fase de Verificar, no contexto de História, é especialmente importante: verificar as fontes, verificar os limites do corpus, verificar os pressupostos teóricos. A IA pode apoiar partes dessa verificação, mas não pode substituir a posição crítica do pesquisador.
Uma nota final sobre a pergunta que não vai embora
A inteligência artificial levanta, para as Ciências Humanas, uma pergunta antiga com nova urgência: o que significa produzir conhecimento?
A resposta humanística tradicional é que conhecimento não é apenas informação processada. É interpretação contextualizada, argumentação responsável, diálogo com uma tradição de pensamento. É uma atividade humana com sujeito, posição e responsabilidade.
As ferramentas de IA não resolvem essa pergunta. Mas obrigam os pesquisadores das Ciências Humanas a articulá-la com mais clareza, especialmente quando precisam explicar para seus programas, suas bancas e seus pares o que eles fazem que o algoritmo não faz.
Talvez seja esse o efeito mais interessante de todo esse debate.