IA na Coleta de Dados: Guia Ético para Pesquisa
Entenda como a inteligência artificial pode apoiar a coleta de dados na pesquisa acadêmica, quais são os limites éticos e o que nunca delegar para a IA.
A IA chegou ao campo de pesquisa, e isso muda algumas perguntas
Vamos lá. Se você está fazendo pesquisa acadêmica hoje, a inteligência artificial já está no seu processo de alguma forma, seja para revisar texto, organizar referências ou transcrever entrevistas. A questão não é mais “devo usar ou não usar”. A questão é como usar com responsabilidade.
Isso vale especialmente para a coleta de dados, que é a fase mais sensível da pesquisa do ponto de vista ético. É onde você está em contato com participantes reais, coletando informações sobre suas vidas, experiências e opiniões. Qualquer escolha metodológica e tecnológica nessa fase tem implicação ética direta.
Neste post, quero explorar onde a IA pode genuinamente ajudar na coleta de dados, onde ela apresenta riscos que precisam ser considerados, e o que nunca deve ser delegado para uma ferramenta, não importa quão sofisticada ela seja.
O que a IA efetivamente pode fazer na coleta
A IA tem usos legítimos e úteis em diferentes etapas da coleta de dados. Conhecê-los é importante para aproveitar as ferramentas sem ingenuidade.
Transcrição de áudios e vídeos
Ferramentas como Whisper, da OpenAI, e diversas plataformas de transcrição automática conseguem converter gravações de entrevistas em texto com qualidade crescente. O que antes levava horas de trabalho manual agora pode ser feito em minutos, com revisão posterior pelo pesquisador.
Isso é especialmente relevante para quem faz pesquisa qualitativa com múltiplas entrevistas. O ganho de tempo é real.
Mas há um ponto crítico: a transcrição automática não é neutra. Ela pode errar em sotaques regionais, termos técnicos, nomes próprios e em momentos em que a fala está menos nítida. A revisão humana é obrigatória, não opcional.
Organização e categorização inicial de respostas
Em pesquisas com questionários abertos ou com grande volume de dados textuais, ferramentas de processamento de linguagem natural podem ajudar a identificar padrões, agrupar respostas similares e criar uma primeira categorização.
Isso não substitui a análise, mas pode poupar horas de trabalho inicial, especialmente quando o volume de dados é alto.
Apoio na construção de instrumentos
A IA pode ajudar a revisar um roteiro de entrevista, sugerindo perguntas alternativas, verificando se há ambiguidades, ou testando a sequência lógica das questões. Isso não é coletar dados: é refinar o instrumento antes de ir a campo.
Os riscos que precisam ser nomeados
Onde a IA ajuda com os pontos acima, ela também traz riscos específicos que qualquer pesquisadora precisa conhecer.
O problema da privacidade dos dados
Quando você usa uma ferramenta de transcrição baseada em nuvem, seus dados de pesquisa, que podem incluir informações sensíveis dos participantes, estão sendo processados em servidores de terceiros. Dependendo dos termos de uso do serviço e das políticas de privacidade, esses dados podem ser usados para treinar modelos, retidos por um período, ou acessados por colaboradores da empresa.
Isso não é uma preocupação abstrata. É um risco concreto de violação de privacidade que precisa ser avaliado antes de usar qualquer ferramenta de transcrição ou análise automática com dados de participantes.
A pergunta que você precisa fazer antes de usar uma ferramenta é: se os dados dos meus participantes fossem vistos por outras pessoas ou usados de formas que não planejei, isso violaria o consentimento que eles deram?
Se a resposta for possivelmente sim, a ferramenta precisa ser avaliada com muito mais cuidado.
O viés algorítmico na organização de dados
Ferramentas de categorização automática e análise de sentimento são treinadas em corpora específicos, com representatividades específicas. Quando você aplica uma ferramenta assim a dados coletados em contextos culturais diferentes do corpus de treino, os resultados podem ser enviesados de formas que não são visíveis imediatamente.
Uma ferramenta treinada majoritariamente em textos de língua inglesa pode performar mal com nuances do português brasileiro, especialmente em contextos regionais ou populações com escolaridade menor. Isso não é falha do pesquisador, mas é responsabilidade do pesquisador verificar.
A aparência de rigor que não é rigor
Um risco mais sutil: usar IA para organizar e categorizar dados pode dar à pesquisa uma aparência de sistematicidade que não corresponde a um rigor metodológico real. A categorização automática parece objetiva. Mas ela é baseada em padrões definidos por algoritmos que têm seus próprios pressupostos.
Apresentar análise gerada por IA como se fosse análise qualitativa humana, sem deixar isso transparente, é um problema ético e metodológico. A transparência sobre como as ferramentas foram usadas é obrigatória, tanto no método quanto na banca.
O que nunca deve ser delegado para a IA
Estabelecidos os usos possíveis e os riscos, existe algo mais importante: o que não pode ser delegado para a IA na coleta de dados.
O consentimento livre e esclarecido é responsabilidade exclusiva do pesquisador humano. A IA pode ajudar a redigir o TCLE, mas a explicação, a escuta e a garantia de que o participante entendeu e concordou livremente são humanas e insubstituíveis.
A percepção de contexto durante a coleta também não pode ser delegada. Em uma entrevista, o pesquisador percebe quando o participante está desconfortável com uma pergunta, quando há algo não dito que vale explorar, quando o clima mudou e merece atenção. Uma ferramenta automatizada não tem essa percepção.
A guarda e responsabilidade pelos dados coletados é do pesquisador, sempre. Mesmo que a ferramenta que você usou tenha eliminado os dados após o processamento, sua responsabilidade ética com a confidencialidade dos participantes não termina com o uso da ferramenta.
Transparência com o CEP e com os participantes
Se você vai usar qualquer ferramenta de IA na coleta ou no processamento de dados, isso precisa estar documentado no projeto submetido ao CEP. O comitê precisa saber quais ferramentas serão usadas, como os dados serão processados e quais são as medidas de proteção da privacidade dos participantes.
Da mesma forma, o TCLE precisa informar aos participantes que recursos de transcrição automática ou análise computacional podem ser usados, e que os dados serão tratados de forma confidencial. Quanto mais transparente for essa informação, mais robusta é a ética da pesquisa.
Transparência não enfraquece a pesquisa. Ela a fortalece.
Ferramentas específicas e o que saber antes de usar
Algumas ferramentas de IA são amplamente usadas por pesquisadores brasileiros para apoio na coleta e processamento de dados. Vale conhecer o que cada uma oferece e o que considerar antes de usar.
O Whisper, da OpenAI, é um modelo de transcrição de áudio de código aberto. Pode ser rodado localmente, o que resolve boa parte da preocupação com privacidade dos dados. Quando rodado no computador da pesquisadora, sem envio para servidores externos, o dado dos participantes não sai do ambiente controlado.
O NVivo e o Atlas.ti têm recursos de análise assistida por computador que não são exatamente IA generativa, mas usam algoritmos para identificar padrões em dados qualitativos. São ferramentas consolidadas na pesquisa qualitativa e têm protocolos claros de armazenamento e exportação de dados.
O ChatGPT, Claude e ferramentas similares podem apoiar na construção de instrumentos, revisão de roteiros e análise de conteúdo de pequenos trechos. Mas envolvem envio de dados para servidores externos, o que exige atenção redobrada quando os dados incluem informações de participantes identificáveis.
A regra prática: quanto mais sensíveis os dados, mais cautelosa precisa ser a escolha da ferramenta. Dados de saúde, dados de populações vulneráveis, dados de menores de idade, tudo isso exige protocolos mais rígidos de proteção.
O TCLE e a IA: como abordar no documento
Uma dúvida frequente é como mencionar o uso de IA no Termo de Consentimento Livre e Esclarecido. Aqui vai uma orientação prática.
Você não precisa entrar em detalhes técnicos sobre as ferramentas. Você precisa garantir que o participante saiba, em linguagem acessível, que gravações ou respostas podem ser processadas com auxílio de tecnologia, que esses dados serão tratados de forma confidencial e anônima, e que qualquer publicação resultante não identificará o participante.
Um exemplo de redação para o TCLE: “As gravações de áudio das entrevistas poderão ser transcritas com auxílio de ferramentas digitais especializadas. Todo o material coletado será tratado de forma sigilosa e não será compartilhado com terceiros.”
Simples, claro e informativo. Isso é o suficiente para a maioria dos CEPs, mas sempre verifique com seu comitê local, pois há variações nas exigências.
Usando IA com consciência: o princípio que guia tudo
Existe um princípio simples que pode guiar todas as decisões sobre uso de IA na coleta de dados: a IA deve servir à pesquisa, não substituir o julgamento do pesquisador.
Quando a IA economiza tempo em tarefas operacionais (transcrição, organização, formatação), ela libera a pesquisadora para o que é insubstituível: pensar, interpretar, contextualizar e ser responsável pelos dados.
Quando a IA começa a ser usada para tomar decisões metodológicas que deveriam ser do pesquisador, ou para criar a aparência de rigor sem o rigor real, ela está sendo mal usada.
O uso ético da IA na pesquisa começa com essa distinção clara. E começa com a disposição de ser transparente sobre cada ferramenta usada, no projeto, no método, na dissertação e na banca.
Quer aprofundar como usar ferramentas de IA de forma ética ao longo de toda a sua pesquisa? Visite a seção de recursos do blog para mais materiais sobre o tema.