IA & Ética

IA e Ciência Aberta: Transparência e Acesso

Como a inteligência artificial se relaciona com os princípios da ciência aberta? Entenda por que transparência no uso de IA é parte do compromisso com a ciência.

ia-na-pesquisa ciencia-aberta etica-na-pesquisa reproducibilidade metodologia

Ciência aberta não é só sobre dados gratuitos

Vamos lá. Quando as pessoas falam em ciência aberta, a primeira imagem que vem à cabeça costuma ser artigos de acesso livre: publicações que qualquer pessoa pode ler sem pagar. Isso é parte do movimento, mas é só uma parte.

Ciência aberta é um conjunto mais amplo de práticas que incluem dados abertos (disponibilizar os dados brutos da pesquisa), código aberto (compartilhar os scripts e análises), metodologias abertas (documentar o processo de forma que outros possam reproduzi-lo), e revisão aberta (tornar o processo de revisão por pares mais transparente).

A inteligência artificial entrou nessa equação de forma acelerada nos últimos anos, e a relação entre IA e ciência aberta é mais complexa do que parece à primeira vista.

O paradoxo da IA na transparência científica

Existe uma tensão real aqui que vale reconhecer.

Por um lado, a IA pode apoiar a ciência aberta de formas bastante concretas. Ferramentas de IA permitem automatizar análises de forma reproduzível, gerar código que pode ser compartilhado, processar grandes volumes de dados de acesso público, e tornar acessíveis análises que antes exigiam especialização técnica que poucos tinham.

Por outro lado, o uso de IA sem documentação adequada vai diretamente contra os princípios de reprodutibilidade. Se você usou um modelo de linguagem para categorizar dados, mas não especificou qual modelo, qual versão, qual prompt, e como os resultados foram verificados, outro pesquisador não consegue reproduzir o que você fez, mesmo que queira.

O instrumento é poderoso. A responsabilidade de usá-lo de forma transparente é sua.

O que “reproduzível” significa quando IA está envolvida

A reprodutibilidade em pesquisa significa que, dado o mesmo conjunto de dados e os mesmos procedimentos, outro pesquisador chega aos mesmos resultados.

Quando a análise envolve IA generativa, isso complica. Modelos de linguagem grandes têm um grau de variabilidade nas respostas que dificulta a reprodução exata. Se você pediu a um modelo que categorizasse 500 respostas abertas de um questionário, e o modelo fez isso com determinadas configurações, rodar o mesmo processo uma semana depois com o mesmo prompt pode dar resultados ligeiramente diferentes.

Isso não invalida o uso de IA. Mas significa que a documentação precisa ir além de “usei o ChatGPT para categorizar”. Precisa incluir: qual modelo e versão, o prompt completo, as configurações (temperatura, se aplicável), quantas vezes o processo foi rodado, como os resultados foram revisados, e qual foi a taxa de concordância entre a categorização automática e a verificação humana.

Com essa documentação, outro pesquisador não vai conseguir reproduzir os resultados exatamente, mas vai conseguir avaliar se o processo foi razoável e rigoroso. Esse é o mínimo que a ciência aberta exige.

Dados abertos e o papel da IA para torná-los mais usáveis

Uma das formas mais promissoras de combinar IA e ciência aberta é no uso de repositórios de dados públicos.

Existe uma quantidade enorme de dados de pesquisa disponíveis abertamente, em repositórios como o OSF (Open Science Framework), Zenodo, e os repositórios específicos de agências de fomento. Mas muitos desses dados estão em formatos difíceis de trabalhar, com metadados incompletos, ou em idiomas que a pesquisadora não domina.

A IA pode ajudar a tornar esses dados mais acessíveis: traduzindo documentação, identificando quais conjuntos de dados são relevantes para uma pergunta específica, normalizando formatos para análise, e identificando possibilidades de análise secundária.

Isso amplia genuinamente o acesso ao conhecimento científico acumulado. Uma pesquisadora com recursos limitados pode usar dados coletados por pesquisas internacionais bem financiadas para responder perguntas relevantes para o contexto local.

Publicar código gerado com IA como prática de ciência aberta

Se você usa código gerado ou assistido por IA em análises de dados, publicar esse código nos materiais suplementares do artigo ou no repositório da pesquisa é uma prática de ciência aberta que está se tornando cada vez mais esperada.

Isso serve dois propósitos. O primeiro é a reprodutibilidade: outros pesquisadores podem rodar o mesmo código com seus dados e verificar os resultados. O segundo é a transparência sobre o processo: o código mostra exatamente o que foi feito, mesmo que a narrativa no texto não entre em todos os detalhes técnicos.

Para código gerado com IA, a convenção emergente é incluir uma nota reconhecendo que o código foi gerado ou adaptado com auxílio de ferramentas de IA, especificando qual ferramenta. Isso é parte da declaração de uso de IA que as revistas científicas estão começando a exigir.

A posição das revistas científicas sobre IA e ciência aberta

As principais revistas científicas internacionais têm desenvolvido políticas sobre uso de IA desde 2023, com velocidade que varia muito por área e por periódico.

O consenso emergente é que: IA não pode ser listada como autora de artigos (autoria implica responsabilidade que modelos não podem assumir), o uso de IA no processo de pesquisa e escrita precisa ser declarado no artigo, e os dados e código usados nas análises devem ser disponibilizados quando possível.

No Brasil, as diretrizes das principais revistas científicas e da CAPES ainda estão se desenvolvendo. Para pesquisadoras em pós-graduação, a recomendação prática é adotar as boas práticas internacionais mesmo que o seu programa ou periódico-alvo ainda não as exija formalmente. Isso posiciona seu trabalho de acordo com o que será o padrão nos próximos anos.

Por que isso importa para pesquisadoras em pós-graduação agora

Você está formando suas práticas de pesquisa agora. O que você aprender sobre documentação, transparência e reprodutibilidade durante o mestrado e doutorado vai com você para toda a carreira.

As pesquisadoras que hoje estão incorporando práticas de ciência aberta, incluindo transparência sobre o uso de IA, estão se posicionando para um ambiente acadêmico que vai exigir isso cada vez mais. Não é sobre cumprir regra. É sobre que tipo de pesquisadora você quer ser.

O uso ético de IA na pesquisa, tema central aqui no blog, passa por isso: a ferramenta a serviço de uma ciência mais transparente e acessível, não como atalho que obscurece o processo.

Para aprofundar a discussão sobre como organizar o processo de pesquisa de forma rigorosa e transparente, o Método V.O.E. tem uma perspectiva específica sobre isso. E se você quer explorar recursos sobre ciência aberta e boas práticas na pesquisa, a seção de recursos tem materiais relevantes.

Transparência não é burocracia. É o que distingue ciência de opinião bem formulada.

O Open Science Framework como espaço de trabalho para pesquisa aberta

O OSF (Open Science Framework) merece menção específica porque é uma plataforma gratuita desenvolvida especificamente para apoiar práticas de ciência aberta, e muitas pesquisadoras ainda não a conhecem.

No OSF, você pode pré-registrar o protocolo da pesquisa antes de coletar os dados, o que protege contra mudanças post-hoc nas hipóteses. Pode armazenar dados, código e materiais de forma organizada. Pode compartilhar progressos com colaboradores ou com o público. E pode criar DOIs para os materiais da pesquisa, tornando-os citáveis.

Para pesquisas que usam IA em alguma etapa, o OSF é um lugar natural para documentar o processo: você pode publicar os prompts usados, o código gerado, os dados antes e depois do processamento com IA, e as notas sobre verificação dos resultados.

Isso não precisa ser feito para toda pesquisa em todo estágio. Mas quando o objetivo é publicar em revistas que valorizam práticas de ciência aberta, ter esses materiais organizados e acessíveis facilita muito a submissão.

A questão dos modelos de IA proprietários na pesquisa científica

Um ponto de tensão específico entre IA e ciência aberta é o uso de modelos proprietários: ChatGPT, Claude, Gemini, e outros modelos que não têm código aberto.

Quando você usa um modelo proprietário em sua pesquisa, você não tem como inspecionar como o modelo funciona, quais dados foram usados no treinamento, ou quais vieses podem estar presentes nas respostas. Isso é opacidade que vai contra o espírito da ciência aberta.

Modelos de código aberto como o Llama, Mistral e outros oferecem mais transparência, podem ser rodados localmente, e permitem que outros pesquisadores usem exatamente o mesmo modelo em seus estudos.

Isso não significa que modelos proprietários não devam ser usados em pesquisa. Significa que seu uso deve ser especialmente bem documentado e que os resultados devem ser verificados com rigor adicional, justamente porque a opacidade do modelo é maior.

A conversa sobre IA e ciência aberta está apenas começando. As normas ainda estão se formando. Pesquisadoras que contribuem para essa conversa com exemplos concretos de boas práticas estão ajudando a moldar o campo.

Pré-registro e IA: documentando as intenções antes de coletar dados

Uma prática de ciência aberta que ainda é pouco conhecida no Brasil mas que está crescendo é o pré-registro: publicar o protocolo da pesquisa, incluindo as hipóteses, o método e o plano de análise, antes de coletar os dados.

O pré-registro não impede mudanças no protocolo. Ele apenas torna explícito o que foi planejado antes e o que foi ajustado durante, e por quê. Isso protege contra um problema chamado “HARKing” (Hypothesizing After Results are Known, ou seja, criar hipóteses depois de ver os resultados e apresentá-las como se fossem anteriores à coleta).

Para pesquisas que planejam usar IA em alguma etapa da análise, o pré-registro é também o lugar para documentar como a IA vai ser usada. Isso cria um registro público e datado das intenções, que serve de evidência de transparência mesmo se as práticas do campo ainda não exigem isso formalmente.

Plataformas como o OSF e o AsPredicted facilitam o pré-registro e são gratuitas. O processo é mais simples do que parece e demora menos de uma hora para a maioria dos protocolos de pesquisa em ciências humanas e sociais.

Perguntas frequentes

O uso de IA na pesquisa é compatível com os princípios da ciência aberta?
Sim, quando feito com transparência. A ciência aberta pede que dados, métodos e resultados sejam acessíveis e reproduzíveis. Usar IA na pesquisa não vai contra isso, mas exige documentar quais ferramentas foram usadas, como foram usadas e como os resultados foram verificados. O problema não é usar IA, é usar sem transparência.
Como divulgar o uso de IA em artigos científicos seguindo práticas de ciência aberta?
A prática mais aceita é incluir uma declaração no método descrevendo quais ferramentas de IA foram usadas, em quais etapas, e como os resultados foram verificados. Algumas revistas científicas já têm campos específicos para isso. Para código gerado com IA e usado na análise, o ideal é incluir o código completo nos materiais suplementares.
O que é a 'crise de reprodutibilidade' e o que a IA tem a ver com ela?
A crise de reprodutibilidade é o fenômeno observado em várias áreas científicas onde estudos publicados não conseguem ser reproduzidos por outros pesquisadores. A IA pode contribuir tanto para piorar quanto para melhorar isso. Piora quando usada de forma opaca e sem documentação. Melhora quando usada para automatizar análises de forma rastreável, com código disponível e parâmetros documentados.
<