Preciso declarar o uso de IA na análise de prontuários para o CEP?

Sim. O protocolo submetido ao Comitê de Ética em Pesquisa (CEP) deve descrever todas as ferramentas utilizadas na análise, incluindo softwares de IA. Omitir essa informação configura falta de transparência e pode comprometer a validade ética do estudo.

Como anonimizar prontuários antes de usar IA para análise em pesquisa?

O processo de anonimização deve remover ou substituir todos os identificadores diretos (nome, CPF, data de nascimento, número de prontuário, endereço) e indiretos que possam permitir reidentificação. Ferramentas como o software de desidentificação do Hospital das Clínicas e soluções de NLP específicas para saúde podem auxiliar, mas a revisão humana é indispensável.

IA para Analisar Prontuários em Pesquisa Clínica

Q: É ético usar IA para analisar prontuários em pesquisa clínica?

Sim, desde que sejam respeitadas as normas éticas vigentes: aprovação do CEP, anonimização adequada dos dados, declaração do uso de IA no protocolo e no manuscrito, e conformidade com a LGPD. A IA é uma ferramenta de análise, e a responsabilidade ética é sempre do pesquisador.

IA e prontuários: uma combinação potente e delicada

Olha só: prontuários médicos são uma das fontes de dados mais ricas que existem para pesquisa clínica. Eles registram trajetórias de pacientes, intervenções, resultados, complicações. Para quem pesquisa na área da saúde, é um tesouro.

E a inteligência artificial abre possibilidades concretas para analisar esse volume de informação. Análise de texto clínico, identificação de padrões, extração de variáveis a partir de registros não estruturados. Tudo isso pode reduzir meses de trabalho manual de coleta e categorização.

Mas prontuários são documentos altamente sensíveis. Eles contêm informações de saúde de pessoas reais. E isso muda tudo em termos de obrigações éticas, legais e metodológicas para o pesquisador.

Se você está pensando em usar IA para analisar prontuários na sua dissertação ou tese, este post é para te ajudar a entender o que está em jogo antes de começar.

O que a IA consegue fazer com dados clínicos

Antes de qualquer consideração ética, vale entender o que a IA realmente consegue fazer com prontuários, e o que ainda é território de expectativas exageradas.

O que funciona bem são tarefas de processamento de linguagem natural aplicadas a texto clínico: extração de diagnósticos, medicamentos, procedimentos e datas a partir de notas médicas não estruturadas. Se você tem centenas de prontuários e precisa extrair sistematicamente informações sobre, por exemplo, quais pacientes receberam determinado medicamento e em que dosagem, um modelo de NLP treinado pode fazer esse trabalho com razoável precisão.

Outro uso consistente é a identificação de padrões em dados estruturados. Se seus dados já estão em formato de variáveis codificadas (tabelas, planilhas), algoritmos de aprendizado de máquina podem identificar relações entre variáveis que análise estatística tradicional poderia perder.

O que ainda é limitado: interpretação clínica contextual, nuances de linguagem médica regional, abreviações não padronizadas, e registros de qualidade variável. Qualquer modelo de IA vai ter desempenho proporcional à qualidade dos dados que recebe.

O que a LGPD diz sobre dados de saúde em pesquisa

A Lei Geral de Proteção de Dados (Lei nº 13.709/2018) classifica dados de saúde como dados pessoais sensíveis. Isso significa que eles têm proteção reforçada e só podem ser tratados em situações específicas, incluindo a pesquisa científica com aprovação por órgão competente.

Artigo 11, inciso II, alínea c da LGPD: dados sensíveis podem ser tratados sem consentimento do titular quando o tratamento for necessário para a realização de estudos por órgão de pesquisa, garantida, sempre que possível, a anonimização dos dados pessoais sensíveis.

Isso não significa que a LGPD abre mão das proteções. Significa que a pesquisa é um uso legítimo, mas com obrigações específicas. O pesquisador precisa garantir:

Finalidade clara e documentada
Minimização dos dados (usar apenas o que é necessário para a pesquisa)
Segurança no armazenamento e tratamento
Anonimização quando possível

Se você vai usar IA para processar dados de prontuários, cada uma dessas obrigações precisa estar coberta no seu projeto.

CEP e a declaração de uso de IA

Muitos pesquisadores ainda não sabem se precisam declarar o uso de IA no protocolo de ética. A resposta curta é: sim.

Mesmo que a IA seja uma ferramenta auxiliar de análise, ela envolve tratamento automatizado de dados pessoais sensíveis. O CEP precisa saber quais ferramentas serão utilizadas para avaliar se os riscos e as proteções foram adequadamente considerados.

Na prática, isso significa incluir na metodologia do seu projeto uma descrição de:

Qual ferramenta de IA será utilizada (software, API, modelo)
Para qual finalidade específica (extração de dados, classificação, análise de padrões)
Como os dados serão anonimizados antes de passar pela IA
Onde os dados serão processados (servidor local, nuvem, plataforma externa)
Quem tem acesso aos dados durante o processamento

Esse último ponto merece atenção especial. Se você vai usar uma API externa (como a API do ChatGPT) para processar dados clínicos, os dados transitam por servidores de uma empresa privada. Isso levanta questões sobre jurisdição, políticas de privacidade e conformidade com a LGPD. Para dados de prontuários, APIs públicas de modelos de linguagem geralmente não são a solução adequada.

Anonimização: o passo que não pode ser improvisado

A anonimização é o processo de remoção ou transformação de dados que permite que uma informação não seja mais associada a um indivíduo específico. Em teoria, após anonimização adequada, os dados deixam de ser dados pessoais.

Na prática, prontuários são complexos de anonimizar. Identificadores diretos são a parte fácil: nome, CPF, data de nascimento, endereço, número de prontuário. Mas há identificadores indiretos que exigem mais atenção: combinações de características demográficas raras, descrições de casos clínicos incomuns, datas específicas combinadas com outras informações.

O risco de reidentificação é real. Um estudo publicado no Journal of the American Medical Informatics Association demonstrou que um subconjunto surpreendentemente pequeno de variáveis clínicas pode ser suficiente para reidentificar indivíduos em bases de dados supostamente anonimizadas.

Para a pesquisa acadêmica, o mínimo esperado é:

Remoção de todos os identificadores diretos
Substituição de datas por intervalos (por exemplo, ano em vez de data completa)
Generalização de dados geográficos muito específicos
Avaliação do risco residual de reidentificação

Existem ferramentas específicas para anonimização de texto clínico em português, e algumas instituições hospitalares têm protocolos próprios. Fale com o setor de tecnologia da informação do hospital onde você está coletando dados.

Modelos de NLP para análise de texto clínico em português

Aqui a situação é mais complexa do que em inglês. Os grandes modelos de linguagem têm muito mais dados de treinamento em inglês, e o texto clínico em português tem particularidades: abreviações regionais, vocabulário médico brasileiro, mistura de termos técnicos com linguagem informal das anotações de enfermagem.

Há opções que valem a pena conhecer para pesquisa clínica em português:

O BERTimbau é um modelo BERT treinado em corpus brasileiro que serve como base para tarefas de NLP em português. Pesquisadores têm usado versões refinadas (fine-tuned) para tarefas de extração de informação clínica.

O Clinical-BERTimbau e variantes específicas para texto médico brasileiro têm surgido em grupos de pesquisa como o do Hospital das Clínicas da USP. Esses modelos têm desempenho muito superior aos modelos genéricos para tarefas clínicas.

Para a maioria dos pesquisadores de mestrado e doutorado, usar esses modelos requer algum conhecimento de programação (Python) ou parceria com alguém da computação. Se esse não é o seu perfil, vale verificar se sua instituição tem um laboratório de informática em saúde que possa colaborar com a análise.

O risco de confiar demais nos resultados da IA

Vamos falar de algo que raramente aparece nos tutoriais de IA para pesquisa: a IA erra. Especificamente em texto clínico, em linguagem ambígua, em contextos que o modelo não viu durante o treinamento.

Se você usa IA para extrair diagnósticos de 500 prontuários e assume que os resultados são corretos sem fazer uma validação, está arriscando a qualidade da sua pesquisa inteira. A validação manual de uma amostra dos resultados é indispensável para qualquer uso sério de IA em análise de dados.

Quanto validar? Depende do nível de precisão que sua análise exige e do risco de erro. Para pesquisas com implicações clínicas diretas, validação mais extensa é necessária. Para análises exploratórias, amostras menores podem ser suficientes. Consulte sua orientadora e especifique isso na metodologia.

Transparência no manuscrito e na dissertação

Quando você terminar a pesquisa, como relatar o uso de IA no manuscrito ou na dissertação?

A recomendação que está se consolidando na literatura é descrever a ferramenta, a versão (quando aplicável), a finalidade específica e as limitações reconhecidas. Não é diferente de relatar qualquer outro software de análise estatística.

A parte mais importante é a limitações: quais erros a ferramenta pode ter cometido e como você tentou mitigá-los. Essa transparência não fraqueza. É integridade científica.

O que não é aceitável é usar IA de forma silenciosa, como se os dados tivessem sido processados manualmente, ou apresentar resultados sem reconhecer a natureza automatizada da análise. As normas de transparência em relação ao uso de IA na ciência estão se consolidando rapidamente, e o que foi tolerado há dois anos pode não ser aceitável na banca amanhã.

Onde o Método V.O.E. entra nessa equação

Se você está planejando usar IA para análise de prontuários, a fase de Orientação do Método V.O.E. é especialmente crítica. Antes de tocar em qualquer dado, você precisa ter respondido:

Qual é a pergunta de pesquisa que a IA vai ajudar a responder?
Quais variáveis específicas precisam ser extraídas?
Qual é o critério de qualidade da extração que você vai aceitar?
Como você vai validar os resultados?

Essas perguntas, respondidas antes de começar a análise, evitam o erro mais comum: usar a IA para explorar os dados sem direção e depois tentar construir uma pergunta de pesquisa a partir do que a ferramenta encontrou. Isso inverte a lógica científica e produz resultados que não sustentam uma dissertação sólida.

Planejamento rigoroso antes, execução eficiente depois. Com IA ou sem IA, esse princípio não muda.

Para resumir sem simplificar

Usar IA para analisar prontuários em pesquisa clínica é possível e tem potencial real de qualificar a pesquisa. Mas exige que o pesquisador assuma responsabilidades que não são delegáveis para a ferramenta:

Responsabilidade ética: garantir anonimização adequada, obter aprovação do CEP, cumprir a LGPD.

Responsabilidade metodológica: validar os resultados, descrever as limitações, documentar o processo.

Responsabilidade científica: ser transparente no relato, não superestimar o que a IA entrega, não esconder o uso da ferramenta.

A IA amplifica a capacidade de análise. Não substitui o julgamento clínico nem a responsabilidade do pesquisador.

Explore mais sobre o uso ético de IA na pesquisa acadêmica em /recursos e conheça outros posts sobre IA e ética na ciência aqui no blog.

IA para Analisar Prontuários em Pesquisa Clínica

IA e prontuários: uma combinação potente e delicada

O que a IA consegue fazer com dados clínicos

O que a LGPD diz sobre dados de saúde em pesquisa

CEP e a declaração de uso de IA

Anonimização: o passo que não pode ser improvisado

Modelos de NLP para análise de texto clínico em português

O risco de confiar demais nos resultados da IA

Transparência no manuscrito e na dissertação

Onde o Método V.O.E. entra nessa equação

Para resumir sem simplificar

Perguntas frequentes

Leia também

Claude para análise qualitativa: como funciona na prática

Como usar o Claude na revisão de literatura acadêmica

Plágio no TCC: o que a porcentagem realmente indica

Receba estratégias de escrita acadêmica direto no seu feed