O que é análise de sentimento com IA na pesquisa acadêmica?

É o uso de modelos de linguagem ou ferramentas de NLP para classificar automaticamente textos como positivos, negativos ou neutros (ou em categorias mais específicas de emoção). Na pesquisa, é usada para analisar grandes volumes de comentários, entrevistas, avaliações ou postagens. A confiabilidade depende do modelo, do idioma e do contexto.

A análise de sentimento por IA é confiável para pesquisas em português?

Mais do que era há alguns anos, mas ainda com limitações importantes. Modelos como BERTimbau (versão do BERT treinada em português) e outros fine-tuned para o português têm desempenho razoável em textos padronizados. Em gírias, ironia, linguagem regional ou termos técnicos, a precisão cai. Validação manual de uma amostra é obrigatória.

Como declarar o uso de IA para análise de sentimento na dissertação?

Declare o modelo ou ferramenta usada, a versão (quando disponível), como você validou os resultados (comparação com codificação manual, métricas como kappa de Cohen), o tamanho da amostra de validação e as limitações identificadas. Transparência completa é o único caminho aceitável.

IA para Análise de Sentimento em Dados Textuais

A promessa e o problema

Vamos lá: a análise de sentimento com IA parece muito atraente. Você tem 3.000 comentários de uma plataforma, 500 entrevistas curtas ou um corpus enorme de postagens nas redes sociais. Classificar tudo manualmente levaria semanas. Uma ferramenta que faz isso em minutos? Difícil resistir.

O problema é que a promessa raramente se confirma sem custo metodológico. E esse custo, quando ignorado, aparece exatamente onde você menos quer: na banca.

Neste post, vou te contar o que análise de sentimento com IA realmente faz, onde ela funciona razoavelmente bem em português, onde fracassa, como usar com responsabilidade e o que você precisa declarar para não comprometer a validade da sua pesquisa.

O que é análise de sentimento e como a IA faz isso

Análise de sentimento (em inglês, sentiment analysis) é uma tarefa de Processamento de Linguagem Natural (PLN ou NLP) que busca classificar a polaridade ou emoção de um texto. O modelo lê um enunciado e decide: isso é positivo, negativo ou neutro? Em versões mais sofisticadas, as categorias incluem raiva, alegria, tristeza, surpresa, medo.

Ferramentas clássicas fazem isso com listas de palavras e regras. Modelos mais modernos, baseados em arquiteturas de transformadores como BERT, aprendem a partir de grandes quantidades de textos rotulados e conseguem capturar contexto com muito mais sofisticação.

Para o português especificamente, o BERTimbau é um modelo pré-treinado na língua portuguesa que tem servido de base para vários modelos ajustados a tarefas específicas. Pesquisadores do IMPA, da USP e de outras instituições brasileiras publicaram trabalhos com versões adaptadas para análise de sentimento em textos do Twitter, notícias e avaliações de produtos.

Então existe infraestrutura técnica. O problema não é técnico, é de validação e transparência.

Onde a análise de sentimento funciona (razoavelmente bem)

Ser honesta aqui é importante. A análise de sentimento funciona melhor quando:

O texto é direto e padronizado. Avaliações de produtos em e-commerce, respostas de pesquisa de satisfação com escala numérica, comentários curtos em formulários. Nesses contextos, a linguagem tende a ser mais literal e o modelo tem menos chances de errar feio.

O volume é grande o suficiente para absorver os erros. Se você tem 10.000 comentários e o modelo erra 15%, isso pode ser aceitável dependendo da sua pergunta. Se você tem 50 entrevistas e o modelo erra 15%, pode estar distorcendo sua análise de forma significativa.

Você faz validação manual rigorosa. Uma amostra aleatória de pelo menos 10% do corpus (ou 100 itens, o que for maior) classificada manualmente por dois pesquisadores, com cálculo de concordância (coeficiente kappa de Cohen é o padrão). Sem isso, você não tem como saber o quão confiável é sua ferramenta.

O contexto é linguisticamente estável. Português padrão escrito, sem gírias muito específicas, sem ironia complexa, sem vocabulário técnico de nicho.

Onde ela fracassa (e é perigoso usar sem alertar)

Agora o que importa ainda mais: os contextos onde a análise de sentimento com IA tropeça com frequência.

Ironia e sarcasmo continuam sendo o calcanhar de Aquiles da maioria dos modelos. “Adorei a orientação de hoje, só faltou o orientador aparecer” vai provavelmente ser classificado como positivo por qualquer sistema que não foi especificamente treinado para sarcasmo contextual.

Linguagem regional e gírias. O Brasil tem uma diversidade linguística enorme. Modelos treinados majoritariamente em textos formais ou de São Paulo e Rio têm desempenho pior com textos de outras regiões ou registros mais informais.

Ambiguidade legítima. Textos acadêmicos, depoimentos sobre experiências complexas, relatos sobre adoecimento. Esses textos frequentemente não são nem positivos nem negativos, ou são os dois ao mesmo tempo. Forçar uma classificação binária pode trair o dado.

Textos sobre temas sensíveis. Se você está pesquisando discursos sobre saúde mental, violência, discriminação ou experiências traumáticas, a análise de sentimento pode não capturar as nuances que sua pergunta de pesquisa exige. E um erro de classificação aqui tem implicações éticas, não só metodológicas.

O que você precisa declarar, sem exceção

Usar análise de sentimento com IA em uma dissertação é uma decisão metodológica que precisa de transparência total. Não basta mencionar no rodapé que “utilizou-se ferramentas de PLN”.

Nome e versão da ferramenta ou modelo. Se você usou o ChatGPT para classificar textos, declare qual versão (GPT-4, GPT-4o, outro). Se usou um modelo específico de análise de sentimento, cite nome, origem e referência. Modelos se atualizam e seus resultados podem não ser reproduzíveis.

Como a ferramenta foi aplicada. Você colocou cada texto em um prompt e pediu uma classificação? Usou uma API com parâmetros específicos? Rodou um modelo localmente? Cada um desses caminhos tem implicações diferentes de reprodutibilidade.

O processo de validação. Qual amostra você classificou manualmente? Quem classificou (só você, ou outro pesquisador também)? Qual foi o índice de concordância? Quais foram as categorias de erro mais frequentes?

As limitações reconhecidas. Toda análise de sentimento tem limitações. Declarar as suas não enfraquece sua pesquisa, protege você. Uma banca que encontra um problema que você já mapeou e declarou tende a avaliar isso como maturidade metodológica, não como falha.

Se você usa a análise de sentimento como método auxiliar (para exploração inicial ou para reduzir o volume antes de análise manual aprofundada), declare isso também. Usar IA para triagem, com análise humana nas categorias ambíguas ou relevantes, é uma abordagem que pode ser bastante defensável.

A questão da autoria e do julgamento

Aqui está algo que vai além da técnica: análise de sentimento com IA não substitui o julgamento da pesquisadora.

Quando você codifica manualmente um corpus, você está fazendo escolhas interpretativas que refletem sua compreensão do contexto, seu referencial teórico e sua sensibilidade para o fenômeno que está estudando. Isso é parte do trabalho de pesquisa qualitativa.

Quando você delega essa tarefa a um modelo de linguagem, você está transferindo essas escolhas para um sistema treinado em dados que você não controla, com critérios que você não definiu. O modelo não sabe que sua pesquisa usa referencial feminista, que você está atenta a marcadores de raça e classe, que a ironia é uma forma de resistência no contexto que você estuda.

Isso não significa que ferramentas de análise de sentimento sejam inutilizáveis na pesquisa. Significa que elas precisam estar a serviço da sua interpretação, não no lugar dela.

Para aprofundar como incorporar IA na pesquisa sem abrir mão da sua autoria intelectual, veja também este post sobre como usar IA sem comprometer sua autoria.

Pensando com o Método V.O.E.

No Método V.O.E., a letra E de Execução Inteligente significa, entre outras coisas, usar as ferramentas disponíveis sem se deixar usar por elas. Análise de sentimento com IA é uma ferramenta. Como qualquer ferramenta, ela serve quando usada para a função certa.

O problema que mais aparece não é tecnológico. É de posicionamento: pesquisadoras que escolhem o método por conveniência (tenho um corpus grande, preciso de algo rápido) e depois tentam justificar a escolha na dissertação. A ordem certa é ao contrário: a pergunta de pesquisa determina o método, e o método determina as ferramentas.

Se análise de sentimento responde à sua pergunta com a precisão que sua pesquisa exige, use. Se não responde, não use só porque parece moderno ou eficiente.

Faz sentido para você?

Análise de sentimento com IA pode ser uma ferramenta legítima em dissertações e teses, desde que usada com rigor, declarada com transparência e validada com método.

Se você está considerando usá-la, comece pela validação antes de aplicar ao corpus completo. Classifique uma amostra manualmente, compare com a ferramenta escolhida e veja onde ela erra. Esse exercício vai te dizer se a ferramenta é adequada para o seu corpus específico, e vai te dar os dados que você precisa para a seção metodológica.

A pergunta não é “posso usar IA para isso?”. É “o que essa ferramenta faz bem o suficiente para as necessidades da minha pesquisa, e o que ela não faz?”. Responda isso primeiro.

IA para Análise de Sentimento em Dados Textuais

A promessa e o problema

O que é análise de sentimento e como a IA faz isso

Onde a análise de sentimento funciona (razoavelmente bem)

Onde ela fracassa (e é perigoso usar sem alertar)

O que você precisa declarar, sem exceção

A questão da autoria e do julgamento

Pensando com o Método V.O.E.

Faz sentido para você?

Perguntas frequentes

Leia também

Claude para análise qualitativa: como funciona na prática

Como usar o Claude na revisão de literatura acadêmica

Plágio no TCC: o que a porcentagem realmente indica

Receba estratégias de escrita acadêmica direto no seu feed