Método

Testes estatísticos: como escolher o certo na pesquisa

Como escolher o teste estatístico certo para sua pesquisa, com a diferença entre testes paramétricos e não paramétricos.

metodologia estatistica pesquisa-quantitativa dissertacao analise-dados

A pergunta que fica sem resposta no capítulo de metodologia

“Qual teste estatístico você usou para analisar isso?” É uma das perguntas mais frequentes da banca em defesas de pesquisas quantitativas. E é uma pergunta que, às vezes, a pesquisadora não consegue responder com clareza.

A escolha do teste estatístico não é uma questão de preferência ou de qual software você usa. É uma decisão metodológica que precisa estar explícita no projeto e justificada no texto. Usar o teste errado não invalida automaticamente a pesquisa, mas compromete a validade das conclusões e vai ser questionado.

O critério central para escolher o teste certo é entender o que você quer responder e qual é a natureza dos seus dados.


Duas perguntas fundamentais antes de qualquer teste

1. Qual é o tipo das suas variáveis?

  • Variáveis categóricas (nominais ou ordinais): sexo, grau de instrução, categoria de resposta em escala Likert, grupo de tratamento
  • Variáveis numéricas (contínuas ou discretas): idade, nota, tempo, concentração de substância

2. Seus dados seguem distribuição normal?

Essa questão é fundamental para decidir entre testes paramétricos (que assumem normalidade) e não paramétricos (que não assumem).

Para verificar normalidade, os testes mais usados são o Shapiro-Wilk (para amostras pequenas, até 50 casos) e o Kolmogorov-Smirnov (para amostras maiores). Verificar visualmente por histograma ou Q-Q plot é uma prática complementar.


Testes paramétricos: quando e quais

Testes paramétricos são mais poderosos (têm maior capacidade de detectar efeitos quando eles existem), mas exigem que os dados atendam a premissas: normalidade da distribuição, homogeneidade das variâncias entre grupos (em alguns testes), e escala de medida intervalar ou razão.

Teste t para amostras independentes: compara médias de dois grupos distintos. Exemplo: comparar o desempenho de alunos que usaram método A com os que usaram método B.

Teste t pareado: compara médias do mesmo grupo em dois momentos ou condições. Exemplo: desempenho antes e depois de uma intervenção.

ANOVA (Análise de Variância) de um fator: compara médias de três ou mais grupos. Exemplo: comparar o desempenho de três grupos que receberam intervenções diferentes. Quando ANOVA indica diferença significativa entre grupos, um teste post-hoc (Tukey, Bonferroni, Scheffé) identifica quais grupos diferem entre si.

Correlação de Pearson: mede a força e a direção da relação linear entre duas variáveis numéricas contínuas. Resultado varia de -1 a +1.

Regressão linear: estima a relação entre uma variável dependente (contínua) e uma ou mais variáveis independentes. Permite predição e controle de confundidores.


Testes não paramétricos: quando e quais

Testes não paramétricos são usados quando os dados não seguem distribuição normal, quando a escala é ordinal, ou quando a amostra é pequena demais para verificar normalidade com confiabilidade.

Mann-Whitney U (ou Wilcoxon para amostras não pareadas): alternativa não paramétrica ao t-test para amostras independentes. Compara as distribuições de dois grupos.

Wilcoxon de postos com sinal (Wilcoxon signed-rank test): alternativa não paramétrica ao t-test pareado.

Kruskal-Wallis: alternativa não paramétrica à ANOVA. Compara distribuições de três ou mais grupos independentes.

Correlação de Spearman: alternativa não paramétrica à correlação de Pearson. Mede a correlação entre postos (ranks), adequada para variáveis ordinais ou quando a relação não é linear.


Testes para variáveis categóricas

Qui-quadrado de independência (χ²): testa se duas variáveis categóricas são independentes. Exemplo: “existe associação entre o sexo do pesquisador e a área de pesquisa?”

Premissas: cada célula da tabela de contingência deve ter frequência esperada de pelo menos 5. Quando essa condição não é atendida, usa-se o Teste Exato de Fisher.

McNemar: para variáveis categóricas dicotômicas em amostras pareadas. Exemplo: avaliar mudança de postura (sim/não) antes e depois de uma intervenção no mesmo grupo.

Coeficiente kappa de Cohen: avalia concordância entre dois avaliadores. Muito usado em pesquisas de saúde e educação com categorização qualitativa.


Erros comuns na escolha e aplicação de testes

Usar t-test sem verificar normalidade: o t-test é robusto para violações leves de normalidade em amostras grandes, mas para amostras pequenas essa verificação é essencial.

Usar ANOVA sem teste post-hoc: ANOVA indica que há diferença significativa entre algum par de grupos, mas não qual. Sem post-hoc, a conclusão fica incompleta.

Interpretar correlação como causalidade: correlação estatística não implica relação de causa e efeito. Isso vale para Pearson e Spearman. Afirmar que “X causa Y” exige design experimental controlado, não apenas análise de correlação.

Fazer múltiplos testes sem correção: quando você faz muitos testes estatísticos no mesmo conjunto de dados, aumenta a probabilidade de encontrar resultados significativos por acaso. Correções como a de Bonferroni ajustam o nível de significância para compensar esse problema.

Confundir significância estatística com relevância prática: um resultado estatisticamente significativo (p < 0,05) nem sempre é clinicamente ou praticamente relevante. O tamanho do efeito (effect size, como d de Cohen ou η²) precisa ser reportado junto com o valor de p.


Como justificar a escolha do teste na dissertação

Na seção de metodologia, a escolha do teste precisa ser justificada. A justificativa inclui:

  • Qual é o objetivo da análise (comparação de grupos, verificação de associação, identificação de correlação)
  • Qual é o tipo das variáveis envolvidas
  • Qual é a distribuição dos dados (confirmada por teste de normalidade)
  • Por que o teste escolhido é adequado para essas características

Uma justificativa correta não precisa ser longa. Precisa ser clara. Exemplo:

“Para comparar as médias dos grupos experimental e controle, utilizou-se o teste t para amostras independentes (Student), após verificação da normalidade pelo teste de Shapiro-Wilk (p = 0,23 e p = 0,31, respectivamente) e homogeneidade das variâncias pelo teste de Levene (F = 0,84, p = 0,36).”

Essa frase mostra que você verificou as premissas antes de aplicar o teste, o que é exatamente o que a banca quer ver.


Software para análise estatística: qual usar

A escolha do software não determina a validade da análise, mas afeta a facilidade de execução e a reprodutibilidade.

SPSS (IBM SPSS Statistics): muito usado em ciências da saúde, psicologia e ciências sociais aplicadas no Brasil. Interface gráfica intuitiva para quem não tem programação. Licença paga, embora muitas universidades ofereçam acesso institucional.

R: software livre com grande capacidade estatística e gráfica. Requer aprendizado de programação, mas a comunidade de pacotes (tidyverse, ggplot2, stats) cobre praticamente qualquer análise. Preferido em pesquisa que preza pela reprodutibilidade e transparência.

JASP: interface gráfica gratuita que usa o R por baixo. Boa opção para quem quer análise robusta sem programar. Tem suporte a estatística bayesiana, que é cada vez mais usada em pesquisas com amostras pequenas.

Excel: adequado para análises básicas (médias, desvio padrão, correlação simples), mas limitado para análises mais complexas. Adequado para pesquisas exploratórias, mas raramente suficiente para dissertações e teses que exigem testes robustos.

Independente do software, o que precisa aparecer na metodologia é o teste usado, os valores do teste (estatística e valor de p), e a verificação das premissas. “Os dados foram analisados no SPSS” sem mais detalhes não é suficiente.


Reportar resultados de testes estatísticos no texto

Cada teste tem uma convenção de como reportar os resultados. Exemplos:

t-test: t(gl) = valor, p = valor. Exemplo: t(48) = 2,34, p = 0,023.

ANOVA: F(gl_entre, gl_dentro) = valor, p = valor. Exemplo: F(2, 57) = 4,12, p = 0,021.

Qui-quadrado: χ²(gl, N = amostra) = valor, p = valor. Exemplo: χ²(1, N = 120) = 5,78, p = 0,016.

Correlação: r(n-2) = valor, p = valor. Exemplo: r(68) = 0,42, p = 0,003.

Além do valor de p, reportar o tamanho do efeito é uma prática crescente e cobrada em muitas revistas. Para t-test, o d de Cohen; para ANOVA, o η² (eta quadrado) ou η²p (parcial); para correlação, o r² (variância explicada).

Resultados sem tamanho de efeito informam que há diferença significativa, mas não o quanto essa diferença importa na prática.

Perguntas frequentes

Quando usar t-test ou ANOVA?
Use o t-test para comparar médias de dois grupos independentes (t-test para amostras independentes) ou o mesmo grupo em dois momentos (t-test pareado). Use ANOVA quando quiser comparar médias de três ou mais grupos. Ambos assumem distribuição normal e são paramétricos. Se os dados não seguem distribuição normal, use Mann-Whitney (para 2 grupos) ou Kruskal-Wallis (para 3+).
Quando usar qui-quadrado?
O qui-quadrado testa a associação entre duas variáveis categóricas. Por exemplo, verificar se há relação entre nível de escolaridade e uso de ferramentas de IA. Requer que as células da tabela de contingência tenham frequências esperadas de pelo menos 5. Para amostras pequenas, use o Teste Exato de Fisher.
O que é um teste não paramétrico e quando usar?
Testes não paramétricos não assumem distribuição normal dos dados. São usados quando os dados não seguem uma distribuição gaussiana, quando a amostra é pequena, ou quando os dados são ordinais. Os mais comuns são Mann-Whitney, Wilcoxon, Kruskal-Wallis e Spearman.

Leia também

Receba estratégias de escrita acadêmica direto no seu feed

Siga a Dra. Nathalia no YouTube e Instagram para conteúdo gratuito sobre o Método V.O.E.