Testes estatísticos: como escolher o certo na pesquisa
Como escolher o teste estatístico certo para sua pesquisa, com a diferença entre testes paramétricos e não paramétricos.
A pergunta que fica sem resposta no capítulo de metodologia
“Qual teste estatístico você usou para analisar isso?” É uma das perguntas mais frequentes da banca em defesas de pesquisas quantitativas. E é uma pergunta que, às vezes, a pesquisadora não consegue responder com clareza.
A escolha do teste estatístico não é uma questão de preferência ou de qual software você usa. É uma decisão metodológica que precisa estar explícita no projeto e justificada no texto. Usar o teste errado não invalida automaticamente a pesquisa, mas compromete a validade das conclusões e vai ser questionado.
O critério central para escolher o teste certo é entender o que você quer responder e qual é a natureza dos seus dados.
Duas perguntas fundamentais antes de qualquer teste
1. Qual é o tipo das suas variáveis?
- Variáveis categóricas (nominais ou ordinais): sexo, grau de instrução, categoria de resposta em escala Likert, grupo de tratamento
- Variáveis numéricas (contínuas ou discretas): idade, nota, tempo, concentração de substância
2. Seus dados seguem distribuição normal?
Essa questão é fundamental para decidir entre testes paramétricos (que assumem normalidade) e não paramétricos (que não assumem).
Para verificar normalidade, os testes mais usados são o Shapiro-Wilk (para amostras pequenas, até 50 casos) e o Kolmogorov-Smirnov (para amostras maiores). Verificar visualmente por histograma ou Q-Q plot é uma prática complementar.
Testes paramétricos: quando e quais
Testes paramétricos são mais poderosos (têm maior capacidade de detectar efeitos quando eles existem), mas exigem que os dados atendam a premissas: normalidade da distribuição, homogeneidade das variâncias entre grupos (em alguns testes), e escala de medida intervalar ou razão.
Teste t para amostras independentes: compara médias de dois grupos distintos. Exemplo: comparar o desempenho de alunos que usaram método A com os que usaram método B.
Teste t pareado: compara médias do mesmo grupo em dois momentos ou condições. Exemplo: desempenho antes e depois de uma intervenção.
ANOVA (Análise de Variância) de um fator: compara médias de três ou mais grupos. Exemplo: comparar o desempenho de três grupos que receberam intervenções diferentes. Quando ANOVA indica diferença significativa entre grupos, um teste post-hoc (Tukey, Bonferroni, Scheffé) identifica quais grupos diferem entre si.
Correlação de Pearson: mede a força e a direção da relação linear entre duas variáveis numéricas contínuas. Resultado varia de -1 a +1.
Regressão linear: estima a relação entre uma variável dependente (contínua) e uma ou mais variáveis independentes. Permite predição e controle de confundidores.
Testes não paramétricos: quando e quais
Testes não paramétricos são usados quando os dados não seguem distribuição normal, quando a escala é ordinal, ou quando a amostra é pequena demais para verificar normalidade com confiabilidade.
Mann-Whitney U (ou Wilcoxon para amostras não pareadas): alternativa não paramétrica ao t-test para amostras independentes. Compara as distribuições de dois grupos.
Wilcoxon de postos com sinal (Wilcoxon signed-rank test): alternativa não paramétrica ao t-test pareado.
Kruskal-Wallis: alternativa não paramétrica à ANOVA. Compara distribuições de três ou mais grupos independentes.
Correlação de Spearman: alternativa não paramétrica à correlação de Pearson. Mede a correlação entre postos (ranks), adequada para variáveis ordinais ou quando a relação não é linear.
Testes para variáveis categóricas
Qui-quadrado de independência (χ²): testa se duas variáveis categóricas são independentes. Exemplo: “existe associação entre o sexo do pesquisador e a área de pesquisa?”
Premissas: cada célula da tabela de contingência deve ter frequência esperada de pelo menos 5. Quando essa condição não é atendida, usa-se o Teste Exato de Fisher.
McNemar: para variáveis categóricas dicotômicas em amostras pareadas. Exemplo: avaliar mudança de postura (sim/não) antes e depois de uma intervenção no mesmo grupo.
Coeficiente kappa de Cohen: avalia concordância entre dois avaliadores. Muito usado em pesquisas de saúde e educação com categorização qualitativa.
Erros comuns na escolha e aplicação de testes
Usar t-test sem verificar normalidade: o t-test é robusto para violações leves de normalidade em amostras grandes, mas para amostras pequenas essa verificação é essencial.
Usar ANOVA sem teste post-hoc: ANOVA indica que há diferença significativa entre algum par de grupos, mas não qual. Sem post-hoc, a conclusão fica incompleta.
Interpretar correlação como causalidade: correlação estatística não implica relação de causa e efeito. Isso vale para Pearson e Spearman. Afirmar que “X causa Y” exige design experimental controlado, não apenas análise de correlação.
Fazer múltiplos testes sem correção: quando você faz muitos testes estatísticos no mesmo conjunto de dados, aumenta a probabilidade de encontrar resultados significativos por acaso. Correções como a de Bonferroni ajustam o nível de significância para compensar esse problema.
Confundir significância estatística com relevância prática: um resultado estatisticamente significativo (p < 0,05) nem sempre é clinicamente ou praticamente relevante. O tamanho do efeito (effect size, como d de Cohen ou η²) precisa ser reportado junto com o valor de p.
Como justificar a escolha do teste na dissertação
Na seção de metodologia, a escolha do teste precisa ser justificada. A justificativa inclui:
- Qual é o objetivo da análise (comparação de grupos, verificação de associação, identificação de correlação)
- Qual é o tipo das variáveis envolvidas
- Qual é a distribuição dos dados (confirmada por teste de normalidade)
- Por que o teste escolhido é adequado para essas características
Uma justificativa correta não precisa ser longa. Precisa ser clara. Exemplo:
“Para comparar as médias dos grupos experimental e controle, utilizou-se o teste t para amostras independentes (Student), após verificação da normalidade pelo teste de Shapiro-Wilk (p = 0,23 e p = 0,31, respectivamente) e homogeneidade das variâncias pelo teste de Levene (F = 0,84, p = 0,36).”
Essa frase mostra que você verificou as premissas antes de aplicar o teste, o que é exatamente o que a banca quer ver.
Software para análise estatística: qual usar
A escolha do software não determina a validade da análise, mas afeta a facilidade de execução e a reprodutibilidade.
SPSS (IBM SPSS Statistics): muito usado em ciências da saúde, psicologia e ciências sociais aplicadas no Brasil. Interface gráfica intuitiva para quem não tem programação. Licença paga, embora muitas universidades ofereçam acesso institucional.
R: software livre com grande capacidade estatística e gráfica. Requer aprendizado de programação, mas a comunidade de pacotes (tidyverse, ggplot2, stats) cobre praticamente qualquer análise. Preferido em pesquisa que preza pela reprodutibilidade e transparência.
JASP: interface gráfica gratuita que usa o R por baixo. Boa opção para quem quer análise robusta sem programar. Tem suporte a estatística bayesiana, que é cada vez mais usada em pesquisas com amostras pequenas.
Excel: adequado para análises básicas (médias, desvio padrão, correlação simples), mas limitado para análises mais complexas. Adequado para pesquisas exploratórias, mas raramente suficiente para dissertações e teses que exigem testes robustos.
Independente do software, o que precisa aparecer na metodologia é o teste usado, os valores do teste (estatística e valor de p), e a verificação das premissas. “Os dados foram analisados no SPSS” sem mais detalhes não é suficiente.
Reportar resultados de testes estatísticos no texto
Cada teste tem uma convenção de como reportar os resultados. Exemplos:
t-test: t(gl) = valor, p = valor. Exemplo: t(48) = 2,34, p = 0,023.
ANOVA: F(gl_entre, gl_dentro) = valor, p = valor. Exemplo: F(2, 57) = 4,12, p = 0,021.
Qui-quadrado: χ²(gl, N = amostra) = valor, p = valor. Exemplo: χ²(1, N = 120) = 5,78, p = 0,016.
Correlação: r(n-2) = valor, p = valor. Exemplo: r(68) = 0,42, p = 0,003.
Além do valor de p, reportar o tamanho do efeito é uma prática crescente e cobrada em muitas revistas. Para t-test, o d de Cohen; para ANOVA, o η² (eta quadrado) ou η²p (parcial); para correlação, o r² (variância explicada).
Resultados sem tamanho de efeito informam que há diferença significativa, mas não o quanto essa diferença importa na prática.
Perguntas frequentes
Quando usar t-test ou ANOVA?
Quando usar qui-quadrado?
O que é um teste não paramétrico e quando usar?
Leia também
Receba estratégias de escrita acadêmica direto no seu feed
Siga a Dra. Nathalia no YouTube e Instagram para conteúdo gratuito sobre o Método V.O.E.