Quando devo usar um teste não paramétrico?

Quando seus dados violam as premissas dos testes paramétricos: distribuição não normal em amostras pequenas, variáveis em escala ordinal ou nominal, ou presença de outliers que distorcem a média. Também é a escolha mais conservadora quando você não tem como verificar normalidade adequadamente.

Teste paramétrico é mais poderoso que o não paramétrico?

Em geral sim, quando as premissas são atendidas. Testes paramétricos têm maior poder estatístico, ou seja, detectam diferenças reais com mais facilidade quando a distribuição dos dados é realmente normal. Quando as premissas são violadas, o não paramétrico pode ser mais confiável mesmo que menos potente.

Posso escolher o teste depois de ver os dados?

Não da forma que parece conveniente. Escolher o teste com base nos resultados preliminares para obter significância é uma forma de p-hacking. O protocolo correto é definir os testes na metodologia, antes da análise, com base nas características esperadas dos dados e nas perguntas de pesquisa.

Teste paramétrico ou não paramétrico: como decidir

A pergunta que muita pesquisadora adia até o último momento

Você coletou os dados, organizou a planilha, está pronta para analisar. Aí vem a dúvida que ninguém ensinou direito na graduação: uso um teste paramétrico ou não paramétrico?

A resposta não está na preferência ou na tradição do orientador. Ela está nos seus dados. Teste paramétrico ou não paramétrico é uma decisão metodológica baseada em características verificáveis do conjunto de dados que você tem.

Entender o critério muda a análise de uma escolha arbitrária para uma decisão que você consegue justificar perante qualquer banca.

O que separa os dois grupos de testes

Testes paramétricos são procedimentos estatísticos que assumem que os dados seguem uma distribuição conhecida (geralmente normal) e que operam com parâmetros populacionais como média e variância. São exemplos: t-test, ANOVA, correlação de Pearson, regressão linear.

Testes não paramétricos não fazem essa suposição de distribuição. Eles trabalham com postos (rankings) ou categorias em vez de valores brutos, o que os torna adequados para dados que não seguem distribuição normal ou para variáveis que não são mensuradas em escala intervalar ou de razão. São exemplos: Mann-Whitney, Kruskal-Wallis, correlação de Spearman, qui-quadrado.

A distinção central não é “paramétrico = melhor” ou “não paramétrico = menos rigoroso”. É que cada grupo de testes tem premissas que precisam ser atendidas para que os resultados sejam válidos.

As três premissas que determinam a escolha

A decisão entre paramétrico e não paramétrico passa por três verificações principais. Cada uma pode redirecionar a escolha.

A primeira é o nível de mensuração da variável. Testes paramétricos exigem variáveis em escala intervalar ou de razão, onde os intervalos entre valores são iguais e têm significado (temperatura em Celsius, peso em kg, pontuação em teste padronizado com intervalo igual). Se sua variável é ordinal (escala Likert, ranking, classificação) ou nominal (categoria, grupo), o caminho é não paramétrico.

A segunda é a distribuição dos dados. Testes paramétricos assumem normalidade. Com amostras grandes (acima de 30, geralmente), o teorema do limite central atenua o problema: a distribuição da média amostral se aproxima da normal independente da distribuição original dos dados. Com amostras pequenas, você precisa verificar a normalidade com testes específicos (Shapiro-Wilk é o mais usado para amostras pequenas) ou por análise visual (Q-Q plot, histograma).

A terceira é a homogeneidade de variâncias, quando você está comparando grupos. A ANOVA e o t-test assumem que as variâncias dos grupos são semelhantes. O teste de Levene verifica isso. Se as variâncias são muito diferentes, você usa versões corrigidas (Welch’s t-test, por exemplo) ou parte para o não paramétrico.

Como verificar normalidade na prática

Não existe teste único infalível para normalidade. A prática recomendada combina análise visual e teste formal.

Na análise visual, o histograma mostra a forma da distribuição. O Q-Q plot (quantile-quantile plot) compara os quantis dos seus dados com os quantis da distribuição normal: se os pontos ficam próximos da linha diagonal, a distribuição é razoavelmente normal.

No teste formal, o Shapiro-Wilk é o mais recomendado para amostras até 50 observações. Um p-valor acima de 0,05 indica que não há evidência suficiente para rejeitar a hipótese de normalidade. Com amostras maiores, o Kolmogorov-Smirnov (com correção de Lilliefors) é uma alternativa.

Um ponto importante: com amostras muito grandes, qualquer desvio mínimo de normalidade resulta em Shapiro-Wilk significativo. Isso não significa necessariamente que os dados são problemáticos para testes paramétricos. Juízo contextual e análise visual são essenciais.

Correspondência entre testes paramétricos e não paramétricos

Para cada situação de análise, existe um par de alternativas:

Objetivo	Paramétrico	Não paramétrico
Comparar 2 grupos independentes	t-test independente	Mann-Whitney U
Comparar 2 grupos pareados	t-test pareado	Wilcoxon
Comparar 3 ou mais grupos	ANOVA one-way	Kruskal-Wallis
Correlação entre variáveis contínuas	Pearson	Spearman
Associação entre variáveis categóricas	(não se aplica)	Qui-quadrado

A tabela é um ponto de partida. A escolha dentro de cada linha depende das premissas verificadas.

Uma observação sobre qui-quadrado: ele é frequentemente esquecido nas listas de testes não paramétricos, mas é um dos mais usados em pesquisas das ciências humanas e da saúde. Serve para testar associação entre duas variáveis categóricas (por exemplo, sexo e preferência de método de estudo) e não pressupõe nenhuma distribuição. A premissa principal é que o valor esperado em cada célula da tabela de contingência seja de pelo menos cinco observações. Quando essa premissa não é atendida, usa-se o teste exato de Fisher.

Para correlação, a diferença entre Pearson e Spearman vai além do nível de mensuração. Pearson mede a força da relação linear entre duas variáveis contínuas com distribuição normal. Spearman mede a correlação monotônica entre variáveis ordinais ou contínuas sem normalidade. Em amostras com outliers pronunciados, Spearman tende a ser mais robusto porque trabalha com postos em vez de valores brutos.

O erro do p-hacking que ninguém fala abertamente

Existe uma prática problemática que aparece com mais frequência do que deveria em pesquisas iniciantes: rodar o teste paramétrico, não obter p-valor significativo, e então trocar para o não paramétrico com a expectativa de que o resultado mude.

Isso é p-hacking. Não é uma estratégia de análise. É uma forma de distorcer os resultados que prejudica a integridade da pesquisa.

A decisão sobre qual teste usar precisa estar definida na metodologia, antes da análise. O protocolo correto é: com base nas características dos seus dados e na sua pergunta de pesquisa, defina os testes a priori. Se a verificação de premissas (normalidade, homogeneidade) mudar o plano original, documente o motivo da mudança na metodologia. A banca avalia se a mudança foi justificada ou oportunista.

Esse princípio vale para qualquer decisão de análise, não só para a escolha paramétrico versus não paramétrico.

Quando a amostra pequena complica tudo

Com menos de 30 observações, a escolha fica mais delicada. Amostras pequenas não permitem verificar normalidade com confiança porque os testes de normalidade têm baixo poder: eles não conseguem detectar violações com precisão suficiente.

Nesse cenário, a postura mais conservadora é usar testes não paramétricos, especialmente quando:

A distribuição dos dados é assimétrica no histograma
A área de pesquisa tem tradição de não parametricidade para aquele tipo de variável
As conclusões do trabalho são de alta consequência (pesquisa clínica, por exemplo)

Alguns orientadores recomendam o não paramétrico como padrão em amostras abaixo de 15-20. Verifique a convenção da sua área e do periódico alvo.

O que fazer quando os resultados contradizem o esperado

Às vezes você planeja usar um teste paramétrico, verifica as premissas, descobre violação de normalidade e tem que mudar o plano. Ou o contrário: planejou não paramétrico por cautela, mas a amostra cresceu e as premissas são atendidas.

Mudar de rota no meio da análise não é problema, desde que o processo seja transparente. O que precisa estar claro na metodologia é: qual era o plano original, o que foi verificado, o que mudou e por quê. Essa transparência é o que distingue análise exploratória responsável de p-hacking.

Outro cenário comum: você roda o paramétrico e o não paramétrico e os resultados divergem. O teste t indica diferença significativa; o Mann-Whitney não. O que fazer? Confiar mais nas premissas verificadas. Se os dados violam claramente normalidade, o Mann-Whitney é mais confiável. Se as premissas estão atendidas, o t-test tem mais poder. Em caso de dúvida genuína, relate os dois resultados com transparência e discuta a divergência.

O que apresentar na metodologia

Uma boa seção de metodologia não apenas enuncia “foram usados testes não paramétricos”. Ela justifica.

A justificativa inclui: as características das variáveis (nível de mensuração), o tamanho da amostra, os resultados dos testes de normalidade aplicados, e como esses elementos conduziram à escolha dos testes usados. Quando você mudou de plano durante a análise, descreva o motivo.

Isso transforma uma escolha que poderia parecer arbitrária em uma decisão metodológica rastreável. É exatamente o que a banca verifica.

Mais sobre como escrever a seção de metodologia com esse nível de clareza está em /metodo-voe e em outros posts do pilar de metodologia aqui no blog.

Teste paramétrico ou não paramétrico: como decidir

A pergunta que muita pesquisadora adia até o último momento

O que separa os dois grupos de testes

As três premissas que determinam a escolha

Como verificar normalidade na prática

Correspondência entre testes paramétricos e não paramétricos

O erro do p-hacking que ninguém fala abertamente

Quando a amostra pequena complica tudo

O que fazer quando os resultados contradizem o esperado

O que apresentar na metodologia

Perguntas frequentes

Leia também

ABNT atualizada em 2024: o que mudou e o que permanece

Amostragem Probabilística: Tipos, Usos e Diferenças

Citação com grifo nosso: como usar corretamente na ABNT

Receba estratégias de escrita acadêmica direto no seu feed