Como interpretar o p-valor na pesquisa científica
O p-valor é um dos conceitos mais mal compreendidos da estatística. Entenda o que ele diz, o que não diz, e como usá-lo com honestidade na sua pesquisa.
O número que todo mundo vê e poucos realmente entendem
Olha só: poucos conceitos na pesquisa científica são tão frequentemente mencionados e tão mal compreendidos quanto o p-valor. Ele aparece em quase todo artigo quantitativo, é exigido por boa parte dos periódicos, e é usado como argumento central em defesas de dissertação.
E ainda assim, a maioria das pessoas que o usa não consegue explicar com precisão o que ele significa.
Isso não é descuido. É reflexo de como o p-valor costuma ser ensinado: como um número mágico que, se estiver abaixo de 0,05, faz o resultado ser “significativo”. Sem contexto, sem nuance, sem entendimento do que está sendo testado.
Esse texto existe para mudar isso.
O que o p-valor de fato mede
Antes de qualquer coisa, é preciso entender o que o p-valor não é. Ele não mede a probabilidade de a hipótese nula ser verdadeira. Não mede a probabilidade de ter cometido um erro. Não mede a importância do resultado. E definitivamente não mede o tamanho do efeito encontrado.
O que o p-valor mede é o seguinte: assumindo que a hipótese nula é verdadeira, qual é a probabilidade de observar dados tão extremos quanto os dados encontrados, ou mais extremos?
Traduzindo para o cotidiano da pesquisa: você coletou dados, rodou um teste estatístico, e obteve um resultado. O p-valor responde à pergunta: se não houvesse efeito real nenhum (se a hipótese nula fosse verdadeira), com que frequência esperaríamos obter um resultado assim por acaso?
Se o p-valor é 0,03, significa que em apenas 3% das vezes, por puro acaso, obteríamos um resultado tão extremo. Isso sugere que o resultado não é facilmente explicável por acaso, o que dá suporte à ideia de que há algo real acontecendo.
Se o p-valor é 0,60, significa que 60% das vezes obteríamos um resultado assim por acaso. Ou seja, o resultado não é evidência contra a hipótese nula.
Por que o limiar de 0,05?
A escolha de 0,05 como limiar de significância é uma convenção histórica, não uma verdade universal. Ela foi popularizada por Ronald Fisher no início do século XX como um critério prático de decisão: se a probabilidade de obter esse resultado por acaso é menor que 5%, o resultado merece atenção.
Isso funcionou como ponto de partida. O problema é que virou dogma.
Nas últimas décadas, tem crescido o movimento dentro da comunidade científica para questionar o uso mecânico desse limiar. Vários periódicos e organizações de pesquisa têm discutido a substituição ou complementação do p < 0,05 por métricas mais informativas.
Algumas áreas adotam limiares diferentes: em física de partículas, por exemplo, o padrão de significância é muito mais rigoroso (p < 0,0000003, o chamado “5 sigma”). Em pesquisas exploratórias com amostras pequenas, usar 0,05 pode ser adequado. O contexto importa.
O que acontece quando só olhamos para o p-valor
Aqui está o problema central do uso irrefletido do p-valor: ele depende do tamanho da amostra.
Com amostras muito grandes, é possível obter p < 0,05 para diferenças tão pequenas que não têm nenhum significado prático. Uma diferença de 0,1 ponto em uma escala de 100 pode ser estatisticamente significativa em uma amostra de 100.000 participantes, mas isso não quer dizer que a diferença importa para alguém.
Com amostras muito pequenas, o inverso acontece: um efeito real e relevante pode não atingir significância estatística simplesmente porque não há poder estatístico suficiente para detectá-lo.
Por isso, o p-valor precisa ser sempre acompanhado de outras medidas. As principais são:
Tamanho do efeito: quantifica a magnitude do fenômeno observado, independente do tamanho amostral. Exemplos: d de Cohen para comparação de médias, r de Pearson para correlações, eta-quadrado para ANOVA. Essas medidas dizem “quanto” o efeito é grande, não apenas “se” ele existe.
Intervalo de confiança: fornece uma faixa de valores plausíveis para o parâmetro estimado. Um intervalo de confiança de 95% que não inclui o valor nulo é coerente com significância estatística, mas também informa sobre a precisão da estimativa.
Poder estatístico: a probabilidade de detectar um efeito real quando ele existe. Pesquisas com baixo poder estatístico (geralmente por amostras pequenas) têm alta taxa de falsos negativos.
Como escrever sobre o p-valor na sua pesquisa
Vamos lá, parte prática.
No relatório de pesquisa ou na dissertação, o p-valor aparece nos resultados. O modo correto de reportar não é apenas “p < 0,05” ou “resultado significativo”. É apresentar:
O valor exato do p (quando disponível), o tamanho do efeito com sua interpretação, o intervalo de confiança se aplicável, e uma discussão sobre o que o resultado significa no contexto da pesquisa.
Exemplo de como não escrever: “A diferença foi significativa (p = 0,03), confirmando a hipótese.”
Exemplo de como escrever: “A diferença entre os grupos foi estatisticamente significativa (p = 0,03), com tamanho de efeito pequeno (d = 0,21). Embora a diferença seja improvável de ocorrer por acaso, sua magnitude sugere impacto prático limitado no contexto estudado.”
Faz sentido a diferença? O primeiro trata o p como conclusão. O segundo trata o p como parte de um argumento mais completo.
Hipótese nula: o que você está testando, exatamente?
O p-valor não tem sentido sem entender o que é a hipótese nula. Em termos simples, é a hipótese de que não há efeito, não há diferença, não há relação. É o ponto de referência contra o qual você está testando seus dados.
Quando você faz um teste t para comparar dois grupos, a hipótese nula é que as médias são iguais. Quando faz uma correlação de Pearson, a hipótese nula é que a correlação é zero. Quando faz uma ANOVA, a hipótese nula é que todas as médias são iguais.
O p-valor mede a compatibilidade dos seus dados com essa hipótese nula. Quanto menor o p, menos compatíveis os dados são com a hipótese de que “não aconteceu nada”.
Um alerta sobre o que o p-valor não resolve
Significância estatística não valida a teoria. Um p-valor baixo diz que o resultado é improvável sob a hipótese nula. Mas não diz que a explicação que você propôs para o resultado está correta.
Por exemplo: você encontra correlação significativa entre duas variáveis. O p-valor diz que essa correlação é improvável de ser acaso. Mas não diz que uma variável causa a outra. Correlação não é causalidade, e o p-valor não resolve essa distinção.
A interpretação teórica do resultado é responsabilidade do pesquisador, não do software estatístico.
Se você usa o Método V.O.E. para organizar sua pesquisa, a etapa de Visão é onde você precisa clareza sobre o que está testando e o que vai interpretar. A análise estatística serve à pergunta de pesquisa, não o contrário.
Erros comuns ao reportar p-valor em dissertações
Olha os erros mais recorrentes que aparecem em dissertações e relatórios de pesquisa:
“O resultado confirmou a hipótese.” O p-valor não confirma hipóteses. Ele fornece evidências contra ou a favor da hipótese nula. A linguagem certa é: “os dados foram consistentes com a hipótese alternativa” ou “os dados rejeitaram a hipótese nula”.
“O resultado foi altamente significativo (p = 0,001).” Não existe “altamente significativo” em termos estatísticos. O resultado é significativo ou não, com base no limiar adotado. Adicionar advérbios ao nível de significância é imprecisão conceitual.
Omitir o valor exato do p. Escrever apenas “p < 0,05” quando o valor exato é 0,032 esconde informação. Reporte sempre o valor exato, exceto quando for extremamente pequeno (como p < 0,001).
Interpretar falta de significância como prova de ausência de efeito. P > 0,05 não significa que o efeito não existe. Pode significar que o estudo não teve poder suficiente para detectá-lo. A ausência de evidência não é evidência de ausência.
Ignorar múltiplas comparações. Quando você faz muitos testes ao mesmo tempo, a probabilidade de obter pelo menos um falso positivo aumenta. Se faz 20 testes com limiar de 0,05, espera-se um resultado significativo por acaso. Existem correções para isso (como a correção de Bonferroni), e ignorá-las infla artificialmente os resultados.
Para fechar
O p-valor é uma ferramenta útil quando usado com consciência de suas limitações. Ele não é uma sentença sobre a verdade do resultado. É um indício, um sinal, que precisa ser interpretado dentro de um contexto maior.
Quando você entende isso, a pesquisa fica mais honesta e mais robusta. Você deixa de buscar o “p significativo” como meta e passa a buscar uma resposta rigorosa para a sua pergunta de pesquisa.
E essa mudança faz toda a diferença.