Teste t: quando usar e o que ele realmente diz
O teste t é um dos testes estatísticos mais usados na pesquisa acadêmica. Mas seu uso incorreto é igualmente comum. Entenda o que ele faz e quando ele se aplica.
Um teste que aparece em tudo e é entendido pela metade
Vamos lá. O teste t é provavelmente o teste estatístico mais citado em dissertações e artigos de áreas como Saúde, Psicologia, Educação, Nutrição e Ciências Biológicas. É também um dos mais aplicados de forma incorreta.
Não porque as pessoas sejam descuidadas. Mas porque o teste t parece simples o suficiente para usar sem muita reflexão, e os softwares tornam a execução tão fácil que a parte difícil, que é decidir se o teste é adequado para aquela situação, fica em segundo plano.
Vou explicar o que o teste t faz de verdade, quais são as condições em que ele se aplica e onde estão os erros mais comuns.
O que o teste t faz
O teste t compara médias. Mais especificamente, ele avalia se a diferença observada entre duas médias é estatisticamente significativa ou pode ser explicada por variação aleatória.
Quando você tem dois grupos e quer saber se eles diferem em alguma medida contínua, o teste t é uma ferramenta candidata. Mas “dois grupos” e “medida contínua” são apenas os requisitos básicos. Há mais a verificar.
Existem três variações do teste t com aplicações distintas:
Teste t para uma amostra. Você tem um grupo e quer comparar a média desse grupo com um valor de referência conhecido. Por exemplo: comparar a média de pressão arterial de um grupo de pacientes com o valor de referência de 120mmHg.
Teste t para amostras independentes. Você tem dois grupos distintos, sem relação entre os indivíduos de um e do outro, e quer comparar as médias em alguma variável. Por exemplo: comparar o desempenho médio em uma prova entre estudantes de duas escolas diferentes.
Teste t pareado. Você tem o mesmo grupo medido em dois momentos diferentes, ou pares de participantes ligados por alguma característica, e quer comparar as médias. Por exemplo: comparar o peso de pacientes antes e depois de uma intervenção.
A escolha entre as três variações não é opcional. Usar o teste t para amostras independentes quando os grupos são pareados (ou vice-versa) produz resultados incorretos.
Os pressupostos que a maioria não verifica
O teste t funciona corretamente quando alguns pressupostos são atendidos. Ignorar esses pressupostos não invalida automaticamente a pesquisa, mas pode invalidar as conclusões.
Variável dependente contínua. O teste t compara médias e faz sentido apenas para variáveis que podem ter qualquer valor dentro de um intervalo, como peso, altura, tempo, pontuação em escala. Variáveis categóricas, como sexo ou diagnóstico, não podem ser a variável dependente de um teste t.
Normalidade dos dados. Os dados de cada grupo devem seguir aproximadamente uma distribuição normal, ou a amostra deve ser suficientemente grande para que o Teorema Central do Limite se aplique. Para amostras pequenas (menos de 30 observações por grupo, como referência geral), é recomendável verificar a normalidade com testes como Shapiro-Wilk e visualizações como Q-Q plots.
Homocedasticidade. Para o teste t de amostras independentes, as variâncias dos dois grupos devem ser semelhantes. O Teste de Levene é comumente usado para verificar isso. Se a homogeneidade de variâncias for violada, existe uma versão do teste t (Welch’s t-test) que não assume variâncias iguais e deve ser preferida.
Independência das observações. Os dados de um participante não devem influenciar os dados de outro. Isso é uma questão de delineamento da pesquisa, não algo que se verifica estatisticamente depois da coleta.
O que o p-valor significa (e o que não significa)
Esse é o ponto onde mais confusão acontece, e não só com o teste t.
O p-valor do teste t responde a uma pergunta específica: se não houvesse diferença real entre as populações de onde essas amostras vieram, qual seria a probabilidade de observar uma diferença igual ou maior à encontrada por puro acaso?
Quando p menor que 0,05, convenção tradicional na maioria das áreas, dizemos que o resultado é estatisticamente significativo. Isso significa: a diferença observada provavelmente não é devida ao acaso.
O que o p-valor não diz:
Não diz que a diferença é grande. Uma diferença de 0,1 ponto em uma escala de 100 pode ser estatisticamente significativa com uma amostra grande o suficiente. Significância estatística não é o mesmo que relevância clínica ou prática.
Não diz que a hipótese é verdadeira. O p-valor é uma probabilidade condicional, não uma prova de causalidade.
Não diz que você vai encontrar o mesmo resultado se repetir o estudo. Você pode não encontrar.
Para complementar a informação do p-valor, os pesquisadores são crescentemente encorajados a reportar o tamanho de efeito, como d de Cohen, que indica a magnitude da diferença em termos padronizados, independente do tamanho da amostra.
Quando o teste t não é a escolha certa
Quando os pressupostos não são atendidos e a amostra é pequena. Se os dados não seguem distribuição normal e a amostra é pequena, a alternativa não paramétrica é mais adequada. Para amostras independentes, o teste de Mann-Whitney. Para amostras pareadas, o teste de Wilcoxon.
Quando você está comparando mais de dois grupos. O teste t compara dois grupos. Para três ou mais grupos, o teste adequado é a ANOVA. Fazer múltiplos testes t para comparar vários grupos aumenta a taxa de erro tipo I (falsos positivos) e não é a prática correta.
Quando a variável dependente é categórica. Para comparar proporções entre grupos, o teste qui-quadrado é mais adequado.
Quando há múltiplas variáveis de interesse. Para análises com múltiplas variáveis dependentes ou com necessidade de controlar por variáveis de confusão, técnicas como ANCOVA ou regressão múltipla são mais adequadas.
Como reportar o resultado do teste t
Na escrita acadêmica, o resultado do teste t deve incluir informações suficientes para que o leitor possa avaliar a análise. O formato típico em APA, que muitas áreas adotam, é:
Você reporta a estatística t, os graus de liberdade entre parênteses, o valor de p e o tamanho de efeito. Por exemplo: “A média do grupo experimental (M = 25,3, DP = 4,1) foi significativamente maior que a do grupo controle (M = 22,7, DP = 3,8), t(58) = 2,41, p = 0,019, d = 0,67.”
A descrição em linguagem comum complementa: “O grupo que recebeu a intervenção apresentou pontuação média 2,6 pontos maior do que o grupo controle, e essa diferença é improvável de ser devida ao acaso.”
Reportar apenas o p-valor sem médias, desvios-padrão e tamanho de efeito é considerado insuficiente pela maioria das revistas atuais.
Um ponto sobre softwares e a ilusão de facilidade
SPSS, R, Jamovi, JASP e outros softwares calculam o teste t em segundos. Isso é um recurso enorme. Também é um risco: a facilidade de execução pode criar a impressão de que se você conseguiu rodar o teste, ele estava correto.
O software não verifica se os pressupostos foram atendidos antes de você decidir usar o teste. Você precisa fazer isso. O software calcula qualquer teste que você pedir, mesmo que o teste seja inadequado para os seus dados.
A responsabilidade pelas escolhas metodológicas é do pesquisador, não da ferramenta.
O que isso tem a ver com a sua pesquisa agora
Se você está planejando usar o teste t na sua dissertação ou artigo, o momento de pensar nos pressupostos é antes da coleta, não depois.
Perguntas que valem fazer no planejamento: qual é o meu delineamento? Os grupos são independentes ou pareados? Qual é o tamanho estimado da amostra? Vou ter poder estatístico suficiente? Como vou verificar os pressupostos depois da coleta?
Essas perguntas no projeto evitam problemas durante a análise. E evitam a situação constrangedora de chegar à banca com análises que os membros mais experientes em estatística vão questionar.
Metodologia quantitativa rigorosa não exige que você seja estatística de formação. Exige que você entenda o suficiente sobre os testes que usa para defender as suas escolhas. Essa é uma exigência razoável e alcançável.