Análise estatística na dissertação: guia para iniciantes
Estatística para dissertação sem pavor: entenda o que é p-valor, teste de hipótese e análise descritiva antes de escolher o método certo.
Análise estatística não é o bicho que te venderam
Olha só: se você chegou até aqui, provavelmente tem uma relação de amor e ódio com a estatística. Muita gente entra no mestrado achando que vai fugir dos números, escolhendo áreas “de humanas”, e descobre lá pela metade do caminho que análise quantitativa aparece em quase todo tipo de pesquisa.
E tudo bem. Estatística não é matemática no sentido de resolução de equações complexas. É lógica. É uma forma de perguntar: o que esses números me dizem sobre o mundo?
Esse post não vai te ensinar a calcular um desvio padrão na mão. Vai te ensinar a entender o que você está calculando e por que, o que é bem mais útil quando você está conversando com sua banca.
O ponto de partida: o que você quer saber?
Antes de escolher qualquer método estatístico, você precisa responder uma pergunta: o que minha pesquisa quer descobrir?
Porque estatística é ferramenta. Você não começa pela ferramenta. Você começa pela questão.
Existem três grandes tipos de perguntas de pesquisa quantitativa:
Perguntas descritivas: “Como é esse fenômeno?” Quantos? Com que frequência? Qual a média? Essas perguntas pedem análise descritiva.
Perguntas comparativas: “Existe diferença entre grupos?” O grupo A performou melhor do que o B? Essas perguntas pedem testes de hipótese.
Perguntas relacionais: “Existe associação entre variáveis?” Quanto X aumenta quando Y aumenta? Essas perguntas pedem correlação e regressão.
Parece óbvio, mas é muito comum ver pesquisadores escolhendo métodos sofisticados para responder perguntas descritivas simples, ou aplicando estatísticas relacionais onde a pergunta é comparativa. Isso gera resultados que não respondem ao objetivo do estudo.
Estatística descritiva: o ponto de partida de toda análise
A análise descritiva é o “olhar inicial” para seus dados. Antes de qualquer teste, você precisa entender como seus dados se distribuem.
Medidas de tendência central
Média, mediana e moda descrevem onde os dados se concentram.
A média aritmética é sensível a valores extremos. Se você está medindo renda mensal de pesquisadores e inclui um professor titular com salário muito acima dos demais, a média vai distorcer a realidade do grupo. Nesse caso, a mediana (o valor do meio) representa melhor o grupo.
A moda (o valor mais frequente) é útil em dados categóricos, como respostas de questionários de múltipla escolha.
Medidas de dispersão
Desvio padrão e variância mostram quanto os dados se afastam da média. Um desvio padrão alto indica que os dados são heterogêneos; um baixo indica que os dados são similares entre si.
Faz sentido? Se você coletou dados de tempo de escrita diária de pesquisadores e a média é 2 horas, mas o desvio padrão é 1,8, isso significa que os dados variam enormemente. Alguns escrevem 10 minutos, outros 5 horas. Essa variabilidade tem significado interpretativo.
Hipóteses: o que você está testando?
Todo teste de hipótese começa com duas hipóteses:
A hipótese nula (H0) afirma que não há efeito, não há diferença, não há relação. É a posição conservadora, de que nada está acontecendo.
A hipótese alternativa (H1) afirma o contrário: há efeito, há diferença, há relação. É a hipótese do pesquisador.
A lógica dos testes de hipótese é: assumindo que H0 é verdadeira, qual a probabilidade de obter os resultados que obtivemos? Essa probabilidade é o p-valor.
O p-valor: muito citado, muito mal entendido
O limiar convencional de p<0,05 foi proposto por Ronald Fisher há décadas e virou quase um dogma. Se p<0,05, resultado significativo. Se p>0,05, nada acontece.
Mas isso é uma simplificação problemática.
Um p-valor significativo não diz que o efeito é grande ou importante na prática. Um estudo com mil participantes pode encontrar p<0,001 para uma diferença minúscula que não tem nenhuma relevância clínica ou educacional.
Por isso, p-valor deve ser interpretado junto com o tamanho do efeito (d de Cohen, eta-quadrado, r de correlação, dependendo do teste). O tamanho do efeito diz o quanto, não só o se.
Os testes mais comuns que você vai encontrar
Teste t de Student
Compara médias entre dois grupos. Quer saber se o grupo experimental tem média diferente do grupo controle? Teste t é o ponto de partida.
Existe o teste t para amostras independentes (dois grupos diferentes de pessoas) e para amostras pareadas (as mesmas pessoas medidas em dois momentos).
Pressuposto importante: os dados precisam ter distribuição aproximadamente normal. Para amostras grandes, isso raramente é problema pelo teorema do limite central. Para amostras pequenas, precisa verificar.
ANOVA (Análise de Variância)
Quando você tem mais de dois grupos para comparar, o teste t não serve. A ANOVA compara médias de três ou mais grupos simultaneamente. Se o resultado for significativo, testes post-hoc (Tukey, Bonferroni) identificam quais grupos diferem entre si.
Qui-quadrado
Para variáveis categóricas. Quer saber se a distribuição de respostas difere entre grupos? Qui-quadrado testa isso. É muito usado em pesquisas por questionário.
Correlação de Pearson e Spearman
Mede a força e a direção da relação entre duas variáveis. Pearson para variáveis contínuas com distribuição normal; Spearman para dados ordinais ou quando a normalidade não é atendida.
Correlação não implica causalidade. Isso não é clichê, é real. Dados históricos mostram que o consumo de sorvete e a taxa de afogamentos são correlacionados, mas o sorvete não causa afogamentos. Ambos sobem no verão.
Regressão: quando você quer prever e explicar
A análise de regressão vai além da correlação. Ela tenta modelar como uma variável influencia outra.
A regressão linear simples modela a relação entre uma variável independente e uma dependente. A regressão múltipla inclui várias variáveis independentes ao mesmo tempo.
Um exemplo: você quer saber o que prediz a produtividade de escrita em mestrando. Horas de escrita diária, qualidade do sono e presença de orientação regular são variáveis independentes. A regressão múltipla testa qual dessas variáveis contribui de forma independente para a variável dependente (produtividade).
Regressão tem pressupostos específicos que precisam ser verificados: normalidade dos resíduos, ausência de multicolinearidade, homogeneidade de variâncias. Não adianta rodar o modelo sem verificar se os pressupostos estão satisfeitos.
Ferramentas para análise estatística
Você não precisa fazer tudo na mão. Mas precisa entender o que a ferramenta está fazendo.
SPSS é o padrão em muitas universidades brasileiras. Interface clique-e-clique, documentação abundante em português, amplamente aceito em dissertações. Licença paga, mas muitas instituições têm acesso.
JASP é gratuito, open source, com interface parecida com o SPSS. Inclui análise bayesiana e apresenta resultados em tabelas prontas para publicação. Boa opção para quem não quer aprender código.
R é gratuito, poderoso e com uma comunidade enorme. A curva de aprendizado inicial é maior, mas a flexibilidade é incomparável. Pacotes como ggplot2 (para visualizações) e lavaan (para modelagem de equações estruturais) são difíceis de substituir.
Python com bibliotecas como pandas, scipy e statsmodels serve bem para análise estatística. Tem a vantagem de ser a mesma linguagem usada em ciência de dados, então abre mais portas.
G*Power é específico para cálculo de tamanho amostral e poder estatístico. Essencial antes de coletar dados, para garantir que sua amostra seja adequada para detectar o efeito que você espera.
O erro que quase todo mestrando comete: coletar antes de planejar
O planejamento estatístico deveria acontecer antes da coleta de dados, não depois. Isso é algo que o Método V.O.E. trata como fundamental: estruturar antes de executar.
Se você coleta 30 questionários e depois descobre que precisava de 120 para ter poder estatístico suficiente, os dados coletados têm valor limitado para os testes que você queria fazer. Não tem como “consertar” tamanho amostral insuficiente na análise.
Por isso, no planejamento metodológico, defina:
- Qual é a sua hipótese principal?
- Qual o tamanho do efeito esperado (use estudos anteriores como referência)?
- Qual o poder estatístico desejado (convenção: 0,80)?
- Qual o nível de significância (convenção: 0,05)?
Com esses parâmetros, o G*Power calcula o tamanho mínimo de amostra que você precisa.
Estatística e interpretação: sua responsabilidade como pesquisador
Softwares calculam. Você interpreta.
Um resultado estatisticamente significativo não fala por si. O que significa, no contexto do seu campo, da sua população, da sua pergunta de pesquisa? Um resultado não significativo tampouco significa “nada aconteceu”. Pode significar que sua amostra foi pequena, que o instrumento não era sensível o suficiente, ou que realmente não há efeito.
A banca vai perguntar não só “o que deu?” mas “por quê deu isso e o que significa?”. É essa interpretação que diferencia uma boa dissertação de um relatório de análise.
Estatística não é o inimigo. É uma linguagem. E como toda linguagem, fica mais confortável com prática e com propósito. Se você quer desenvolver essa habilidade de forma estruturada, checar o Método V.O.E. pode ajudar a organizar a parte metodológica da sua pesquisa de forma mais consciente.