O que é correlação de Pearson?

Correlação de Pearson é uma medida estatística que indica o grau de relação linear entre duas variáveis contínuas. O resultado é um coeficiente r que varia de -1 a +1.

Qual a diferença entre Pearson e Spearman?

Pearson mede correlação linear entre variáveis contínuas e assume distribuição normal. Spearman mede correlação entre variáveis ordinais ou quando os dados não são normais. Spearman é não-paramétrica.

Quando devo usar correlação de Pearson?

Use quando suas duas variáveis são contínuas (alturas, idades, notas), quando há relação linear entre elas, e quando os dados aproximam-se de uma distribuição normal. Se os dados são ordinais ou a relação é curva, use Spearman.

Correlação de Pearson: O Que É e Quando Usar

Vamos entender correlação de verdade

Olha, correlação é algo que a gente ouve direto em psicologia, enfermagem, administração, saúde. Mas muita gente confunde o que significa, aplica errado, e depois a banca cobra explicação.

Correlação de Pearson é uma ferramenta. Simples. Ela responde a uma pergunta bem específica: “será que quando uma variável sobe, a outra também sobe?”. Ou: “elas se movem juntas de alguma forma previsível?”.

Vou te mostrar tudo direto, sem enrolação.

O que Pearson faz, exatamente

Você tem duas variáveis. Vou dar um exemplo concreto.

Digamos que você coletou dados de 50 pessoas: quantos anos de ansiedade diagnosticada (variável A) e score de depressão em uma escala (variável B). Duas medidas contínuas em cada pessoa.

Correlação de Pearson te diz: existe uma relação linear entre essas duas coisas? Se existe, como é forte?

O resultado é um número: r. Esse r varia de -1 até +1.

r = +1: correlação positiva perfeita. Quando uma sobe, a outra sobe na mesma proporção.
r = 0: sem correlação linear. Uma não tem relação previsível com a outra.
r = -1: correlação negativa perfeita. Quando uma sobe, a outra desce proporcionalmente.

Na prática, você nunca vai ver r exatamente 1 ou -1. Vai ver 0.65, -0.42, 0.21.

Como interpretar o r

Isso é crucial porque muita gente erra aqui.

0.00 a 0.30: correlação fraca.

0.30 a 0.70: correlação moderada.

0.70 a 1.00: correlação forte.

Os mesmos intervalos valem para negativos (desde -1.00 até -0.30).

Mas espera. Isso é guia aproximado. Em psicologia, às vezes 0.40 já é considerado moderado. Em biologia, talvez exija 0.60. Depende da área, da expectativa teórica.

O importante: não é porque r = 0.65 que a correlação é “boa”. Dependendo do seu estudo, 0.65 pode ser fraca para o que você precisa. Leia sua literatura. O que a área espera?

Correlação ≠ Causação (please!)

Aqui vem o maior erro.

Se você achar que ansiedade e depressão correlacionam com r = 0.72, isso não quer dizer que ansiedade causa depressão. Nem que depressão causa ansiedade. Elas podem estar correlacionadas porque:

Uma causa a outra (você ainda não sabe qual).
Ambas são causadas por uma terceira coisa (trauma, por exemplo).
É coincidência estatística.
Existe uma relação complexa que correlação linear não consegue captar.

Correlação indica associação, não causa. Repetir isso mil vezes.

Como calcular (sem software, só conceito)

A fórmula de Pearson tem cara de complicada, mas é isso:

r = Σ((X - média de X) × (Y - média de Y)) / (desvio padrão de X × desvio padrão de Y)

Na prática, você não faz no papel. Usa Excel, R, SPSS, Python. Qualquer um desses calcula em segundos.

No Excel: =PEARSON(dados_X, dados_Y)

No SPSS: Correlate > Bivariate > marca Pearson > OK

Em R: cor(X, Y, method="pearson")

O que importa é que você entenda o que o número significa, não que calcule com papel e caneta.

P-valor: porque r sozinho não basta

Você rodou a correlação. r = 0.55. Bom?

Depende do p-valor. O p-valor diz se aquela correlação é estatisticamente significativa. Basicamente: “essa correlação não aconteceu só por acaso?”

Se p < 0.05, a correlação é considerada significativa (provavelmente real, não acaso).
Se p ≥ 0.05, a correlação pode ser acaso.

Então você relata: “r = 0.55, p = 0.003”. Isso significa: correlação moderada-forte, e é estatisticamente significativa (não é acaso).

Mas cuidado. Com amostra grande (200+ pessoas), um r pequenininho (0.15) pode virar significativo. Significância estatística não é significância prática. Use o bom senso.

Pressupostos do Pearson

Pearson funciona bem quando:

Ambas as variáveis são contínuas. (Altura, idade, escore de teste, renda em reais). Se uma é categórica (sexo, sim/não), use outro teste.
Relação é linear. Se quando uma sobe, a outra desce primeiro e depois sobe (relação em forma de U), Pearson não consegue captar. Visualize seu gráfico de dispersão sempre.
Os dados aproximam-se de distribuição normal. Teste isso com Shapiro-Wilk ou só vendo o histograma.
Sem outliers extremos. Um valor muito diferente dos outros pode puxar a correlação pra cima ou pra baixo.

Se seus dados violam alguns pressupostos, use Spearman em vez de Pearson. Spearman é mais robusto.

Visualmente

Sempre faça um gráfico de dispersão (scatter plot).

Se os pontos caem perto de uma linha subindo pra cima (/) = correlação positiva.
Linha descendo () = correlação negativa.
Pontos espalhados, sem padrão = sem correlação.

O gráfico te mostra coisas que o número r não mostra: se tem outliers, se a relação é realmente linear, se tem aglomerados estranhos. Aqui vai um detalhe importante: a banca adora quando você coloca o scatter plot. Não é só validação técnica. É você demonstrando cuidado, pensamento crítico. “Olha, calculei. Mas também visualizei. Aqui está a prova.”

Em muitos softwares (Excel, SPSS, Python), gerar o gráfico leva 30 segundos. Vale cada segundo. Porque um gráfico bem feito mata dúvida: você realmente entendeu a relação entre suas variáveis ou só rodou o teste mecanicamente?

Exemplo prático

Você estudou 40 estudantes de psicologia. Coletou: horas de sono por noite (X) e nota na prova de estatística (Y).

Seus dados: r = 0.68, p = 0.001

Você relata: “Encontrou-se correlação forte e positiva entre horas de sono e desempenho acadêmico (r = 0.68, p = 0.001), indicando que estudantes que dormem mais tendem a obter notas maiores em estatística.”

Correto? Quase. Mas não diga “dormir causa melhores notas”. Diga “estão correlacionadas”. Pode ser que quem tira notas altas dorme mais porque se sente menos ansiosa. Ou que ambos indicam algo: engajamento, saúde mental, disciplina.

Erros comuns

Misturar r com R quadrado. R² = r² (ao quadrado). Se r = 0.68, então R² = 0.46. Isso significa que 46% da variação em Y é explicada por X. O restante (54%) é outras coisas. Não ignore R².

Reportar sem p-valor. Sempre ponha p.

Assumir causalidade. Não.

Usar Pearson com dados ordinais. Se você tem “muito insatisfeito, insatisfeito, neutro, satisfeito, muito satisfeito”, use Spearman.

Conectando com a escrita acadêmica

Na sua dissertação, você escreve na seção de Resultados:

“Para avaliar a relação entre X e Y, calculou-se o coeficiente de correlação de Pearson. Encontrou-se correlação [fraca/moderada/forte] [positiva/negativa] e [significativa/não significativa] (r = 0.XX, p = 0.XXX), indicando que…”

Pronto. Simples, direto, técnico.

Como relatar resultados no seu trabalho

Você rode a análise. r = 0.64, p = 0.002.

Na seção Resultados você escreve:

“A análise de correlação de Pearson indicou associação moderada-forte e estatisticamente significativa entre [variável X] e [variável Y] (r = 0.64, p = 0.002). Este achado sugere que aumentos em X associam-se a aumentos proporcionais em Y nos participantes estudados.”

Simples. Direto. Técnico.

Se tem R², coloca:

“…associação moderada-forte (r = 0.64, p = 0.002, R² = 0.41), explicando 41% da variância em Y.”

Na discussão você interpreta: o que significa essa correlação? Por que é importante? Alinha com teoria existente? Contradiz algo?

Erros comuns de relatório

Muita gente escreve coisas como:

“A correlação foi de 0.64” — Faltou o p-valor. Não é achado válido sem p.

“r = 0.64, muito forte” — 0.64 é moderado, não forte. Conhece a escala.

“A correlação prova que X causa Y” — Não prove causa. Correlação é associação.

“r = 0.64 significa que 64% de relação” — Não. R² = 0.41 significa 41% de variância explicada.

Cuidado com essas coisas. Banca pega.

Fechando

Correlação de Pearson é a ferramenta mais usada em dissertações de mestrado pra explorar relações entre variáveis contínuas. Não é complicada. Você entende o que significa, quando usar, como interpretar.

O resto é técnica. Software resolve.

O que você não pode fazer é usar errado, interpretar errado, ou fingir que não viu o p-valor. Banca cobra. Seu orientador cobra. Você mesmo vai se cobrar quando ler sua própria dissertação daqui 5 anos.

Correlação bem feita e bem reportada é marca de rigor. Faz diferença.

Ficou claro?