O que é regressão linear e quando usar?

Regressão linear é uma técnica estatística para analisar a relação entre uma variável dependente (desfecho) e uma ou mais variáveis independentes (preditoras). Usa-se quando o desfecho é contínuo e você quer predizer seu valor ou entender o quanto cada preditor contribui para ele.

Preciso de software específico para fazer regressão linear?

Não necessariamente. O SPSS, R, Stata e Python (com as bibliotecas corretas) fazem regressão linear. O Excel também tem uma função, mas com limitações. Para pesquisa acadêmica, R e SPSS são os mais frequentes. O R tem a vantagem de ser gratuito e amplamente usado em publicações.

Regressão linear em pesquisa: o que você precisa saber

Q: Qual a diferença entre regressão linear simples e múltipla?

Na regressão linear simples, há apenas uma variável independente. Na múltipla, há duas ou mais. A regressão múltipla permite controlar confundidores e avaliar a contribuição de cada variável ao desfecho enquanto as outras são mantidas constantes.

O que a regressão linear faz e por que você precisa entender

Vamos lá. Regressão linear é uma das técnicas estatísticas mais usadas em pesquisa quantitativa. Ela aparece em ciências da saúde, educação, ciências sociais, psicologia, economia e muitas outras áreas. E é também uma das técnicas mais mal utilizadas.

Usar regressão linear sem entender suas premissas, seus limites e o que os coeficientes significam é uma receita para resultados incorretos e para passar vergonha na banca. Este texto não vai te ensinar a fazer regressão passo a passo. Vai te ensinar a entender o que está sendo feito e por quê.

O conceito central: relação entre variáveis

A regressão linear modela a relação entre uma variável dependente (também chamada de variável de desfecho ou variável resposta) e uma ou mais variáveis independentes (também chamadas de preditoras ou covariáveis).

A ideia básica é: à medida que a variável independente muda, o quanto a variável dependente muda?

Um exemplo simples: você quer saber se anos de escolaridade (variável independente) predizem renda mensal (variável dependente). A regressão linear vai estimar o quanto, em média, a renda aumenta para cada ano adicional de escolaridade, mantendo tudo o mais constante.

O resultado é uma equação da forma: Y = a + b¹X¹ + b²X² + … onde Y é a variável dependente, X são as variáveis independentes e os coeficientes b representam o quanto Y muda para cada unidade de mudança em cada X.

Regressão simples versus regressão múltipla

Na regressão linear simples, há uma variável independente. Na regressão linear múltipla, há duas ou mais.

A regressão múltipla é muito mais comum em pesquisa porque raramente um fenômeno tem apenas um preditor relevante. Mais importante: a regressão múltipla permite controlar confundidores.

Um confundidor é uma variável que está associada tanto ao preditor de interesse quanto ao desfecho, e que pode distorcer a relação que você está tentando estudar. Por exemplo: se você estuda a relação entre exercício físico e pressão arterial, precisaria controlar para idade, índice de massa corporal e histórico familiar, que também influenciam a pressão.

Na regressão múltipla, cada coeficiente representa o efeito da variável naquele preditor mantendo todas as outras variáveis do modelo constantes. Isso é o que chamamos de “ajuste por confundidores”.

As premissas que a maioria ignora

Aqui está onde muitas análises falham: a regressão linear tem premissas que precisam ser verificadas. Se as premissas não são atendidas, os resultados podem ser incorretos.

As principais premissas são:

Linearidade. A relação entre as variáveis independentes e a dependente precisa ser linear. Isso pode ser verificado com gráficos de dispersão ou de resíduos.

Independência dos resíduos. Os erros do modelo não podem ser correlacionados entre si. Isso é especialmente relevante em dados longitudinais ou em dados de grupos hierárquicos.

Homocedasticidade. A variância dos resíduos deve ser constante em todos os níveis das variáveis preditoras. Quando isso não ocorre, você tem heterocedasticidade, que pode ser verificada em gráficos de resíduos.

Normalidade dos resíduos. Os resíduos (a diferença entre os valores observados e os preditos pelo modelo) precisam ter distribuição aproximadamente normal. Não é a variável dependente que precisa ser normal, mas os resíduos.

Ausência de multicolinearidade. Quando as variáveis independentes são muito correlacionadas entre si, o modelo tem dificuldade de estimar os coeficientes com precisão. Isso é verificado com métricas como o VIF (Variance Inflation Factor).

Verificar essas premissas não é opcional. É parte da análise.

Como interpretar os resultados

Após rodar a regressão, você vai receber uma série de métricas. As mais importantes:

Coeficientes (B não padronizado). O quanto a variável dependente muda para cada unidade de mudança na variável independente, em suas unidades originais. Por exemplo: “para cada ano adicional de escolaridade, a renda aumenta em R$200.”

Coeficientes padronizados (Beta). Permitem comparar a contribuição relativa de diferentes variáveis no modelo, já que transformam todas para a mesma escala (desvios-padrão). Útil para responder “qual preditor contribui mais para o desfecho?”

p-valor de cada coeficiente. Indica se a associação estimada é estatisticamente significativa (ou seja, improvável de ser resultado do acaso no tamanho de amostra estudado). Mas atenção: significância estatística não é o mesmo que relevância prática.

R² (R-quadrado). Indica a proporção da variância da variável dependente explicada pelo modelo. Um R² de 0.30 significa que as variáveis independentes do modelo explicam 30% da variação do desfecho. O que não é explicado são outros fatores não incluídos no modelo.

R² ajustado. Uma versão do R² que penaliza a inclusão de variáveis desnecessárias no modelo. Prefira esse ao R² simples quando comparar modelos com números diferentes de preditores.

Intervalo de confiança dos coeficientes. Indica a faixa de valores plausíveis para o coeficiente na população. Um intervalo de confiança que inclui o zero é sinal de que o coeficiente pode não ser diferente de zero na população.

Os erros mais comuns em pesquisa

Olha só: os erros que vejo com mais frequência em dissertações e artigos usando regressão linear são os seguintes.

Ignorar as premissas. Rodar a regressão sem verificar homocedasticidade, normalidade dos resíduos e multicolinearidade é o erro mais frequente. Os resultados podem estar corretos por acaso, mas você não tem como saber sem verificar.

Confundir correlação com causalidade. Regressão estima associações. Se você não tem um design experimental com atribuição aleatória, a regressão não permite inferir causalidade. A escolaridade pode estar associada à renda, mas isso não significa que aumentar a escolaridade de uma pessoa vai aumentar sua renda na magnitude estimada.

Incluir variáveis demais sem critério. O chamado “overfitting” acontece quando o modelo tem tantas variáveis que se ajusta perfeitamente aos dados da amostra mas não generaliza para outras amostras. O número de variáveis deve ser proporcional ao tamanho da amostra.

Não verificar o tamanho de amostra adequado. Regressão linear exige um número mínimo de casos por variável preditora. Uma regra geral frequentemente citada é de pelo menos 10 casos por variável independente, mas isso varia dependendo do campo e da situação.

Interpretar o R² como “tamanho do efeito clínico”. Um R² de 0.05 pode ser estatisticamente significativo em amostras grandes, mas isso não significa que o modelo tem utilidade preditiva em termos práticos. O R² precisa ser interpretado no contexto da área.

Regressão linear ou logística: quando usar cada uma

Uma dúvida comum: minha variável dependente é binária (sim/não, evento/não evento). Posso usar regressão linear?

Tecnicamente, é possível em alguns casos específicos, mas não é a abordagem padrão. Quando a variável dependente é dicotômica (tem dois valores possíveis), a regressão logística é a técnica mais apropriada. Ela modela a probabilidade de ocorrência do desfecho binário, não o desfecho em si.

Se a variável dependente tem múltiplas categorias, há outras abordagens (regressão logística multinomial, regressão ordinal). A regra é: a técnica estatística precisa ser coerente com a natureza da variável que você está modelando.

O que você precisa saber antes da banca

A banca de qualificação e de defesa pode perguntar sobre qualquer aspecto da sua análise estatística. Para regressão linear, você precisa conseguir responder:

Por que escolheu regressão linear para esse desfecho?

Quais premissas verificou e como?

O que os coeficientes significam em termos substantivos, não só estatísticos?

O R² encontrado é esperado para essa área de pesquisa?

As variáveis de controle foram escolhidas com base em qual critério teórico ou empírico?

Se você não consegue responder essas perguntas, o problema não é a estatística. É o entendimento do que você fez.

O aprofundamento em análise estatística faz parte da formação de qualquer pesquisador quantitativo. Se você está no começo e quer estruturar melhor seu desenvolvimento metodológico, o Método V.O.E. traz um caminho para organizar esse processo de forma que a metodologia sustente a pesquisa, e não vire um obstáculo.

Regressão linear em pesquisa: o que você precisa saber

O que a regressão linear faz e por que você precisa entender

O conceito central: relação entre variáveis

Regressão simples versus regressão múltipla

As premissas que a maioria ignora

Como interpretar os resultados

Os erros mais comuns em pesquisa

Regressão linear ou logística: quando usar cada uma

O que você precisa saber antes da banca

Perguntas frequentes

Leia também

BNCC na pesquisa: os erros mais comuns e como evitá-los

Canva para pôster acadêmico: o que funciona de verdade

Capa ABNT: o que vai na capa e o que vai na folha de rosto

Receba estratégias de escrita acadêmica direto no seu feed