Método

Regressão linear na pesquisa: o que você precisa saber

Entenda o que é regressão linear, quando usar na pesquisa científica e como interpretar os resultados sem erros comuns de análise.

metodologia pesquisa-quantitativa analise-estatistica tese dissertacao

Regressão linear não é sinônimo de estatística avançada

A maioria das pesquisadoras que encontra o termo “regressão linear” pela primeira vez imagina algo reservado a estatísticos ou economistas. O nome soa técnico. Os outputs de software parecem intimidadores. E a literatura metodológica costuma apresentar a técnica de um jeito que pressupõe formação matemática que muita gente não tem.

Regressão linear é uma técnica estatística para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, expressando essa relação na forma de uma equação. O objetivo central é entender quanto a variável desfecho muda quando as preditoras variam, mantendo as outras constantes.

Isso é mais simples do que parece. E mais útil do que muitas pesquisadoras imaginam quando estão desenhando o projeto.

Neste post você vai entender o que é regressão linear de verdade, quando ela faz sentido para a sua pesquisa, quais pressupostos ela exige, e o que acontece com os resultados quando esses pressupostos são ignorados.


Quando a regressão linear é a resposta certa

A primeira pergunta que qualquer pesquisadora deve fazer antes de escolher uma técnica estatística não é “qual software usar” nem “como interpretar o p-valor”. É: o que eu quero saber?

Regressão linear responde a perguntas do tipo:

  • A renda familiar prediz o desempenho escolar, controlando por nível de escolaridade dos pais?
  • Quantas horas semanais de prática predizem o tempo até atingir proficiência em leitura?
  • Qual é o efeito da temperatura média anual sobre a produtividade agrícola por hectare?

O denominador comum: você tem uma variável contínua como desfecho e quer entender o efeito de uma ou mais variáveis preditoras sobre ela, isolando o efeito de cada uma das outras.

Quando o desfecho não é contínuo (binário, categórico, de contagem), a regressão linear não é adequada. Desfecho binário pede regressão logística. Contagem de eventos pede modelos de Poisson ou binomial negativa. Usar regressão linear nesses contextos produz estimativas enviesadas e intervalos de confiança incorretos.


Os pressupostos que a maioria ignora

Regressão linear tem pressupostos. Ignorá-los não impede o software de rodar o modelo. Impede que os resultados sejam interpretáveis.

Os quatro principais:

1. Linearidade

A relação entre as variáveis preditoras e o desfecho deve ser aproximadamente linear. Um gráfico de dispersão entre cada preditora e o desfecho, antes de rodar o modelo, já dá uma ideia. Se a relação for curvilínea, transformação logarítmica ou inclusão de termos quadráticos pode corrigir.

2. Normalidade dos resíduos

Os resíduos do modelo (diferença entre o valor observado e o valor predito) devem seguir distribuição aproximadamente normal. Isso não significa que as variáveis originais precisam ser normais, um ponto frequentemente confundido. O QQ-plot dos resíduos é o teste visual mais direto.

3. Homocedasticidade

A variância dos resíduos deve ser constante ao longo dos valores preditos. Se o gráfico de resíduos versus valores ajustados mostrar um padrão de funil, a homocedasticidade foi violada. Isso afeta a precisão dos intervalos de confiança e dos testes de significância.

4. Ausência de multicolinearidade

Quando duas ou mais variáveis preditoras são altamente correlacionadas entre si, fica difícil estimar o efeito independente de cada uma. O VIF (Variance Inflation Factor) é o indicador padrão. VIF acima de 10 é sinal claro de problema.

Não rodar esses testes diagnósticos e ir direto para a interpretação dos coeficientes é o erro mais comum. E o mais difícil de detectar para quem vai revisar o trabalho.


O que os coeficientes realmente dizem

O output de uma regressão linear inclui coeficientes, valores de p, e o R². Cada um responde a uma pergunta diferente.

O coeficiente (B)

Indica quanto a variável dependente muda para cada unidade de aumento na variável independente correspondente, mantendo as outras preditoras constantes. Um coeficiente de 2,3 para anos de escolaridade significa que, mantidas as outras variáveis do modelo, cada ano adicional de escolaridade está associado a um aumento de 2,3 unidades no desfecho.

O intervalo de confiança

É mais informativo que o p-valor isolado. O intervalo de confiança de 95% diz que, se você repetisse o estudo muitas vezes, 95% dos intervalos calculados conteriam o valor verdadeiro do parâmetro na população. Um intervalo estreito indica maior precisão. Um intervalo que inclui zero indica que o efeito pode ser nulo.

O R² (coeficiente de determinação)

Indica a proporção da variância do desfecho que é explicada pelo modelo. Um R² de 0,40 significa que 40% da variação da variável dependente é capturada pelas preditoras incluídas. Não existe um valor “bom” universal. Em ciências sociais, R² de 0,20 pode ser relevante. Em física experimental, pode ser baixíssimo.

O erro clássico é interpretar R² alto como prova de que o modelo está “certo”. R² mede ajuste, não causalidade e não validade do modelo.


Regressão simples versus múltipla: quando adicionar preditoras

Regressão simples tem uma variável dependente e uma preditora. Regressão múltipla tem uma variável dependente e duas ou mais preditoras.

A lógica de adicionar preditoras não é “quanto mais, melhor”. É: quais variáveis, baseadas na teoria e no conhecimento do campo, são relevantes para explicar o desfecho e precisam ser controladas para isolar o efeito da preditora de interesse?

Adicionar variáveis sem critério teórico infla artificialmente o R² e aumenta o risco de encontrar associações espúrias. Esse fenômeno é chamado de overfitting: o modelo se ajusta bem aos dados da amostra e generaliza mal para outras amostras.

O R² ajustado corrige parcialmente esse problema penalizando a adição de preditoras que não contribuem com poder explicativo real. Prefira reportar o R² ajustado quando o modelo tem mais de uma preditora.


Como o Método V.O.E. organiza a análise estatística

Trabalhar com análise estatística dentro de um projeto de pesquisa mais amplo exige organização antes de executar. O Método V.O.E. (Velocidade, Organização, Execução Inteligente) se aplica bem aqui.

Na fase de Velocidade, o foco é mapear rapidamente quais variáveis você tem, em que escala elas estão mensuradas, e se os pressupostos básicos da regressão podem ser verificados com esses dados. Essa checagem rápida evita horas de retrabalho depois de descobrir que o desfecho não é contínuo ou que há valores ausentes em excesso.

Na fase de Organização, você estrutura a sequência: limpeza de dados, teste de pressupostos, modelo base, adição de preditoras, diagnóstico dos resíduos, interpretação. Essa ordem não é arbitrária. Pular etapas intermediárias produz resultados que parecem válidos mas não são.

Na fase de Execução Inteligente, a análise corre dentro de um protocolo claro. Cada decisão tomada durante a análise, como quais casos remover por outlier ou como tratar dados ausentes, fica documentada para que a seção de metodologia reflita o que foi feito de verdade.


Erros que aparecem na revisão por pares

Quando revisei artigos para periódicos de ciências sociais e saúde, alguns erros apareciam com frequência em trabalhos que usavam regressão linear:

  1. Reportar somente o p-valor sem o coeficiente e o intervalo de confiança. P-valor sem magnitude de efeito não comunica o resultado de forma completa.

  2. Não reportar os testes de pressupostos. Leitor e revisor não têm como saber se a técnica era adequada para aqueles dados.

  3. Interpretar associação como causalidade. “A variável X prediz Y” não significa “X causa Y”. Regressão estima associação, não causalidade.

  4. Incluir todas as variáveis disponíveis sem justificativa teórica. Parecer exaustivo não é o mesmo que ser rigoroso.

  5. Usar R² como critério único de qualidade do modelo. R² alto com pressupostos violados é pior do que R² moderado com modelo bem especificado.


O que não é regressão linear

Algumas confusões comuns vale desfazer:

Regressão linear não é o mesmo que correlação. Correlação mede a força e direção da associação entre duas variáveis. Regressão estima o efeito de uma sobre a outra, permite múltiplas preditoras e produz coeficientes interpretáveis em termos de magnitude.

Regressão linear não é análise de variância. ANOVA compara médias entre grupos. Regressão modela a relação entre variáveis contínuas, embora exista uma equivalência matemática entre os dois quando as preditoras são categóricas.

Regressão linear não resolve problemas de medida. Se as variáveis foram medidas de forma imprecisa, regressão vai produzir estimativas imprecisas. Qualidade da análise depende de qualidade dos dados.


O ponto que mais importa antes de rodar qualquer modelo

Análise estatística é ferramenta. Ferramenta serve ao problema de pesquisa, não ao contrário.

Antes de abrir o software e clicar em “rodar regressão”, vale ter clareza sobre três pontos: qual é a pergunta que você está tentando responder, por que regressão linear é o método adequado para essa pergunta, e quais pressupostos você vai verificar antes de interpretar qualquer resultado.

Com essas três coisas claras, a seção de metodologia escreve sozinha. E a banca, ou o revisor de periódico, vai perceber que as escolhas analíticas foram deliberadas.

Isso é o que separa análise estatística de teste de hipótese mecânico: compreender o que a técnica pode e não pode dizer sobre o seu fenômeno.

Perguntas frequentes

Regressão linear funciona pra pesquisa qualitativa?
Não. Regressão linear é uma técnica quantitativa que exige variáveis numéricas contínuas e pressupõe relação linear entre elas. Para pesquisa qualitativa, os métodos adequados são análise temática, grounded theory, análise do discurso, entre outros. Usar regressão com dados qualitativos não faz sentido metodológico.
Como apresentar regressão linear no capítulo de metodologia?
Apresente a técnica com justificativa: por que regressão e não correlação, ANOVA ou outro modelo? Descreva as variáveis dependente e independentes, os testes de pressupostos realizados (normalidade dos resíduos, homocedasticidade, ausência de multicolinearidade) e o software utilizado. O leitor precisa entender que você testou os pressupostos antes de interpretar os coeficientes.
O que significa R² na regressão linear?
R² (coeficiente de determinação) indica a proporção da variância da variável dependente que é explicada pelas variáveis independentes do modelo. Um R² de 0,65 significa que 65% da variação do desfecho é explicada pelas preditoras incluídas. Não é uma medida de 'qualidade' absoluta: o valor adequado depende da área de pesquisa e da natureza do fenômeno estudado.

Leia também

Receba estratégias de escrita acadêmica direto no seu feed

Siga a Dra. Nathalia no YouTube e Instagram para conteúdo gratuito sobre o Método V.O.E.