O que é a correlação de Pearson e para que serve?

A correlação de Pearson é um coeficiente estatístico que mede a intensidade e a direção da relação linear entre duas variáveis quantitativas contínuas. Ela varia de -1 a +1, onde valores próximos de 1 indicam correlação positiva forte, valores próximos de -1 indicam correlação negativa forte, e valores próximos de 0 indicam ausência de correlação linear.

Como interpretar o valor de r na correlação de Pearson?

O valor de r indica tanto a direção quanto a força da relação. De forma geral: r entre 0,1 e 0,3 é correlação fraca; entre 0,3 e 0,5 é moderada; acima de 0,5 é forte. Os mesmos intervalos valem para valores negativos. Esses limites variam conforme a área, por isso é importante comparar com referências do seu campo específico.

Quais são os pressupostos da correlação de Pearson?

Os principais pressupostos são: as duas variáveis devem ser quantitativas contínuas, a relação entre elas deve ser linear (não curvilínea), os dados não devem ter outliers extremos que distorçam o resultado, e, para inferência estatística, os dados devem ter distribuição aproximadamente normal. Quando esses pressupostos não são atendidos, existem alternativas como a correlação de Spearman.

Correlação de Pearson: Guia Completo para Pesquisa

O que a correlação de Pearson responde

Vamos lá. Você coletou dados de dois grupos de variáveis e quer saber se existe uma relação entre elas. Quanto mais uma pessoa estuda, mais ela aprende? Quanto mais horas de sono, melhor o desempenho cognitivo? Esse tipo de pergunta pede um teste de correlação.

A correlação de Pearson, desenvolvida pelo estatístico Karl Pearson no final do século XIX, mede a intensidade e a direção de uma relação linear entre duas variáveis quantitativas. O resultado é um número entre -1 e +1 chamado de coeficiente r.

Correlação não é a mesma coisa que causalidade. Esse é o ponto que mais importa entender antes de qualquer coisa. Duas variáveis podem estar correlacionadas sem que uma cause a outra. Isso não é limitação da correlação de Pearson, é característica de qualquer medida correlacional. Quando você encontra r alto entre duas variáveis, você sabe que elas se movem juntas, não que uma produz a outra. Faz sentido?

O coeficiente r e o que ele significa

O coeficiente r varia de -1 a +1. Veja o que cada faixa indica:

r = +1 significa correlação positiva perfeita. À medida que uma variável aumenta, a outra aumenta proporcionalmente. Isso não aparece com dados reais, apenas em modelos matemáticos.

r próximo de +1 (como 0,8 ou 0,9) indica correlação positiva forte. As variáveis sobem e descem juntas com consistência.

r próximo de 0 indica pouca ou nenhuma relação linear. Isso não significa necessariamente que as variáveis são independentes, pode haver relação não linear que o Pearson não captura.

r próximo de -1 indica correlação negativa forte. Quando uma variável sobe, a outra tende a cair.

r = -1 seria correlação negativa perfeita, também impossível com dados reais.

Os limites de “fraco”, “moderado” e “forte” variam por área. Na psicologia, r = 0,3 já é considerado moderado em muitos contextos. Nas ciências exatas, r = 0,3 pode ser considerado fraco. Por isso, ao reportar sua correlação, compare com referências da sua área específica, não apenas com tabelas genéricas.

Os pressupostos que você precisa verificar

A correlação de Pearson não funciona bem com qualquer conjunto de dados. Antes de aplicar, verificar esses pontos:

As variáveis precisam ser quantitativas contínuas. Temperatura, renda, tempo, pontuação em escala são exemplos de variáveis contínuas. Variáveis categoriais ordinais (como escala Likert) ou nominais precisam de outras medidas de associação.

A relação entre as variáveis precisa ser linear. O Pearson mede correlação linear. Se as variáveis têm relação curvilínea (tipo U ou S), o coeficiente vai subestimar ou distorcer a associação. Um gráfico de dispersão antes de rodar o teste revela isso.

Outliers extremos afetam o resultado de forma desproporcional. Um ponto muito distante do padrão pode elevar ou diminuir o coeficiente de forma que não representa a relação real. Verificar outliers antes é parte do processo.

Para usar o valor p de significância estatística, os dados precisam de distribuição aproximadamente normal. Testes de normalidade como Shapiro-Wilk ou Kolmogorov-Smirnov ajudam a verificar. Com amostras grandes, o pressuposto de normalidade é menos crítico pelo teorema central do limite.

Quando usar Spearman em vez de Pearson

A correlação de Spearman é a alternativa não paramétrica ao Pearson. Use Spearman quando:

Os dados não atendem aos pressupostos de normalidade. Em amostras pequenas com distribuição assimétrica, Spearman é mais robusto.

As variáveis são ordinais. Escalas com categorias ordenadas (discordo totalmente, discordo, neutro, concordo, concordo totalmente) pedem Spearman, não Pearson.

Há outliers que você não quer remover. O Spearman usa ranks (posições ordenadas) em vez dos valores brutos, então outliers têm menos influência.

Os resultados dos dois testes geralmente são parecidos com dados próximos da normalidade. Quando há dúvida, é válido reportar os dois e discutir as diferenças.

Como reportar a correlação em artigos e dissertações

A convenção na maioria das áreas é reportar o coeficiente r, o tamanho da amostra n, e o valor p de significância. O formato mais comum em texto: r(198) = 0,42, p < 0,001. Os números entre parênteses indicam os graus de liberdade (n - 2).

Dizer que a correlação é “estatisticamente significativa” indica que o resultado é improvável de ter ocorrido por acaso, dado o tamanho da amostra. Mas isso não significa que a correlação é forte ou relevante do ponto de vista prático. Com amostras muito grandes, correlações pequenas podem ser estatisticamente significativas sem ter importância real.

Por isso, sempre relate o r ao lado do p. O r diz a força e a direção; o p diz se o resultado pode ser descartado como ruído aleatório dado o tamanho da amostra.

Nas ciências da saúde e psicologia, o tamanho de efeito complementa bem a correlação. O próprio r é uma medida de tamanho de efeito: r ao quadrado (r²) indica a proporção da variância de uma variável que pode ser explicada pela outra. Com r = 0,5, r² = 0,25, ou seja, 25% da variação em y está associada à variação em x.

O que um gráfico de dispersão revela

Antes de interpretar qualquer resultado de Pearson, faça um gráfico de dispersão. O gráfico plota cada par de valores como um ponto, e o padrão resultante mostra:

Se a relação é linear (os pontos formam uma nuvem alongada) ou curvilínea (os pontos formam uma curva). Se há outliers que vão distorcer o coeficiente. Se a variância ao longo da linha de tendência é homogênea ou heterogênea (homocedasticidade vs heterocedasticidade).

Um r alto sem verificar o gráfico pode esconder padrões que invalidam o uso do Pearson. Isso não é apenas recomendação metodológica, é uma das falhas mais comuns que revisores de periódicos identificam em análises correlacionais.

Correlação e discussão teórica

O dado estatístico não fala por si. Quando você encontra r = 0,61 entre número de horas de supervisão e qualidade percebida de dissertações, o próximo passo é discutir por que essa relação existe, que mecanismos ela pode refletir, e quais são as limitações da interpretação.

Esse é o trabalho que diferencia um relatório de resultados de uma análise científica. A correlação abre uma pergunta; a discussão teórica começa a respondê-la.

Na fase de Escrever do Método V.O.E., é exatamente aqui que muitos pesquisadores travam: sabem o que os dados mostram mas não sabem como articular a análise. Quando você tem clareza sobre o argumento teórico que sustenta sua pesquisa, essa articulação fica mais direta. Se quiser entender melhor como o V.O.E. ajuda nessa fase, veja o Método V.O.E..

Limitações que valem mencionar

A correlação de Pearson mede relação linear. Relações não lineares, que são comuns em fenômenos complexos, escapam do coeficiente. A correlação não indica causalidade: mesmo r = 0,95 entre duas variáveis não diz que uma causa a outra. A relação pode ser mediada por uma terceira variável, pode ser coincidência estrutural ou pode refletir uma causalidade inversa.

Também vale notar que a magnitude considerada “forte” depende do contexto. Em experimentos laboratoriais com variáveis bem controladas, espera-se correlações mais altas. Em estudos observacionais com dados de campo, correlações moderadas podem ser muito relevantes. Reportar o contexto esperado para a sua área ajuda a banca e os revisores a interpretarem seu resultado com precisão.

A correlação também é sensível ao recorte da amostra. Uma correlação calculada pra toda a população pode ser diferente da correlação calculada dentro de subgrupos específicos. Esse fenômeno, conhecido como paradoxo de Simpson, aparece em dados educacionais e de saúde com certa frequência. Verificar se a correlação se mantém consistente entre subgrupos relevantes é parte da análise robusta.

A página de recursos tem materiais adicionais sobre análise de dados e escrita de metodologia se você quiser aprofundar esses conceitos.

Correlação de Pearson: Guia Completo para Pesquisa

O que a correlação de Pearson responde

O coeficiente r e o que ele significa

Os pressupostos que você precisa verificar

Quando usar Spearman em vez de Pearson

Como reportar a correlação em artigos e dissertações

O que um gráfico de dispersão revela

Correlação e discussão teórica

Limitações que valem mencionar

Perguntas frequentes

Leia também

ABNT atualizada em 2024: o que mudou e o que permanece

Amostragem Probabilística: Tipos, Usos e Diferenças

Citação com grifo nosso: como usar corretamente na ABNT

Receba estratégias de escrita acadêmica direto no seu feed