Correlação de Spearman: Quando Usar?
Diferença entre Pearson e Spearman, dados ordinais e quando Spearman é mais adequado.
Spearman é a volta para casa de quem fez pesquisa real
Aqui está a verdade: você coletou dados. Pensava que tinha distribuição normal. Checou com Shapiro-Wilk. Não era normal.
Ou você usou escala Likert (“concordo totalmente”, “concordo”, “neutro”, “discordo”, “discordo totalmente”). Isso é ordinal, não contínuo.
Ou tem muitos outliers que puxam a correlação.
Nessas horas, Pearson não é a melhor escolha. Entra Spearman.
Vou descomplicar.
Pearson vs Spearman: o resumo
| Aspecto | Pearson | Spearman |
|---|---|---|
| Tipo de dado | Contínuo | Ordinal (ou contínuo convertido em ranking) |
| Pressupostos | Exige normalidade | Não exige normalidade |
| Sensibilidade a outliers | Alta | Baixa |
| Tipo de relação | Linear | Monotônica (cresce consistentemente) |
| Resultado | r de Pearson | rho (ρ) de Spearman |
| Uso em psicologia | Comum | Comum também |
Simples assim.
O que é correlação monotônica
Pearson mede correlação linear. Isso quer dizer: a relação é uma linha reta (mais ou menos).
Spearman mede correlação monotônica. Quer dizer: quando uma variável sobe, a outra consistentemente sobe (ou desce), não importa exatamente em que velocidade.
Exemplo visual ajuda:
Correlação linear (Pearson forte):
| ★
| ★
| ★
|
Y |★
+-------
X
Correlação monotônica (Spearman forte, mas Pearson fraca):
| ★
| ★
| ★
|★
Y |
+-------
X
Ambas aumentam juntas, mas uma é linha reta, a outra é curva.
Pearson vai dar r menor na segunda. Spearman vai dar rho próximo a 1 em ambas.
Quando usar Spearman
1. Dados ordinais (escala Likert)
Você usou escala de satisfação: 1 = muito insatisfeito, 5 = muito satisfeito.
Isso é ordinal. Não é contínuo (a diferença entre 1 e 2 não é exatamente a mesma que entre 4 e 5 na realidade vivida).
Use Spearman.
Exemplo: você mediu satisfação com mestrado (escala 1-5) e engajamento em pesquisa (escala 1-5) em 40 mestrandos.
Use Spearman, não Pearson.
2. Dados contínuos que violam normalidade
Você tem idade (contínua) e renda (contínua). Ambas.
Mas renda não é normalmente distribuída (muita gente com renda baixa, poucos com renda altíssima). E existem outliers: um CEO no meio de estudantes.
Teste Shapiro-Wilk em ambas. Se uma (ou ambas) falha em normalidade, use Spearman.
Spearman é não-paramétrica. Não exige normalidade.
3. Relação é claramente monotônica, mas não linear
Você suspeita: “quando a depressão sobe, a resiliência cai. Consistentemente. Mas não é reta.”
Visualiza em gráfico. De fato, é curva suave.
Use Spearman.
4. Muitos outliers
Outliers influenciam Pearson. Um valor muito diferente do resto puxa a correlação inteira.
Se você tem outliers e não quer que eles dominem, Spearman é mais robusta. Converte em rankings, então um valor extremo é apenas “o maior” ou “o menor”, não seu valor bruto extremo.
5. Amostra pequena + dados não-normais
n < 30 e dados não-normais? Spearman é mais apropriada.
Como calcular
A fórmula de Spearman é baseada em rankings.
Você converte seus dados em postos:
Exemplo:
Dados originais:
- Pessoa 1: Ansiedade = 23, Depressão = 35
- Pessoa 2: Ansiedade = 45, Depressão = 52
- Pessoa 3: Ansiedade = 67, Depressão = 71
Converte em ranking:
- Pessoa 1: Ansiedade rank = 1 (valor menor), Depressão rank = 1
- Pessoa 2: Ansiedade rank = 2, Depressão rank = 2
- Pessoa 3: Ansiedade rank = 3, Depressão rank = 3
Depois calcula correlação entre os ranks.
Na prática:
Você usa software.
Excel: =PEARSON(rank de X, rank de Y) ou funções específicas de Spearman se existirem.
SPSS: Analyze > Correlate > Bivariate > marca “Spearman”.
R: cor(X, Y, method="spearman")
Python:
from scipy.stats import spearmanr
rho, p_value = spearmanr(X, Y)
O resultado é rho (ρ), não r. Mas a interpretação é parecida: varia de -1 a +1.
Interpretação de rho
Praticamente igual a Pearson.
| Intervalo | Interpretação |
|---|---|
| 0.00 a 0.19 | Negligenciável |
| 0.20 a 0.39 | Fraco |
| 0.40 a 0.59 | Moderado |
| 0.60 a 0.79 | Forte |
| 0.80 a 1.00 | Muito forte |
Ainda tem p-valor. Se p < 0.05, é significativa.
Exemplo: rho = 0.72, p = 0.003
“Encontrou-se correlação forte e positiva entre ansiedade e depressão (rho = 0.72, p = 0.003), evidenciando que maiores níveis de ansiedade associam-se a maiores níveis de depressão nos participantes.”
Casos de estudo
Caso 1: Escala Likert
Você mediu:
- Percepção de orientador (escala 1-5: horrível a excelente)
- Satisfação com mestrado (escala 1-5: muito insatisfeito a muito satisfeito)
- n = 50
Ambos ordinais? Use Spearman.
Resultado: rho = 0.58, p = 0.001
Relatório: “Encontrou-se correlação moderada positiva entre qualidade percebida do orientador e satisfação com o mestrado (rho = 0.58, p = 0.001), sugerindo que mastrandos com orientadores percebidos como melhores reportam maior satisfação geral.”
Caso 2: Dados contínuos, não-normais
Você mediu:
- Número de artigos publicados (contínuo, mas com muitos zeros = não-normal)
- H-index (contínuo, com outliers)
- n = 60 pesquisadores
Nenhum é normal? Use Spearman.
Resultado: rho = 0.64, p < 0.001
Relatório: “Análise de correlação de Spearman revelou associação moderada-forte entre produtividade (artigos) e impacto (H-index) (rho = 0.64, p < 0.001), indicando que pesquisadores mais produtivos tendem a ter maior impacto citacional.”
Caso 3: Dados contínuos, relação monotônica curva
Você mediu:
- Horas de exercício semanal (contínuo)
- Bem-estar psicológico (contínuo)
- n = 40 pessoas
Visualiza em scatter plot. Relação é clara: mais exercício = mais bem-estar. Mas não é linha reta (é crescimento acelerado inicialmente, depois estabiliza).
Use Spearman, porque a relação é monotônica mas não linear.
Resultado: rho = 0.68, p = 0.002
Quando ainda usar Pearson mesmo com problemas
Em alguns casos, Pearson ainda é apropriado mesmo não-normalizando dados:
-
Amostra grande (n > 100) e desvio de normalidade é leve. Pearson é robusto com amostras grandes.
-
Outliers existem mas você os investigou e são reais (não erros de digitação). Manter outliers é honesto com os dados.
-
A literatura da sua área usa Pearson predominantemente. Às vezes, padronização importa mais que purismo estatístico.
Mas quando em dúvida, Spearman é mais segura.
Combinando testes
Alguns pesquisadores fazem ambos:
“Calculou-se correlação de Pearson (r = 0.55, p = 0.02) e de Spearman (rho = 0.61, p = 0.01), ambas indicando associação moderada significativa entre as variáveis.”
É aceito. Mostra rigor. Mas não é necessário para todo trabalho.
Checklist antes de escolher
- Meus dados são ordinais? → Spearman
- Meus dados são contínuos? → Próxima pergunta
- Testei normalidade (Shapiro-Wilk)? Passou? → Pearson OK
- Normalidade falhou? → Spearman
- Tenho muitos outliers?→ Spearman
- Minha relação é claramente linear? → Pearson
- Minha relação é monotônica mas curva? → Spearman
- Minha amostra é pequena (n < 30)? → Spearman preferida
- Minha amostra é grande (n > 100)? → Ambas aceitáveis, Pearson OK
Na sua dissertação
Metodologia:
“Aplicou-se teste de normalidade Shapiro-Wilk às variáveis contínuas. Dado que [nome variável] violou pressupostos de normalidade (W = X.XX, p = 0.XXX), utilizou-se correlação de Spearman em vez de Pearson para avaliar associações.”
Ou simples:
“Dados ordinais foram analisados via correlação de Spearman conforme recomendações metodológicas para escalas não-contínuas.”
Resultados:
“A correlação de Spearman revelou associação [magnitude] entre [variável X] e [variável Y] (rho = X.XX, p = 0.XXX).”
Encerrando
Spearman é sua amiga quando Pearson não se aplica.
Diferença é:
- Pearson: assume normalidade, linear, paramétrica, sensível a outliers.
- Spearman: não exige normalidade, monotônica, não-paramétrica, robusta.
Quando em dúvida: use Spearman. É mais segura.
E lembre-se: seu orientador prefere ver você justificando sua escolha (“usei Spearman porque meus dados violaram normalidade, testado via Shapiro-Wilk”) a usar Pearson mecanicamente. Técnica é importante, mas pensamento crítico é tudo. Mostre que você pensou, que deliberou, que não foi só botão de software.
Faz sentido agora?