Há muitas perguntas a serem feitas quando se olha para um gráfico de dispersão. Um dos mais comuns é saber até que ponto uma linha reta aproxima os dados. Para ajudar a responder a isso, existe uma estatística descritiva chamada coeficiente de correlação. Vamos ver como calcular esta estatística.
O coeficiente de correlação
o coeficiente de correlação, denotado por r, nos diz o quão perto os dados em um gráfico de dispersão caem ao longo de uma linha reta. Quanto mais perto o valor absoluto do r é para um, melhor que os dados sejam descritos por uma equação linear. E se r = 1 ou r = -1 então o conjunto de dados está perfeitamente alinhado. Conjuntos de dados com valores de r perto de zero mostram pouco ou nenhum relacionamento linear.
Devido aos longos cálculos, é melhor calcular r com o uso de uma calculadora ou software estatístico. No entanto, é sempre um esforço útil saber o que sua calculadora está fazendo quando está calculando. A seguir, é apresentado um processo para calcular o coeficiente de correlação principalmente à mão, com uma calculadora usada para as etapas aritméticas de rotina.
Etapas para o cálculo r
Começaremos listando as etapas para o cálculo do coeficiente de correlação. Os dados com os quais trabalhamos são dados emparelhados, cada par será indicado por (xEuyEu).
- Começamos com alguns cálculos preliminares. As quantidades desses cálculos serão usadas nas etapas subsequentes do nosso cálculo de r:
- Calcular x̄, o significar de todas as primeiras coordenadas dos dados xEu.
- Calcular ȳ, a média de todas as segundas coordenadas dos dados
- yEu.
- Calcular s x a amostra desvio padrão de todas as primeiras coordenadas dos dados xEu.
- Calcular s y o desvio padrão da amostra de todas as segundas coordenadas dos dados yEu.
- Use a fórmula (zx)Eu = (xEu - x̄) / s x e calcule um valor padronizado para cada xEu.
- Use a fórmula (zy)Eu = (yEu – ȳ) / s y e calcule um valor padronizado para cada yEu.
- Multiplique os valores padronizados correspondentes: (zx)Eu(zy)Eu
- Adicione os produtos da última etapa juntos.
- Divida a soma da etapa anterior por n - 1, onde n é o número total de pontos em nosso conjunto de dados emparelhados. O resultado de tudo isso é o coeficiente de correlação r.
Esse processo não é difícil e cada etapa é bastante rotineira, mas a coleta de todas essas etapas está bastante envolvida. O cálculo do desvio padrão é bastante tedioso por si só. Mas o cálculo do coeficiente de correlação envolve não apenas dois desvios-padrão, mas várias outras operações.
Um exemplo
Para ver exatamente como o valor de r é obtido, olhamos para um exemplo. Novamente, é importante observar que, para aplicações práticas, gostaríamos de usar nossa calculadora ou software estatístico para calcular r para nós.
Começamos com uma lista de dados emparelhados: (1, 1), (2, 3), (4, 5), (5,7). A média do x valores, a média de 1, 2, 4 e 5 é x̄ = 3. Também temos que ȳ = 4. O desvio padrão do
x valores é sx = 1,83 e sy = 2.58. A tabela abaixo resume os outros cálculos necessários para r. A soma dos produtos na coluna mais à direita é 2,969848. Como há um total de quatro pontos e 4 - 1 = 3, dividimos a soma dos produtos por 3. Isso nos dá um coeficiente de correlação de r = 2.969848/3 = 0.989949.
Tabela para exemplo de cálculo do coeficiente de correlação
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |