Como calcular o coeficiente de correlação

Há muitas perguntas a serem feitas quando se olha para um gráfico de dispersão. Um dos mais comuns é saber até que ponto uma linha reta aproxima os dados. Para ajudar a responder a isso, existe uma estatística descritiva chamada coeficiente de correlação. Vamos ver como calcular esta estatística.

O coeficiente de correlação

o coeficiente de correlação, denotado por r, nos diz o quão perto os dados em um gráfico de dispersão caem ao longo de uma linha reta. Quanto mais perto o valor absoluto do r é para um, melhor que os dados sejam descritos por uma equação linear. E se r = 1 ou r = -1 então o conjunto de dados está perfeitamente alinhado. Conjuntos de dados com valores de r perto de zero mostram pouco ou nenhum relacionamento linear.

Devido aos longos cálculos, é melhor calcular r com o uso de uma calculadora ou software estatístico. No entanto, é sempre um esforço útil saber o que sua calculadora está fazendo quando está calculando. A seguir, é apresentado um processo para calcular o coeficiente de correlação principalmente à mão, com uma calculadora usada para as etapas aritméticas de rotina.

instagram viewer

Etapas para o cálculo r

Começaremos listando as etapas para o cálculo do coeficiente de correlação. Os dados com os quais trabalhamos são dados emparelhados, cada par será indicado por (xEuyEu).

  1. Começamos com alguns cálculos preliminares. As quantidades desses cálculos serão usadas nas etapas subsequentes do nosso cálculo de r:
    1. Calcular x̄, o significar de todas as primeiras coordenadas dos dados xEu.
    2. Calcular ȳ, a média de todas as segundas coordenadas dos dados
    3. yEu.
    4. Calcular s x a amostra desvio padrão de todas as primeiras coordenadas dos dados xEu.
    5. Calcular s y o desvio padrão da amostra de todas as segundas coordenadas dos dados yEu.
  2. Use a fórmula (zx)Eu = (xEu - x̄) / s x e calcule um valor padronizado para cada xEu.
  3. Use a fórmula (zy)Eu = (yEu – ȳ) / s y e calcule um valor padronizado para cada yEu.
  4. Multiplique os valores padronizados correspondentes: (zx)Eu(zy)Eu
  5. Adicione os produtos da última etapa juntos.
  6. Divida a soma da etapa anterior por n - 1, onde n é o número total de pontos em nosso conjunto de dados emparelhados. O resultado de tudo isso é o coeficiente de correlação r.

Esse processo não é difícil e cada etapa é bastante rotineira, mas a coleta de todas essas etapas está bastante envolvida. O cálculo do desvio padrão é bastante tedioso por si só. Mas o cálculo do coeficiente de correlação envolve não apenas dois desvios-padrão, mas várias outras operações.

Um exemplo

Para ver exatamente como o valor de r é obtido, olhamos para um exemplo. Novamente, é importante observar que, para aplicações práticas, gostaríamos de usar nossa calculadora ou software estatístico para calcular r para nós.

Começamos com uma lista de dados emparelhados: (1, 1), (2, 3), (4, 5), (5,7). A média do x valores, a média de 1, 2, 4 e 5 é x̄ = 3. Também temos que ȳ = 4. O desvio padrão do

x valores é sx = 1,83 e sy = 2.58. A tabela abaixo resume os outros cálculos necessários para r. A soma dos produtos na coluna mais à direita é 2,969848. Como há um total de quatro pontos e 4 - 1 = 3, dividimos a soma dos produtos por 3. Isso nos dá um coeficiente de correlação de r = 2.969848/3 = 0.989949.

Tabela para exemplo de cálculo do coeficiente de correlação

x y zx zy zxzy
1 1 -1.09544503 -1.161894958 1.272792057
2 3 -0.547722515 -0.387298319 0.212132009
4 5 0.547722515 0.387298319 0.212132009
5 7 1.09544503 1.161894958 1.272792057
instagram story viewer