Um gráfico de dispersão é um tipo de gráfico usado para representar dados emparelhados. A variável explicativa é plotada ao longo do eixo horizontal e a variável de resposta é representada graficamente ao longo do eixo vertical. Uma razão para usar esse tipo de gráfico é procurar relacionamentos entre as variáveis.
O padrão mais básico a ser procurado em um conjunto de dados emparelhados é o de uma linha reta. Através de dois pontos, podemos desenhar uma linha reta. Se houver mais de dois pontos em nosso gráfico de dispersão, na maioria das vezes não seremos mais capazes de desenhar uma linha que passa por todos os pontos. Em vez disso, desenharemos uma linha que passa pelo meio dos pontos e exibe a tendência linear geral dos dados.
Quando olhamos para os pontos em nosso gráfico e desejamos traçar uma linha através desses pontos, surge uma pergunta. Qual linha devemos traçar? Há um número infinito de linhas que podem ser desenhadas. Usando nossos olhos sozinhos, fica claro que cada pessoa que olha para o gráfico de dispersão pode produzir uma linha ligeiramente diferente. Essa ambiguidade é um problema. Queremos ter uma maneira bem definida para que todos obtenham a mesma linha. O objetivo é ter uma descrição matematicamente precisa de qual linha deve ser desenhada. Os mínimos quadrados
linha de regressão é uma dessas linhas através de nossos pontos de dados.Mínimos Quadrados
O nome da linha dos mínimos quadrados explica o que faz. Começamos com uma coleção de pontos com coordenadas dadas por (xEu, yEu). Qualquer linha reta passará entre esses pontos e ficará acima ou abaixo de cada um deles. Podemos calcular as distâncias desses pontos até a linha escolhendo um valor de x e subtraindo o observado y coordenar que corresponde a este x de y coordenada da nossa linha.
Linhas diferentes através do mesmo conjunto de pontos dariam um conjunto diferente de distâncias. Queremos que essas distâncias sejam as menores possíveis. Mas há um problema. Como nossas distâncias podem ser positivas ou negativas, a soma total de todas essas distâncias se cancelará. A soma das distâncias sempre será igual a zero.
A solução para esse problema é eliminar todos os números negativos, quadrando as distâncias entre os pontos e a linha. Isso fornece uma coleção de números não negativos. O objetivo que tivemos de encontrar uma linha de melhor ajuste é o mesmo que tornar a soma dessas distâncias quadradas a menor possível. O cálculo vem em socorro aqui. O processo de diferenciação no cálculo permite minimizar a soma das distâncias ao quadrado de uma determinada linha. Isso explica a frase "mínimos quadrados" em nosso nome para esta linha.
Linha de Melhor Ajuste
Como a linha dos mínimos quadrados minimiza as distâncias ao quadrado entre a linha e nossos pontos, podemos pensar nessa linha como a que melhor se ajusta aos nossos dados. É por isso que a linha de mínimos quadrados também é conhecida como a linha de melhor ajuste. De todas as linhas possíveis que poderiam ser desenhadas, a linha de mínimos quadrados está mais próxima do conjunto de dados como um todo. Isso pode significar que nossa linha não atingirá nenhum dos pontos em nosso conjunto de dados.
Recursos da linha dos mínimos quadrados
Existem alguns recursos que todas as linhas de mínimos quadrados possuem. O primeiro item de interesse lida com a inclinação da nossa linha. A inclinação tem uma conexão com o coeficiente de correlação dos nossos dados. De fato, a inclinação da linha é igual a r (sy/ sx). Aqui s x denota o desvio padrão do x coordenadas e s y o desvio padrão do y coordenadas de nossos dados. O sinal do coeficiente de correlação está diretamente relacionado ao sinal da inclinação da nossa linha de mínimos quadrados.
Outra característica da linha de mínimos quadrados diz respeito a um ponto pelo qual ela passa. Enquanto o y interceptação de uma linha de mínimos quadrados pode não ser interessante do ponto de vista estatístico, há um ponto que é. Toda linha de mínimos quadrados passa pelo ponto médio dos dados. Este ponto do meio tem um x coordenar que é o significar do x valores e um y coordenada que é a média do y valores.