A regressão linear é uma ferramenta estatística que determina quão bem uma linha reta se encaixa em um conjunto de dados emparelhados. A linha reta que melhor se ajusta a esses dados é chamada de linha de regressão de mínimos quadrados. Essa linha pode ser usada de várias maneiras. Um desses usos é estimar o valor de uma variável de resposta para um determinado valor de uma variável explicativa. Relacionado a essa idéia está o de um residual.
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Para calcular o residual nos pontos x = 5, subtraímos o valor previsto do nosso valor observado. Desde o y coordenada do nosso ponto de dados era 9, isso dá um resíduo de 9 - 10 = -1.
Existem vários usos para resíduos. Um uso é ajudar-nos a determinar se temos um conjunto de dados com uma tendência linear geral ou se devemos considerar um modelo diferente. A razão para isso é que os resíduos ajudam a amplificar qualquer padrão não linear em nossos dados. O que pode ser difícil de ver ao observar um gráfico de dispersão pode ser mais facilmente observado examinando os resíduos e um gráfico de resíduos correspondente.
Outro motivo para considerar resíduos é verificar se as condições de inferência para regressão linear são atendidas. Após a verificação de uma tendência linear (verificando os resíduos), também verificamos a distribuição dos resíduos. Para poder executar inferência de regressão, queremos que os resíduos sobre nossa linha de regressão sejam aproximadamente normalmente distribuídos. UMA histograma ou stemplot dos resíduos ajudará a verificar se essa condição foi atendida.