A regressão linear é uma técnica estatística usada para aprender mais sobre a relação entre uma variável independente (preditora) e uma variável dependente (critério). Quando você possui mais de uma variável independente em sua análise, isso é chamado de regressão linear múltipla. Em geral, a regressão permite que o pesquisador faça a pergunta geral "Qual é o melhor preditor de ???"
Por exemplo, digamos que estávamos estudando as causas de obesidade, medido pelo índice de massa corporal (IMC). Em particular, queríamos ver se as seguintes variáveis eram preditores significativos do IMC de uma pessoa: número de fast food refeições comidas por semana, número de horas de televisão assistidas por semana, número de minutos passados se exercitando por semana e IMC. A regressão linear seria uma boa metodologia para esta análise.
A Equação de Regressão
Quando você está conduzindo uma análise de regressão com uma variável independente, a equação de regressão é Y = a + b * X onde Y é a variável dependente, X é a variável independente, a é a constante (ou interceptação) e b é a
inclinação da linha de regressão. Por exemplo, digamos que o GPA seja melhor previsto pela equação de regressão 1 + 0,02 * QI. Se um aluno tivesse um QI de 130, seu GPA seria 3,6 (1 + 0,02 * 130 = 3,6).Quando você está conduzindo uma análise de regressão na qual possui mais de uma variável independente, a equação de regressão é Y = a + b1 * X1 + b2 * X2 +… + pe * Xp. Por exemplo, se quiséssemos incluir mais variáveis em nossa análise GPA, como medidas de motivação e autodisciplina, usaríamos isso equação.
R-Square
Quadrado R, também conhecido como coeficiente de determinação, é uma estatística comumente usada para avaliar o ajuste do modelo de uma equação de regressão. Ou seja, quão boas são todas as suas variáveis independentes em prever sua variável dependente? O valor do quadrado R varia de 0,0 a 1,0 e pode ser multiplicado por 100 para obter uma porcentagem de variação explicado. Por exemplo, voltando à nossa equação de regressão GPA com apenas uma variável independente (QI)... Digamos que nossa O quadrado R para a equação foi de 0,4. Podemos interpretar isso como significando que 40% da variação no GPA é explicada por QI. Se adicionarmos nossas outras duas variáveis (motivação e autodisciplina) e o quadrado R aumenta para 0,6, isso significa que QI, motivação e autodisciplina juntos explicam 60% da variação no GPA pontuações.
As análises de regressão geralmente são feitas usando software estatístico, como SPSS ou SAS e, portanto, o quadrado R é calculado para você.
Interpretação dos coeficientes de regressão (b)
Os coeficientes b das equações acima representam a força e a direção do relacionamento entre as variáveis independentes e dependentes. Se olharmos para a equação GPA e QI, 1 + 0,02 * 130 = 3,6, 0,02 é o coeficiente de regressão para a variável QI. Isso nos diz que a direção do relacionamento é positiva e, à medida que o QI aumenta, o GPA também aumenta. Se a equação fosse 1 - 0,02 * 130 = Y, isso significaria que a relação entre QI e GPA era negativa.
Premissas
Existem várias suposições sobre os dados que devem ser atendidos para realizar uma análise de regressão linear:
- Linearidade: Supõe-se que a relação entre as variáveis independentes e dependentes seja linear. Embora essa suposição nunca possa ser totalmente confirmada, observar uma gráfico de dispersão de suas variáveis pode ajudar a fazer essa determinação. Se houver uma curvatura no relacionamento, considere transformar as variáveis ou permitir explicitamente componentes não lineares.
- Normalidade: Supõe-se que o resíduos de suas variáveis são normalmente distribuídas. Ou seja, os erros na previsão do valor de Y (a variável dependente) são distribuídos de uma maneira que se aproxima da curva normal. Você pode olhar histogramas ou parcelas de probabilidade normal para inspecionar a distribuição de suas variáveis e seus valores residuais.
- Independência: Supõe-se que os erros na predição do valor de Y sejam todos independentes um do outro (não correlacionados).
- Homoscedasticidade: Supõe-se que a variação em torno da linha de regressão seja a mesma para todos os valores das variáveis independentes.
Fonte
- StatSoft: Manual de Estatística Eletrônica. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.