Estatística e análise de regressão linear

A regressão linear é uma técnica estatística usada para aprender mais sobre a relação entre uma variável independente (preditora) e uma variável dependente (critério). Quando você possui mais de uma variável independente em sua análise, isso é chamado de regressão linear múltipla. Em geral, a regressão permite que o pesquisador faça a pergunta geral "Qual é o melhor preditor de ???"

Por exemplo, digamos que estávamos estudando as causas de obesidade, medido pelo índice de massa corporal (IMC). Em particular, queríamos ver se as seguintes variáveis ​​eram preditores significativos do IMC de uma pessoa: número de fast food refeições comidas por semana, número de horas de televisão assistidas por semana, número de minutos passados ​​se exercitando por semana e IMC. A regressão linear seria uma boa metodologia para esta análise.

A Equação de Regressão

Quando você está conduzindo uma análise de regressão com uma variável independente, a equação de regressão é Y = a + b * X onde Y é a variável dependente, X é a variável independente, a é a constante (ou interceptação) e b é a

instagram viewer
inclinação da linha de regressão. Por exemplo, digamos que o GPA seja melhor previsto pela equação de regressão 1 + 0,02 * QI. Se um aluno tivesse um QI de 130, seu GPA seria 3,6 (1 + 0,02 * 130 = 3,6).

Quando você está conduzindo uma análise de regressão na qual possui mais de uma variável independente, a equação de regressão é Y = a + b1 * X1 + b2 * X2 +… + pe * Xp. Por exemplo, se quiséssemos incluir mais variáveis ​​em nossa análise GPA, como medidas de motivação e autodisciplina, usaríamos isso equação.

R-Square

Quadrado R, também conhecido como coeficiente de determinação, é uma estatística comumente usada para avaliar o ajuste do modelo de uma equação de regressão. Ou seja, quão boas são todas as suas variáveis ​​independentes em prever sua variável dependente? O valor do quadrado R varia de 0,0 a 1,0 e pode ser multiplicado por 100 para obter uma porcentagem de variação explicado. Por exemplo, voltando à nossa equação de regressão GPA com apenas uma variável independente (QI)... Digamos que nossa O quadrado R para a equação foi de 0,4. Podemos interpretar isso como significando que 40% da variação no GPA é explicada por QI. Se adicionarmos nossas outras duas variáveis ​​(motivação e autodisciplina) e o quadrado R aumenta para 0,6, isso significa que QI, motivação e autodisciplina juntos explicam 60% da variação no GPA pontuações.

As análises de regressão geralmente são feitas usando software estatístico, como SPSS ou SAS e, portanto, o quadrado R é calculado para você.

Interpretação dos coeficientes de regressão (b)

Os coeficientes b das equações acima representam a força e a direção do relacionamento entre as variáveis ​​independentes e dependentes. Se olharmos para a equação GPA e QI, 1 + 0,02 * 130 = 3,6, 0,02 é o coeficiente de regressão para a variável QI. Isso nos diz que a direção do relacionamento é positiva e, à medida que o QI aumenta, o GPA também aumenta. Se a equação fosse 1 - 0,02 * 130 = Y, isso significaria que a relação entre QI e GPA era negativa.

Premissas

Existem várias suposições sobre os dados que devem ser atendidos para realizar uma análise de regressão linear:

  • Linearidade: Supõe-se que a relação entre as variáveis ​​independentes e dependentes seja linear. Embora essa suposição nunca possa ser totalmente confirmada, observar uma gráfico de dispersão de suas variáveis ​​pode ajudar a fazer essa determinação. Se houver uma curvatura no relacionamento, considere transformar as variáveis ​​ou permitir explicitamente componentes não lineares.
  • Normalidade: Supõe-se que o resíduos de suas variáveis ​​são normalmente distribuídas. Ou seja, os erros na previsão do valor de Y (a variável dependente) são distribuídos de uma maneira que se aproxima da curva normal. Você pode olhar histogramas ou parcelas de probabilidade normal para inspecionar a distribuição de suas variáveis ​​e seus valores residuais.
  • Independência: Supõe-se que os erros na predição do valor de Y sejam todos independentes um do outro (não correlacionados).
  • Homoscedasticidade: Supõe-se que a variação em torno da linha de regressão seja a mesma para todos os valores das variáveis ​​independentes.

Fonte

  • StatSoft: Manual de Estatística Eletrônica. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.
instagram story viewer