Regressão Linear Introdução Objectivos da regressão linear: • Mostrar de que forma as variáveis independentes explicam as variáveis dependentes. • Fazer previsões sobre as variáveis dependentes a partir dos valores das independentes. A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão linear. Procedimentos Deve construir-se um quadro – diagrama de dispersão – a partir dos pares de valores (X,Y) de variáveis independente e dependente. Funções do diagrama de dispersão: • Ajudar a determinar se existe relação entre as variáveis. • Permitir identificar a equação matemática mais apropriada para descrever essa relação (linear, exponencial, logarítmica, potência, etc.). Relação linear A relação linear entre duas variáveis pode ser descrita através da equação: Y .X Em que: Y = variável dependente X = variável independente = variável residual (inclui factores exteriores ao modelo e erros de medição) = parâmetro ordenada na origem = parâmetro declive Relação linear Cada valor observado para a variável dependente pode ser decomposto numa soma de três factores: = um valor constante. X = o efeito da variável independente. = o efeito de uma variável residual, que impede uma relação linear perfeita entre X e Y. Recta de regressão O método dos mínimos quadrados permite o ajustamento de uma linha recta aos dados observados, de modo a minimizar os efeitos da variável residual. A recta ajustada a um conjunto de valores amostrais terá a forma: Yˆ ˆ ˆ . X Onde os efeitos da variável residual foram anulados. Parâmetros ˆ e ˆ são os estimadores dos parâmetros e . Calculam-se do seguinte modo: ˆ Y ˆ .X ˆ X e Y são os valores médiosde X e Y. n X iYi X i Yi n X X i 2 i 2 Parâmetros ˆ pode também calcular-se como: x y ˆ x i 2 i Onde: xi X i X yi Yi Y i Exemplo Pretende ajustar-se um modelo de regressão linear simples aos dados observados para 10 consumidores do sexo masculino da cidade de Lisboa, referentes aos seus rendimentos médios mensais (variável independente) e às despesas mensais em bebidas alcoólicas (variável dependente). Consumidor 1 2 3 4 5 6 7 8 9 10 Total (S ) Média Rendimento mensal (X) 750 800 600 550 850 950 700 750 800 650 7400 740 Despesas mensais em bebidas alcoólicas (Y) 85 85 65 60 80 95 60 80 80 60 750 75 X.Y 63750 68000 39000 33000 68000 90250 42000 60000 64000 39000 567000 X2 562500 640000 360000 302500 722500 902500 490000 562500 640000 422500 5605000 Consulte esta tabela Exemplo Efectua-se o cálculo dos parâmetros: n X iYi X i Yi 10 567000 7400 750 ˆ 2 2 2 10 5605000 7400 n X i X i ˆ 0,093 ˆ Y ˆ.X 75 0,093 740 6,163 Interpretação dos resultados A estimativa encontrada para o parâmetro significa que, independentemente do rendimento mensal auferido, os consumidores masculinos da cidade de Lisboa gastam 6,16 € em bebidas alcoólicas mensalmente. A estimativa de 0,093 para o parâmetro indica que, por cada 100€ de variação no rendimento dos consumidores, as despesas em bebidas alcoólicas variam 9,3€, estando as duas variáveis associadas positivamente, ou seja, um aumento no rendimento implica um aumento no consumo de bebidas alcoólicas. Coeficiente de correlação O coeficiente de correlação é uma medida do grau de associação linear entre as duas variáveis (dependente e independente). É obtido a partir da relação entre o desvio explicado e o desvio total. Coeficiente de determinação A relação directa entre o desvio explicado e o desvio total é o coeficiente de determinação, que indica o grau de aderência do ajustamento feito através do método de mínimos quadrados. Varia entre 0% (mínimo) e 100% (máximo). ˆ Y Variação explicada de Y i Y 2 R 2 Variação totalde Y Yi Y 2 Coeficiente de correlação de Pearson O coeficiente de correlação linear r (raiz quadrada positiva do coeficiente de determinação) é uma medida do grau de associação linear entre variáveis. Toma valores entre –1 e +1. r n X n X iYi X i Yi 2 i X i . n Yi Yi 2 2 2 SPSS No SPSS, os dados deverão ser introduzidos da seguintes forma: Depois, seleccionar nos menus: Analyze Regression Linear Consulte esta tabela SPSS Seleccionar as variáveis dependente e independente: SPSS Obtém-se o seguinte quadro de respostas: Coefficientsa Model 1 (Constant) Rendimento mensal Unstandardized Coefficients B Std. Error 6,163 13,463 ,0930 ,018 Standardi zed Coefficien ts Beta ,877 t ,458 5,173 Sig . ,659 ,001 a. Dependent Variable: Despesas mensais em bebidas alcoólicas Declive Ordenada na origem De onde se extraem os valores de 6,163 e 0,093 para e , respectivamente. Consulte esta tabela SPSS - Gráfico Na barra de menus escolher: Graphs Scatter… Seleccionar Simple e premir Define. Seleccionar a variável dependente para o eixo Y. Seleccionar a variável independente para o eixo X. Em Label Cases by colocar o nome da variável que vai identificar os pontos nos gráficos. SPSS - Gráfico A janela deverá ser preenchida da seguinte forma: SPSS - Gráfico Para identificar os pontos, editar o gráfico e usar a opção Point ID. 100 José 90 António Manuel Sérgio Ivan Pedro 80 O resultado é o seguinte: 70 Eusébio João 60 Rui Gaspar 50 500 600 Rendimento mensal 700 800 900 1000 SPSS – Regra de regressão Para visualizar a recta de regressão, escolher na barra de menus: Chart Options… Em Fit Line escolher Total. Em Fit Options escolher Linear regression. Para visualizar o erro quadrático, escolher na barra de menus: Chart Options… Em Fit Options escolher Display R-square in legend. SPSS – Escala Para alterar a gama de valores representados, escolher na barra de menus: Chart Axis… • Para a gama do eixo X, escolher X scale. Modificar, então, os valores mínimo e máximo de Range. • Para a gama do eixo Y, proceder do mesmo modo. SPSS – Gráfico 100 José 90 António Manuel Sérgio Ivan Pedro 80 70 Eusébio João Rui Gaspar 60 50 40 30 20 Ordenada na origem 10 0 Rsq = 0,7698 0 100 200 300 400 Rendimento mensal 500 600 700 800 900 1000 SPSS – Valores previstos e valores residuais Os valores previstos pela recta são diferentes dos valores reais para cada caso. A diferença entre os dois constitui o valor residual. O SPSS calcula os valores previstos pelo modelo linear, assim como os valores residuais. Na caixa de diálogo Linear Regression escolher a opção Save. Em Predicted Values e Residuals seleccionar as opções Unstandardized. SPSS – Valores previstos e valores residuais Premir, depois, o botão Continue. SPSS – Valores previstos e valores residuais São geradas as variáveis pre_1 e res_1, respectivamente, com os valores previstos e residuais para cada caso. É possível visualizar os valores previstos junto dos valores reais. Na barra de menus escolher: Analyze Reports Case Summaries… Seleccionar as variáveis a analisar e movê-las para a lista de variáveis. SPSS – Valores previstos e valores residuais Case Summaries a 1 2 3 4 5 6 7 8 9 10 Total N Despesas mensais em bebidas alcoólicas 85 85 65 60 80 95 60 80 80 60 10 Unstandardized Predicted Value 75,93023 80,58140 61,97674 57,32558 85,23256 94,53488 71,27907 75,93023 80,58140 66,62791 10 a. Limited to first 100 cases. Valores previstos pelo modelo Valores residuais Unstandardized Residual 9,06977 4,41860 3,02326 2,67442 -5,23256 ,46512 -11,27907 4,06977 -,58140 -6,62791 10 SPSS – Valores previstos e valores residuais Neste caso, o modelo afirma que: alcool = 0,0930 rendim + 6,163 expressão a partir da qual se podem calcular os valores previstos pelo modelo e respectivos valores residuais. SPSS – Coeficiente de correlação A tabela seguinte, apresentada como um dos resultados do cálculo de regressão linear, dá-nos o valor do coeficiente de correlação (R), assim como o seu quadrado (R Square). Model Summary Model 1 R ,877a R Sq uare ,770 Adjusted R Sq uare ,741 Std. Error of the Estimate 6,46 a. Predictors: (Constant), Rendimento mensal Coeficiente de correlação Proporção de variação explicada pelo modelo Dois gráficos, para duas situações distintas, podem ter os mesmos valores de declive e ordenada na origem. No entanto, aquele que apresentar o maior coeficiente de correlação é o que melhor se adapta à realidade modelada. Regressão linear múltipla Tem como objectivo desenvolver um modelo de relações entre uma variável dependente e um conjunto de variáveis independentes, de tal modo que os valores da primeira possam ser explicados – e que previsões possam ser feitas – com base nos valores do segundo conjunto de variáveis. Y 0 1.X1 2 .X 2 3.X 3 ... Cálculo dos coeficientes de regressão Para simplicidade de exposição, considere-se que Y depende apenas dos valores assumidos por duas variáveis X1 e X2. Y 1. X1 2 . X 2 Que dá origem a: Yˆ ˆ ˆ1.X1 ˆ2 .X 2 Método dos mínimos quadrados O método dos mínimos quadrados permite-nos encontrar os estimadores pretendidos. A aplicação deste método fornece-nos três equações para a determinação de ˆ , ˆ1 e ˆ2 ˆ . X ˆ . X ˆ Y 1 1 2 2 (1) 2 ˆ ˆ. XX ˆ X Y . X . X 1 1 1 1 2 1 2 (2) 2 ˆ ˆ X 2Y ˆ. X 2 1. X1 X 2 2 . X 2 (3) Resolução A primeira destas equações pode ser escrita como: Y ˆ ˆ1.X1 ˆ2 .X 2 (4) ou ˆ Y ˆ1.X1 ˆ2 .X 2 (5) Resolução Substituindo (5) em (2), obtém-se: ˆ . X ˆ . X ˆ . X 2 ˆ . X X X Y n . X . Y 1 1 1 1 2 2 1 1 2 1 2 (6) Resolução Torna-se necessário definir seis somas de quadrados (SS): SSX1 X n.X 2 1 2 1 SSX2 X n.X 2 2 2 2 SSX1 X 2 X1 X 2 n.X1 X 2 SSX1Y X1Y n.X1Y SSX2Y X 2Y n.X 2Y SSY Y 2 n.Y 2 Resolução Usando a notação de soma de quadrados é possível rescrever as equações (6) e (3): SSX1Y ˆ1.SSX1 ˆ2 .SSX1 X 2 (7) SSX2Y ˆ1.SSX1 X 2 ˆ2 .SSX2 (8) A resolução deste sistema de equações permite obter ˆ1 e ˆ2 Depois, estima-se o valor de a partir da equação (5). Resumo da resolução Os passos necessários para encontrar os estimadores de mínimos quadrados, num modelo de regressão linear com duas variáveis independentes, podem ser resumidos do seguinte modo: