Escola Politécnica de Pernambuco Departamento de Ensino Básico Capítulo 09 Ajuste de Curvas, Regressão e Correlação Prof. Sérgio Mário Lins Galdino http://epoli.pbworks.com/ Agenda Ajuste de curvas; Regressão; O método dos mínimos quadrados; A linha mínimos quadrados; A linha mínimos quadrados em termos da variância amostral e covariância; Agenda Desvio Padrão da Estimativa; O Coeficiente de Correlação Linear; Coeficiente de Correlação Generalizado; Correlação e Dependência; Ajuste de curvas A determinação de equações de curvas que se ajustem a determinados conjuntos de dados observados é chamado de Ajustamento de Curvas. Ajuste de curvas Pode-se fazer uma análise da seguinte forma: • coleta-se os dados de duas variáveis. Por exemplo, x e y, a altura e peso de um grupo de pessoas, , respectivamente. •traça-se um gráfico dos pontos (X1,Y1), (X2,Y2)....(Xn,Yn) em um sistema de coordenadas retangulares. O conjunto resultante é conhecido como diagrama de dispersão. Com esse diagrama pode-se visualizar uma curva aproximativa de dados ( curva de ajuste). Ajuste de curvas Relação linear entre variáveis Relação linear não linear Ajuste de curvas Não existe relação Regressão Um dos objetivos do ajustamento é estimar uma das variáveis (V. D.) em função da outra (V. I.). Esse processo é conhecido como regressão (y(x) versus x) . A equação e a curva de regressão de x sobre y ocorre quando a variável x é estimado em função de y (x(y) versus y) . Método dos mínimos quadrados De todas curvas que se aproximam de determinados conjuntos de pontos, a curva que atende a propriedade : d₁2 + d₂2 + ......+dn2 = mínimo Obs: o dn corresponde a diferença entre o valor Yn e o valor ajustado pela curva Y n Método dos mínimos quadrados dn = desvio, erro ou resíduo C = melhor curva ajustadora A linha de mínimos quadrados A reta de mínimos quadrados aproxima o conjunto de pontos (xi , yi), tem a equação y a b x onde a e b são determinadas pela solução das equações normais para linha de mínimos quadrados y a n b x 2 xy a x b x A linha de mínimos quadrados Os valores de a e b são a b 2 y x x x y n x x 2 2 n x y x y n x x 2 2 A linha de mínimos quadrados O valores b pode ser reescrito como: x x y y b x x 2 onde x x n y a b x a y b x A linha passando pelo centróide A reta de mínimos quadrados passa pelo ponto x, y , chamado centróide (centro de gravidade dos dados). x x y y y y x x x x 2 Ou a linha de regressão de x sobre y x x y y xx y y y y 2 Exemplo Altura do Pai (x) (polegadas) 65 63 67 64 68 62 70 66 68 67 69 71 Altura do Filho (y) (polegadas) 68 66 68 65 69 66 68 65 71 67 68 70 Exemplo x y x2 xy y2 65 68 4225 4420 4624 63 66 3969 4158 4356 67 68 4489 4556 4624 64 65 4096 4160 4225 68 69 4624 4692 4761 62 66 3844 4092 4356 70 68 4900 4760 4624 66 65 4356 4290 4225 68 71 4624 4828 5041 67 67 4489 4489 4489 69 68 4761 4692 4624 71 70 5041 4970 4900 x = 800 y = 811 x2 = 53.418 xy = 54.107 y2 = 54.849 a= 35.82 e b= 0.476 y = 35.82 + 0.476.x A linha mínimos quadrados em termos da variância amostral e covariância As variâncias e covariâncias amostrais de x e y são dadas por É definido o coeficiente de correlação amostral como: Então a equação da reta de regressão de mínimos quadrados de y sobre x: Desvio Padrão da Estimativa A medida da dispersão em torno de uma curva de regressão é dado por: Como verificamos que a curva de mínimos quadrados é a que apresenta o menor desvio padrão de estimativa dentre as curvas de regressão. Coeficiente de correlação linear O coeficiente pode ser definido como: : variação explicada ( os desvios tendem a um padrão definido pela reta de regressão de mínimos quadrados). : variação total Coeficiente de correlação linear O r é a medida de quão bem a reta de regressão de mínimos quadrados se ajusta aos dados. Assim r2=1 é definido como correlação linear perfeita. Se r2=0 a variação total é toda não explicada. Observação: ‘r’ estar entre 0 e 1. Coeficiente de Correlação Generalizado O coeficiente pode ser definido como: : variação explicada : variação total Mede quão bem uma curva de regressão não-linear se ajusta aos dados = Coeficiente de Correlação Generalizado Exemplo Encontre o coeficiente de determinação e o coeficiente de correlação linear do exemplo acima. Relembrando que o coeficiente de determinação é r2: variaçãoexplicada 19.22 r 0.4938 variaçãototal 38.92 2 O coeficiente de correlação é r: r 0.4938 0.7027 Correlação e Dependência • Sempre que duas variáveis x e y tem coeficiente de correlação diferente de 0, ela são dependentes ( sentido probabilístico). • Nem sempre essa correlação representa uma interdependência causal direta. • Exemplo 1 : altura e peso→ interdependência direta • Exemplo 2: salário e criminalidade → Interdependência indireta.