MB751 – Modelos de previsão Prof. Carlos H. C. Ribeiro [email protected] Aula 3 Análise de variância e correlação Testes de hipótese Intervalos de confiança Regressão e correlação 2 Simplificação das expressões para regressão linear MQ Yˆ bX i a b N X iYi X i Yi i i N X i2 X i i i Y i a i i N b X i N 2 Y Y X X X X i i i 2 i i xi X i X , yi Yi Y y x x i i i 2 i i i Y bX Exemplo 6 3 Regressão linear MQ: propriedades adicionais Estimativa do coeficiente b: E bˆ b ˆ var b Variância do erro 2 2 x i i Estimativa do coeficiente a: E aˆ a varaˆ 2 2 X i i N xi2 i Covariância do par a,b: 2 X Cov(aˆ , bˆ) E aˆ E aˆ bˆ E bˆ X i2 i 4 Decomposição da soma dos quadrados Objetivo: estudar a variação da variável dependente Y. X ,Y Y Yˆ Y Yˆ Que parcela da variação é causada pela variação de X? Yˆ Y Y Que parcela da variação não é “explicada” pela variação de X? X Y Y Yˆ Y Y Yˆ y yˆ 5 Decomposição da soma dos quadrados yi xi Y Y Yˆ Y Y Yˆ y yˆ i Variação total de Y yi2 bˆ i Parcela devida à X 2 i i Parcela residual 6 Análise de variância (ANOVA) Fonte de variação de Y Variável X Variação ou soma de quadrados VE bˆ y x resíduo VR Yi Yˆi 2 i i Variável X + resíduo VT VE i i i Soma de quadrados média 2 s2 i y 2 i y VT k VR N k 1 N 1 Estatística F = (VE/k)/(VR/N-k-1): testa a significância do efeito das variáveis independentes sobre Y Estatística t: testa significância dos parâmetros estimados. tb bˆ b s aˆ a ta s 2 X i2 2 i x N xi2 2 i i Variância residual s2: mede grau de dispersão entre valores observados e estimados Exemplo 7 Observação: k é o número de variáveis independentes i Coeficiente de determinação R2 = VE/VT = 1-VR/VT: indica a parcela da variação de Y explicada pela variação de X 7 Intervalos de confiança e testes de hipóteses Podemos agora tentar definir intervalos de confiança e testes de hipóteses envolvendo a e b: Intervalos de confiança: que faixa de valores tem probabilidade alta (ou nível de significância baixo) de conter os valores verdadeiros dos parâmetros (a ou b) Testes de hipóteses: qual a probabilidade de que um modelo obtido por regressão linear tenha seus parâmetros estimados próximos aos valores reais? Probabilidade = 1- Nível de significância 8 Exemplo Uma tentativa de explicar o consumo C em função da renda R: E C a bR Hipótese: b deve ser positivo, pois se a renda aumenta, o consumo deve aumentar. Teste sobre hipótese nula (b=0). O objetivo é tentar rejeitar esta hipótese. Como? 1. Tento achar uma estimativa de b suficientemente > 0, para causar dúvida sobre a validade da hipótese nula. Suponha que a estimativa indique b = 0.9. 2. Suponha que para o valor estimado, o intervalo de confiança para um nível de significância de 10% seja: 0,6 < b < 1,2. Isto quer dizer que P(0,6 < b < 1,2) = 100% - nível de significância = 90%. Ou seja, rejeitamos a hipótese nula com nível de confiança de 90%. 9 Teste de hipótese em Econometria Teste sempre para um dado modelo: aceitação ou rejeição deste modelo. Normalmente nível de significância 5%, mas dependendo dos dados disponíveis posso ser mais ou menos preciso. Rejeitar a hipótese nula significará aceitar o modelo, a menos que novos dados contrariem esta conclusão. Teste usual: t. Adequado para variâncias desconhecidas. 10 Teste de hipótese usando teste F Teste F: testa a significância das variáveis independentes (no caso, X) sobre Y: Hipótese nula H0: X não afeta Y (b=0). Hipótese não-nula H1: X afeta Y (b0). 1. Calculo o número de graus de liberdade no numerados (k=1) e no denominador (N-k-1 = N-2). 2. Defino o nível de significância. 3. Obtenho o valor crítico de teste Fc (tabelado). 4. Calculo F F > Fc ? Rejeito a hipótese b=0 no nível de significância. F < Fc ? Aceito a hipótese b=0 no nível de significância. 11 Teste de hipótese usando teste t Teste t: Testa significância dos parâmetros a e b: Três conjuntos de hipóteses a testar para v = a ou b: v = 0 ou v 0: efeito positivo ou negativo (teste bilateral) v = 0 ou v > 0: efeito positivo (teste unilateral positivo) v = 0 ou v < 0: efeito negativo (teste unilateral negativo) As hipóteses a testar dependem do interesse para o problema. 1. Defino o teste (unilateral ou bilateral). 2. Calculo o número de graus de liberdade N-k-1 = N-2. 3. Defino o nível de significância. 4. Obtenho o valor crítico de teste tc (tabelado). 5. Calculo t |t| > |tc| ? Rejeito ausência de efeito no nível de significância. |t| < |tc| ? Aceito ausência de efeito no nível de significância. 12 Exemplo 8 Exemplo 8 13 Exercício 2 Dia 1 2 3 4 5 6 7 8 9 10 Notas na prova 9 8 8 9 7 9 8 7 9 6 Horas de sono na véspera 8 6 6 8 9 6 5 8 8 6 a) Elaborar a tabela ANOVA b) Calcular R2 e a estatística F c) As notas do aluno foram afetadas pelas horas de sono na véspera? Verifique de acordo com o modelo de regressão linear e nivel de significância 0,01 Exercício 2 14 Observações para a lista 1 SQE = VE (soma dos quadrados explicados) SQT = VT (soma dos quadrados dos totais) SQR = VR (soma dos quadrados dos resíduos) “fazer o teste F” significa fazer teste F com nível de significância 0,05 “fazer o teste t” significa fazer teste t com nível de significância 0,05 para cada um dos coeficientes da reta. 15 O que vimos até agora O modelo de regressão linear a duas variáveis Para tentar explicar a relação entre duas variáveis (X e Y) a partir de um conjunto de dados Método dos mínimos quadrados Para achar os coeficientes da reta de regressão linear Análise de variância (ANOVA) Para avaliar a reta de regressão e determinar quão bem ela aproxima os dados Testes de hipótese: F e t No caso geral: para avaliar estatisticamente a validade de uma hipótese No caso específico de regressão linear, é parte do “kit”ANOVA 16 Intervalos de confiança Define o intervalo dentro do qual o valor verdadeiro do parâmetro estará, com uma dada probabilidade. Teste usual: t O procedimento a seguir pode ser usado para determinar intervalos de confiança para qualquer parâmetro estimado. 17 Intervalo para b (unilateral +) Defino: NC (nível de confiança) = 1 – NS (nível de significância) Portanto (aula passada): P(tc > tb) = 1 – P(tc tb) = 1 – NS = NC Mas tb bˆ b s2 2 x i bˆ b sb i e portanto... P b bˆ sbtc NC 18 Intervalo para b (unilateral -) P b bˆ sbtc NC Intervalo para b (bilateral) P bˆ sbtc b bˆ sbtc NC Exemplo 9 19 Regressão e correlação _ y=Y-Y Y II: xy < 0 _ Y III: xy > 0 . . .. . .. . . .. . . .. . . . .. _ X . I: xy>0 _ x=X-X IV: xy < 0 X 20 Correlação: ideia intuitiva Muitos pontos no Quadrante I: Correlação + – xy > 0 para muitos pontos – some dos xy tende a ser positivo alto (soma de números positivos) Muitos pontos no Quadrante II: Correlação - – xy < 0 para muitos pontos – some dos xy tende a ser negativo com módulo alto (soma de números negativos) Muitos pontos no Quadrante III: Correlação + – xy > 0 para muitos pontos – some dos xy tende a ser positivo com alto (soma de números positivos) Muitos pontos no Quadrante IV: Correlação - – xy < 0 para muitos pontos – some dos xy tende a ser negativo com módulo alto (soma de números negativos) Pontos distribuídos em vários quadrantes: Baixa Correlação – xy > 0 para alguns pontos e xy < 0 para outros – soma dos xy tende a ser positivo baixo ou negativo com módulo baixo. 21 Correlação: definição formal Coeficiente de correlação: x y i r i xi2 i yi2 i Pode-se mostrar que: i xi2 i r bˆ N 1 yi2 Sx ˆ b Sy Se bˆ 0 entãor 0 Se bˆ 0 entãor 0 Se bˆ 0 entãor 0 i N 1 Um teste para b também é um teste para r 22 Exemplo Exemplo 10 23 Diferença entre regressão e correlação Regressão relaciona a variável independente à variável dependente, ou seja, procura gerar uma explicação (reta de regressão, no caso da regressão linear) para a variação em Y causada por variações em X. Meço a regressão através do coeficiente de determinação R2. Correlação mede a associação entre X e Y, sem considerar que variável é dependente ou independente. Meço a correlação através do coeficiente de correlação r. 24 Atividade 1 (tarde) Município Produção agrícola (Y) Índice pluviométrico (X) A 20 20 B 60 30 C 110 60 D 140 90 E 130 120 F 100 150 G 110 180 H 130 100 I 110 70 J 90 40 a) Plotar os pontos no sistema x-y. b) Calcular a correlação entre a produção agrícola e o índice pluviométrico. O que pode ser concluído? Atividade 1T 25