Outros tópicos na análise de regressão Regressão passando pela origem Exemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um supermercado num experimento (incluindo alguns supermercados sem cerveja armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado. Modelo O modelo com erros normais é o mesmo que (3) exceto que 0=0, assim, temos: Yi 1 X i i (5) Onde: 1 é o parâmetro a estimar; Xi são constantes conhecidas e i são os erros aleatórios, independentes, normalmente distribuídos com média zero e variância 2. A função de regressão para o modelo (5) é dada por: E (Y ) 1 X 1 Inferência O estimador de mínimos quadrados de 1 (que também é o estimador de máxima verossimilhança para o modelo de regressão com erros normais), no modelo (5), é obtido minimizando-se o critério: Q (Yi 1 X i )2 com relação ao parâmetro 1. A equação normal resultante é dada por: X (Y b X ) 0 i i 1 i É um valor específico Resolvendo para b1 obtemos o estimador por ponto: X iYi b1 X 2 i Os valores ajustados e os resíduos são dados por: Yˆi b1 X i e ei Yi Yˆi Yi b1 X i 2 Um estimador não tendencioso para 2 é dado por: (Yi Yˆi QME n1 ) 2 ei2 n1 Perde-se 1 grau de liberdade para estimar o parâmetro 1 Os limites de confiança para 1, E(Yh) e para uma nova observação Yh(novo) para o modelo (5) são dados por: 1 s2 (b1 ) E (Yh ) s (Yˆh ) Yh ( nova ) 2 QME X i2 X h2QME X i2 b1 ts(b1 ) Yˆh ts(Yˆh ) X h2 s ( predição) QME 1 X 2 i 2 Yˆh ts( pred ) O valor de t tem n-1 graus de liberdade associado (os do resíduo). No modelo (3), com intercepto, tínhamos termos da forma: No modelo (5), ( X i X )2 ou (Xh - X)2 . como a equação passa pela origem, temos termos X2i e X2h. 3 Exemplo: uma companhia opera 12 depósitos (armazéns). Com o objetivo de encontrar um procedimento mais eficiente de planejamento e controle, foi estudado a relação entre o número de horas trabalhadas (X) e o custo total do serviço (Y) nos depósitos durante um período de teste. Os dados e alguns resultados são apresentados na tabela a seguir: Regressão passando pela origem - exemplo dos depósitos (Warehousing) Depósito Unidades Custo total trabalhadas i Xi Yi XiYi X2i 1 20 114 2280 400 2 196 921 180516 38416 3 115 560 64400 13225 4 50 245 12250 2500 5 122 575 70150 14884 6 100 475 47500 10000 7 33 138 4554 1089 8 154 727 111958 23716 9 80 375 30000 6400 10 147 670 98490 21609 11 182 828 150696 33124 12 160 762 121920 25600 Total 1359 6390 894714 190963 4 y = 4 6 , 1 6 *x + e p s 1 0 0 0 8 0 0 Custototal 6 0 0 4 0 0 2 0 0 0 0 4 0 8 0 1 2 0 1 6 0 2 0 0 2 4 0 U n id a d e s ra t b a lh a d a s O parâmetro 1 é estimado por: b1 4,6853 Assim, a função de regressão estimada é dada por: e ? i Yˆ 4,6853X 5 O intervalo para 1, com confiança de 95% é dado por: 4,6853 2,201(0,0342) 4,61 1 4,76 Interpretação: com 95% de confiança, estima-se que a média da variável custo aumenta alguma coisa entre $4,61 e $4,76 para cada unidade adicional de trabalho. Cuidados com o uso da regressão pela origem • geralmente, a soma dos resíduos não é igual a zero (Verifique este fato no exemplo em estudo; também na equação normal(restrição)). Assim, num gráfico de resíduos, os mesmos não estarão aleatoriamente distribuídos ao redor de zero; • pode ocorrer que: SQE e 2 i SQTO (Yi Y )2 (ocorrência: dados apresentam comportamento curvilíneo ou linear com intercepto). Neste caso, o coeficiente de determinação (r2), dado por: SQE r2 1 SQTO 0 (negativo) Portanto, o r2, neste caso de regressão, não tem uma clara interpretação. 6 Exercício: construa a tabela da análise de variância da regressão, faça o teste F e conclua, utilizando as seguintes somas de quadrados. SQTNC Yi 2 SQRNC Yˆi 2 b12 X i2 SQE (Yi b1 X i )2 Onde SQTNC é a soma de quadrados total não corrigido; SQRNC é a soma de quadrados da regressão não corrigido e SQE é a soma de quadrados do erro. Verifique numericamente que SQTNC=SQRNC+SQE. 7 8 Exemplo (referência: SAS System for Regression). Neste exemplo iremos ilustrar o fato de que o uso de um modelo sem intercepto pode fornecer resultados imprecisos mesmo nos casos em que o verdadeiro valor do coeficiente linear é próximo de zero. Uma amostra de tamanho 8 foi gerada usando o modelo y=x+, com o termo do erro com distribuição normal, média zero e variância l. Observação 1 2 3 4 5 6 7 8 X 1 2 3 4 5 6 7 8 Y -0.35 2.79 1.81 2.00 3.88 6.79 7.67 6.79 9 Modelo com coef. Linear F= 34,23 Valor p=0,0011 R2 =0,8509 QME=1,446 Modelo sem coef. linear F=117,34 Valor p=0,0001 R2 =0,9437 QME=1,458 e i 1,586 0 0 ,963 1 1,09 1 0,916 SQE=8,68 SQT=58,19 SQE=10,21 SQT=181,27 Observa-se imediatamente que tanto o valor o teste F para o modelo, como o valor R2 são muito maiores para o modelo sem o coeficiente linear. Observe (isto é importante) que os quadrados médios são praticamente iguais, a rigor, o quadrado médio do modelo sem o coeficiente linear é maior do que o modelo com o coeficiente angular. Na realidade, os dois modelos estimam equações de regressão muito similares; a estimativa do coeficiente linear (-0,963) é bastante próxima de zero, além disso, a hipótese de que 0=0 não pode ser rejeitada (valor p=0,3436); as estimativas dos coeficientes angulares: 1=1,09 e 1=0,916, para os modelos com e sem coeficiente linear, respectivamente, são muito próximos. 10 Observação 1 2 3 4 5 6 7 8 Resíduos -1,2657 0,9585 -0,9372 -1,6629 -0,6987 1,2956 1,2599 -0,5359 Observe, também, que a soma dos resíduos vale -1,5865, diferente de zero, mesmo o coeficiente linear sendo próximo de zero. Como o verdadeiro coeficiente linear é zero, as somas de quadrados do erro são próximas, quais sejam: 8,68 para o modelo com intercepto e 10,21 para o modelo sem o intercepto, porém, as somas de quadrado total são muito diferentes, sendo igual a 181,27 para o modelo sem o coeficiente linear e 58,19 para o modelo com coeficiente linear. Como o r2 é uma estatística baseada na diferença entre a soma de quadrados do erro e total, ela é muito maior para o modelo sem o coeficiente linear. 11 Efeitos de erros de medidas Erros de medida em Y Exemplo: Y: tempo necessário para completar uma tarefa X: complexidade da tarefa As tomadas de tempo podem ser feitas de forma imprecisa. Porém, se esses erros podem ser considerados aleatórios, não correlacionados e não tendenciosos, não temos problemas com a modelagem adotada até aqui. A parte aleatória do modelo () absorve estas variações. Erros de medida em X Suponha que estejamos interessados na seguinte relação: ganhos por tarefa dos trabalhadores e idades dos mesmos. Sejam: Xi = a idade verdadeira do i-ésimo trabalhador Xi* = a idade relatada pelo i-ésimo trabalhador 12 Define-se o erro de medida como sendo: i X i* X i O modelo de regressão que gostaríamos estudar é: Yi 0 1 X i i Como observamos Xi*, o modelo fica: Yi 0 1 ( X i* i ) i ou Yi 0 1 X i* ( i 1 i ) (6) Termo do erro Variável preditora Para que os resultados padrões da análise de regressão sejam válidas, a variável preditora deve ser independente do erro. Aqui, a variável preditora é correlacionada com o erro, dada a restrição: X * X X * X i i i i i i Portanto, os resultados padrões de regressão não são válidos para o modelo (6). 13 Demonstração: covariância entre Xi* e os erros (i- 1i) no modelo (6) Inicialmente, temos: E( X i* ) E( X i i ) X i , pois E( i ) 0 e X i constantes. (a ) ( i , i ) E( ii ) [E( i )E(i )] E( ii ) 0 (condição) (Erros de medidas, i não sejam correlacionados com os erros do modelo, i.) (b) 2 ( i ) E( i2 ) [E( i )]2 E( i2 ) A covariância fica: ( X i* , i 1 i ) E{[ X i* E ( X i* )][( i 1 i ) E ( i 1 i )]} E[(X i* - X i )( i 1 i )] E[ i ( i 1 i )] E ( i i 1 i2 ) Usando (a) e (b), a covariância fica: ( X i*, i 1 i ) 1 2 (i ) 0 Grandes dificuldades são encontradas na obtenção de estimadores não tendenciosos quando existe erros de medida em X. Para soluções consultar textos especializados . 14 Predição inversa (Calibração) Em muitos estudos, uma regressão de Y sobre X é usada para estimar o valor de X o qual originou um novo valor de Y. Exemplos: 1) um analista de uma associação de comércio fez uma regressão entre preços de venda de um produto (Y), e os seus custos (X) para 15 membros da associação. O preço de venda de uma firma não pertencente à associação, Yh(novo), é conhecido e, deseja-se, conhecer o custo, Xh(novo), para esta firma. 2) foi realizada uma análise de regressão da diminuição do nível de colesterol (Y) e a dosagem de uma nova droga (X), para 50 pacientes. Um pesquisador está tratando um novo paciente para o qual o nível de colesterol deveria diminuir uma quantidade Yh(novo). Deseja-se estimar a dose necessária, Xh(novo),a ser administrada para se conseguir a quantidade Yh(novo). Vamos assumir o modelo (3): Yi 0 1 X i i 15 A função de regressão estimada é dada por: Yˆ b0 b1 X (7) Temos uma nova observação, Yh(novo) e desejamos estimar o nível Xh(novo) que origina esta nova observação. Resolvendo (7) para X, dado Yh(novo, temos o estimador: Xˆ h ( novo ) Yh ( novo ) b0 b1 b1 0 Estimador pontual para o novo valor Xh(novo). (Estimador de máxima verossimilhança) Veja figura na próxima página. Exemplo: um médico está estudando um novo método (mais rápido) para medir baixas concentrações de açúcar no sangue. Doze (n=12) amostras foram usadas com concentrações conhecidas (X: método exato), divididas em 3 amostras para cada um de 4 diferentes níveis. A concentração de açúcar medida pelo método rápido (Y) foi então observada para cada uma das amostras. A equação de regressão estimada é dada por: Yˆ 0,100 1,017X 16 Y •• • Yˆ b0 b1 X •• • Yh(novo) •• • • •• X Xˆ h ( novo ) Figura: exemplo de calibração. Outros resultados: s(b1 ) 0,0142 QME 0,0272 (X i - X) 135 2 X 5,500 Verificar se existe uma relação linear entre X e Y. t* 71,6 P(|t | 71,6) 0,0001 Portanto, rejeitamos H0:1=0. 17 O pesquisador deseja estimar a concentração real Xh(novo) para um novo paciente para o qual o método rápido (novo) resultou numa concentração de Yh(novo)=6,52. ( 0,1) Xˆ h ( novo) 6,521,017 6,509 Intervalo de confiança aproximado para Xh(novo) O intervalo de confiança é dado por: Xˆ h ( novo ) t (1 / 2; n 2) s( Xˆ ) s( Xˆ ) QME b12 1 1 ( Xˆ h ( novo ) X 2)2 n ( X i X ) Para o exemplo, temos: 6,13 X h( novo) 6,89 Concluímos com 95% de confiança que a verdadeira concentração de açúcar para o paciente está entre 6,13 e 6,89. Portanto, o erro é de aproximadamente 6%, o qual é considerado razoável para o pesquisador. 18 Comentário: em problemas de calibração geralmente temos medidas (Y), rápidas, mais baratas e aproximadas, relacionadas com medidas (X), precisas, caras e demoradas sobre n observações. O modelo de regressão resultante é, então, utilizado para estimar uma medida precisa, Xh(novo), para uma medida aproximada nova Yh(novo). Escolha dos níveis de X Questões que o pesquisador deve considerar: • Quantos níveis de X deveriam ser pesquisados? • Quais devem ser os dois níveis extremos? • Qual deve ser o espaçamento entre os níveis? • Quantas observações devem ser feitas para cada nível de X? 19 Objetivos de uma análise de regressão: • estimar o coeficiente angular de uma regressão linear ; • estimar o coeficiente linear da regressão linear; • fazer predições de novas observações; • estimar uma ou mais respostas médias; Não existe uma resposta única para todas as questões formuladas, pois existem diferentes objetivos numa análise de regressão os quais levam a diferentes respostas. • para regressão curvilínea, localizar a resposta máxima ou mínima; • determinar a natureza da função de regressão. Para ilustrar como os objetivos afetam o delineamento (projeto), considere as variâncias: 20 b0 (b0 ) [ 2 b1 (b1 ) 2 2 1 n 2 2 1 n ( X h X )2 ( Xi X ) Yh ( novo ) ( predito) [1 n1 2 2 ] (8) ( X i X )2 Yˆh (Yˆh ) [ 2 X2 ( X i X )2 2 ] ( X h X )2 ( Xi X ) 2 ] Se o propósito da análise de regressão é estimar o coeficiente angular, 1, a variância de b1 é minimizada se o denominador de (8) for maximizado. Isto é conseguido usando 2 níveis de X, nos dois extremos da região de estudo, e colocando metade das observações em cada dos dois níveis. Devemos estar certos da linearidade da regressão, caso contrário, com 2 níveis não temos informação sobre desvios da linearidade. Se o objetivo é estimar o intercepto, 0, o número e a distribuição dos níveis não afetam a variância de b0, contando que a média (X barra) seja 0 (zero). 21 Para estimar a resposta média ou predizer uma nova observação no nível Xh, a variância é minimizada usando níveis de X de tal forma que: X Xh Sugestões (D.R.Cox): • Num experimento exploratório, em que o objetivo é verificar se uma variável preditora, tem ou não um efeito significativo e qual a direção, use apenas dois níveis. • Se acharmos que a resposta apresenta a forma de parábola, devemos usar três (3) níveis. Este é o caso mais corriqueiro. • Se o objetivo é estudar a forma da curva de resposta, então, devemos usar quatro (4) níveis. • Usar mais do que quatro (4) níveis para: a) quando é necessário estimar detalhes da curva de resposta; b) quando a curva de resposta apresenta uma assíntota; c) quando a curva de resposta não é adequadamente descrita pelo coeficiente angular e de curvatura. • Com exceção do último caso, geralmente é satisfatório usar-se níveis igualmente espaçados e com o mesmo número de repetições por nível. Nota: fazer lista de exercícios número 4. 22