Estudo do intervalo de confiança da regressão inversa utilizando o software R Liliane Lopes Cordeiro1 João Domingos Scalon1 1. Introdução Na maioria das aplicações envolvendo regressão, determina-se o valor de Y correspondente a um dado valor de x . Entretanto, em alguns casos, o interesse está no problema inverso, que é chamado de regressão inversa ou de calibração, ou seja, estima-se a variável x0 dado Y0 . O problema está em obter o intervalo de confiança para um particular valor de x . Para resolver este problema pode-se utilizar o método. Graybill (Graybill, 1976) este método calcula os estimadores de mínimos quadrados do intercepto ( β 0 ), da inclinação ( β1 ) e os valores de x0 , calcula-se o estimador de máxima verossimilhança da variância (σ2). Aplica-se o método de Graybill (1976) sobre o modelo de regressão linear simples centrado para obter um estimador para o valor desconhecido de x0 e o seu respectivo intervalo de confiança 100(1-α)%. Graybill (1976) alega que o coeficiente de confiança deste intervalo é inferior a 100(1-α)%. O objetivo desse trabalho é apresentar e investigar o intervalo de confiança para uma variável desconhecida x0 pelo método de Graybill aplicado em dados experimentais de química. 2. Material e métodos O método de Graybill (Graybill,1976) usa um modelo de regressão linear simples centrado: Y = γ 0 + γ1(x − x ) + ε em que γ 1 = β1 ε ~ N (0, σ 2 ) (1) γ 0 − γ 1 ( x − x ) = β0 Para obter o estimador para x0 observa-se k > 1 valores de Y para um x0 desconhecido. Tem-se uma amostra de tamanho n + k ,dada por: ( x1 , Y1 ), ( x2 , Y2 ),… , , ( xn , Yn ) ( x0 , Yn +1 ), ( x0 , Yn + 2 ),… , ( x0 , Yn + k ), em que x0 é desconhecido e as variáveis xi são distintas. Os k valores de Y , denotado por Yn +1 , Yn + 2 ,… , Yn + k , tem distribuição normal e média γ 0 − γ 1 ( x0 − x ) e variância σ 2 . 1 DEX – UFLA. e-mail: [email protected] Os estimadores de máxima verossimilhança de γ 1 e γ 0 , baseado nos primeiros n valores, ( x1 , Y1 ), ( x2 , Y2 ),… , ( xn , Yn ) são: n γˆ1 = βˆ1 = ∑ (Yi − Y )( xi − x ) i =1 (2) n 2 ∑ (xj − x ) j =1 ⌢ ⌢ γ 0 = β0 + γ 1 x = Y n em que Y = ∑ Yi i =1 (3) n ∑ xi e x= i =1 n n O estimador clássico de mínimos quadrados de x0 baseado nas n + k observações, ( x1 , Y1 ), ( x2 , Y2 ),… , , ( xn , Yn ) ( x0 , Yn +1 ), ( x0 , Yn + 2 ),… , ( x0 , Yn + k ), é dado por: xˆ0 = x + Y0 − γˆ0 γˆ1 (4) O estimador não viesado de x0 , conhecido como estimador de Naszódi é: xɶ0 = x + Y0 − γˆ0 Var (γˆ1 ) γˆ1 + γˆ1 (5) Para estimar a variância σ 2 usa-se a função de verossimilhança baseada em todas n + k observações. O estimador da variância não viesado é dado por: σˆ 2 = ( n n+ k 2 2 1 ∑ (Yi − γˆ0 − γˆ1 ( x1 − x ) ) + ∑ (Yi − Y0 ) i = n +1 n + k − 2 i =1 ) (6) Para obter um intervalo de confiança para x0 usa-se o seguinte procedimento. 1. Usam-se as estatísticas (2), (3), (4), (6) para obter o estimador de x0 , na qual é dado por: xˆ0 = x + Y0 − γˆ0 γˆ1 Realiza-se o teste: H 0 : γ 1 = 0 vs H a : γ 1 ≠ 0 ; rejeita H 0 se e somente se: 2. n γ 12 ∑ ( xi − x ) 2 i =1 σˆ 3. 2 ≥ tα2 2 = Fα :1, n + k −3 :n + k − 3 Se H 0 não é rejeitado, assume que o modelo é yi = γ 0 + ε i . Portanto não existe in- tervalo de confiança para x0 . 4. x+ Se H 0 é rejeitada, o intervalo 100(1 − α )% em x0 é dado por: γˆ1 (Y0 − Y ) a tα − 2 σˆ :n + k − 3 a 2 1 1 (Y − Y ) a + + n 0 n k ∑ ( xi − x ) 2 i =1 (7) x+ γˆ1 (Y0 − Y ) a tα + 2 σˆ :n + k − 3 a 2 1 1 (Y − Y ) a + + n 0 n k ∑ ( xi − x ) 2 (8) i =1 σˆ tα 2 em que a = γˆ − 2 1 2 :n + k − 3 n 2 ∑ ( xi − x ) i =1 Graybill afirma que este não é um intervalo de 100(1 − α )% de confiança para x0 mais tem o coeficiente de confiança menor que 100(1 − α )% . Investiga-se está afirmação por meio de uma simulação usando o software R. O R é um software livre desenvolvido para auxilio em cálculos estatísticos. Ele apresenta interface com gráficos e é compilado para funcionar em uma grande variedade de plataformas como UNIX, Windows e MacOS. O software R é expansível através do uso de bibliotecas com funções ou áreas de estudo específicas (R Development Core Team, 2012). Para ilustrar o método será usado o seguinte problema e o conjunto de dados apresentados em Thonnard (2006). Tem-se 10 soluções de caprolactona, éster cíclico, em um determinado solvente. Há também uma solução sem a caprolactona. Estas soluções são injetadas 3 vezes em uma cromatografia gasosa (CG). Este CG mede para cada substancia da solução uma superfície que representa a concentração da substancia. Têm-se a concentração x , que é conhecida para as 10 soluções e a superfície Y , que é medida três vezes para cada uma das soluções. Portanto, tem-se 33 observações que são apresentadas na Tabela 1. Tabela 1: Concentração e superfície de caproctona na solução Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Concentração xi(g/l) 9.71 9.71 9.71 8.52 8.52 8.52 7.96 7.96 7.96 6.82 6.82 6.82 5.85 5.85 5.85 4.95 4.95 SuperfícieYi Observação 24.276 24.083 24.276 20.206 20.199 20.223 19.773 19.759 19.765 16.743 16.587 16.744 15.081 15.121 15.274 12.636 12.641 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Concentração xi(g/l) 4.95 3.91 3.91 3.91 2.98 2.98 2.98 2.07 2.07 2.07 1.02 1.02 1.02 0 0 0 SuperfícieYi 12.682 9.869 9.906 9.883 7.624 7.592 7.585 4.638 4.666 4.649 2.86 2.859 2.896 0 0 0 Suponha-se que tem uma nova solução ( x0 ), que não se sabe a concentração de caprolactona. Injetam-se esta solução desconhecida três vezes no CG. Com isso é obtido às três observações da superfície (Y0) que são Y01=1,58211, Y02=1,79325 e Y03=1,78739. O objetivo é estimar o valor e determinar o intervalo de confiança para a concentração desconhecida de caprolactona. 3. Resultados e discussões As estimações dos parâmetros β 0 e β1 são respectivamente -0,05419 e 0,40678, e o estima- dor de σ 2 é 0,27695. Para o estimador clássico obtêm o seguinte modelo de regressão: Y = −0, 05419 + 0, 40678 x . A Figura1 apresenta o gráfico de dispersão da tabela 1 e a reta de re- gressão. Figura 1: Gráfico de dispersão da Tabela 1 e a reta de regressão. Os estimadores dos parâmetros γ 0 e γ 1 são dados por 12, 15433 e 2, 450956 respectivamente. E o estimador clássico de x0 (concentração de caprolactona) em Y0 = 1, 72092 é dados por: xˆ0 = x + Y0 − γˆ0 1, 72092 − (12,15433) = 4,89 + = 0, 633126 γˆ1 2, 45095 E o estimador clássico de x0 , não viesado, em Y0 = 1, 72092 é: xɶ0 = x + Y0 − γˆ0 1,72092 − 12,15433 = 4,89 + = 0, 63337 ˆ Var (γ 1 ) 0,000348 2, 450956 + γˆ1 + 2, 450956 γˆ1 Este estimador, não viesado, de x0 conhecido como estimador de Naszódi é mais eficiente e mais consistente que o estimador clássico (Nazódi,1978). Para o cálculo do intervalo de Confiança de 95% usa-se as fórmula (7) e (8), para o valor estimado de xˆ0 = 0, 633126 obtêm o intervalo (0,52405; 0,739602). Simula-se, usando o software livre R (R Development Core Team, 2012), este intervalo 10000 e conta-se quantas vezes o valor variável x0 esta no intervalo, obtendo assim uma precisão da confiança desse intervalo. Este procedimento é feito trinta vezes e os valores são apresentados pelo histograma (figura 2). Nota-se que os 30 valores são normalmente distribuídos, pois estatística de Shapiro-Wilks é 0.9658 e o p-valor é 0,4323. Figura 2: Histograma da confiança do intervalo ‘ Observa-se que a afirmação de Graybill, para este exemplo, é verdadeira, pois a confiança do intervalo é um pouco menor que 95% 4. Conclusões Com o método apresentado pode-se estimar a variável desconhecida x0 e obter um intervalo de confiança para mesma com uma precisão da confiança um pouco menor que 95% como afirma Graybill(Graybill,1976). 5. Bibliografia [1] Graybill ,F.A. Theory and Application of the Linear Model. Duxbury, United States, 1976 [2] Naszódi, L.J. Elimination of the bias in the course of calibration. Technometrics, 20:201– 205,1978. [3] R DEVELOPMENT CORE TEAM. R: a language and environment for statistical compu- ting. Viena: R Foundation for Statistical Computing, 2011. Disponível em: http://www.Rproject.org. Acesso em: 10 fev. 2012 [4] Thonnard, M. Confidence Intervals in Inverse Regression. 2006. 78 p. Dissertação (Mestrado em Matemática e Ciência da Computação), Technische Universiteit Eindhoven, Eindhoven, 2006.