Estudo do intervalo de confiança da regressão inversa utilizando o
software R
Liliane Lopes Cordeiro1
João Domingos Scalon1
1.
Introdução
Na maioria das aplicações envolvendo regressão, determina-se o valor de Y correspondente
a um dado valor de x . Entretanto, em alguns casos, o interesse está no problema inverso, que é
chamado de regressão inversa ou de calibração, ou seja, estima-se a variável x0 dado Y0 . O problema está em obter o intervalo de confiança para um particular valor de x .
Para resolver este problema pode-se utilizar o método. Graybill (Graybill, 1976) este método
calcula os estimadores de mínimos quadrados do intercepto ( β 0 ), da inclinação ( β1 ) e os valores de
x0 , calcula-se o estimador de máxima verossimilhança da variância (σ2). Aplica-se o método de
Graybill (1976) sobre o modelo de regressão linear simples centrado para obter um estimador para o
valor desconhecido de x0 e o seu respectivo intervalo de confiança 100(1-α)%. Graybill (1976) alega que o coeficiente de confiança deste intervalo é inferior a 100(1-α)%.
O objetivo desse trabalho é apresentar e investigar o intervalo de confiança para uma variável desconhecida x0 pelo método de Graybill aplicado em dados experimentais de química.
2.
Material e métodos
O método de Graybill (Graybill,1976) usa um modelo de regressão linear simples centrado:
Y = γ 0 + γ1(x − x ) + ε
em que γ 1 = β1
ε ~ N (0, σ 2 )
(1)
γ 0 − γ 1 ( x − x ) = β0
Para obter o estimador para x0 observa-se k > 1 valores de Y para um x0 desconhecido.
Tem-se
uma
amostra
de
tamanho
n + k ,dada
por:
( x1 , Y1 ), ( x2 , Y2 ),… , , ( xn , Yn ) ( x0 , Yn +1 ), ( x0 , Yn + 2 ),… , ( x0 , Yn + k ), em que x0 é desconhecido e as variáveis
xi são distintas. Os k valores de Y , denotado por Yn +1 , Yn + 2 ,… , Yn + k , tem distribuição normal e média
γ 0 − γ 1 ( x0 − x ) e variância σ 2 .
1
DEX – UFLA. e-mail: [email protected]
Os estimadores de máxima verossimilhança de γ 1 e γ 0 , baseado nos primeiros n valores,
( x1 , Y1 ), ( x2 , Y2 ),… , ( xn , Yn ) são:
n
γˆ1 = βˆ1 =
∑ (Yi − Y )( xi − x )
i =1
(2)
n
2
∑ (xj − x )
j =1
⌢
⌢
γ 0 = β0 + γ 1 x = Y
n
em que Y =
∑ Yi
i =1
(3)
n
∑ xi
e x=
i =1
n
n
O estimador clássico de mínimos quadrados de x0 baseado nas n + k observações,
( x1 , Y1 ), ( x2 , Y2 ),… , , ( xn , Yn ) ( x0 , Yn +1 ), ( x0 , Yn + 2 ),… , ( x0 , Yn + k ), é dado por:
xˆ0 = x +
Y0 − γˆ0
γˆ1
(4)
O estimador não viesado de x0 , conhecido como estimador de Naszódi é:
xɶ0 = x +
Y0 − γˆ0
Var (γˆ1 )
γˆ1 +
γˆ1
(5)
Para estimar a variância σ 2 usa-se a função de verossimilhança baseada em todas n + k observações. O estimador da variância não viesado é dado por:
σˆ 2 =
(
n
n+ k
2
2
1
∑ (Yi − γˆ0 − γˆ1 ( x1 − x ) ) + ∑ (Yi − Y0 )
i = n +1
n + k − 2 i =1
)
(6)
Para obter um intervalo de confiança para x0 usa-se o seguinte procedimento.
1.
Usam-se as estatísticas (2), (3), (4), (6) para obter o estimador de x0 , na qual é dado
por: xˆ0 = x +
Y0 − γˆ0
γˆ1
Realiza-se o teste: H 0 : γ 1 = 0 vs H a : γ 1 ≠ 0 ; rejeita H 0 se e somente se:
2.
n
γ 12 ∑ ( xi − x ) 2
i =1
σˆ
3.
2
≥ tα2
2
= Fα :1, n + k −3
:n + k − 3
Se H 0 não é rejeitado, assume que o modelo é yi = γ 0 + ε i . Portanto não existe in-
tervalo de confiança para x0 .
4.
x+
Se H 0 é rejeitada, o intervalo 100(1 − α )% em x0 é dado por:
γˆ1 (Y0 − Y )
a
tα
−
2
σˆ
:n + k − 3
a
2
 1 1  (Y − Y )
a +  + n 0
 n k  ∑ ( xi − x ) 2
i =1
(7)
x+
γˆ1 (Y0 − Y )
a
tα
+
2
σˆ
:n + k − 3
a
2
 1 1  (Y − Y )
a +  + n 0
 n k  ∑ ( xi − x ) 2
(8)
i =1
σˆ tα
2
em que a = γˆ −
2
1
2
:n + k − 3
n
2
∑ ( xi − x )
i =1
Graybill afirma que este não é um intervalo de 100(1 − α )% de confiança para x0 mais tem o
coeficiente de confiança menor que 100(1 − α )% . Investiga-se está afirmação por meio de uma simulação usando o software R.
O R é um software livre desenvolvido para auxilio em cálculos estatísticos. Ele apresenta interface com gráficos e é compilado para funcionar em uma grande variedade de plataformas como
UNIX, Windows e MacOS. O software R é expansível através do uso de bibliotecas com funções
ou áreas de estudo específicas (R Development Core Team, 2012).
Para ilustrar o método será usado o seguinte problema e o conjunto de dados apresentados
em Thonnard (2006). Tem-se 10 soluções de caprolactona, éster cíclico, em um determinado solvente. Há também uma solução sem a caprolactona. Estas soluções são injetadas 3 vezes em uma
cromatografia gasosa (CG). Este CG mede para cada substancia da solução uma superfície que representa a concentração da substancia. Têm-se a concentração x , que é conhecida para as 10 soluções e a superfície Y , que é medida três vezes para cada uma das soluções. Portanto, tem-se 33
observações que são apresentadas na Tabela 1.
Tabela 1: Concentração e superfície de caproctona na solução
Observação
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Concentração
xi(g/l)
9.71
9.71
9.71
8.52
8.52
8.52
7.96
7.96
7.96
6.82
6.82
6.82
5.85
5.85
5.85
4.95
4.95
SuperfícieYi
Observação
24.276
24.083
24.276
20.206
20.199
20.223
19.773
19.759
19.765
16.743
16.587
16.744
15.081
15.121
15.274
12.636
12.641
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Concentração
xi(g/l)
4.95
3.91
3.91
3.91
2.98
2.98
2.98
2.07
2.07
2.07
1.02
1.02
1.02
0
0
0
SuperfícieYi
12.682
9.869
9.906
9.883
7.624
7.592
7.585
4.638
4.666
4.649
2.86
2.859
2.896
0
0
0
Suponha-se que tem uma nova solução ( x0 ), que não se sabe a concentração de caprolactona. Injetam-se esta solução desconhecida três vezes no CG. Com isso é obtido às três observações
da superfície (Y0) que são Y01=1,58211, Y02=1,79325 e Y03=1,78739. O objetivo é estimar o valor e
determinar o intervalo de confiança para a concentração desconhecida de caprolactona.
3.
Resultados e discussões
As estimações dos parâmetros β 0 e β1 são respectivamente -0,05419 e 0,40678, e o estima-
dor de σ 2 é 0,27695. Para o estimador clássico obtêm o seguinte modelo de regressão:
Y = −0, 05419 + 0, 40678 x . A Figura1 apresenta o gráfico de dispersão da tabela 1 e a reta de re-
gressão.
Figura 1: Gráfico de dispersão da Tabela 1 e a reta de regressão.
Os estimadores dos parâmetros γ 0 e γ 1 são dados por 12, 15433 e 2, 450956 respectivamente. E o estimador clássico de x0 (concentração de caprolactona) em Y0 = 1, 72092 é dados por:
xˆ0 = x +
Y0 − γˆ0
1, 72092 − (12,15433)
= 4,89 +
= 0, 633126
γˆ1
2, 45095
E o estimador clássico de x0 , não viesado, em Y0 = 1, 72092 é:
xɶ0 = x +
Y0 − γˆ0
1,72092 − 12,15433
= 4,89 +
= 0, 63337
ˆ
Var (γ 1 )
0,000348
2, 450956 +
γˆ1 +
2, 450956
γˆ1
Este estimador, não viesado, de x0 conhecido como estimador de Naszódi é mais eficiente e
mais consistente que o estimador clássico (Nazódi,1978).
Para o cálculo do intervalo de Confiança de 95% usa-se as fórmula (7) e (8), para o valor estimado de xˆ0 = 0, 633126 obtêm o intervalo (0,52405; 0,739602).
Simula-se, usando o software livre R (R Development Core Team, 2012), este intervalo
10000 e conta-se quantas vezes o valor variável x0 esta no intervalo, obtendo assim uma precisão
da confiança desse intervalo. Este procedimento é feito trinta vezes e os valores são apresentados
pelo histograma (figura 2). Nota-se que os 30 valores são normalmente distribuídos, pois estatística
de Shapiro-Wilks é 0.9658 e o p-valor é 0,4323.
Figura 2: Histograma da confiança do intervalo
‘
Observa-se que a afirmação de Graybill, para este exemplo, é verdadeira, pois a confiança
do intervalo é um pouco menor que 95%
4.
Conclusões
Com o método apresentado pode-se estimar a variável desconhecida x0 e obter um intervalo
de confiança para mesma com uma precisão da confiança um pouco menor que 95% como afirma
Graybill(Graybill,1976).
5.
Bibliografia
[1] Graybill ,F.A. Theory and Application of the Linear Model. Duxbury, United States, 1976
[2] Naszódi, L.J. Elimination of the bias in the course of calibration. Technometrics, 20:201–
205,1978.
[3] R DEVELOPMENT CORE TEAM. R: a language and environment for statistical compu-
ting. Viena: R Foundation for Statistical Computing, 2011. Disponível em: http://www.Rproject.org. Acesso em: 10 fev. 2012
[4] Thonnard, M. Confidence Intervals in Inverse Regression. 2006. 78 p. Dissertação (Mestrado
em Matemática e Ciência da Computação), Technische Universiteit Eindhoven, Eindhoven, 2006.
Download

Estudo do intervalo de confiança da regressão inversa