Modelo Linear Generalizado Bivariado para
Variáveis Tipo-Intervalo
Eufrásio de A. Lima Neto, Thadeu O. Formiga e Josemir R. de Almeida
Departamento de Estatı́stica - Centro de Ciências Exatas e da Natureza,
Universidade Federal da Paraı́ba, CEP 58059-900 - João Pessoa (PB) - Brasil
[email protected]
Resumo Os atuais métodos de regressão para variáveis simbólicas intervalares enfocam o tema como um problema de otimização, sem considerar
os aspectos probabilı́sticos que rodeiam os modelos de regressão. Neste
trabalho, apresentamos algumas distribuições bivariadas pertencentes a
famı́lia exponencial que ampliam o modelo linear generalizado bivariado
(MLGB) proposto por Iwasaki & Tsubaki (2005), no contexto dos dados simbólicos. Por último, realizamos um estudo comparativo entre o
MLGB e os métodos não-probabilı́sticos propostos por Billard & Diday
(2000) e Lima Neto & De Carvalho (2008).
1
Introdução
A análise de dados simbólicos (Bock & Diday 2000) surgiu, simultaneamente,
da influência de três áreas: Análise Exploratória de Dados, Inteligência Artificial e Taxonomia Numérica. Um conjunto de dados simbólico pode conter, em
uma célula de sua matriz, informações expressas por intervalos, distribuições de
freqüência, distribuições de probabilidade, etc, diferentemente de uma base de
dados clássica onde cada célula assume apenas um único valor.
Nos modelos de regressão para dados usuais, as observações são representadas
por um vetor de medidas quantitativas Entretanto, devido aos recentes avanços
nas tecnologias da informação, é comum o registro de dados intervalares em
situações práticas como o registro de temperaturas em estações meteorológicas
ou a oscilação de uma ação na bolsa de valores. Outra fonte de dados intervalares
está na agregação de grandes bases de dados em bases de dados mais reduzidas.
Billard & Diday (2000) foram os primeiros a propor um modelo de regressão
para dados simbólicos de natureza intervalar. Lima Neto & De Carvalho (2008)
apresentaram uma nova abordagem para o problema baseado em dois modelos
de regressão linear, cuja performance de predição é superior ao método proposto
por Billard & Diday (2000). Lima Neto & De Carvalho (2010) sugeriu o uso
de restrições no vetor de parâmetros do modelo objetivando garantir coerência
matemática para os valores estimados dos limites dos intervalos.
Apesar das recentes contribuições em modelos de regressão para dados simbólicos, os métodos atuais abordam o tema como um problema de otimização e não
consideram os aspectos probabilı́sticos relacionados aos modelos de regressão.
2
Isso torna impossı́vel o uso de técnicas inferenciais sob as estimativas dos parâmetros como, por exemplo, testes de hipóteses, intervalos de confiança, análise
residual, entre outras.
Iwasaki & Tsubaki (2005) apresentou o modelo linear generalizado bivariado
(MLGB) baseado na distribuição gama bivariada, como aplicação a problemas
na área meteorológica.
Neste trabalho iremos apresentar algumas distribuições pertencentes a famı́lia
exponencial bivariada, ampliando o modelo linear generalizado bivariado (MLGB)
proposto por Iwasaki & Tsubaki (2005) para o contexto dos dados simbólicos
e apresentando formas alternativas para estimar o parâmetro de dispersão, o
coeficiente de correlação, além de medida de bondade de ajuste.
2
Famı́lia Exponencial Bivariada
Sejam Y1 e Y2 variáveis aleatórias pertencentes a famı́lia exponencial bivariada
de distribuições definida por
£
¤
f (y; θ) = exp φ−1 {y1 θ1 + y2 θ2 − b(θ1 , θ2 , ρ)} + c(y1 , y2 , ρ, φ) ,
(1)
onde θ = (θ1 , θ2 ), φ é o parâmetro de dispersão comum para Y1 e Y2 e ρ é
correlação entre Y1 e Y2 , considerada constante. Assuma que as funções b(·, ·, ·)
e c(·, ·, ·, ·) são conhecidas.
Sejam n observações independentes em (1), a função de log-verossimilhança
para i-ésima observação será dada por
li = li (θ, φ, ρ) = φ−1 {y1i θ1 + y2i θ2 − b(θ1 , θ2 , ρ)} + c(y1i , y2i , ρ, φ).
(2)
O valor esperado de Y1 pode ser facilmente derivado a partir da relação
µ
¶
∂l
µ1 − ∂b/∂θ1
E
=
= 0.
∂θ1
φ
Logo, teremos
µ1 =
∂b
= b(1) ,
∂θ1
(3)
onde b = b(θ1 , θ2 , ρ) e os sobrescritos (1) e (2) indicam as derivadas à respeito
dos parâmetros canônicos θ1 e θ2 , respectivamente. Da mesma forma, o valor
esperado de Y2 será dado por µ2 = b(2) .
Os parâmetros µ1 and µ2 serão funções dos parâmetros canônicos θ1 and
θ2 e do coeficiente de correlação ρ. Da mesma forma, os parâmetros canônicos
também serão funções de µ1 and µ2 e ρ, denotando-os então por θi = qi (µ1 , µ2 , ρ)
para i = 1, 2. A variância da variável Y1 será obtida da identidade
µ
E
∂2l
∂θ12
¶
µ
+E
∂l
∂θ1
¶2
= 0.
3
Logo, teremos
V ar(Y1 ) = φb(11) = V1 .
(4)
De maneira análoga, a variância de Y2 será expressa por V ar(Y2 ) = φb(22) = V2 .
Por último, a covariância entre as variáveis Y1 e Y2 será denotada por
¶
¶
µ
µ
∂2l
∂l ∂l
E
+E
= 0.
∂θ1 ∂θ2
∂θ1 ∂θ2
Assim, Cov(Y1 , Y2 ) = φb(12) = V12 .
3
3.1
Distribuições Contı́nuas Pertencentes a Famı́lia
Exponencial Bivariada
Distribuição Normal Bivariada
Sejam Y1 e Y2 variáveis aleatórias com E(Y1 ) = µ1 , E(Y2 ) = µ2 , V ar(Y1 ) = σ11
σ12
√
e V ar(Y2 ) = σ22 . Além disso, considere ρ = √σ11
σ22 = Corr(Y1 , Y2 ). Seja
f (y1 , y2 ) a função densidade de probabilidade conjunta de (Y1 , Y2 ), definida por:
"µ
Ã
¶2 µ
¶2
1
y1 − µ1
y2 − µ2
−1
f (y1 , y2 ) = exp
+
√
√
r
2(1 − ρ2 )
σ11
σ22
µ
¶µ
¶¸¶
y1 − µ1
y2 − µ2
− 2ρ
√
√
σ11
σ22
p
onde r = 2π σ11 σ22 (1 − ρ2 ).
Para o caso em que σ11 = σ22 = σ 2 , temos que a distribuição normal bivariada pode ser representada, sob a forma (1), por:
θ1 = µ1 − ρµ2 , θ2 = µ2 − ρµ1 , a(φ) = σ 2 (1 − ρ2 ),
y 2 +y 2
³
´
p
ρ− 12 2
θ2 + θ22 + 2ρθ1 θ2
2
2 .
b(θ1 , θ2 , ρ) = 1
e
c(y
,
y
,
ρ,
φ)
=
−
ln
2πσ
1
−
ρ
1
2
2 (1 − ρ2 )
σ 2 (1 − ρ2 )
3.2
Distribuição Log-Normal Bivariada
Sejam Y1 e Y2 variáveis aleatórias com E(Y1 ) = µ1 , E(Y2 ) = µ2 , V ar(Y1 ) = σ11
σ12
√
e V ar(Y2 ) = σ22 . Além disso, considere ρ = √σ11
σ22 = Corr(Y1 , Y2 ). Seja
f (y1 , y2 ) a função densidade de probabilidade conjunta de (Y1 , Y2 ), definida por:
Ã
"µ
¶2 µ
¶2
−1
ln y1 − µ1
ln y2 − µ2
1
+
−
f (y1 , y2 ) = exp
√
√
k
2(1 − ρ2 )
σ11
σ22
µ
¶µ
¶¸¶
ln y1 − µ1
ln y2 − µ2
−2 ρ
√
√
σ11
σ22
4
q
1
onde k = 2π σ11 σ22 (1 − ρ2 )(ln2 y1 + ln2 y2 ) 2 .
Para o caso em que σ11 = σ22 = σ 2 , temos que a distribuição log-normal
bivariada pode ser representada, sob a forma (1), por:
θ1 = µ1 − ρµ2 , θ2 = µ2 − ρµ1 , a(φ) = σ 2 (1 − ρ2 ),
θ2 + θ22 + 2ρθ1 θ2
b(θ1 , θ2 , ρ) = 1
e
2 (1 − ρ2 )
2
ρ ln y1 ln y2 − ln y1 +ln
2
c(y1 , y2 , ρ, φ) =
σ 2 (1 − ρ2 )
3.3
2
y2
1
− ln k 2 .
Distribuição Gama Bivariada
Iwasaki & Tsubaki (2005) apresentaram uma distribuição tipo Gama Bivariada,
pertencente a famı́lia exponencial bivariada (1), onde:
·
¸
· ρ
¸
ρ
1
1
− ρ+1
− ρ+1
ρ+1
ρ+1
θ1 = (1 + ρ) µ1
µ2
, θ2 = (1 + ρ) µ1 µ2
, a(φ) = φ
"µ
#
ρ
¶ ρ−1
θ1 θ2
1 − ρ2
−1 e
b(θ1 , θ2 , ρ) =
ρ
(1 + ρ)2


¶ µ
¶−αj
µ
∞
(
2 j
X
ρ2 − 1
(y
y
)
α
−
1)
1
1
−
ρ
1
2
j
,
c(y1 , y2 , ρ, φ) =
+ ln 
2 2αj
2
φρ
φρ
(1
+
ρ)
Γ
(α
)
φ
j!
j
j=1
para 0 < ρ < 1.
4
Modelo Linear Generalizado Bivariado
Assim como na teoria dos modelos lineares generalizados (MLGs), o modelo linear generalizado bivariado (MLGB) para dados tipo-intervalo possui uma componente aleatória e outra sistemática. Na componente aleatória, consideramos
que o vetor bivariado
· ¸
Y1
Y=
,
Y2
pertence a famı́lia exponencial bivariada (1).
A componente sistemática, formada por variáveis explicativas responsáveis
pela variabilidade de Y1 e Y2 , é definida por
η 1 = g1 (µ1 ) = X1 β 1 e η 2 = g2 (µ2 ) = X2 β 2 ,
(5)
onde: X1 e X2 são matrizes conhecidas n×p1 e n×p2 , respectivamente, formadas
por variáveis independentes; β 1 e β 2 são os vetores de parâmetros relacionados
a Y1 e Y2 com dimensões p1 × 1 e p2 × 1, respectivamente, e g1 (µ1 ) e g2 (µ2 ) são
funções de ligação.
5
Para maximizar a log-verossimilhança vamos assumir ρ fixo e, então, obter
as equações de máxima-verossimilhança para estimar β 1 e β 2 . Ambos vetores
podem ser estimados sem conhecimento de φ. Em princı́pio, φ também poderia
ser estimado por máxima-verossimilhança. Entretanto, podem ocorrer dificuldades práticas associadas ao método para alguns membros de (1). No entanto, será
possı́vel estimar φ de modo simples, com base no desvio do modelo.
O algoritmo para estimação dos vetores de parâmetros é baseado no método
escore de Fisher, derivando a log-verossimilhança total (2) em relação a β 1 e β 2 .
Após alguma álgebra, as estimativas de máxima-verossimilhança condicionais
(MLEs) de β 1 e β 2 , dado ρ, podem ser expressar a partir do processo iterativo
β (m+1) = β (m) + (XT W(m) X)−1 XT W(m) z(m) ,
em que
(6)
"
β
#
·
¸
(m+1)
β1
X1 0
=
,
X
=
,
(m+1)
0 X2
β2
#
"
#
"
(m)
(m)
W1
0
z1
(m)
=
ez
=
(m) .
(m)
z2
0 W2
(m+1)
W(m)
Temos que W1 e W2 são matrizes de pesos diagonais e z1 e z2 correspondem a
variáveis dependentes modificadas.
A discrepância (desvio) para um MLGB é definida por duas vezes a diferença
entre as log-verossimilhanças do modelo saturado e em investigação
D(ρ) = 2
n
X
{y1i [q1 (y1i , ρ) − q1 (µ̂1i , ρ)] + y2i [q2 (y2i , ρ) − q2 (µ̂2i , ρ)] +
i=1
+ [b(q1 (µ̂1i ), q2 (µ̂2i ), ρ) − b(q1 (y1i ), q2 (y2i ), ρ)]}.
O desvio pode ser aproximado por uma distribuição χ2ν com ν = 2n − (p1 +
p2 ) graus de liberdade, que conduz a um estimador simples do parâmetro da
dispersão, denotado por φ̃ = D(ρ)/[2n − (p1 + p2 )].
Substituindo os estimadores βb1 , βb2 e φ̃ em (2), obtemos a log-verossimilhança
perfilada, que será utilizada para estimar numericamente ρ
lp (ρ) = φ−1
n
n
X
X
{y1i θb1 + y2i θb2 − b(θb1 , θb2 , ρ)} +
c(y1i , y2i , ρ, φ̃).
i=1
(7)
i=1
Um processo iterativo conjunto para estimação de β, φ e ρ pode ser facilmente
implementado em pacotes estatı́sticos, tais como: MATLAB, S-PLUS, R e SAS.
5
Resultados e Conclusões
Nesta seção aplicaremos o modelo linear generalizado bivariado (MLGB) apresentado na Seção 4 a uma base de dados real. Será feito um estudo comparativo
6
da performance de predição deste método em relação aos métodos propostos por
Billard e Diday (2000) e Lima Neto e De Carvalho (2008, 2010).
A base de dados tipo-intervalo considerada neste artigo foi obtida do Departamento de Nefrologia do Hospital Valle del Nalón em Langreo (Asturias,
Espanha) e representa o registro do pulso (X1 ), da pressão sistólica (X2 ) e da
pressão diastólica (Y ) em 59 pacientes, de uma população de 3000 pacientes
hospitalizados por ano (Gil, González-Rodrı́guez, Colubi & Montenegro 2007).
Consideramos um MLGB com distribuição normal bivariada e funções de ligação
identidade. Foram obtidas as seguintes estimativas dos parâmetros β̂c = (13.626;
0.051; 0.445), β̂r = (24.634; 0.168; 0.259), φ̂ = 72.61, ρ̂ = 0.404.
A Tabela 1 indica que a performance de predição do MLGB é superior aos
métodos de regressão simbólica não-probabilı́sticos. O estudo comparativo foi
Tabela 1. Comparação entre métodos de regressão simbólicos
Método RM SEL RM SEU
CM
11.30
15.20
CRM
8.52
12.37
CCM
11.28
15.16
CCRM 8.52
12.39
MLGB 8.17
11.73
realizado através de uma validação cruzada 10-fold repetido 10 vezes, com base
nas medidas de performance: raiz quadrada do erro médio quadrático para o
limite inferior (RM SEL ) e superior (RM SEU ) dos intervalos. O algoritmo para
obtenção das estimativas dos parâmetros e da medida de bondade de ajuste foi
desenvolvido na linguagem R.
Agradecimentos
Os autores agradecem ao CNPq pelo suporte financeiro.
Referências
Billard, L. & Diday, E. (2000), Regression analysis for interval-valued data, in H. Kiers, J. Rasson, P. Groenen & M. Schader, eds, ‘Data Analysis, Classification and
Related Methods’, Springer, pp. 369–374.
Bock, H. & Diday, E. (2000), Analysis of symbolic data: explanatory methods for extracting statistical information from complex data, Springer, Heidelberg.
Gil, M. A., González-Rodrı́guez, G., Colubi, A. & Montenegro, M. (2007), ‘Testing
linear independence in linear models with interval-valued data’, Computational
Statistics and Data Analysis 51, 3002–3015.
Iwasaki, M. & Tsubaki, H. (2005), ‘A bivariate generalized linear model with an application to meteorological data analysis’, Statistical Methodology 2, 175–190.
Lima Neto, E. A. & De Carvalho, F. A. T. (2008), ‘Centre and range method for fitting
a linear regression model to symbolic interval data’, Computational Statistics and
Data Analysis 52, 1500–1515.
Lima Neto, E. A. & De Carvalho, F. A. T. (2010), ‘Constrained linear regression models
for symbolic interval-valued variables’, Computational Statistics and Data Analysis
54, 333–347.
Download

Modelo Linear Generalizado Bivariado para Variáveis Tipo