Modelo Linear Generalizado Bivariado para Variáveis Tipo-Intervalo Eufrásio de A. Lima Neto, Thadeu O. Formiga e Josemir R. de Almeida Departamento de Estatı́stica - Centro de Ciências Exatas e da Natureza, Universidade Federal da Paraı́ba, CEP 58059-900 - João Pessoa (PB) - Brasil [email protected] Resumo Os atuais métodos de regressão para variáveis simbólicas intervalares enfocam o tema como um problema de otimização, sem considerar os aspectos probabilı́sticos que rodeiam os modelos de regressão. Neste trabalho, apresentamos algumas distribuições bivariadas pertencentes a famı́lia exponencial que ampliam o modelo linear generalizado bivariado (MLGB) proposto por Iwasaki & Tsubaki (2005), no contexto dos dados simbólicos. Por último, realizamos um estudo comparativo entre o MLGB e os métodos não-probabilı́sticos propostos por Billard & Diday (2000) e Lima Neto & De Carvalho (2008). 1 Introdução A análise de dados simbólicos (Bock & Diday 2000) surgiu, simultaneamente, da influência de três áreas: Análise Exploratória de Dados, Inteligência Artificial e Taxonomia Numérica. Um conjunto de dados simbólico pode conter, em uma célula de sua matriz, informações expressas por intervalos, distribuições de freqüência, distribuições de probabilidade, etc, diferentemente de uma base de dados clássica onde cada célula assume apenas um único valor. Nos modelos de regressão para dados usuais, as observações são representadas por um vetor de medidas quantitativas Entretanto, devido aos recentes avanços nas tecnologias da informação, é comum o registro de dados intervalares em situações práticas como o registro de temperaturas em estações meteorológicas ou a oscilação de uma ação na bolsa de valores. Outra fonte de dados intervalares está na agregação de grandes bases de dados em bases de dados mais reduzidas. Billard & Diday (2000) foram os primeiros a propor um modelo de regressão para dados simbólicos de natureza intervalar. Lima Neto & De Carvalho (2008) apresentaram uma nova abordagem para o problema baseado em dois modelos de regressão linear, cuja performance de predição é superior ao método proposto por Billard & Diday (2000). Lima Neto & De Carvalho (2010) sugeriu o uso de restrições no vetor de parâmetros do modelo objetivando garantir coerência matemática para os valores estimados dos limites dos intervalos. Apesar das recentes contribuições em modelos de regressão para dados simbólicos, os métodos atuais abordam o tema como um problema de otimização e não consideram os aspectos probabilı́sticos relacionados aos modelos de regressão. 2 Isso torna impossı́vel o uso de técnicas inferenciais sob as estimativas dos parâmetros como, por exemplo, testes de hipóteses, intervalos de confiança, análise residual, entre outras. Iwasaki & Tsubaki (2005) apresentou o modelo linear generalizado bivariado (MLGB) baseado na distribuição gama bivariada, como aplicação a problemas na área meteorológica. Neste trabalho iremos apresentar algumas distribuições pertencentes a famı́lia exponencial bivariada, ampliando o modelo linear generalizado bivariado (MLGB) proposto por Iwasaki & Tsubaki (2005) para o contexto dos dados simbólicos e apresentando formas alternativas para estimar o parâmetro de dispersão, o coeficiente de correlação, além de medida de bondade de ajuste. 2 Famı́lia Exponencial Bivariada Sejam Y1 e Y2 variáveis aleatórias pertencentes a famı́lia exponencial bivariada de distribuições definida por £ ¤ f (y; θ) = exp φ−1 {y1 θ1 + y2 θ2 − b(θ1 , θ2 , ρ)} + c(y1 , y2 , ρ, φ) , (1) onde θ = (θ1 , θ2 ), φ é o parâmetro de dispersão comum para Y1 e Y2 e ρ é correlação entre Y1 e Y2 , considerada constante. Assuma que as funções b(·, ·, ·) e c(·, ·, ·, ·) são conhecidas. Sejam n observações independentes em (1), a função de log-verossimilhança para i-ésima observação será dada por li = li (θ, φ, ρ) = φ−1 {y1i θ1 + y2i θ2 − b(θ1 , θ2 , ρ)} + c(y1i , y2i , ρ, φ). (2) O valor esperado de Y1 pode ser facilmente derivado a partir da relação µ ¶ ∂l µ1 − ∂b/∂θ1 E = = 0. ∂θ1 φ Logo, teremos µ1 = ∂b = b(1) , ∂θ1 (3) onde b = b(θ1 , θ2 , ρ) e os sobrescritos (1) e (2) indicam as derivadas à respeito dos parâmetros canônicos θ1 e θ2 , respectivamente. Da mesma forma, o valor esperado de Y2 será dado por µ2 = b(2) . Os parâmetros µ1 and µ2 serão funções dos parâmetros canônicos θ1 and θ2 e do coeficiente de correlação ρ. Da mesma forma, os parâmetros canônicos também serão funções de µ1 and µ2 e ρ, denotando-os então por θi = qi (µ1 , µ2 , ρ) para i = 1, 2. A variância da variável Y1 será obtida da identidade µ E ∂2l ∂θ12 ¶ µ +E ∂l ∂θ1 ¶2 = 0. 3 Logo, teremos V ar(Y1 ) = φb(11) = V1 . (4) De maneira análoga, a variância de Y2 será expressa por V ar(Y2 ) = φb(22) = V2 . Por último, a covariância entre as variáveis Y1 e Y2 será denotada por ¶ ¶ µ µ ∂2l ∂l ∂l E +E = 0. ∂θ1 ∂θ2 ∂θ1 ∂θ2 Assim, Cov(Y1 , Y2 ) = φb(12) = V12 . 3 3.1 Distribuições Contı́nuas Pertencentes a Famı́lia Exponencial Bivariada Distribuição Normal Bivariada Sejam Y1 e Y2 variáveis aleatórias com E(Y1 ) = µ1 , E(Y2 ) = µ2 , V ar(Y1 ) = σ11 σ12 √ e V ar(Y2 ) = σ22 . Além disso, considere ρ = √σ11 σ22 = Corr(Y1 , Y2 ). Seja f (y1 , y2 ) a função densidade de probabilidade conjunta de (Y1 , Y2 ), definida por: "µ à ¶2 µ ¶2 1 y1 − µ1 y2 − µ2 −1 f (y1 , y2 ) = exp + √ √ r 2(1 − ρ2 ) σ11 σ22 µ ¶µ ¶¸¶ y1 − µ1 y2 − µ2 − 2ρ √ √ σ11 σ22 p onde r = 2π σ11 σ22 (1 − ρ2 ). Para o caso em que σ11 = σ22 = σ 2 , temos que a distribuição normal bivariada pode ser representada, sob a forma (1), por: θ1 = µ1 − ρµ2 , θ2 = µ2 − ρµ1 , a(φ) = σ 2 (1 − ρ2 ), y 2 +y 2 ³ ´ p ρ− 12 2 θ2 + θ22 + 2ρθ1 θ2 2 2 . b(θ1 , θ2 , ρ) = 1 e c(y , y , ρ, φ) = − ln 2πσ 1 − ρ 1 2 2 (1 − ρ2 ) σ 2 (1 − ρ2 ) 3.2 Distribuição Log-Normal Bivariada Sejam Y1 e Y2 variáveis aleatórias com E(Y1 ) = µ1 , E(Y2 ) = µ2 , V ar(Y1 ) = σ11 σ12 √ e V ar(Y2 ) = σ22 . Além disso, considere ρ = √σ11 σ22 = Corr(Y1 , Y2 ). Seja f (y1 , y2 ) a função densidade de probabilidade conjunta de (Y1 , Y2 ), definida por: à "µ ¶2 µ ¶2 −1 ln y1 − µ1 ln y2 − µ2 1 + − f (y1 , y2 ) = exp √ √ k 2(1 − ρ2 ) σ11 σ22 µ ¶µ ¶¸¶ ln y1 − µ1 ln y2 − µ2 −2 ρ √ √ σ11 σ22 4 q 1 onde k = 2π σ11 σ22 (1 − ρ2 )(ln2 y1 + ln2 y2 ) 2 . Para o caso em que σ11 = σ22 = σ 2 , temos que a distribuição log-normal bivariada pode ser representada, sob a forma (1), por: θ1 = µ1 − ρµ2 , θ2 = µ2 − ρµ1 , a(φ) = σ 2 (1 − ρ2 ), θ2 + θ22 + 2ρθ1 θ2 b(θ1 , θ2 , ρ) = 1 e 2 (1 − ρ2 ) 2 ρ ln y1 ln y2 − ln y1 +ln 2 c(y1 , y2 , ρ, φ) = σ 2 (1 − ρ2 ) 3.3 2 y2 1 − ln k 2 . Distribuição Gama Bivariada Iwasaki & Tsubaki (2005) apresentaram uma distribuição tipo Gama Bivariada, pertencente a famı́lia exponencial bivariada (1), onde: · ¸ · ρ ¸ ρ 1 1 − ρ+1 − ρ+1 ρ+1 ρ+1 θ1 = (1 + ρ) µ1 µ2 , θ2 = (1 + ρ) µ1 µ2 , a(φ) = φ "µ # ρ ¶ ρ−1 θ1 θ2 1 − ρ2 −1 e b(θ1 , θ2 , ρ) = ρ (1 + ρ)2 ¶ µ ¶−αj µ ∞ ( 2 j X ρ2 − 1 (y y ) α − 1) 1 1 − ρ 1 2 j , c(y1 , y2 , ρ, φ) = + ln 2 2αj 2 φρ φρ (1 + ρ) Γ (α ) φ j! j j=1 para 0 < ρ < 1. 4 Modelo Linear Generalizado Bivariado Assim como na teoria dos modelos lineares generalizados (MLGs), o modelo linear generalizado bivariado (MLGB) para dados tipo-intervalo possui uma componente aleatória e outra sistemática. Na componente aleatória, consideramos que o vetor bivariado · ¸ Y1 Y= , Y2 pertence a famı́lia exponencial bivariada (1). A componente sistemática, formada por variáveis explicativas responsáveis pela variabilidade de Y1 e Y2 , é definida por η 1 = g1 (µ1 ) = X1 β 1 e η 2 = g2 (µ2 ) = X2 β 2 , (5) onde: X1 e X2 são matrizes conhecidas n×p1 e n×p2 , respectivamente, formadas por variáveis independentes; β 1 e β 2 são os vetores de parâmetros relacionados a Y1 e Y2 com dimensões p1 × 1 e p2 × 1, respectivamente, e g1 (µ1 ) e g2 (µ2 ) são funções de ligação. 5 Para maximizar a log-verossimilhança vamos assumir ρ fixo e, então, obter as equações de máxima-verossimilhança para estimar β 1 e β 2 . Ambos vetores podem ser estimados sem conhecimento de φ. Em princı́pio, φ também poderia ser estimado por máxima-verossimilhança. Entretanto, podem ocorrer dificuldades práticas associadas ao método para alguns membros de (1). No entanto, será possı́vel estimar φ de modo simples, com base no desvio do modelo. O algoritmo para estimação dos vetores de parâmetros é baseado no método escore de Fisher, derivando a log-verossimilhança total (2) em relação a β 1 e β 2 . Após alguma álgebra, as estimativas de máxima-verossimilhança condicionais (MLEs) de β 1 e β 2 , dado ρ, podem ser expressar a partir do processo iterativo β (m+1) = β (m) + (XT W(m) X)−1 XT W(m) z(m) , em que (6) " β # · ¸ (m+1) β1 X1 0 = , X = , (m+1) 0 X2 β2 # " # " (m) (m) W1 0 z1 (m) = ez = (m) . (m) z2 0 W2 (m+1) W(m) Temos que W1 e W2 são matrizes de pesos diagonais e z1 e z2 correspondem a variáveis dependentes modificadas. A discrepância (desvio) para um MLGB é definida por duas vezes a diferença entre as log-verossimilhanças do modelo saturado e em investigação D(ρ) = 2 n X {y1i [q1 (y1i , ρ) − q1 (µ̂1i , ρ)] + y2i [q2 (y2i , ρ) − q2 (µ̂2i , ρ)] + i=1 + [b(q1 (µ̂1i ), q2 (µ̂2i ), ρ) − b(q1 (y1i ), q2 (y2i ), ρ)]}. O desvio pode ser aproximado por uma distribuição χ2ν com ν = 2n − (p1 + p2 ) graus de liberdade, que conduz a um estimador simples do parâmetro da dispersão, denotado por φ̃ = D(ρ)/[2n − (p1 + p2 )]. Substituindo os estimadores βb1 , βb2 e φ̃ em (2), obtemos a log-verossimilhança perfilada, que será utilizada para estimar numericamente ρ lp (ρ) = φ−1 n n X X {y1i θb1 + y2i θb2 − b(θb1 , θb2 , ρ)} + c(y1i , y2i , ρ, φ̃). i=1 (7) i=1 Um processo iterativo conjunto para estimação de β, φ e ρ pode ser facilmente implementado em pacotes estatı́sticos, tais como: MATLAB, S-PLUS, R e SAS. 5 Resultados e Conclusões Nesta seção aplicaremos o modelo linear generalizado bivariado (MLGB) apresentado na Seção 4 a uma base de dados real. Será feito um estudo comparativo 6 da performance de predição deste método em relação aos métodos propostos por Billard e Diday (2000) e Lima Neto e De Carvalho (2008, 2010). A base de dados tipo-intervalo considerada neste artigo foi obtida do Departamento de Nefrologia do Hospital Valle del Nalón em Langreo (Asturias, Espanha) e representa o registro do pulso (X1 ), da pressão sistólica (X2 ) e da pressão diastólica (Y ) em 59 pacientes, de uma população de 3000 pacientes hospitalizados por ano (Gil, González-Rodrı́guez, Colubi & Montenegro 2007). Consideramos um MLGB com distribuição normal bivariada e funções de ligação identidade. Foram obtidas as seguintes estimativas dos parâmetros β̂c = (13.626; 0.051; 0.445), β̂r = (24.634; 0.168; 0.259), φ̂ = 72.61, ρ̂ = 0.404. A Tabela 1 indica que a performance de predição do MLGB é superior aos métodos de regressão simbólica não-probabilı́sticos. O estudo comparativo foi Tabela 1. Comparação entre métodos de regressão simbólicos Método RM SEL RM SEU CM 11.30 15.20 CRM 8.52 12.37 CCM 11.28 15.16 CCRM 8.52 12.39 MLGB 8.17 11.73 realizado através de uma validação cruzada 10-fold repetido 10 vezes, com base nas medidas de performance: raiz quadrada do erro médio quadrático para o limite inferior (RM SEL ) e superior (RM SEU ) dos intervalos. O algoritmo para obtenção das estimativas dos parâmetros e da medida de bondade de ajuste foi desenvolvido na linguagem R. Agradecimentos Os autores agradecem ao CNPq pelo suporte financeiro. Referências Billard, L. & Diday, E. (2000), Regression analysis for interval-valued data, in H. Kiers, J. Rasson, P. Groenen & M. Schader, eds, ‘Data Analysis, Classification and Related Methods’, Springer, pp. 369–374. Bock, H. & Diday, E. (2000), Analysis of symbolic data: explanatory methods for extracting statistical information from complex data, Springer, Heidelberg. Gil, M. A., González-Rodrı́guez, G., Colubi, A. & Montenegro, M. (2007), ‘Testing linear independence in linear models with interval-valued data’, Computational Statistics and Data Analysis 51, 3002–3015. Iwasaki, M. & Tsubaki, H. (2005), ‘A bivariate generalized linear model with an application to meteorological data analysis’, Statistical Methodology 2, 175–190. Lima Neto, E. A. & De Carvalho, F. A. T. (2008), ‘Centre and range method for fitting a linear regression model to symbolic interval data’, Computational Statistics and Data Analysis 52, 1500–1515. Lima Neto, E. A. & De Carvalho, F. A. T. (2010), ‘Constrained linear regression models for symbolic interval-valued variables’, Computational Statistics and Data Analysis 54, 333–347.