Modelo beta Weibull modificada em Análise de Sobrevivência Giovana O. Silva∗ Departamento de Estatı́stica - UFBA Valdemiro Piedade Vigas Bolsista de Iniciação Cientifı́ca - Departamento de Estatı́stica - UFBA Resumo Em aplicações na área de análise de sobrevivência é frequente a ocorrência de função de taxa de falha em forma de U. As distribuições tradicionalmente usadas não apresentam essa propriedade. Considerando dados censurados, é proposto utilizar a distribuição beta Weibull modificada, que apresenta função de taxa de falha em forma de U, para descrever o comportamento do tempo de sobrevivência e é apropriada na discriminação entre alguns modelos probabilı́sticos alternativos, tais como, a distribuição Weibull, a distribuição Weibull exponenciada, a distribuição Rayleigh generalizada, distribuição Weibull modificada e a distribuição Weibull modificada generalizada. O método de máxima verossimilhança será usado para estimar os parâmetros dos modelos. Para selecionar um modelo que melhor se ajusta aos dados será usado o teste da razão de verossimilhança e os critérios AIC e BIC. Conjunto de dados real será usado para ilustrar a aplicação da nova distribuição. O software R foi usado para análise dos dados. Para ilustrar o uso desta distribuição, foi usado conjunto de dados com 148 crianças contaminadas pelo HIV por via vertical do Hospital das Clı́nicas da Faculdade de Medicina de Ribeirão Preto. Palavras-chaves: Distribuição beta Weibull modificada; censura; máxima verossimilhança. 1 Introdução Considere um conjunto de dados cuja variável resposta é o tempo até a ocorrência de um evento de interesse. Esse tempo é denotado por tempo de sobrevivência ou tempo de falha e o conjunto de observações por dados de sobrevivência. Uma caracterı́stica destes dados é a censura, que é a observação parcial do tempo de interesse. Existem diversos tipos de censura, neste trabalho considerou-se censura à direita e mecanismo aleatório, além de que a censura é não informativa. A área da estatı́stica que engloba metodologias para esse tipo de dados é denominada análise de sobrevivência. Para mais detalhes ver, por exemplo, Colosimo e Giolo (2006) As distribuições de probabilidade tradicionalmente usadas em análise de sobrevivência são: exponencial, Weibull, log-normal e log-logı́stica. Entretanto, em diversas aplicações na área de sobrevivência o tempo de sobrevivência apresenta função de taxa de falha na forma de U e os modelos de probabilidade citados anteriormente não apresentam este tipo de função. Diante deste fato, o objetivo desta trabalho é propor o uso da distribuição de probabilidade beta Weibull modificada, proposta por Silva, Ortega e Cordeiro (2010), para descrever o comportamento do tempo de sobrevivência. 1 e-mail: [email protected] 1 Esta distribuição apresenta flexibilidade para acomodar várias formas da função de taxa de falha, por exemplo, forma de U , e é apropriada na discriminação entre alguns modelos probabilı́sticos alternativos, tais como, a distribuição Weibull, a distribuição Weibull exponenciada, a distribuição Rayleigh generalizada, distribuição Weibull modificada e a distribuição Weibull modificada generalizada apresentada por Carrasco, Ortega e Cordeiro (2008). Assim, espera-se que esta distribuição seja útil em uma variedade de aplicações nas áreas de confiabilidade, medicina e biologia, bem como em outras áreas de investigação. Para encontrar as estimativas dos parâmetros dessa distribuição utilizou-se o método de máxima verossimilhança em que o método numérico do tipo quase Newton foi necessário. Os critérios de seleção de modelos: Critério de informação de Akaike (AIC) e Critério de informação de Bayes (BIC)e o teste da razão de verossimilhanças foram usados para selecionar um modelo de probabilidade que melhor se ajusta aos dados. O sof tware R foi usado para análise dos dados. Para ilustrar o uso desta distribuição, foi usado conjunto de dados com 148 crianças contaminadas pelo HIV por via vertical do Hospital das Clı́nicas da Faculdade de Medicina de Ribeirão Preto (Silva, 2004). 2 Distribuição beta Weibull modificada A distribuição beta Weibull modicada (BWM) é composta por 5 parâmetros e apresenta algumas caracterı́sticas importantes como flexibilidade para acomodar várias formas da função de taxa de falha ( por exemplo forma de U e unimodal ), é apropriada na discriminação entre alguns modelos probabilisticos alternativos como a Weibull, Weibull modificada e a exponencial de acordo com os valores dos seus respectivos parâmetros. A função densidade de probabilidade, a função de sobrevivência e função de taxa de falha são descritas por: f (t) = αxγ−1 (γ + λx) exp(λx) [1 − exp{−αtγ exp(λt)}]α−1 exp{−bαtγ exp(λt)}, t > 0 B(a, b) S(t) = [1 − I1−exp(−αxγ exp(λx)) (a, b)], αxγ−1 (γ + λx) exp(λx) [1 − exp{−αtγ exp(λt)}]α−1 exp{−bαtγ exp(λt)}, t > 0 B(a, b)[1 − I1−exp{−αtγ exp(λt)} (a, b)] Ry em que Iy (a, b) = By (a, b)/B(a, b) é a função razão beta incompleta, By (a, b) = 0 wa−1 (1 − w)b−1 dw é a função beta incompleta e B(a, b) é a função beta. A distribuição BWM contém como caso especiais várias distribuições conhecidas. Por exemplo, quando λ = 0 simplica para a distribuição beta Weibull. Se γ = 1 além de λ = 0, obtém-se a distribuição beta exponencial. A distribuição Weibull modificada generalizada é um caso especial quando b = 1. Se a = 1 além de b = 1, a distribuição Weibull modificada é obtida. Para b = 1 e λ = 0, a distribuição BWM reduz-se a distribuição Weibull exponenciada. Se γ = 1 além de b = 1 e λ = 0, a distribuição BWM torna-se a distribuição exponencial exponenciada. Para γ = 2, λ = 0 e b = 1, a distribuição BWM torna-se distribuição Rayleigh generalizada. A distribuição Weibull é um caso especial quando a = b = 1 e λ = 0. λ(t) = 3 Estimador de máxima verossimilhança 2 Existem vários métodos que podem ser utilizados para estimar os parâmetros dos modelos probabilı́sticos, neste trabalho foi usado o método de máxima verossimilhança. Considerando que os tempos de sobrevivência e de censura são independentes e que a censura é não informativa, a função de verossimilhança para todos os mecanismos de censura à direita é dada por: Y L(θ)α [f (xi ; θ)]δi [S(xi ; θ)]1−δi i=1 em que δ é a variável indicadora de censura e θ é o vetor de parâmetros. Seja x1 , . . . , xn uma amostra aleatória ¡de ¢tamanho n da distribuição BWM(a, b, α, γ, λ). Também γ considere a seguinte reparametrização α = α11 . Então, o logaritmo da função de verossimilhança para o vetor de parâmetros θ = (a, b, α1 , γ, λ)T é escrito como o £ ¤ X n£ ¤ l(θ) = −r log B(a, b) + log(γ + λxi ) + log(vi ) − log(xi ) +(a − 1) X i∈F n o X X log 1 − exp(−vi ) − b vi + log(1 − I[1−(exp(−vi ))] (a, b)), i∈F ¡ ¢γ i∈F (1) i∈C xγi em que vi = α11 exp(λxi ) e r é o número de observações não censuradas. O estimador de máxima verossimilhança para o vetor de parâmetros é calculado maximizando a função de verossimilhança ou, equivalentemente, maximizando o logaritmo da função de verossimilhança. Entretanto, neste caso, o sistema de equações é não linear, tornado-se necessário usar um algoritmo de otimização, por exemplo, quase-Newton. Neste trabalho, as estimativas foram obtidas diretamente usando o sof tware R (comando optim). No caso em que o tamanho da amostra é grande e sob certas condições de regularidade para a função de verossimilhança, intervalos de confiança e testes de hipóteses podem ser obtidos usando o fato de que a √ b − θ) ∼ Np (0, I(θ)−1 ), distribuição assintótica para os estimadores de máxima verossimilhança é n(θ em que I(θ) é a matriz de informação de Fisher e p é o número de parâmetros do modelo (Sen e Singer, 1993). Como é complicado calcular a matriz de informação de Fisher devido às observações censuradas, pode½ ¾ ∂ 2 l(θ ) b que é um estimador consistente para matriz de se usar a matriz L̈(θ) = − , avaliada em θ = θ, T ∂ θ∂ θ b é informção de Fisher (Mudholkar, Srivastava e Kollia, 1996). Assim, a distribuição assintótica para θ √ b −1 dada por n(θ − θ) ∼ Np {0; L̈(θ) }, em que p é o número de parâmetros do modelo. 4 Seleção de modelos Para decidir qual modelo é mais adequado para modelar o tempo de sobrevivência, os critérios de seleção AIC e BIC foram usados, são dados por: AIC = −2log(L) + 2p e BIC = −2log(L) + plog(n), em que L representa função de verossimilhança, p representa o número de parâmetros e n representa o número de observações. Tanto o AIC como o BIC selecionam o modelo que apresenta o menor valor. 4.1 Teste da razão de verossimilhanças Outra forma de selecionar um modelo é usar o teste da razão de verossimilhanças. A hipóteses testadas são: H0 : modelo de interesse é adequado versus H1 : modelo de interesse não é adequado. A estatı́stica de teste é escrita da seguinte forma : b1 ) − log(L)(θ b0 )], T RV = 2[log(L)(θ 3 b0 é o estimador de máxima verossimilhança para modelo de interesse e θ b1 é o estimador de máxima em que θ verossimilhança para modelo mais geral. Esta estatı́stica sob H0 tem aproximadamente distribuiçao quiquadrado e graus de liberdade fornecido pela diferença do número de parâmetros dos modelos comparados. 5 Aplicação Para ilustrar a aplicação da distribuição beta Weibull modificada foi usado o conjunto de dados que está relacionado ao tempo (dias) até a ocorrência de sororeversão de 148 crianças contaminadas ao HIV por via vertical no Hospital das Clı́nicas da Faculdade de medicina de Ribeirão Preto, de 1986 a 2001, sendo que 56,09% dessas observações correspondem à censura. Mais detalhe sobre esse conjunto de dados pode ser encontrado em Silva, 2004.Vale explicar que sororeversão é o processo de desaparecimento dos anticorpos anti-HIV do sangue (negativação da sorologia anti-HIV) em um indivı́duo que anteriormente apresentava sorologia anti-HIV positivo. O objetivo é saber qual o modelo paramétrico que se apresenta mais apropriado para descrever os dados. No primeiro momento, foram encontradas as estimativas dos parâmetros da distribuição BWM e alguns de seus sub-modelos utilizando o método de máxima verossimilhança por meio do comando optim do Sof tware R. Essas estimativas com os correspondentes erros padrão, entre parênteses, são dados na Tabela 1 para diversos modelos ajustados. Tabela 1: Resultados das estimativas e do erro padrão (entr parênteses) da distribuição beta Weibull modificada e alguns de seus sub-modelos para o conjunto de dados de sororeversão. Distribuições exponencial Weibull Weibull modificada Weibull modificada generalizada beta Weibull modificada α 372,1094 177,8135 307,6221 12,54027 307,6217 11,9951 364,2627 16,8264 307,4936 0.0024 γ - λ - a - b - 3,1114 0.0087 3,1125 0,0086 7,8409 0,0000 7,9685 0,0000 - - - 0,0003 0,0000 0.0004 0,0000 0,0051 0,0000 - - 0,3132 0,0002 0,1937 0,0000 0,0851 0,0000 Para identificar qual dessas distribuições é mais apropriada para modelar o tempo de sobrevivência desse conjunto de dados, foram usados gráficos que relacionam as estimativas das funções de sobrevivência das distribuições Weibull, Weibull modificada, Weibull modificada generalizada e beta Weibull modificada com as estimativas da função de sobrevivência obtidas pelo método de Kaplan-Meier. Dando prosseguimento, foram aplicados os critérios de seleção de modelo AIC e BIC e o teste da razão de verossimilhança. A tabela 2 apresenta os resultados referentes a estes métodos. Da Tabela 2, observa-se que das diferentes distribuições ajustadas aos dados, a distribuição beta Weibull modificada apresenta um melhor ajuste comparado aos outros modelos probabilı́sticos alternativos, pois o critério AIC e BIC apresentam menores valores em relaçao as outras distribuições consideradas. 4 0.4 0.8 S(t):Kaplan−Meier 0.0 0.4 0.8 1.0 0.6 0.2 0.0 0.0 S(t):Kaplan−Meier 0.4 S(t):Beta Weibul Modificada 0.8 1.0 0.6 0.0 0.2 0.4 S(t):Weibul Modificada Generalizada 0.6 0.0 0.2 0.4 S(t):Weibul Modificada 0.8 1.0 0.8 1.0 0.8 0.6 S(t):Weibul 0.4 0.2 0.0 0.0 0.4 0.8 S(t):Kaplan−Meier 0.0 0.4 0.8 S(t):Kaplan−Meier Figura 1: Função de sobrevivência estimada pelo método de Kaplan-Meier versus a função de sobrevivência estimada para as seguintes distribuições: Weibull, Weibull modificada, Weibull modificada generalizada e beta Weibull modificada dos dados de sororeversão Tabela 2: AIC, BIC e logaritmo da função de verossimilhança para o modelo beta Weibull modificada e alguns dos seus submodelos para o conjunto de dados de sororeversão Distribuições Weibull Weibull modificada Weibull modificada generalizada beta Weibull modificada 5 AIC 807,9872 809,6044 795,0154 780,6156 BIC 813,9816 818,5960 807,0042 795,6017 e l(θ) 401,9936 401,8022 393,5077 385,3078 Pode-se ainda usar o teste razão de verossimilhança para testar se o modelo beta Weibull modificada ajusta bem os dados. Considere as seguintes hipóteses: H0 : b = 1 versus H1 : H0 não é verdade, isto é, compara o modelo Weibull modificada generalizada com o modelo BWM. Para este teste de hipóteses, o valor da estatı́stica de teste (T RV =0,0424) (p-valor < 0.001) que fornece indicações favoráveis ao modelo BWM. 6 Conclusão O modelo probabilı́stico com cinco parâmetros, denominado de distribuição beta Weibull modificada, que estende várias distribuições amplamente abordadas na literatura de análise de sobrevivência foi apresentado como um modelo alternativo em aplicações de análise de sobrevivência. As vantagens deste são a flexibilidade em acomodar diferentes formas da função de taxa de falha e a discriminação de modelos. Por meio de exemplo com dados reais mostrou-se a utilidade desse novo modelo probabilı́stico. 7 Referências Bibliofráficas. Carrasco, J. M. F., Ortega, E. M. M., Cordeiro, G. M. (2008). A generalized modified Weibull distribution for lifetime modeling. Computational Statistics and Data Analysis, 53, 450-462. Colosimo, E.A.; Giolo, S.R. Análise de sobrevivência aplicada. São Paulo: Edgard Blucher, 2006.392p. Mudholkar, G. S., Srivastava, D. K., Kollia, G. D., 1996. A generalization of the Weibull distribution with application to the analysis of survival data. Journal of American Statistical Association, 91, 1575-1583. Sen, P.K.; Singer, J.M. Large sample methods in statistics: An introduction with applications. New York: Chapman and Hall, 1993. 382 p. Silva, A.N.F. Estudo evolutivo das crianças expostas ao HIV e notificadas pelo núcleo de vigilância epidemiológica do HCFMRPUSP. 2004. 90 p. Dissertação (Mestrado em Saúde da comunidade). Universidade de São Paulo, Ribeirão Preto, 2004. Silva, G. O., Ortega, E. M. M. e Cordeiro, G. M. The Beta Modified Weibull Distribution. Lifetime Data Analysis, 2010. Aceito para publicação. 6