A distribuição BURR XII Geométrica Beatriz Rezende Lanjoni1 Edwin Moises Marcos Ortega1 1 Introdução Na análise de sobrevivência a variável resposta, geralmente, é o tempo até a ocorrência de um evento de interesse, portanto assume valores reais positivos e com distribuição absolutamente contínua. Uma característica especial de dados de sobrevivência é a presença de censuras, que pode ser interpretada como uma observação parcial da resposta. A censura surge em determinadas situações, não é possível esperar que todas as unidades experimentais em teste falhem e é necessário que o experimento se encerre num determinado tempo fixo (censura do tipo I) ou, o experimento se encerra depois que certo número de falhas tenha ocorrido (censura do tipo II), ou ainda que ocorra a perda de informações de determinadas unidades experimentais pelos mais variados motivos (censura aleatória). Sem a presença de censura as técnicas estatísticas tais como análise de regressão, experimentos, modelos lineares generalizados, entre outros, podem ser utilizadas na análise de dados. (COLOSIMO, E. A.; GIOLO, S. R.) De outra maneira, a análise de sobrevivência permite estudar tempos de vida ultrapassando as dificuldades inerentes a este tipo de dados, a censura e a não possibilidade de assumir a normalidade da distribuição subjacente, pois geralmente este tipo de dados apresenta uma distribuição assimétrica positiva. Assim sendo, não podem ser utilizados os métodos estatísticos usuais. (BASTOS J.; ROCHA, C.) Seja T uma variável aleatória a distribuição de probabilidade de T pode ser especificada de várias formas, três das quais são particularmente úteis em análise de sobrevivência: função densidade ൫݂ሺݐሻ൯, função de sobrevivência ൫ܵሺݐሻ = 1 − ܨሺݐሻ൯ e ሺ௧ሻ função taxa de falha ߣሺݐሻ = ௌሺ௧ሻ. Dentre os métodos não paramétricos para estimar a função de sobrevivência, destacam-se o estimador de Kaplan-Meier, Estimador Atuarial (Tabela de Vida) e o Estimador de Nelson-Aalen. A escolha errônea da distribuição de probabilidade para a variável aleatória T pode induzir a conclusões não corretas quanto a realização de 1 LCE – ESALQ/USP. e-mail: [email protected] inferências sobre a população amostrada. Para evitar este problema foram propostos os métodos não paramétricos. Quando distribuições de probabilidade conhecidas são utilizadas na análise de sobrevivência, ou seja, quando recorre-se aos modelos paramétricos, é utilizado o método de máxima verossimilhança para a estimação dos parâmetros. Neste caso podem ainda ser construídos intervalos de confiança e testes de hipóteses. Dentre as distribuições mais usadas para modelar tempo de vida destacam-se as distribuições: exponencial, exponencial exponenciada, Weibull, Weibull exponenciada, log-normal, log-logística, gama e gama generalizada. Muitos trabalhos mostram a aplicação de diversas outras distribuições não tão conhecidas ou transformações de distribuições já conhecidas. Este trabalho pretende propor e estudar a distribuição BURR XII Geométrica. Em muitos estudos de acompanhamento, pacientes que respondem bem ao tratamento podem tornar-se imunes aos sinais e sintomas da doença e assim serem considerados curados. Sendo assim é importante estudar a proporção de pacientes curados e analisar os efeitos das covariáveis, não só sobre o tempo de sobrevivência, como também sobre a fração de cura. (PAES, A. T.). Sendo este o próximo objetivo da pesquisa que sem encontra em desenvolvimento. A distribuição BURR XII tem função densidade: t c f (t ; s, k , c) = ck 1 + s ( − k −1) t c −1 sc (1) onde, > ݐ0, ݇ > 0 são parâmetros de forma e > ݏ0, ܿ > 0 são parâmetros de escala. A transformação geométrica é dada por: f (t )(1 − p ) f * (t ) = 2 {1 − p[1 − F (t )]} (2) em que 0 < < 1 é o novo parâmetro. 2 Material e métodos Para o desenvolvimento deste trabalho, foi realizada uma ampla pesquisa bibliográfica em livros e artigos relacionados à área. Para a elaboração dos programas computacionais foi utilizado o software SAS (Statistical Analysis System) disponível na USP/ESALQ e o software R sendo este um programa de livre acesso. 3 Resultados e discussões Através da transformação geométrica apresentada em (2) foi obtida a função de distribuição (3). ( − k −1) t c t c −1 (1 − p )ck 1 + sc s f * (t ) = 2 c −k t 1 − p1 + s Como (4) é uma f.d.p. é possível mostrar que (3) ∫ ∞ 0 f * (t )dt = 1 . Já a função de sobrevivência é dada por (4). 1− p 1 − S * (t ) = 1 c −k p t 1 − p1 + s Uma vez que a função taxa de falha é dada por (4) f * (t ) , então a função S * (t ) taxa de falha da distribuição BURR XII Geométrica é dada por (5). −1 t c t c −1 ck 1 + s sc * (5) h (t ) = c −k t 1 − p1 + c h* (t ) = Em muitas aplicações, tempos de vida são afetados por covariáveis. Então é importante explorar a relação entre os tempos de vida e um vetor de variáveis explicativas. Para isto são utilizados os modelos de regressão. Este trabalho considera a classe dos modelos de locação-escala. Considere a transformação Y = log(T ) , então a f.d.p. de Y é dada por (6). − k −1 k y − µ y−µ (1 − p ) 1 + exp exp σ σ σ f ( y) = −k 2 y − µ 1 − p1 + exp σ (6) ߤ ∈ ℝ, parâmetro de locação e ߪ > 0, parâmetro de escala. Sejam Xଵ , … , X୮ covariáveis e considerando ߤ = ்࢞ ࢼ, então o modelo log-linear é dado por (7) ݕ = ்࢞ ࢼ + ߪܼ (7) em que a distribuição associada ao erro é dada por (8). − k −1 f (z) = (1 − p )k (1 + exp{z}) exp{z} {1 − p(1 + exp{z}) } −k 2 (8) Para gerar dados de uma distribuição BURR XII Geométrica, foi considerado F * (t ) = u onde u ~ U (0,1) . Foi obtido assim o valor de t em função dos parâmetros e de u. 1 1 − c u − 1 k t = s − 1 up − 1 (9) Foi utilizado o software R para gerar os dados da distribuição BURR XII Geométrica com parâmetros p=0.8, c=1.93, k=1.0208 e s=182.01 e calcular o estimador de Kaplan-Meier. Em seguida foi utilizado o software SAS para estimar os parâmetros. Figura 1: Estimador de Kaplan-Meier e curva ajustada para os dados gerados Como pode ser visto através da figura 1, as estimativas para os parâmetros, calculadas no software SAS, foram eficientes para modelar os dados gerados. 4 Conclusões Primeiramente foi obtida a função densidade de probabilidade, a função de sobrevivência e a função taxa de falha para a transformação geométrica da distribuição BURR XII. Para considerar covariaveis no estudo foi obtido o modelo locação-escala. Por último foi gerado dados de uma distribuição BURR XII Geométrica com os parâmetros indicados e em seguida estes mesmos parâmetros foram estimados através de uma rotina no software SAS. O presente trabalho encontra-se em andamento, sendo que como próximas atividades a serem desenvolvidas estão: o estudo das características da função taxa de falha, momentos, relações com outras distribuições e a aplicação desta distribuição para modelar um conjunto de dados reais. 5 Referências [1] BASTOS J., ROCHA, C. Serviço de Higiene e Epidemiologia da Faculdade de Medicina da Universidade do Porto; Faculdade de Ciências da Universidade de Lisboa, DEIO e CEAUL. Disponível em: http://www.scielo.oces. mctes.pt/pdf/am/v20n5-6/v20n5-6a07.pdf . Acesso em: 10 de janeiro de 2011. [2] COLOSIMO, E. A.; GIOLO, S. R. Análise de sobrevivência aplicada. 1. ed. SãoPaulo: Edgar Blucher, 2006. [3] PAES, A.T. Uso de modelos com fração de cura na análise de dados de sobrevivência com omissão nas covariáveis. 2007. 129 p. Dissertação (Doutorado em Ciências), Instituto de Matemática e Estatística da Universidade de São Paulo, Universidade de São Paulo , São Paulo.