A distribuição BURR XII Geométrica
Beatriz Rezende Lanjoni1
Edwin Moises Marcos Ortega1
1 Introdução
Na análise de sobrevivência a variável resposta, geralmente, é o tempo até a
ocorrência de um evento de interesse, portanto assume valores reais positivos e com
distribuição absolutamente contínua. Uma característica especial de dados de
sobrevivência é a presença de censuras, que pode ser interpretada como uma observação
parcial da resposta.
A censura surge em determinadas situações, não é possível esperar que todas as
unidades experimentais em teste falhem e é necessário que o experimento se encerre
num determinado tempo fixo (censura do tipo I) ou, o experimento se encerra depois
que certo número de falhas tenha ocorrido (censura do tipo II), ou ainda que ocorra a
perda de informações de determinadas unidades experimentais pelos mais variados
motivos (censura aleatória).
Sem a presença de censura as técnicas estatísticas tais como análise de regressão,
experimentos, modelos lineares generalizados, entre outros, podem ser utilizadas na
análise de dados. (COLOSIMO, E. A.; GIOLO, S. R.)
De outra maneira, a análise de sobrevivência permite estudar tempos de vida
ultrapassando as dificuldades inerentes a este tipo de dados, a censura e a não
possibilidade de assumir a normalidade da distribuição subjacente, pois geralmente este
tipo de dados apresenta uma distribuição assimétrica positiva. Assim sendo, não podem
ser utilizados os métodos estatísticos usuais. (BASTOS J.; ROCHA, C.)
Seja T uma variável aleatória a distribuição de probabilidade de T pode ser
especificada de várias formas, três das quais são particularmente úteis em análise de
sobrevivência: função densidade ൫݂ሺ‫ݐ‬ሻ൯, função de sobrevivência ൫ܵሺ‫ݐ‬ሻ = 1 − ‫ ܨ‬ሺ‫ݐ‬ሻ൯ e
௙ሺ௧ሻ
função taxa de falha ߣሺ‫ݐ‬ሻ = ௌሺ௧ሻ.
Dentre os métodos não paramétricos para estimar a função de sobrevivência,
destacam-se o estimador de Kaplan-Meier, Estimador Atuarial (Tabela de Vida) e o
Estimador de Nelson-Aalen. A escolha errônea da distribuição de probabilidade para a
variável aleatória T pode induzir a conclusões não corretas quanto a realização de
1
LCE – ESALQ/USP. e-mail: [email protected]
inferências sobre a população amostrada. Para evitar este problema foram propostos os
métodos não paramétricos.
Quando distribuições de probabilidade conhecidas são utilizadas na análise de
sobrevivência, ou seja, quando recorre-se aos modelos paramétricos, é utilizado o
método de máxima verossimilhança para a estimação dos parâmetros. Neste caso podem
ainda ser construídos intervalos de confiança e testes de hipóteses.
Dentre as distribuições mais usadas para modelar tempo de vida destacam-se as
distribuições: exponencial, exponencial exponenciada, Weibull, Weibull exponenciada,
log-normal, log-logística, gama e gama generalizada. Muitos trabalhos mostram a
aplicação de diversas outras distribuições não tão conhecidas ou transformações de
distribuições já conhecidas. Este trabalho pretende propor e estudar a distribuição
BURR XII Geométrica.
Em muitos estudos de acompanhamento, pacientes que respondem bem ao
tratamento podem tornar-se imunes aos sinais e sintomas da doença e assim serem
considerados curados. Sendo assim é importante estudar a proporção de pacientes
curados e analisar os efeitos das covariáveis, não só sobre o tempo de sobrevivência,
como também sobre a fração de cura. (PAES, A. T.). Sendo este o próximo objetivo da
pesquisa que sem encontra em desenvolvimento.
A distribuição BURR XII tem função densidade:
  t c 
f (t ; s, k , c) = ck 1 +   
 s 


( − k −1)
t c −1
sc
(1)
onde, ‫ > ݐ‬0, ݇ > 0 são parâmetros de forma e ‫ > ݏ‬0, ܿ > 0 são parâmetros de
escala.
A transformação geométrica é dada por:

f (t )(1 − p ) 

f * (t ) = 
2 
 {1 − p[1 − F (t )]} 
(2)
em que 0 < ‫ < ݌‬1 é o novo parâmetro.
2 Material e métodos
Para o desenvolvimento deste trabalho, foi realizada uma ampla pesquisa
bibliográfica em livros e artigos relacionados à área. Para a elaboração dos programas
computacionais foi utilizado o software SAS (Statistical Analysis System) disponível na
USP/ESALQ e o software R sendo este um programa de livre acesso.
3
Resultados e discussões
Através da transformação geométrica apresentada em (2) foi obtida a função de
distribuição (3).
( − k −1)
  t c 
t c −1
(1 − p )ck 1 +   
sc
 s 
f * (t ) =
2
c −k 



t


 
1 − p1 +    
s

    
Como (4) é uma f.d.p. é possível mostrar que
(3)
∫
∞
0
f * (t )dt = 1 .
Já a função de sobrevivência é dada por (4).






1− p 
1

−
S * (t ) =
1
c −k
p 


t 
 1 − p1 +   

 s 






Uma vez que a função taxa de falha é dada por
(4)
f * (t ) , então a função
S * (t )
taxa de falha da distribuição BURR XII Geométrica é dada por (5).
−1
  t  c  t c −1
ck 1 +   
  s   sc
*

(5)
h (t ) = 
c −k 

 t   

1 − p1 +    

  c   
h* (t ) =
Em muitas aplicações, tempos de vida são afetados por covariáveis. Então é
importante explorar a relação entre os tempos de vida e um vetor de variáveis
explicativas. Para isto são utilizados os modelos de regressão. Este trabalho considera a
classe dos modelos de locação-escala.
Considere a transformação Y = log(T ) , então a f.d.p. de Y é dada por (6).
− k −1
k
 y − µ 
y−µ
(1 − p ) 1 + exp
  exp

σ
 σ 
 σ 
f ( y) =
−k 2


 y − µ   
1 − p1 + exp
 
 σ   


(6)
ߤ ∈ ℝ, parâmetro de locação e ߪ > 0, parâmetro de escala.
Sejam Xଵ , … , X୮ covariáveis e considerando ߤ = ்࢞ ࢼ, então o modelo log-linear
é dado por (7)
‫ݕ‬௜ = ்࢞ ࢼ + ߪܼ
(7)
em que a distribuição associada ao erro é dada por (8).
− k −1
f (z) =
(1 − p )k (1 + exp{z})
exp{z}
{1 − p(1 + exp{z}) }
−k 2
(8)
Para gerar dados de uma distribuição BURR XII Geométrica, foi considerado F * (t ) = u
onde u ~ U (0,1) . Foi obtido assim o valor de t em função dos parâmetros e de u.
1
1
−

c
 u − 1  k 
t = s 
 − 1
 up − 1



(9)
Foi utilizado o software R para gerar os dados da distribuição BURR XII
Geométrica com parâmetros p=0.8, c=1.93, k=1.0208 e s=182.01 e calcular o estimador
de Kaplan-Meier. Em seguida foi utilizado o software SAS para estimar os parâmetros.
Figura 1: Estimador de Kaplan-Meier e curva ajustada para os dados gerados
Como pode ser visto através da figura 1, as estimativas para os parâmetros,
calculadas no software SAS, foram eficientes para modelar os dados gerados.
4
Conclusões
Primeiramente foi obtida a função densidade de probabilidade, a função de
sobrevivência e a função taxa de falha para a transformação geométrica da distribuição
BURR XII. Para considerar covariaveis no estudo foi obtido o modelo locação-escala.
Por último foi gerado dados de uma distribuição BURR XII Geométrica com os
parâmetros indicados e em seguida estes mesmos parâmetros foram estimados através
de uma rotina no software SAS. O presente trabalho encontra-se em andamento, sendo
que como próximas atividades a serem desenvolvidas estão: o estudo das características
da função taxa de falha, momentos, relações com outras distribuições e a aplicação
desta distribuição para modelar um conjunto de dados reais.
5
Referências
[1] BASTOS J., ROCHA, C. Serviço de Higiene e Epidemiologia da Faculdade de
Medicina da Universidade do Porto; Faculdade de Ciências da Universidade de
Lisboa,
DEIO
e
CEAUL.
Disponível
em:
http://www.scielo.oces.
mctes.pt/pdf/am/v20n5-6/v20n5-6a07.pdf . Acesso em: 10 de janeiro de 2011.
[2] COLOSIMO, E. A.; GIOLO, S. R. Análise de sobrevivência aplicada. 1. ed.
SãoPaulo: Edgar Blucher, 2006.
[3] PAES, A.T. Uso de modelos com fração de cura na análise de dados de
sobrevivência com omissão nas covariáveis. 2007. 129 p. Dissertação (Doutorado em
Ciências), Instituto de Matemática e Estatística da Universidade de São Paulo,
Universidade de São Paulo , São Paulo.
Download

A distribuição BURR XII Geométrica