Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Estatística
Programa de Educação Tutorial – PET
Rumenick Pereira da Silva
Modelo Gama Generalizado com Longa Duração:
Teoria e Prática
Natal-RN, junho de 2013
Rumenick Pereira da Silva
Modelo Gama Generalizado com Longa Duração:
Teoria e Prática
Monografia apresentada ao Departamento de
Estatística da Universidade Federal do Rio
Grande do Norte, em cumprimento com as
exigências legais para obtenção do título de
formação em Estatística.
Orientador:
Prof. Me. Antonio Hermes Marques da Silva Jr.
Natal-RN, junho de 2013
Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial
Centro de Ciências Exatas e da Terra – CCET.
Silva, Rumenick Pereira da.
Modelo gama generalizado com longa duração: teoria e prática / Rumenick
Pereira da Silva. - Natal, 2013.
51 f. : il.
Orientador: Prof. Me. Antonio Hermes Marques da Silva Júnior.
Monografia (Graduação) – Universidade Federal do Rio Grande do Norte. Centro
de Ciências Exatas e da Terra. Departamento de Estatística.
1. Análise de sobrevivência – Monografia. 2. Modelos com longa duração –
Monografia. 3. Modelos gama generalizado com longa duração – Monografia. 4.
Dados da área financeira e saúde – Monografia. I. Silva Júnior, Antonio Hermes
Marques da . II. Título.
RN/UF/BSE-CCET
CDU: 519.24:61
"A tarefa não é tanto ver aquilo que ninguém viu, mas pensar o que ninguém ainda pensou
sobre aquilo que todo mundo vê"
Arthur Schopenhauer
Agradecimentos
Agradeço primeiramente à Deus, por ter me dado força para que fosse possível concluir
mais essa etapa da vida.
Quero agradecer à minha amada mãe Maria Ramos da Silva por ter sempre apoiado os
meus passos, seja na vida acadêmica ou pessoal e saiba que te amo muito mãe, você sempre
está em meu coração.
Agradeço ao meu pai Renivaldo Pereira da Silva pela sua inesgotável paciência e
tolerância quando fui negligente ou irresponsável e sei que o senhor se orgulha e continuará
sempre se orgulhando do seu filho. Serei sempre guardião da sua moral e ética, orgulho-me
muito de ter um pai com a sua postura.
Agradeço aos meus irmãos Renivaldo Pereira da Silva Júnior, Renilma Pereira da Silva
e Reniery Pereira da Silva por ter compartilhado comigo os vários momentos de aflição e pela
confiança, incentivo e acolhimento de todas as naturezas nas ocasiões necessárias e tenham
certeza que vocês contribuíram de forma significativa para conclusão deste trabalho.
A minha namorada e quase esposa Wilmara Martins da Costa, quero agradecer pela sua
infinita paciência, compreensão e saiba que nos momentos em que estive ausente você sempre
esteve presente dentro do meu coração e pensamento. Te dedico todo meu amor e que seja
para sempre.
Ao meu orientador Antonio Hermes Marques da Silva Júnior, agradeço pela sua
colaboração inestimável para que este trabalho fosse concluído. Sem sua ajuda com certeza
tudo teria sido mais difícil, pois muitas das ideias aqui expostas são suas. Muito obrigado e
boa sorte no doutorado, pois o senhor tem muito a conquistar!
Ao meu Tutor Paulo Cesar Formiga Ramos, quero agradecer pelo seu compromisso e
inestimável carinho com o seus tutorados e não se preocupe, pois seus líderes serão bem
falados por todo o mundo e apesar de o senhor esta deixando o Programa de Educação
Tutorial (PET) o seu nome estará sempre vivo e eternizado em nossas vidas “Petianas”.
À Professora Dione Maria Valença, agradeço pela sua ajuda e co-orientação neste
trabalho e por ter aceitado ser minha orientadora do mestrado, pois ainda vamos publicar
muito artigos juntos, isso é apenas o começo.
Agradeço ao Professor Francisco Louzada Neto por ter disponibilizado um dos bancos
de dados para que fosse possível fazer a aplicação dos modelos aqui estudados. Além disso,
agradeço também por ter aceitado ser meu co-orientador no mestrado, saiba que é uma
satisfação muito grande.
Aos meus queridos coleguinhas do PET como diria o André Possati, em especial ao
meu amigo para todas as horas Jhonnata Carvalho, o sentimento é de muita saudade. Mas sei
que vocês Inara Françoyse, Joyce Rocha, Francimário, Isaac Jales, Fernando Maia, Paulo
César, Kalil, Josenilson, Fafá, Elias,..., estarão sempre por perto dando aquele velho auxílio
“luxuoso”.
Agradecer aos professores do Departamento de Estatística, Matemática e os dos
demais setores, em especial os professores (as): Jeanete, por ter acreditado desde o início em
minha persistência, André Pinho, por estar sempre disponível quando tinha dúvidas, Carla
Vivacqua, por mostrar aos discentes que a Estatística é mais bela do que os nossos olhos
podem ver e pelas aulas fascinantes de Planejamento de Experimento e Estatística
Multivariada, Paulo Roberto Medeiros de Azevedo, sem palavras, esse é, sem dúvida, o
melhor professor do mundo, Pledson, por zelar bem do curso de Estatística da Federal do Rio
Grande do Norte, Medeiros por ter consolidado bem a Estatística Descritiva e Documentária
na minha cabeça, a Monica Carvalho, por ter ensinado de forma excelente como fazer e
entender a Ciência e suas metodologias, a Viviane Simioli, pelas melhores aulas de Cálculo II
e Moiseszinho, por ter contribuído para meu ingresso no mestrado.
Agradeço aos amigos do Programa de Pós-graduação em Matemática Aplicada e
Estatística, em especial aos discentes: Wenia, Fábio Azevedo e Renato Tigre. Estamos apenas
no início de uma nova etapa, graça à Deus.
Agradeço também aos meus amigos do Curso de Estatística, em especial a Jailton
Paulo, Talita, Cintya Régia, Glauco e Marcos, por ter ajudado tantas vezes, as idas ao
Restaurante Universitário, serão inesquecíveis.
Agradeço aos meus amigos da Residência Universitária Mipibu, em especial Valdênio
Moises, Wydemberg Araújo, Anderson Costa e Jorge Pereira, em que os dois últimos, nos
dias finais antes da defesa ajudaram a recuperar o arquivo da monografia que havia sido
excluído devido a um vírus de computador, valeu Jorge!
Por fim, agradeço ao MEC por ter me proporcionado a Bolsa PET durante este período
que estive no Curso de Estatística.
A todos que colaboraram de forma direta ou indireta!
Saudades!!!
Resumo
Em análise de sobrevivência a variável em estudo é o tempo até a ocorrência de um
determinado evento de interesse. Porém, a teoria usual assume que se observado por um longo
período de tempo, todos os indivíduos irão apresentar tal evento. Mas, em algumas situações
tal apontamento não será fácil de ser considerado, pois uma proporção da população pode não
estar mais sujeita à ocorrência deste evento e, por mais longo que seja o tempo de observação,
o evento nunca ocorrerá para esta parte da população. Neste sentido, alguns modelos foram
propostos para tratar tais situações e estes são conhecidos pelo nome de modelos com longa
duração ou com fração de cura. O objetivo do presente trabalho foi estudar os modelos com
longa duração, a partir da abordagem unificada dada em Rodrigues et al. (2008) considerando
a distribuição gama generalizada para modelar os tempos de vida. Além disso, foi
desenvolvida uma rotina em linguagem R (R Development Core Team, 2013) que é mais
didática e de fácil utilização em relação às já existentes na literatura. Em seguida, as técnicas
e rotinas citadas foram aplicadas a dois conjuntos de dados. Nestes, têm-se, respectivamente,
o interesse de estimar a proporção de clientes fidelizados e a proporção de pacientes curados,
bem como a função de risco para uma das situações.
Palavras-chave: Análise de Sobrevivência; Modelos com longa duração; Modelos gama
generalizado com longa duração; Dados da área financeira e saúde.
Lista de Figuras
Figura 01: Ilustração de alguns mecanismos de censura, em que (◦) representa o tempo de
falha e (•) a censura. (A) todos os pacientes experimentaram o evento até o final do estudo;
(B) alguns pacientes não experimentaram o evento de interesse até o final do estudo; (C) o
estudo finalizou após uma quantidade pré-estabelecida de falhas e (D) o acompanhamento do
paciente foi interrompido por alguma causa e alguns pacientes não experimentaram o evento
até o final do estudo.
Figura 02: Gráficos da função densidade de probabilidade, função de sobrevivência e função
risco da distribuição gama generalizada (
) para caso exponencial.
Figura 03: Gráficos da função densidade de probabilidade, função de sobrevivência e função
risco da distribuição gama generalizada (
) para caso Weibull.
Figura 04: Gráficos da função densidade de probabilidade, função de sobrevivência e função
risco da distribuição gama generalizada (
) para caso Gama.
Figura 05: Gráficos da função densidade de probabilidade, função de sobrevivência e função
risco da distribuição gama generalizada (
) para outras formas.
Figura 06: Gráfico da estimativa da sobrevivência pelo método de Kaplan-Meier para dados
referentes ao tempo até a recidiva do câncer de mama em 355 pacientes diagnosticadas e
previamente tratadas no Hospital Prof. Dr. Luiz Antônio, Unidade I da Liga Contra o Câncer,
Natal-RN, 1991- 1995.
Figura 07: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama
generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo
de tempo de promoção log-gama generalizado estendido para os dados da instituição
financeira.
Figura 08: Função de risco ajustada através do modelo log-gama generalizado estendido para
os dados da instituição financeira.
Figura 09: Histograma e boxplot para os tempos até o óbito ou censura de 417 pacientes
diagnosticados com câncer de pele (IBRAHIM et al., 2001).
Figura 10: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama
generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo
de tempo de promoção log-gama generalizado estendido para os dados de câncer de pele:
Lista de Tabelas
Tabela 01: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros,
média e variância.
Tabela 02: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros,
função de sobrevivência e risco.
Tabela 03: Resumo descritivo para os tempos até a interrupção do relacionamento com a
instituição financeira segundo a variável “status”.
Tabela 04: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão
log-gama generalizado estendido e tempo promoção log-gama generalizado estendido para os
dados da instituição financeira.
Tabela 05: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão
gama generalizado estendido e tempo promoção log-gama generalizado estendido para os
dados de câncer de pele.
Sumário
1
Introdução .......................................................................................................................... 1
1.1
2
Objetivos ...................................................................................................................... 2
Análise de sobrevivência ................................................................................................... 3
2.1
Conceitos básicos em Análise de Sobrevivência ......................................................... 3
2.1.1
Função de Sobrevivência ...................................................................................... 3
2.1.2
Função taxa de falha ou risco ............................................................................... 4
2.1.3
Relações entre as funções ..................................................................................... 4
2.1.4
Censura ................................................................................................................. 4
2.2
O estimador de Kaplan-Meier...................................................................................... 5
2.3
Modelos Probabilísticos ............................................................................................... 6
2.3.1
3
2.4
Reparametrização ....................................................................................................... 13
2.5
Estimação dos Parâmetros do Modelo ....................................................................... 17
2.5.1
Distribuição Gama Generalizada ........................................................................ 20
2.5.2
Critério de informação Akaike ........................................................................... 22
Modelos com longa duração ........................................................................................... 23
3.1
4
Distribuição Gama Generalizada .......................................................................... 7
Modelo log-gama generalizada estendido com longa duração .................................. 24
3.1.1
Modelo de mistura padrão log-gama generalizado estendido ............................ 25
3.1.2
Modelo de Tempo de promoção log-gama generalizado estendido ................... 26
Aplicação .......................................................................................................................... 27
4.1
Análise dos dados da instituição financeira ............................................................... 27
5
Considerações finais ........................................................................................................ 33
6
Referências ....................................................................................................................... 34
7
Apêndice ........................................................................................................................... 38
1
Introdução
Em análise de sobrevivência a variável em estudo comumente é o tempo até a
ocorrência de um determinado evento de interesse. Este tempo é denominado tempo de vida
ou de falha e pode ser, por exemplo, o tempo até que um paciente venha a óbito devido à
alguma doença, ou ainda o tempo até que um cliente abandone a instituição financeira. A
teoria usual assume que, se observado por um longo período de tempo, todos os indivíduos ou
itens (para caso de aplicações em áreas industriais) irão falhar em algum momento. Mas, em
algumas situações tal restrição pode ser violada, pois uma proporção da população pode não
estar mais sujeita à ocorrência deste evento e, por mais longo que seja o tempo de observação,
o evento nunca ocorrerá para esta parte da população. Neste sentido, alguns modelos foram
propostos para tratar tais situações e estes são conhecidos com o nome de modelos com longa
duração ou com fração de cura.
Neste contexto, os modelos de análise de sobrevivência com longa duração possui
vantagem em relação aos modelos de sobrevivência usuais, pelo fato de incorporar a
heterogeneidade de duas subpopulações (susceptíveis e imunes ou curados do evento de
interesse). Estes modelos podem ser utilizados quando existem indícios de que uma
porcentagem da população nunca apresentará o evento em questão.
Uma abordagem foi dada inicialmente por Boag (1949) e Berkson & Gage (1952), que
consideram uma mistura de distribuições. Neste modelo, conhecido como modelo de mistura
padrão é assumido que uma fração
da população está curada e a restante
não está
curada. A partir destes artigos, muitos outros foram escritos considerando a aplicação do
modelo proposto em diversas áreas como: da saúde, industrial e financeira, ver, por exemplo,
Frankel & Longmate (2002); Lam et al. (2005) e Granzotto et al. (2012).
Alternativamente, Yakovlev & Tsodikov (1996) propõem uma nova classe de modelos
que envolvem uma estrutura de riscos competitivos a qual foi estendida por Chen et al.
(1999), e que neste trabalho será referido como modelo de tempo de promoção. Uma
abordagem unificada que inclui o modelo de mistura padrão e o modelo de tempo de
promoção como casos particulares, é proposta por Rodrigues et al. (2008). Neste contexto, a
distribuição assumida para a variável latente que representa o número de causas que
competem para a ocorrência do evento em estudo, determina uma classe de modelos. As
1
distribuições de Bernoulli e de Poisson representam, respectivamente, os modelos de mistura
e de tempo de promoção.
Neste trabalho serão estudados os modelos proposto por Boag (1949) e Berkson & Gage
(1952) e Yakovlev & Tsodikov (1996), tomando como base a proposta de unificação destes
apresentados em Rodrigues et al. (2008) e as pesquisas desenvolvidas por Lima (2008),
Fonseca (2009), Guedes (2011) e Carneiro (2012).
Os capítulos deste trabalho estão dispostos da seguinte forma: no Capítulo 2 são
introduzidos alguns conceitos básicos sobre Análise de Sobrevivência, o critério de
informação Akaike (AIC) para escolha de modelos, bem como a especificação da distribuição
gama generalizada proposta por Stacy (1962), passando pelas parametrizações para obtenção
da distribuição log-gama generalizada estendida, até a estimação dos parâmetros. No Capítulo
3 é discutido o modelo de sobrevivência com longa duração e também a obtenção da função
de verossimilhança para o modelo log-gama generalizado estendido com longa duração com
ênfase na abordagem unificada. No Capítulo 4 é feito uma aplicação a dois conjunto de dados
reais, sendo um deles fornecido por uma instituição financeira brasileira e o outro são dados
referentes a pacientes com câncer de pele, coletados por Ibrahim et al. (2001). No Capítulo
05 são enfatizados os principais resultados desenvolvidos ao decorrer deste trabalho, bem
como algumas sugestões para trabalhos futuros. Todos os resultados foram obtidos utilizando
o software estatístico R e as rotinas estão disponíveis no Apêndice.
1.1
Objetivos
O objetivo do presente trabalho é estudar os modelos com longa duração, a partir da
abordagem unificada dada em Rodrigues et al. (2008) considerando a distribuição gama
generalizada para modelar os tempos de vida. Além disso, desenvolver uma rotina em
linguagem R que seja amigável ao usuário. Em seguida, as técnicas e rotinas citadas serão
aplicadas a dois conjuntos de dados reais.
2
2
Análise de sobrevivência
Neste capítulo são apresentados técnicas de Análise de Sobrevivência, a distribuição
gama generalizada, a distribuição log-gama generalizada estendida, bem como a estimação,
considerando estes modelos e os aspectos da função verossimilhança quando considerada a
presença de censura na amostra.
2.1
Conceitos básicos em Análise de Sobrevivência
A Análise de Sobrevivência é um conjunto de métodos estatísticos que servem para
analisar dados correspondentes ao tempo até a ocorrência de um determinado evento, como
por exemplo, o tempo até a morte ou o tempo até a cura de um paciente, ou ainda, o tempo até
que um cliente abandone a instituição de financeira.
A variável aleatória
corresponde ao tempo até a ocorrência de um determinado evento
de interesse de alguma população. Para , deve-se definir o tempo de início (data de início do
estudo), a escala de medida (que é em geral o tempo do estudo) e um evento de interesse que,
por exemplo, pode ser a morte do paciente.
2.1.1 Função de Sobrevivência
Seja
uma variável aleatória contínua, não negativa com função densidade de
probabilidade
e função de distribuição acumulada
sobrevivência de
como:
. Define-se então, a função de
∫
Note que
e
é uma função monótona decrescente com as seguintes propriedades,
. Funções de sobrevivência que não satisfazem estas
propriedades são denominadas funções de sobrevivência impróprias ou com longa duração,
ou, ainda, com fração de cura segundo Rodrigues et al. (2008) e são objeto de estudo deste
trabalho.
3
2.1.2 Função taxa de falha ou risco
A função taxa de falha ou função risco, denotada por
é definida como,
Pode-se mostrar que,
e∫
A função risco especifica a taxa de falha instantânea a um tempo , dado que o
indivíduo sobreviveu até o tempo .
2.1.3 Relações entre as funções
Para a variável aleatória
contínua e não negativa, têm-se, em termos da definição de
função de sobrevivência e de risco, exibidas anteriormente, algumas relações matemáticas
entre as funções
,
e
. Assim, conhecendo uma delas, podem-se obter as outras
através das seguintes relações:
[
]
2.1.4 Censura
Uma característica marcante em dados de sobrevivência é a presença de censura, que é a
observação parcial da resposta (tempo até a falha) e ocorre quando algum acontecimento
impede que o tempo até a ocorrência do evento de interesse seja observado. Por exemplo,
alguns pacientes podem desistir do tratamento ou morrer por uma causa diferente da estudada,
ou o estudo pode acabar antes que o evento ocorra para todos os pacientes. Nestes casos, o
que se sabe é que o tempo de vida é maior que o tempo observado.
Neste trabalho será considerada a censura à direita, em que este mecanismo caracterizase pelo fato do tempo de ocorrência do evento de interesse está à direita do tempo registrado,
4
ou seja, a falha ocorre após o início do estudo. Na Figura 01 estão apresentadas ilustrações
referentes a três tipos de censura comumente encontrados nos dados, além de uma ilustração
para caso de dados completos.
Figura 01: Ilustração de alguns mecanismos de censura, em que (◦) representa o tempo de falha e (•) a
censura. (A) todos os pacientes experimentaram o evento até o final do estudo; (B) alguns pacientes
não experimentaram o evento de interesse até o final do estudo; (C) o estudo finalizou após uma
quantidade pré-estabelecida de falhas e (D) o acompanhamento do paciente foi interrompido por
alguma causa e alguns pacientes não experimentaram o evento até o final do estudo:
2.2
O estimador de Kaplan-Meier
Quando se analisa dados censurados é necessário munir-se de uma metodologia
conveniente para tratar deste problema. Entre alguns possíveis estimadores de
, o mais
utilizado, é o estimador Produto-Limite, mais conhecido como estimador de Kaplan-Meier,
5
pois estes autores foram os pioneiros ao discutir suas propriedades (KAPLAN & MEIER,
1958).
Então sejam
tamanho
os tempos distintos de falha observados em uma amostra de
com função de sobrevivência
indivíduos) falham no instante
[
(
nos tempos
por
) e
,
o número de ítens em risco em
)
itens (ou pacientes, ou
ítens são censurados no intervalo
, sendo
. Denote-se também
, ou seja, número de ítens que não falharam nem
censuraram no instante exatamente anterior a
(
. Suponha que
, que pode ser representado por
. O estimador de Kaplan-Meier de
, é definido para
como
̂
∏(
)
∏(
)
{
O estimador de Kaplan-Meier é uma função escada monótona não crescente, igual a 1
quando
e com decrescimento determinado pelo fator
atinge zero no valor
. Esta função
se, e somente se, este último valor representar uma falha. As
principais propriedades de ̂
dizem que este é um estimador consistente de
e
assintóticamente normal, sob condições muito gerais. Algumas destas propriedades são
apresentadas e referidas em Lawless (2003).
2.3
Modelos Probabilísticos
Nas últimas décadas o uso de modelos probabilísticos na análise estatística de dados de
sobrevivência têm-se mostrado bastante presente na literatura. Apesar de existirem técnicas
não paramétricas que tratam deste tipo de dados, em diversas situações deseja-se ajustar
modelos paramétricos. Dentre estes, alguns ocupam uma posição de destaque por sua
comprovada adequação a várias situações práticas, e os que são usados com mais frequência
são os modelos: exponencial, de Weibull, gama e log-normal. Neste trabalho será abordada a
distribuição gama generalizada (distribuição GG) proposta por Stacy (1962), que possui como
6
casos particulares os modelos citados anteriormente. Também será considerado o modelo loggama generalizada estendido, proposto por Farewell & Prentice (1977) e por Lawless (1980),
para estimação dos parâmetros da distribuição GG, uma vez que existem dificuldades na
estimação dos parâmetros do modelo proposto por Stacy (1962).
Caracteriza-se, a seguir, a distribuição gama generalizada, bem como sua versão
reparametrizada e propriedades até a obtenção da distribuição log-gama generalizada
estendida.
2.3.1 Distribuição Gama Generalizada
A distribuição gama generalizada foi proposta por Stacy (1962) e se tornou muito
importante na análise de dados de sobrevivência, pelo fato de representar uma família
paramétrica e apresentar diversas formas de funções de risco. Como exemplos de casos
particulares da distribuição GG, temos as distribuições, exponencial, Weibull, gama, quiquadrado, Rayleigh e log-normal. Além destes, outros submodelos podem ser vistos em
Lawless (2003) e Khodabin & Ahmadabadi (2010), que discorrem sobre algumas
propriedades da distribuição em estudo. Portanto, por este modelo ter como casos especiais as
distribuições supracitadas, ele é útil na discriminação entre modelos probabilísticos
alternativos para análise dos dados (COLOSIMO & GIOLO, 2006).
Desde então, a família GG tem sido largamente estudada e aplicada em diversas áreas
do conhecimento e pode-se destacar alguns estudos como, por exemplo, Rizzato (2006) que
trabalhou com o modelo gama-generalizado com fração de cura aplicado a dados clínicos;
Nadarajah (2008) que realizou uma pesquisa sobre o uso da distribuição GG em engenharia
elétrica e eletrônica; Guedes (2011) que apresentou um estudo sobre o modelo de tempo de
falha acelerado gama generalizado com fração de cura, sob uma abordagem unificada, além
de uma aplicação com dados de câncer de mama. Recentemente, Pascoa (2012), trabalhou
com as extensões da distribuição gama generalizada, propriedades e aplicações, tomando
como base os estudos desenvolvidos por Adamidis & Loukas (1998) e Cordeiro & Castro
(2011).
A função densidade de probabilidade proposta por Stacy (1962) é dada por:
( )
[ ( ) ]
7
em que
representa o parâmetro de escala,
e
são parâmetros de forma e
é a função
gama (ABRAMOWITZ & STEGUN,1972), definida por:
∫
Se
é uma variável aleatória positiva com função de densidade de probabilidade dada
pela expressão apresentada acima, então
parâmetros
tem distribuição gama generalizada com
e , e considerem aqui a seguinte notação,
.
Como citado anteriormente, vários autores estudaram as propriedades da distribuição
em questão, dentre os quais se sobressaem, pelo aprofundamento da temática, Stacy &
Mihram (1965), Prentice (1974), Valença (1994), Lawless (1980, 2003) e Khodabin &
Ahmadabadi (2010). Temos que o r-ésimo momento, a média, variância e função geradora de
momentos da distribuição GG, são dados, respectivamente, por:
[
]
(
(
)
(
)
)
[ (
)]
{
}
e
[
]
∑
(
)
Outras formas opcionais para escrever a função geradora de momentos podem ser
encontradas em Pascoa (2012). Na Tabela 01 são apresentadas algumas das distribuições que
são casos particulares da gama generalizada, seus respectivos parâmetros, média e variância.
8
Tabela 01: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, média
e variância:
Distribuição
Média
Variância
Exponencial
Rayleigh
2
Qui-quadrado
√
√
1
2
(
)
)
[ (
2
Weibull
(
)
(
)
{ (
)] }
Gama
Log-normal
[
Nota: representa o parâmetro de escala da distribuição de Rayleigh,
distribuição qui-quadrado, e são dados, respectivamente, por:
]
é o número de grau de liberdade da
e
(LAWLESS,
√
1980).
A função de distribuição acumulada, de sobrevivência e taxa de falha ou risco são
apresentadas a seguir:
( )
[ ( ) ]
∫
[ ( ) ]
e
( )
( )
∫
em que,
∫
é a função gama incompleta definida em Abramowitz & Stegun (1972), que pode ser
facilmente implementada em vários pacotes estatísticos como, por exemplo: R, SAS e Ox. No
caso do Software R a função está implementada com o nome de Rgamma no pacote zipfR
(EVERT & BARONI, 2007).
Já a função de densidade de probabilidade, a função de
sobrevivência e a função risco, estão implementadas no pacote VGAM (YEE, 2010) e
9
flexsurv (JACKSON, 2013). Na Tabela 02 estão as funções de sobrevivência e risco de
alguns casos particulares dessa família paramétrica que a distribuição GG representa.
Tabela 02: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, função
de sobrevivência e risco:
Distribuição
[ ( )]
Exponencial
Rayleigh
2
Qui-quadrado
1
√
[ (
1
√
) ]
( )
[
2
( )]
( )
∫
[ ( ) ]
Weibull
( )
( )
[ ( )]
Gama
( )
∫
Log-normal
[
]
{
√
(
) }
[
Nota: representa o parâmetro de escala da distribuição de Rayleigh,
distribuição qui-quadrado, e são dados, respectivamente, por:
1980).
]
é o número de grau de liberdade da
e
(LAWLESS,
√
é a função distribuição acumulada da normal padrão.
Como ilustração da flexibilidade da distribuição GG, seguem alguns gráficos da função
densidade de probabilidade, função de sobrevivência e função risco da distribuição em
questão.
10
Figura 02: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da
distribuição gama generalizada (
) para caso exponencial:
Figura 03: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da
distribuição gama generalizada (
) para caso Weibull:
11
Figura 04: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da
distribuição gama generalizada (
) para caso Gama:
Figura 05: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da
distribuição gama generalizada (
) para outras formas:
12
2.4
Reparametrização
Seja
uma variável aleatória com distribuição gama generalizada com densidade dada
pela expressão proposta por Stacy (1962). Prentice (1974) mostrou que a variável aleatória
pode ser reescrita em função de outra variável aleatória
variável
, em que
. Logo, a
fica da seguinte forma:
Sendo assim, tomando
, têm-se que:
(
e denote-se que
)
tem distribuição log-gama generalizada com parâmetros
tomando
, têm-se que
. Temos que
tem distribuição log-gama com parâmetros
e . Então,
e , pois
tem densidade, média e variância dada por:
[
[
[ ]
]
]
[ ]
em que,
e
assintóticas (
representam respectivamente as funções digama e trigama
) (ABRAMOWITZ & STEGUN, 1972).
Prentice (1974) também considerou um parâmetro de transformação
pois quando
a distribuição da variável aleatória
normal, define um ponto
distribuição normal é
,
tende para a distribuição log-
, em que a distribuição de
normal e mostra que o valor de
,
aproxima-se da distribuição
para o qual a distribuição de
mais se aproxima da
.
Considerando-se uma padronização da variável aleatória W, ao usar uma aproximação
de primeira ordem para variância, isto é, tomando
dado por
√
, que é igual a
quando
, têm-se que o desvio padrão será
. Portanto, segue a padronização:
13
Então, ao substituir a expressão de
na de
e tomando
e
têm-
se que:
Assim, pode-se rescrever a variável aleatória
(
como:
)
Portanto, a densidade de Y pode ser obtida como,
[ (
em que
| |
)
]
é o jacobiano da transformação, pois
(
Logo, substituído o ponto
{
)
[ (
na
e
são maiores que zero.
, têm-se:
)
]
[ (
Prentice (1974) estendeu esse modelo para valores de
)
]}
. A densidade para este caso é
dada por:
{
{
√
em que,
{
(
[ (
)
)
]
[ (
)
]}
}
, pois
.
Uma reparametrização alternativa foi proposta por Farewell & Prentice (1977) e por
Lawless (1980), sendo que a média e a variância são aproximadas, respectivamente, pelo
primeiro termo das expressões da [ ] e
[ ], da seguinte forma:
e
14
Assim,
tem função de densidade,
{
{
{
√
}
}
Por outro lado, substituindo a expressão de
a variável
na equação
, temos que
pode ser escrita como,
[
]
Então, tomando
e
têm-se que,
com função de densidade dada por,
{
{
{
√
Se
(
)
(
)
[ (
)]}
}
é uma variável aleatória com função de densidade de probabilidade dada pela
expressão acima, então denota-se que
com parâmetros
tem distribuição log-gama generalizada estendida
e . A média e a variância de
[ ]
[
{
[ ]
são dadas, respectivamente, por:
]
{
15
A função de distribuição acumulada e de sobrevivência para distribuição gama
generalizada estendida são, respectivamente,
∫
(
)
{
}
∫
(
)
{
}
{
∫
(
)
{
}
∫
(
)
{
}
{
em que
e
é a função de distribuição da normal padrão.
Considerando a mudança de variável
na expressão de
, têm-se
que:
∫
∫
{
A função de sobrevivência ainda pode ser escrita considerando a função integral gama
incompleta (ABRAMOWITZ & STEGUN, 1972) e fazendo
. Então, seguem,
respectivamente, a função integral gama incompleta e a função de sobrevivência da
distribuição gama generalizada estendida,
∫
16
{
[ (
{
{
(
)]}
[ (
)]}
)
Como casos particulares do modelo gama generalizado estendido, temos os modelos
exponencial (
reparametrizado (
), de Weibull (
), log-normal (
) e gama generalizada
).
Será tratado a seguir, o problema de estimação dos parâmetros da distribuição log-gama
generalizada estendida que vem sendo utilizada para modelagem de dados, ao invés da gama
generalizada, devido às simplificações na estimação dos parâmetros (VALENÇA, 1994) e
(RIZZATO, 2006).
2.5
Estimação dos Parâmetros do Modelo
Uma vez assumido que a distribuição geradora dos tempos de falha e/ou censura dos
indivíduos observados na amostra é conhecida. Então o problema agora consiste na estimação
de quantidades desconhecidas que estão atreladas a essa distribuição, estas quantidades
denominam-se parâmetros.
Por exemplo, considere que o tempo de falha/censura de um tipo de componente
eletrônico tem distribuição exponencial com parâmetro
, mas o valor exato de
é
desconhecido. Se o tempo de falha/censura de vários componentes de mesmo tipo são
observados, e com estes ou outra fonte relevante de informação que esteja disponível, é
possível fazer inferência sobre o valor desconhecido do parâmetro .
Neste trabalho será utilizado o método de máxima verossimilhança para estimação dos
parâmetros, pois este incorpora com facilidade a presença de dados censurados e possui
propriedades ótimas em grandes amostras (COLOSIMO & GIOLO, 2006) e (VALENÇA,
2013). Intuitivamente o estimador de máxima verossimilhança consiste em gerar a estimativa
do parâmetro que, à luz da amostra é o valor que tem maior probabilidade de gerar o resultado
visto na mesma. Em outras palavras, é o valor ou o conjunto de valores que melhor explica a
informação observada na amostra.
17
A seguir, serão definidos alguns conceitos relacionados ao método de máxima
verossimilhança, a fim de que seja possível obter estimadores para os parâmetros.
Definição (Função de verossimilhança): Suponha que os dados
vetor aleatório
são realizações de um
com função de probabilidade ou densidade de probabilidade
função de verossimilhança para
, dados os valores observados
é a função
(
). A
(
)
(BOLFARINE & SANDOVAL, 2010) e (BONAT et al., 2012). Em outras palavras, a função
de verossimilhança é dada pela expressão da distribuição conjunta de todas as variáveis
aleatórias envolvidas no modelo, porém vista como função dos parâmetros, uma vez que os
dados são observados, essas quantidades são fixas. Para cada particular valor do parâmetro,
seja escalar ou vetor, a verossimilhança é uma medida de compatibilidade, plausibilidade ou
similaridade com a amostra observada.
No caso em que os elementos de
são independentes, a função de verossimilhança é
dada pela expressão do produto das funções de densidade de cada variável
individualmente,
ou seja,
(
)
∏
(
)
Definição (Estimador de máxima verossimilhança): É o valor de
de verossimilhança
(
que maximiza a função
) (BOLFARINE & SANDOVAL, 2010) e (BONAT et al., 2012).
Como dito, a verossimilhança é uma medida de compatibilidade da amostra observada com
um particular vetor de parâmetros. Desta forma, é natural definir como estimador para o vetor
de parâmetros , aquele particular vetor, ̂, que tenha a maior compatibilidade com a amostra,
ou seja, o vetor que maximiza a função de verossimilhança.
De posse dos conceitos apresentados anteriormente considere dois cenários, para os
quais deseja-se fazer a estimação dos parâmetros. Um deles consiste em analisar apenas
tempos de falha e o outro, os tempos de falhas e censuras. Neste último caso, será considerado
que o mecanismo gerador da censura é aleatório ou tipo I, o primeiro é mais conhecido como
censura aleatória (VALENÇA, 2013). Para estes casos temos as respectivas funções de
verossimilhança:
18

Função de verossimilhança: Sem censura
Considere que, em um estudo de sobrevivência n ítens são colocados em teste e que,
associado a cada ítem, têm-se uma v.a.
que representa o tempo de vida. Sendo assim, a
função de verossimilhança para o caso em que não há censura é dado por:
(
)
∏
(
)
Deve-se salientar que esta expressão mostra que a contribuição de cada observação,
quando não tem censura, é a sua função de densidade.

Função de verossimilhança: Com censura aleatória ou tipo I
Agora considere que, em um estudo de sobrevivência, n ítens são colocados em teste e
que associado a cada ítem, têm-se uma v.a.
que representa tempo de vida ou tempo até a
censura. Santos (2012) e Valença (2013) mostram que a função de verossimilhança que
considera a presença de censura nos dados é dada por:
(
em que,
)
∏[
é a função de densidade,
] [
]
é a função de sobrevivência e
é o
indicador de censura, definido da forma abaixo,
{
Note que a contribuição de cada observação censurada não é, contudo, a sua função de
densidade, pois a informação que se tem em relação a um ítem censurado é que o seu tempo
de vida/falha é maior que o observado. Desta forma, é plausível definir que a contribuição
desses para verossimilhança será a função de sobrevivência. Note também que se for
considerado que
itens falharam então ∑
, logo têm-se
censuradas.
Nas condições apresentadas acima e considerando o logaritmo da função de
verossimilhança, deseja-se encontrar os estimadores de máxima verossimilhança, ou seja, o
vetor de valores
que maximizam (
) ou equivalentemente
[ (
)]. Quando (
)
19
for contínua e diferenciável os valores ̂ podem ser encontrados resolvendo o sistema de
equações simultâneas:
(
[ (
)
)]
Com muita frequência, o sistema de equações apresentado acima não pode ser resolvido
analiticamente e a obtenção dos estimadores de máxima verossimilhança requer a utilização
de métodos interativos. Chambers (1977) descreve vários métodos que podem ser usados
nesta situação. Uma técnica utilizada com bastante frequência é o Método de NewtonRaphson.
2.5.1 Distribuição Gama Generalizada
Como citado anteriormente, existem algumas dificuldades para fazer a estimação dos
parâmetros da distribuição proposta por Stacy (1962), o que não ocorre quando se utiliza a
distribuição log-gama generalizada estendida, apresentada na subseção 2.4. Desta forma, ao
considerar a densidade e a sobrevivência da log-gama generalizada estendida será tratado dois
esquemas de estimação, em que um deles consiste no fato de levar em conta apenas tempos de
falha e o outro caracteriza por incluir tempos de falha e censura.

Função e estimador de máxima de verossimilhança: Sem censura
Seja
, uma amostra aleatória com distribuição log-gama generalizada
estendida e vetor de parâmetros desconhecidos
verossimilhança para
. O logaritmo da função de
é dado por:
(
{
)
[
[ (
]}
)]
∑{
∑
(
(
)
)
[ (
)]}
Para se obter os estimadores de máxima verossimilhança, basta resolver,
simultaneamente, as equações:
20
(
)
(
)
(
)
(
)
{
No caso de
têm-se os estimadores de máxima verossimilhança da distribuição
normal,
̃

√
̅e
∑
̅
Função e estimador de máxima de verossimilhança: Com censura aleatória ou tipo I
Seja
, uma amostra aleatória com distribuição log-gama generalizada
estendida e vetor de parâmetros desconhecidos
observação associa-se um indicador de censura
, em que
. A cada
, isto é,
{
Então, o logaritmo da função de verossimilhança considerando censura aleatória ou tipo
I, é dada por:
{
(
)
[ (
∑
{
(
∑
{ {
∑
{
∑
{
∑
{
√
)]
∑
{
)
(
[ (
(
{
(
[ (
[
(
)
]
}
]
∑
[
]
)
[ (
)]}}
)
[ (
)]}}
)]}}
{
)
[
∑
)]}}
[
(
)]
21
2.5.2 Critério de informação Akaike
Para seleção dos modelos, foi utilizado o Critério de Informação Akaike (AIC). Então,
assumindo que um modelo
é indexado pelo vetor de parâmetros
, o critério AIC, definido
por Akaike (1973) é dado pela expressão,
[ ( )]
em que
representa o número de parâmetros que indexam o modelo .
22
3
Modelos com longa duração
Na teoria de análise de sobrevivência usada com maior frequência, um dos principais
pressupostos dos modelos paramétricos é que, se os indivíduos forem acompanhados pelo
período suficiente de tempo, todos irão apresentar o evento de interesse (RODRIGUES et al.,
2008). Ou seja, quando os tempos desses indivíduos tendem para o infinito, a probabilidade
de não apresentarem o evento de interesse vai para zero (
). Mas, do ponto de
vista prático, em algumas situações não será razoável considerar tal pressuposto na análise
dos dados, pois pode ocorrer que um percentual significativo dos indivíduos não apresente o
evento em estudo.
Neste contexto, surgiram os modelos conhecidos da literatura com o nome de modelos
de sobrevivência com longa duração ou com fração de cura, que assumem que um percentual
de indivíduos observados no estudo podem ser considerados curados ou imunes ao evento de
interesse. Em outras palavras, mesmo que observado por um longo período de tempo estes
indivíduos não apresentaram o evento. Como ilustração, considere os seguintes exemplos: em
estudos da área médica um provável evento de interesse pode ser a recorrência de
determinado tipo de câncer, em que, após aplicação de alguns tratamentos uma parte dos
indivíduos em estudo pode não apresentar o retorno da doença, ou seja, estes podem ser
considerados curados (o que justifica a denominação de modelos com “fração de cura”). Já
em estudos da área de criminologia, um possível evento é o tempo até um ex-detento reincidir
no crime, entretanto, alguns deles estarão reabilitados e não tornarão a cometer crimes.
Um indicativo da presença de indivíduos imunes na população é a ocorrência de um alto
percentual de censura à direita no fim do estudo. Mas, Maller e Zhou (1996) advertem que o
tempo de acompanhamento deve ser suficientemente grande para que se possa ter indícios
reais de que uma proporção dos indivíduos seja realmente imune ou curado. Uma forma de
visualizar a possível existência de indivíduos imunes nos dados é construindo o gráfico da
sobrevivência estimada pelo método não paramétrico de Kaplan & Meier (1958), pois quando
a curva estimada se mantem a um nível aproximadamente constante e estritamente maior do
que zero durante um período de tempo razoável, há fortes evidências de que existe uma
proporção de indivíduos não susceptíveis ao evento de interesse. Segue, na Figura 06 um
exemplo com dados referentes ao tempo até a recidiva do câncer de mama de 355 pacientes
analisados por Macedo & Valença (2009) inicialmente.
23
Figura 06: Gráfico da estimativa da sobrevivência pelo método de Kaplan-Meier para dados
referentes ao tempo até a recidiva do câncer de mama em 355 pacientes diagnosticadas e previamente
tratadas no Hospital Prof. Dr. Luiz Antônio, Unidade I da Liga Contra o Câncer, Natal-RN, 19911995:
Assim, modelar estes dados ignorando a existência de uma parcela de imunes na
população pode conduzir o pesquisador a conclusões distorcidas. Desta forma, a fim de dar tal
tratamento correto aos dados foram estudados os modelos com longa duração proposto por
Boag (1949), Berkson & Gage (1952) e Yakovlev & Tsodikov (1996), considerando a
proposta de unificação de Rodrigues (2008), os resultados apresentados por Lima (2008),
Fonseca (2009), Guedes (2011) e Carneiro (2012) e o modelo log-gama generalizado
estendido.
3.1
Modelo log-gama generalizada estendido com longa duração
Nesta subseção, serão apresentados os modelos de mistura padrão log-gama
generalizado e tempo de promoção log-gama generalizado, suas funções de densidade de
probabilidade, sobrevivências, riscos e verossimilhanças.
24
3.1.1 Modelo de mistura padrão log-gama generalizado estendido
Considerando a unificação proposta por Rodrigues et al. (2008) e a distribuição loggama generalizada estendida, temos que a função de sobrevivência, densidade e risco
impróprias (com mistura padrão) são dadas por:
e
em que
e
são, respectivamente, a função de sobrevivência e densidade da
distribuição log-gama generalizada estendida e
é a proporção de indivíduos imunes ou
curados. Temos que a função de verossimilhança e o logaritmo da função de verossimilhança
para o modelo estudado são, respectivamente, dados por:
(
(
)
{
∏
)
∑
{
∑
{
∑
{
∑
{
∑
{
[
] [
{
(
{
{
[
(
)
[ (
{
√
(
]}
[ (
∑
[
;
[ (
)]}}
[ (
)]}}
)]}}
)
{
)
]
)]}}}
(
)]
Para mais informações sobre a obtenção da função de verossimilhança consulte
Rodrigues et al. (2008), Rizzato (2008), Guedes (2011) e Carneiro (2012).
25
3.1.2 Modelo de Tempo de promoção log-gama generalizado estendido
Considerando a unificação proposta por Rodrigues et al. (2008) e a distribuição loggama generalizada estendida, temos que a função de sobrevivência, densidade e risco
impróprias (caso tempo de promoção) são dadas por:
{
[
]}
e
em que
e
são, respectivamente, a função de sobrevivência e densidade da
distribuição log-gama generalizada estendida e
é a proporção de indivíduos imunes
ou curados. Temos que a função de verossimilhança e o logaritmo da função de
verossimilhança para o modelo estudado são, respectivamente, dados por:
(
∑
(
)
{
{
)
(
∏
[
{
)
{
[ (
)]}}
∑ {
{
[ (
)]}}
∑
{
∑
{
[ (
)]}
∑
{
[ (
)]}
∑
{
√
[
{
)
(
) ]
}
]
)
[ (
)]}}
)
[ (
)]}}
(
∑ {
(
] [
(
∑
(
)
∑
;
(
)
Para mais informações sobre a obtenção da função de verossimilhança consulte
Rodrigues et al. (2008), Lima (2008), Fonseca (2009), Guedes (2011) e Carneiro (2012).
26
4
Aplicação
Neste capítulo, considera-se a aplicação da metodologia descrita nas seções anteriores
em dois conjuntos de dados reais, sendo uma destas bases fornecida por uma instituição
financeira brasileira e a outra de dados coletados por Ibrahim et al. (2001) referente a
pacientes com câncer de pele. Para análise dos dados serão consideras as rotinas em
linguagem R apresentadas no Apêndice. Então, seguem as respectivas análises dos dados
supracitados, salientando que, no presente estudo, não foram consideradas covariáveis nos
modelos a serem ajustados.
4.1
Análise dos dados da instituição financeira
O primeiro conjunto de dados a ser analisado representa 65.535 cadastros de clientes,
em que o interesse é observar o tempo até que este deixe a instituição financeira, isto é, deixar
de ter relacionamento com a empresa. A base de dados é composta por duas variáveis, uma
representa o tempo e a outra o status, sendo que o status é descrito em duas categorias e neste
caso é definido da seguinte forma: quando o indivíduo deixa a instituição o seu tempo é dito
observado, já no caso em que o cliente é ainda ativo, o seu tempo é dito censurado.
Para os dados disponibilizados, têm-se a presença de 41.787 censuras que representam
63,76% dos clientes, ou seja, há evidência de que uma proporção de indivíduos é imunes ao
evento de interesse, que neste caso é interromper o relacionamento com a instituição. O tempo
máximo observado no estudo foi 2.770 dias e o mínimo foi de 14 dias. Na tabela que segue
têm-se um resumo descritivo do tempo segundo a variável “status”.
Tabela 03: Resumo descritivo para os tempos até a interrupção do relacionamento com a instituição
financeira segundo a variável “status”:
Tempo (em dias)
Medidas descritivas
Observado
Censurado
Geral
14
60
14
Mínimo
93,75
1.399
653
1ª Quantil
316
1.399
1399
Mediana
497,4
1.385
1064
Média
941,5
1.399
1399
3ª Quantil
2.632
2.770
2770
Máximo
Assim, foram ajustados os modelos de Berkson & Gage (1952) e Yakovlev & Tsodikov
(1996) para os dados de sobrevivência na presença de longa duração. A seguir, são
27
apresentados os resultados dos ajustes aos dados, ao considerar a distribuição log-gama
generalizada estendida para tempos de sobrevivência. Na Tabela 04, temos as estimativas dos
parâmetros para estes modelos, os erros padrões das estimativas e os valores do Critério de
Informação Akaike (AIC).
Tabela 04: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão loggama generalizado estendido e tempo promoção log-gama generalizado estendido para os dados da
instituição financeira:
Modelo log-gama generalizado estendido
Parâmetros
Estimativas
Erro padrão
AIC
5,351910
0,027336
1,894641
0,009716
418190,6
-3,534891
0,053419
Modelo de mistura padrão gama generalizado estendido
5,351226
0,005104
1,894378
0,009717
418192,8
-3,536078
0,053431
0,000205
2,776977
Modelo de tempo de promoção gama generalizado estendido
7,187160
0,014460
11,378500
0,081606
418220,9
-21,74199
1,833708
<0,000000
6,013027
Pode-se observar na Tabela 04 que, quando considerado o modelo log-gama
generalizado para análise dos dados, as estimativas dos parâmetros em relação ao modelo de
mistura padrão log-gama generalizado são praticamente as mesmas, ou seja, dando indícios
reais que não exista uma fração de indivíduos imunes. Além disso, têm-se evidência de que a
proporção estimada de clientes ativos é aproximadamente zero, quando considerados os
modelos com longa duração supracitados. No tocante da seleção do modelo, levando-se em
consideração o Critério de Informação Akaike, o modelo log-gama generalizado estendido
sem longa duração é o mais adequado para o ajuste dos dados. A figura abaixo mostra o
gráfico da estimativa da curva de sobrevivência pelo método de Kaplan-Meier e pelos
modelos citados na tabela acima, com suas respectivas estimativas dos parâmetros.
28
Figura 07: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado
estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de
promoção log-gama generalizado estendido para os dados da instituição financeira:
Desta forma, considerando o modelo log-gama generalizado estendido, foi estimada a
função de risco, ao considerar as estimativas dos parâmetros apresentadas na Tabela 04.
Observa-se que o risco do cliente em abandonar a instituição após um ano de contato, diminui
significativamente e tende a zero ao longo dos dias.
Figura 08: Função de risco ajustada através do modelo log-gama generalizado estendido para os
dados da instituição financeira:
29
5.2. Análise dos dados de câncer de pele (IBRAHIM et al., 2001)
O segundo conjunto de dados a ser analisado é parte de um estudo sobre melanoma
cutâneo (câncer de pele). Os pacientes que foram incluídos no estudo no intervalo de tempo
de 1991 a 1995, foram acompanhados até 1998. Os dados coletados por Ibrahim et al. (2001)
representam os tempos de sobrevivência (ou morte/censura) de 417 pacientes. A base de
dados é composta por duas variáveis, sendo que uma representa o tempo e a outra o “status”,
que neste caso é descrito da seguinte forma, quando os pacientes veem a falecer o seu tempo é
dito observado, já no caso em que o paciente estava vivo ao final do estudo ou saiu do
tratamento antes de terminá-lo, o seu tempo é dito censurado.
O percentual de observações censuradas foi de 56%. Ou seja, como a proporção de
indivíduos censurada é relativamente alta, sugere que exista uma quantidade de pacientes que
possam ser considerados curados (ou imunes) do câncer. O tempo máximo observado no
estudo foi 7,01 anos e o mínimo foi de 0,15 anos. Na figura que segue estão apresentados o
histograma e boxplot para tempos até o óbito ou censura dos pacientes diagnosticados com
câncer de pele.
Figura 09: Histograma e boxplot para os tempos até o óbito ou censura de 417 pacientes
diagnosticados com câncer de pele (IBRAHIM et al., 2001):
30
Portanto, foram ajustados os modelos de Berkson & Gage (1952) e Yakovlev &
Tsodikov (1996) para os dados de sobrevivência na presença de longa duração. A seguir, são
apresentados os resultados dos ajustes aos dados, considerando a distribuição log-gama
generalizada estendida para tempos de sobrevivência. Na Tabela 05 temos as estimativas dos
para estes modelos, os erros padrões das estimativas e os valores do Critério de Informação
Akaike.
Tabela 05: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão gama
generalizado estendido e tempo promoção log-gama generalizado estendido para os dados de câncer
de pele:
Modelo log-gama generalizado estendido
Parâmetros
Estimativas
Erro padrão
AIC
1,007554
0,194551
1,519981
0,055361
1063,857
-1,169060
0,318813
Modelo de mistura padrão gama generalizado estendido
0,652613
0,143455
0,761222
0,125513
1057,409
0,293462
0,288898
0,487532
0,082666
Modelo de tempo de promoção gama generalizado estendido
0,851048
0,128436
0,749907
0,160835
1057,159
0,370916
0,303077
0,483676
0,089932
Pode-se observar na Tabela 05 que, quando considerado o modelo log-gama
generalizado para análise dos dados às estimativas dos parâmetros em relação ao modelo de
mistura padrão log-gama generalizado são evidentemente diferentes, ou seja, dando indícios
reais que exista uma fração de indivíduos curados em torno de 48%. No tocante à seleção do
modelo e levando em consideração o Critério de Informação Akaike, o modelo de tempo de
promoção log-gama generalizado estendido é o mais adequado para o ajuste dos dados, pois é
o que tem menor valor AIC. A figura abaixo mostra o gráfico da estimativa da curva de
sobrevivência pelo método de Kaplan-Meier e pelos modelos citados na tabela acima com
suas respectivas estimativas dos parâmetros. Observe que a curva do modelo de tempo de
promoção log-gama generalizado estendido é semelhante à curva do modelo de mistura
padrão.
31
Figura 10: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado
estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de
promoção log-gama generalizado estendido para os dados de câncer de pele:
Assim, deve-se considerar o modelo de tempo de promoção log-gama generalizado para
o ajuste dos dados de câncer de pele, pois este seria o mais adequado quando considerado o
AIC. Mas, graficamente os modelos mistura padrão e tempo promoção se ajustam bem à
curva empírica da sobrevivência. Portanto, considerando tal modelo, têm-se que
aproximadamente 48,37% dos indivíduos estão livres da doença.
32
5
Considerações finais
Neste trabalho monográfico foi estudado o modelo gama generalizado com longa
duração, dando ênfase na abordagem unificada. Os modelos com longa duração foram
destacados pelo fato de que estes possuem vantagem em relação aos modelos de análise de
sobrevivência usuais, pois incorporam a possibilidade de cura. Além disso, foi estudada com
bastante detalhamento a distribuição gama generalizada, desde a função distribuição proposta
por Stacy (1962) até a reparametrização proposta por Farewell & Prentice (1977) e Lawless
(1980).
Para estimação dos parâmetros da distribuição gama generalizada foi considerada a
distribuição log-gama generalizada estendida, pois quando ajustado este modelo os resultados
são mais satisfatórios e não tem problemas de convergência nos algoritmos usados para a
maximização da função de verossimilhança. Foram programadas rotinas em linguagem R (R
DEVELOPMENT CORE TEAM, 2013) com auxilio do pacote flexsurv (JACKSON
2013) para fazer a estimação de tais parâmetros, rotinas estas que constituem uma grande
contribuição para a análise de sobrevivência, uma vez que são relativamente simples e de fácil
compreensão em relação às já disponíveis na literatura. No Apêndice, são apresentadas as
rotinas para estimação dos parâmetros para as distribuições log-gama generalizado estendido,
com longa duração dos tipos mistura padrão e tempo de promoção.
Os resultados das aplicações foram satisfatórios, pois os modelos ajustados descrevem
bem o comportamento dos dados quando comparados com a curva de sobrevivência estimada
pelo método de Kaplan-Meier. Contudo, ainda deve-se realizar um estudo de simulação para
verificar as propriedades dos estimadores dos parâmetros do modelo gama generalizado com
longa duração quando considerados amostras pequenas. Desta forma, como proposta para
trabalhos futuros pode-se pensar em um estudo de simulação. Além disso, explorar os efeitos
de covariáveis na fração de cura e no tempo médio de vida dos itens e comparar com os
resultados apresentados em Ortega et al. (2009) e Guedes (2011) para os dados de Ibrahim et
al. (2001).
33
6
Referências
ABRAMOWITZ, Milton; STEGUN, Irene A. Handbook of mathematical functions: with
formulas, graphs, and mathematical tables. New York: Dover, 1972. 1045 p.
ADAMIDIS, K.; LOUKAS, S.. A lifetime distribution with decreasing failure rate. Statistics
& Probability Letters, Amsterdam, v. 39, n. 1, p.35-42, 15 jul. 1998. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S0167715298000121>. Acesso em: 11 mar.
2013.
BERKSON, J. e GAGE, R. P. The likelihood ratio, Wald, and Lagrange multiplier tests:
an expository note. Journal of the American Statistical Association. 1952, p.501-515.
BOAG, J. W. Maximum likelihhod estimates of the proportion of patients cured by
cancer therapy. Journal of the Royal Statistical Society. 1949, p. 15-53.
BOLFARINE, Heleno; SANDOVAL, Mônica Carneiro. Introdução à inferência estatística. 2ª
ed. Rio de Janeiro: SBM, 2010. (coleção Matemática aplicada).
BONAT, Wagner Hugo et al. Métodos Computacionais para Inferência com Aplicação
em R. Piracicaba: Rbras, 2012. 161 p. Publicado na Reunião Anual da Região Brasileira da
Sociedade Internacional de Biometria.
CARNEIRO, Hérica Priscila de Araújo. Testes de Hipóteses em Modelos de Sobrevivência
com Fração de Cura. Dissertação de mestrado em Estatística. Natal: UFRN, 2012.
CHAMBERS, J. M. Computational Methods for Data Analysis. New York: Wiley, 1977.
CHEN, M. H.; IBRAHIM, J. G.; SINHA, D. A new baysian model for survival data with a
surviving fraction. Journal of the American Statistical Association, 94, p. 909-919, 1999.
Christopher Jackson (2013). flexsurv: Flexible parametric
version 0.2. http://CRAN.R-project.org/package=flexsurv.
survival models. R package
COLOSIMO, Enrico Antônio; GIOLO, Suely Ruiz. Análise de sobrevivência aplicada. São
Paulo, SP: E. Bücher, 2006. 369 p.
34
CORDEIRO, Gauss M.; CASTRO, Mário de. A new family of generalized distributions.
Journal Of Statistical Computation And Simulation, London, p. 883-898. 01 jul. 2011.
Disponível em: <http://www.tandfonline.com/doi/abs/10.1080/00949650903530745>. Acesso
em: 11 mar. 2013.
FAREWELL, Vern T.; PRENTICE, Ross L. A Study of Distributional Shape in Life
Testing. American Statistical Association and American Society for Quality, vol. 15, p 69-75,
1977.
FONSECA, R. S. Modelos de Sobrevivência com Fração de Cura e Omissão nas
Covariáveis. Biblioteca Digital de Teses e Dissertações da UFRN, 2009.
GUEDES, Alysson Lívio Vasconcelos. Modelo de Tempo de Falha Acelerado com Fração
de Cura: Uma abordagem unificada. 2011. 61 f. Dissertação (Mestre em Matemática
Aplicada e Estatística) - Programa de Pós-graduação em Matemática Aplicada e Estatística,
Universidade Federal do Rio Grande do Norte, Natal, 2011.
IBRAHIM, J.G. et. al. Bayesian survival analysis. Encyclopedia of Biostatistics, 2001.
KAPLAN, E. L.; MEIER, P. Noparametris estimation from incomplete observations.
Journal of the American Statistical Association. p. 457-481, 1958.
KHODABIN, Morteza; AHMADABADI, Alireza. Some properties of generalized gamma
distribution. Mathematical Sciences, Iran, v. 4, n. 1, p.9-28, 2010. Disponível em: <http://
mathscience.kiau.ac.ir/Content/Vol4No1/2.pdf>. Acesso em: 11 mar. 2013.
LAWLESS, J. F. Statistical models and methods for lifetime data. 2nd ed. Hoboken, N.J:
Wiley-Interscience, 2003. 630 p. (Wiley series in probability and statistics)
LAWLESS, J. F.. Inference in the Generalized Gamma and Log Gamma Distributions.
Technometrics, Wisconsin, v. 22, n. 3, p.409-419, 01 ago. 1980. Disponível em: <http:
//www.jstor.org/stable/2334737>. Acesso em: 11 mar. 2013.
LIMA, Rafael Ribeiro de. Modelos de Sobrevivência com Fração de Cura e Erro de
Medida nas Covariáveis. Dissertação de mestrado em Estatística. Natal: UFRN, 2008.
35
MACEDO, C.P.C.; VALENÇA, D.M.. Aplicação do Modelo de Cox Para Identificar
Fatores de Risco em Pacientes com Câncer de Mama. Revista Brasileira de Estatística,
2009.
MALLER, Ross A; ZHOU, Xian. Survival analysis with long-term survivors. Chichester
Inglaterra: Wiley, c1996. 278 p. (Wiley Series in Probability and Statistics).
NADARAJAH, S. On the use of the generalized gamma distribution. International Journal
of Eletronic, New York, v. 95, p.1029-1032, 2008.
ORTEGA, Edwin M. M.; CANCHO, Vicente G.; PAULA, Gilberto A.. Generalized loggamma regression models with cure fraction. Lifetime Data Analysis, New York, v. 15,
p.79-106, 2009.
PASCOA, Marcelino Alves Rosa de. Extensões da Distribuição Gama Generalizada:
Propriedades e aplicações. 2012. 145 f. Tese (Doutor em Ciências) - Escola Superior de
Agricultura Luiz de Queiroz, Piracicaba, 2012. Disponível em: <http://www.teses.
usp.br/teses/disponiveis/11/11134/tde-30052012-091940/pt-br.php>. Acesso em: 11 mar.
2013.
PRENTICE, R. L.. A Log Gamma Model and Its Maximum Likelihood Estimation.
Biometrika, London, v. 61, n. 3, p.539-544, 01 dez. 1974. Disponível em: <http://www.
jstor.org/stable/2334737>. Acesso em: 11 mar. 2013.
STACY, E. W. A Generalization of the Gamma Distribution. The Annals Of Mathematical
Statistics, Michigan, v. 33, n. 3, p.1187-1192, 1962. Disponível em: <http://www.jstor.
org/stabl/2237889>. Acesso em: 11 mar. 2013.
STACY, E. W.; MIHRAM, G. A.. Parameter Estimation for a Generalized Gamma
Distribution. Technometrics, New York, v. 7, n. 3, p.349-358, 01 ago. 1965. Disponível em:
<http://www.jstor.org/stable/1266594>. Acesso em: 11 mar. 2013.
Evert, Stefan and Baroni, Marco (2007). “zipfR: Word frequency distributions in R.” In
Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics,
Posters and Demonstrations Sessions, pages 29-32, Prague, Czech Republic. (R package
version 0.6-6 of 2012-04-03).
36
R Core Team (2013). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.
RIZZATO, Fernanda Buhrer. Modelos de regressão log-gama generalizado com fração de
cura. 2006. 73 f. Dissertação (Mestre em Agronomia) - Escola Superior de Agricultura Luiz
de Queiroz, Piracicaba, 2007. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11
/11134/tde-19032007-152443/pt-br.php>. Acesso em: 11 mar. 2013.
RODRIGUES, Josemar et al. Teoria Unificada de Análise de Sobrevivência. São Paulo:
ABE, 2008.
SANTOS, Paulo Cerqueira dos. Análise de Sobrevivência na presença de Censura
Informativa. Dissertação de mestrado em Estatística. Belo Horizonte: UFMG, 2012.
VALENÇA, Dione Maria. Análise de Sobrevivência. Natal-RN: Departamento de Estatística
da UFRN, 2013. (Notas de aula).
VALENÇA, Dione Maria. O Modelo de Regressão Gama Generalizada para Discriminar
entre Modelos Paramétricos de Tempo de Vida. Dissertação de mestrado em Estatística.
São Paulo: UNICAMP/IMECC, 1994.
YAKOVLEV, A. Y.; TSODIKOV, A. D. Stochastic Models of Tumor Latency and Their
Biostatistical Applications. World Scientific, New Jersey, 1996.
Yee TW (2010). VGAM: Vector Generalized Linear and Additive Models. R package version
0.9-0, URL http://CRAN.R-project.org/package=VGAM.
37
7
Apêndice
Nesta seção são apresentadas as rotinas utilizadas nas análises dos conjuntos de dados
referenciados nos resultados. Com já enunciado, foi utilizado o pacote flexsurv
(JACKSON, 2013), que está disponível no repositório do R Core Team (2013). Para
ajustar os modelos estudados com o uso da função flexsurvreg é necessário que estejam
disponíveis nos padrões do R Core Team (2013) as funções densidade de probabilidade, a
função distribuição acumulada e uma lista de argumentos. Essa lista é composta por: nome da
distribuição, nomes dos parâmetros, nome do parâmetro ao qual será indexado as possíveis
covariáveis, funções especificando as transformações para os parâmetros, se for o caso,
funções especificando transformações inversas para os parâmetros, se for o caso, e uma
função dos tempos para que seja possível calcular chutes iniciais para os algoritmos de
otimização. A função flexsurvreg utiliza o algoritmo optim para maximizar as funções
de verossimilhança, desta forma, todos os argumentos desta classe podem ser passados como
argumentos para o flexsurvreg. Segue os algoritmos considerados nesse estudo. Em caso
de dúvidas, por favor, consultar o tutorial do pacote flexsurv ou enviar um e-mail para
[email protected].
##############################################################
# Modelo de mistura padrão Gama Generalizado
# Função densidade de probabilidade:
dgengammaMP <- function(x, mu, sigma, Q, p , log.=FALSE){
ret <- (1-p)* dgengamma(x, mu, sigma, Q, log = FALSE)
if(log.) return(log(ret)) else return(ret)
}
# Função de distribuição acumulada:
pgengammaMP <- function(q, mu, sigma, Q, p , lower.tail =
TRUE, log.=FALSE){
if (lower.tail)
ret <- 1 - (p + (1-p) * pgengamma(q, mu, sigma, Q,
lower.tail = FALSE, log.p = FALSE))
else ret <- p + (1-p) * pgengamma(q, mu, sigma, Q,
lower.tail = FALSE, log.p = FALSE)
if(log.) return(log(ret)) else return(ret)
}
# Lista de argumentos para função flexsurvreg:
custom.gengammaMP <- list(name = "gengammaMP",
pars = c("p","mu","sigma","Q"),
location = c("mu"),
transforms = c(function(x)log(x/(1x)), identity, log, identity),
38
inv.transforms =
c(function(x)exp(x)/(1+exp(x)), identity, exp, identity),
inits = function(t){
lt <- log(t[t > 0])
c(p, mean(lt), sd(lt), 0)})
##############################################################
# Modelo de tempo promoção Gama Generalizado
# Função densidade de probabilidade:
dgengammaTP <- function(x, mu, sigma, Q, p , log.=FALSE){
ret <- p*dgengamma(x, mu, sigma, Q, log = FALSE)*
exp(-p*pgengamma(x, mu, sigma, Q, lower.tail = TRUE, log =
FALSE))
if(log.) return(log(ret)) else return(ret)
}
# Função de distribuição acumulada:
pgengammaTP <- function(q, mu, sigma, Q, p , lower.tail =
TRUE, log.=FALSE){
if (lower.tail)
ret <- 1 - exp(-p*pgengamma(q, mu, sigma, Q, lower.tail =
TRUE, log.p = FALSE))
else ret <- exp(-p*gengamma(q, mu, sigma, Q, lower.tail =
TRUE, log.p = FALSE))
if (log.) return(log(ret)) else return(ret)
}
# Lista de argumentos para função flexsurvreg:
custom.gengammaTP <- list(name = "gengammaTP",
pars = c("p", "mu", "sigma", "Q"),
location = c("mu"),
transforms = c(log, identity, log,
identity),
inv.transforms = c(exp, identity,
exp, identity),
inits = function(t){
lt <- log(t[t > 0])
c(p, mean(lt), sd(lt), 0)})
# Ajuste para o modelo de mistura padrão Gama Generalizado:
p <- 1-mean(status)# Chute inicial para fração de curados
ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist =
custom.gengammaMP, method="BFGS")
ajust
39
# Ajuste para o modelo de tempo promoção Gama Generalizado:
p <- 1-mean(status)# Chute inicial para fração de cura
ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist =
custom.gengammaTP, method="BFGS")
ajust
Observação1: O chute inicial para fração de cura ou termo de longa duração é definido como
uma variável global e é definido nas rotinas com a letra p. Lembrando, que no caso do
modelo de tempo promoção a fração de cura é definida como sendo exp(-p).
Observação2: Para o ajuste dos modelos foi utilizado o algoritmo “BFGS” do optim, pois
no estudo de simulação este apresentou melhores resultados. Caso o algoritmo “BFGS” não
esteja convergindo, um alternativa é usar outros algoritmos para maximização da função de
verossimilhança ou adicionar aos argumentos do flexsurvreg o comando control =
list(fnscale = 2500), como segue abaixo.
p <- 1-mean(status)# Chute inicial para fração de curados
ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist =
custom.gengammaTP, method="BFGS", control = list(fnscale =
2500))
ajust
40
Download

Modelo gama generalizado com longa