Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Estatística Programa de Educação Tutorial – PET Rumenick Pereira da Silva Modelo Gama Generalizado com Longa Duração: Teoria e Prática Natal-RN, junho de 2013 Rumenick Pereira da Silva Modelo Gama Generalizado com Longa Duração: Teoria e Prática Monografia apresentada ao Departamento de Estatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de formação em Estatística. Orientador: Prof. Me. Antonio Hermes Marques da Silva Jr. Natal-RN, junho de 2013 Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial Centro de Ciências Exatas e da Terra – CCET. Silva, Rumenick Pereira da. Modelo gama generalizado com longa duração: teoria e prática / Rumenick Pereira da Silva. - Natal, 2013. 51 f. : il. Orientador: Prof. Me. Antonio Hermes Marques da Silva Júnior. Monografia (Graduação) – Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Departamento de Estatística. 1. Análise de sobrevivência – Monografia. 2. Modelos com longa duração – Monografia. 3. Modelos gama generalizado com longa duração – Monografia. 4. Dados da área financeira e saúde – Monografia. I. Silva Júnior, Antonio Hermes Marques da . II. Título. RN/UF/BSE-CCET CDU: 519.24:61 "A tarefa não é tanto ver aquilo que ninguém viu, mas pensar o que ninguém ainda pensou sobre aquilo que todo mundo vê" Arthur Schopenhauer Agradecimentos Agradeço primeiramente à Deus, por ter me dado força para que fosse possível concluir mais essa etapa da vida. Quero agradecer à minha amada mãe Maria Ramos da Silva por ter sempre apoiado os meus passos, seja na vida acadêmica ou pessoal e saiba que te amo muito mãe, você sempre está em meu coração. Agradeço ao meu pai Renivaldo Pereira da Silva pela sua inesgotável paciência e tolerância quando fui negligente ou irresponsável e sei que o senhor se orgulha e continuará sempre se orgulhando do seu filho. Serei sempre guardião da sua moral e ética, orgulho-me muito de ter um pai com a sua postura. Agradeço aos meus irmãos Renivaldo Pereira da Silva Júnior, Renilma Pereira da Silva e Reniery Pereira da Silva por ter compartilhado comigo os vários momentos de aflição e pela confiança, incentivo e acolhimento de todas as naturezas nas ocasiões necessárias e tenham certeza que vocês contribuíram de forma significativa para conclusão deste trabalho. A minha namorada e quase esposa Wilmara Martins da Costa, quero agradecer pela sua infinita paciência, compreensão e saiba que nos momentos em que estive ausente você sempre esteve presente dentro do meu coração e pensamento. Te dedico todo meu amor e que seja para sempre. Ao meu orientador Antonio Hermes Marques da Silva Júnior, agradeço pela sua colaboração inestimável para que este trabalho fosse concluído. Sem sua ajuda com certeza tudo teria sido mais difícil, pois muitas das ideias aqui expostas são suas. Muito obrigado e boa sorte no doutorado, pois o senhor tem muito a conquistar! Ao meu Tutor Paulo Cesar Formiga Ramos, quero agradecer pelo seu compromisso e inestimável carinho com o seus tutorados e não se preocupe, pois seus líderes serão bem falados por todo o mundo e apesar de o senhor esta deixando o Programa de Educação Tutorial (PET) o seu nome estará sempre vivo e eternizado em nossas vidas “Petianas”. À Professora Dione Maria Valença, agradeço pela sua ajuda e co-orientação neste trabalho e por ter aceitado ser minha orientadora do mestrado, pois ainda vamos publicar muito artigos juntos, isso é apenas o começo. Agradeço ao Professor Francisco Louzada Neto por ter disponibilizado um dos bancos de dados para que fosse possível fazer a aplicação dos modelos aqui estudados. Além disso, agradeço também por ter aceitado ser meu co-orientador no mestrado, saiba que é uma satisfação muito grande. Aos meus queridos coleguinhas do PET como diria o André Possati, em especial ao meu amigo para todas as horas Jhonnata Carvalho, o sentimento é de muita saudade. Mas sei que vocês Inara Françoyse, Joyce Rocha, Francimário, Isaac Jales, Fernando Maia, Paulo César, Kalil, Josenilson, Fafá, Elias,..., estarão sempre por perto dando aquele velho auxílio “luxuoso”. Agradecer aos professores do Departamento de Estatística, Matemática e os dos demais setores, em especial os professores (as): Jeanete, por ter acreditado desde o início em minha persistência, André Pinho, por estar sempre disponível quando tinha dúvidas, Carla Vivacqua, por mostrar aos discentes que a Estatística é mais bela do que os nossos olhos podem ver e pelas aulas fascinantes de Planejamento de Experimento e Estatística Multivariada, Paulo Roberto Medeiros de Azevedo, sem palavras, esse é, sem dúvida, o melhor professor do mundo, Pledson, por zelar bem do curso de Estatística da Federal do Rio Grande do Norte, Medeiros por ter consolidado bem a Estatística Descritiva e Documentária na minha cabeça, a Monica Carvalho, por ter ensinado de forma excelente como fazer e entender a Ciência e suas metodologias, a Viviane Simioli, pelas melhores aulas de Cálculo II e Moiseszinho, por ter contribuído para meu ingresso no mestrado. Agradeço aos amigos do Programa de Pós-graduação em Matemática Aplicada e Estatística, em especial aos discentes: Wenia, Fábio Azevedo e Renato Tigre. Estamos apenas no início de uma nova etapa, graça à Deus. Agradeço também aos meus amigos do Curso de Estatística, em especial a Jailton Paulo, Talita, Cintya Régia, Glauco e Marcos, por ter ajudado tantas vezes, as idas ao Restaurante Universitário, serão inesquecíveis. Agradeço aos meus amigos da Residência Universitária Mipibu, em especial Valdênio Moises, Wydemberg Araújo, Anderson Costa e Jorge Pereira, em que os dois últimos, nos dias finais antes da defesa ajudaram a recuperar o arquivo da monografia que havia sido excluído devido a um vírus de computador, valeu Jorge! Por fim, agradeço ao MEC por ter me proporcionado a Bolsa PET durante este período que estive no Curso de Estatística. A todos que colaboraram de forma direta ou indireta! Saudades!!! Resumo Em análise de sobrevivência a variável em estudo é o tempo até a ocorrência de um determinado evento de interesse. Porém, a teoria usual assume que se observado por um longo período de tempo, todos os indivíduos irão apresentar tal evento. Mas, em algumas situações tal apontamento não será fácil de ser considerado, pois uma proporção da população pode não estar mais sujeita à ocorrência deste evento e, por mais longo que seja o tempo de observação, o evento nunca ocorrerá para esta parte da população. Neste sentido, alguns modelos foram propostos para tratar tais situações e estes são conhecidos pelo nome de modelos com longa duração ou com fração de cura. O objetivo do presente trabalho foi estudar os modelos com longa duração, a partir da abordagem unificada dada em Rodrigues et al. (2008) considerando a distribuição gama generalizada para modelar os tempos de vida. Além disso, foi desenvolvida uma rotina em linguagem R (R Development Core Team, 2013) que é mais didática e de fácil utilização em relação às já existentes na literatura. Em seguida, as técnicas e rotinas citadas foram aplicadas a dois conjuntos de dados. Nestes, têm-se, respectivamente, o interesse de estimar a proporção de clientes fidelizados e a proporção de pacientes curados, bem como a função de risco para uma das situações. Palavras-chave: Análise de Sobrevivência; Modelos com longa duração; Modelos gama generalizado com longa duração; Dados da área financeira e saúde. Lista de Figuras Figura 01: Ilustração de alguns mecanismos de censura, em que (◦) representa o tempo de falha e (•) a censura. (A) todos os pacientes experimentaram o evento até o final do estudo; (B) alguns pacientes não experimentaram o evento de interesse até o final do estudo; (C) o estudo finalizou após uma quantidade pré-estabelecida de falhas e (D) o acompanhamento do paciente foi interrompido por alguma causa e alguns pacientes não experimentaram o evento até o final do estudo. Figura 02: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para caso exponencial. Figura 03: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para caso Weibull. Figura 04: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para caso Gama. Figura 05: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para outras formas. Figura 06: Gráfico da estimativa da sobrevivência pelo método de Kaplan-Meier para dados referentes ao tempo até a recidiva do câncer de mama em 355 pacientes diagnosticadas e previamente tratadas no Hospital Prof. Dr. Luiz Antônio, Unidade I da Liga Contra o Câncer, Natal-RN, 1991- 1995. Figura 07: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de promoção log-gama generalizado estendido para os dados da instituição financeira. Figura 08: Função de risco ajustada através do modelo log-gama generalizado estendido para os dados da instituição financeira. Figura 09: Histograma e boxplot para os tempos até o óbito ou censura de 417 pacientes diagnosticados com câncer de pele (IBRAHIM et al., 2001). Figura 10: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de promoção log-gama generalizado estendido para os dados de câncer de pele: Lista de Tabelas Tabela 01: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, média e variância. Tabela 02: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, função de sobrevivência e risco. Tabela 03: Resumo descritivo para os tempos até a interrupção do relacionamento com a instituição financeira segundo a variável “status”. Tabela 04: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão log-gama generalizado estendido e tempo promoção log-gama generalizado estendido para os dados da instituição financeira. Tabela 05: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão gama generalizado estendido e tempo promoção log-gama generalizado estendido para os dados de câncer de pele. Sumário 1 Introdução .......................................................................................................................... 1 1.1 2 Objetivos ...................................................................................................................... 2 Análise de sobrevivência ................................................................................................... 3 2.1 Conceitos básicos em Análise de Sobrevivência ......................................................... 3 2.1.1 Função de Sobrevivência ...................................................................................... 3 2.1.2 Função taxa de falha ou risco ............................................................................... 4 2.1.3 Relações entre as funções ..................................................................................... 4 2.1.4 Censura ................................................................................................................. 4 2.2 O estimador de Kaplan-Meier...................................................................................... 5 2.3 Modelos Probabilísticos ............................................................................................... 6 2.3.1 3 2.4 Reparametrização ....................................................................................................... 13 2.5 Estimação dos Parâmetros do Modelo ....................................................................... 17 2.5.1 Distribuição Gama Generalizada ........................................................................ 20 2.5.2 Critério de informação Akaike ........................................................................... 22 Modelos com longa duração ........................................................................................... 23 3.1 4 Distribuição Gama Generalizada .......................................................................... 7 Modelo log-gama generalizada estendido com longa duração .................................. 24 3.1.1 Modelo de mistura padrão log-gama generalizado estendido ............................ 25 3.1.2 Modelo de Tempo de promoção log-gama generalizado estendido ................... 26 Aplicação .......................................................................................................................... 27 4.1 Análise dos dados da instituição financeira ............................................................... 27 5 Considerações finais ........................................................................................................ 33 6 Referências ....................................................................................................................... 34 7 Apêndice ........................................................................................................................... 38 1 Introdução Em análise de sobrevivência a variável em estudo comumente é o tempo até a ocorrência de um determinado evento de interesse. Este tempo é denominado tempo de vida ou de falha e pode ser, por exemplo, o tempo até que um paciente venha a óbito devido à alguma doença, ou ainda o tempo até que um cliente abandone a instituição financeira. A teoria usual assume que, se observado por um longo período de tempo, todos os indivíduos ou itens (para caso de aplicações em áreas industriais) irão falhar em algum momento. Mas, em algumas situações tal restrição pode ser violada, pois uma proporção da população pode não estar mais sujeita à ocorrência deste evento e, por mais longo que seja o tempo de observação, o evento nunca ocorrerá para esta parte da população. Neste sentido, alguns modelos foram propostos para tratar tais situações e estes são conhecidos com o nome de modelos com longa duração ou com fração de cura. Neste contexto, os modelos de análise de sobrevivência com longa duração possui vantagem em relação aos modelos de sobrevivência usuais, pelo fato de incorporar a heterogeneidade de duas subpopulações (susceptíveis e imunes ou curados do evento de interesse). Estes modelos podem ser utilizados quando existem indícios de que uma porcentagem da população nunca apresentará o evento em questão. Uma abordagem foi dada inicialmente por Boag (1949) e Berkson & Gage (1952), que consideram uma mistura de distribuições. Neste modelo, conhecido como modelo de mistura padrão é assumido que uma fração da população está curada e a restante não está curada. A partir destes artigos, muitos outros foram escritos considerando a aplicação do modelo proposto em diversas áreas como: da saúde, industrial e financeira, ver, por exemplo, Frankel & Longmate (2002); Lam et al. (2005) e Granzotto et al. (2012). Alternativamente, Yakovlev & Tsodikov (1996) propõem uma nova classe de modelos que envolvem uma estrutura de riscos competitivos a qual foi estendida por Chen et al. (1999), e que neste trabalho será referido como modelo de tempo de promoção. Uma abordagem unificada que inclui o modelo de mistura padrão e o modelo de tempo de promoção como casos particulares, é proposta por Rodrigues et al. (2008). Neste contexto, a distribuição assumida para a variável latente que representa o número de causas que competem para a ocorrência do evento em estudo, determina uma classe de modelos. As 1 distribuições de Bernoulli e de Poisson representam, respectivamente, os modelos de mistura e de tempo de promoção. Neste trabalho serão estudados os modelos proposto por Boag (1949) e Berkson & Gage (1952) e Yakovlev & Tsodikov (1996), tomando como base a proposta de unificação destes apresentados em Rodrigues et al. (2008) e as pesquisas desenvolvidas por Lima (2008), Fonseca (2009), Guedes (2011) e Carneiro (2012). Os capítulos deste trabalho estão dispostos da seguinte forma: no Capítulo 2 são introduzidos alguns conceitos básicos sobre Análise de Sobrevivência, o critério de informação Akaike (AIC) para escolha de modelos, bem como a especificação da distribuição gama generalizada proposta por Stacy (1962), passando pelas parametrizações para obtenção da distribuição log-gama generalizada estendida, até a estimação dos parâmetros. No Capítulo 3 é discutido o modelo de sobrevivência com longa duração e também a obtenção da função de verossimilhança para o modelo log-gama generalizado estendido com longa duração com ênfase na abordagem unificada. No Capítulo 4 é feito uma aplicação a dois conjunto de dados reais, sendo um deles fornecido por uma instituição financeira brasileira e o outro são dados referentes a pacientes com câncer de pele, coletados por Ibrahim et al. (2001). No Capítulo 05 são enfatizados os principais resultados desenvolvidos ao decorrer deste trabalho, bem como algumas sugestões para trabalhos futuros. Todos os resultados foram obtidos utilizando o software estatístico R e as rotinas estão disponíveis no Apêndice. 1.1 Objetivos O objetivo do presente trabalho é estudar os modelos com longa duração, a partir da abordagem unificada dada em Rodrigues et al. (2008) considerando a distribuição gama generalizada para modelar os tempos de vida. Além disso, desenvolver uma rotina em linguagem R que seja amigável ao usuário. Em seguida, as técnicas e rotinas citadas serão aplicadas a dois conjuntos de dados reais. 2 2 Análise de sobrevivência Neste capítulo são apresentados técnicas de Análise de Sobrevivência, a distribuição gama generalizada, a distribuição log-gama generalizada estendida, bem como a estimação, considerando estes modelos e os aspectos da função verossimilhança quando considerada a presença de censura na amostra. 2.1 Conceitos básicos em Análise de Sobrevivência A Análise de Sobrevivência é um conjunto de métodos estatísticos que servem para analisar dados correspondentes ao tempo até a ocorrência de um determinado evento, como por exemplo, o tempo até a morte ou o tempo até a cura de um paciente, ou ainda, o tempo até que um cliente abandone a instituição de financeira. A variável aleatória corresponde ao tempo até a ocorrência de um determinado evento de interesse de alguma população. Para , deve-se definir o tempo de início (data de início do estudo), a escala de medida (que é em geral o tempo do estudo) e um evento de interesse que, por exemplo, pode ser a morte do paciente. 2.1.1 Função de Sobrevivência Seja uma variável aleatória contínua, não negativa com função densidade de probabilidade e função de distribuição acumulada sobrevivência de como: . Define-se então, a função de ∫ Note que e é uma função monótona decrescente com as seguintes propriedades, . Funções de sobrevivência que não satisfazem estas propriedades são denominadas funções de sobrevivência impróprias ou com longa duração, ou, ainda, com fração de cura segundo Rodrigues et al. (2008) e são objeto de estudo deste trabalho. 3 2.1.2 Função taxa de falha ou risco A função taxa de falha ou função risco, denotada por é definida como, Pode-se mostrar que, e∫ A função risco especifica a taxa de falha instantânea a um tempo , dado que o indivíduo sobreviveu até o tempo . 2.1.3 Relações entre as funções Para a variável aleatória contínua e não negativa, têm-se, em termos da definição de função de sobrevivência e de risco, exibidas anteriormente, algumas relações matemáticas entre as funções , e . Assim, conhecendo uma delas, podem-se obter as outras através das seguintes relações: [ ] 2.1.4 Censura Uma característica marcante em dados de sobrevivência é a presença de censura, que é a observação parcial da resposta (tempo até a falha) e ocorre quando algum acontecimento impede que o tempo até a ocorrência do evento de interesse seja observado. Por exemplo, alguns pacientes podem desistir do tratamento ou morrer por uma causa diferente da estudada, ou o estudo pode acabar antes que o evento ocorra para todos os pacientes. Nestes casos, o que se sabe é que o tempo de vida é maior que o tempo observado. Neste trabalho será considerada a censura à direita, em que este mecanismo caracterizase pelo fato do tempo de ocorrência do evento de interesse está à direita do tempo registrado, 4 ou seja, a falha ocorre após o início do estudo. Na Figura 01 estão apresentadas ilustrações referentes a três tipos de censura comumente encontrados nos dados, além de uma ilustração para caso de dados completos. Figura 01: Ilustração de alguns mecanismos de censura, em que (◦) representa o tempo de falha e (•) a censura. (A) todos os pacientes experimentaram o evento até o final do estudo; (B) alguns pacientes não experimentaram o evento de interesse até o final do estudo; (C) o estudo finalizou após uma quantidade pré-estabelecida de falhas e (D) o acompanhamento do paciente foi interrompido por alguma causa e alguns pacientes não experimentaram o evento até o final do estudo: 2.2 O estimador de Kaplan-Meier Quando se analisa dados censurados é necessário munir-se de uma metodologia conveniente para tratar deste problema. Entre alguns possíveis estimadores de , o mais utilizado, é o estimador Produto-Limite, mais conhecido como estimador de Kaplan-Meier, 5 pois estes autores foram os pioneiros ao discutir suas propriedades (KAPLAN & MEIER, 1958). Então sejam tamanho os tempos distintos de falha observados em uma amostra de com função de sobrevivência indivíduos) falham no instante [ ( nos tempos por ) e , o número de ítens em risco em ) itens (ou pacientes, ou ítens são censurados no intervalo , sendo . Denote-se também , ou seja, número de ítens que não falharam nem censuraram no instante exatamente anterior a ( . Suponha que , que pode ser representado por . O estimador de Kaplan-Meier de , é definido para como ̂ ∏( ) ∏( ) { O estimador de Kaplan-Meier é uma função escada monótona não crescente, igual a 1 quando e com decrescimento determinado pelo fator atinge zero no valor . Esta função se, e somente se, este último valor representar uma falha. As principais propriedades de ̂ dizem que este é um estimador consistente de e assintóticamente normal, sob condições muito gerais. Algumas destas propriedades são apresentadas e referidas em Lawless (2003). 2.3 Modelos Probabilísticos Nas últimas décadas o uso de modelos probabilísticos na análise estatística de dados de sobrevivência têm-se mostrado bastante presente na literatura. Apesar de existirem técnicas não paramétricas que tratam deste tipo de dados, em diversas situações deseja-se ajustar modelos paramétricos. Dentre estes, alguns ocupam uma posição de destaque por sua comprovada adequação a várias situações práticas, e os que são usados com mais frequência são os modelos: exponencial, de Weibull, gama e log-normal. Neste trabalho será abordada a distribuição gama generalizada (distribuição GG) proposta por Stacy (1962), que possui como 6 casos particulares os modelos citados anteriormente. Também será considerado o modelo loggama generalizada estendido, proposto por Farewell & Prentice (1977) e por Lawless (1980), para estimação dos parâmetros da distribuição GG, uma vez que existem dificuldades na estimação dos parâmetros do modelo proposto por Stacy (1962). Caracteriza-se, a seguir, a distribuição gama generalizada, bem como sua versão reparametrizada e propriedades até a obtenção da distribuição log-gama generalizada estendida. 2.3.1 Distribuição Gama Generalizada A distribuição gama generalizada foi proposta por Stacy (1962) e se tornou muito importante na análise de dados de sobrevivência, pelo fato de representar uma família paramétrica e apresentar diversas formas de funções de risco. Como exemplos de casos particulares da distribuição GG, temos as distribuições, exponencial, Weibull, gama, quiquadrado, Rayleigh e log-normal. Além destes, outros submodelos podem ser vistos em Lawless (2003) e Khodabin & Ahmadabadi (2010), que discorrem sobre algumas propriedades da distribuição em estudo. Portanto, por este modelo ter como casos especiais as distribuições supracitadas, ele é útil na discriminação entre modelos probabilísticos alternativos para análise dos dados (COLOSIMO & GIOLO, 2006). Desde então, a família GG tem sido largamente estudada e aplicada em diversas áreas do conhecimento e pode-se destacar alguns estudos como, por exemplo, Rizzato (2006) que trabalhou com o modelo gama-generalizado com fração de cura aplicado a dados clínicos; Nadarajah (2008) que realizou uma pesquisa sobre o uso da distribuição GG em engenharia elétrica e eletrônica; Guedes (2011) que apresentou um estudo sobre o modelo de tempo de falha acelerado gama generalizado com fração de cura, sob uma abordagem unificada, além de uma aplicação com dados de câncer de mama. Recentemente, Pascoa (2012), trabalhou com as extensões da distribuição gama generalizada, propriedades e aplicações, tomando como base os estudos desenvolvidos por Adamidis & Loukas (1998) e Cordeiro & Castro (2011). A função densidade de probabilidade proposta por Stacy (1962) é dada por: ( ) [ ( ) ] 7 em que representa o parâmetro de escala, e são parâmetros de forma e é a função gama (ABRAMOWITZ & STEGUN,1972), definida por: ∫ Se é uma variável aleatória positiva com função de densidade de probabilidade dada pela expressão apresentada acima, então parâmetros tem distribuição gama generalizada com e , e considerem aqui a seguinte notação, . Como citado anteriormente, vários autores estudaram as propriedades da distribuição em questão, dentre os quais se sobressaem, pelo aprofundamento da temática, Stacy & Mihram (1965), Prentice (1974), Valença (1994), Lawless (1980, 2003) e Khodabin & Ahmadabadi (2010). Temos que o r-ésimo momento, a média, variância e função geradora de momentos da distribuição GG, são dados, respectivamente, por: [ ] ( ( ) ( ) ) [ ( )] { } e [ ] ∑ ( ) Outras formas opcionais para escrever a função geradora de momentos podem ser encontradas em Pascoa (2012). Na Tabela 01 são apresentadas algumas das distribuições que são casos particulares da gama generalizada, seus respectivos parâmetros, média e variância. 8 Tabela 01: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, média e variância: Distribuição Média Variância Exponencial Rayleigh 2 Qui-quadrado √ √ 1 2 ( ) ) [ ( 2 Weibull ( ) ( ) { ( )] } Gama Log-normal [ Nota: representa o parâmetro de escala da distribuição de Rayleigh, distribuição qui-quadrado, e são dados, respectivamente, por: ] é o número de grau de liberdade da e (LAWLESS, √ 1980). A função de distribuição acumulada, de sobrevivência e taxa de falha ou risco são apresentadas a seguir: ( ) [ ( ) ] ∫ [ ( ) ] e ( ) ( ) ∫ em que, ∫ é a função gama incompleta definida em Abramowitz & Stegun (1972), que pode ser facilmente implementada em vários pacotes estatísticos como, por exemplo: R, SAS e Ox. No caso do Software R a função está implementada com o nome de Rgamma no pacote zipfR (EVERT & BARONI, 2007). Já a função de densidade de probabilidade, a função de sobrevivência e a função risco, estão implementadas no pacote VGAM (YEE, 2010) e 9 flexsurv (JACKSON, 2013). Na Tabela 02 estão as funções de sobrevivência e risco de alguns casos particulares dessa família paramétrica que a distribuição GG representa. Tabela 02: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, função de sobrevivência e risco: Distribuição [ ( )] Exponencial Rayleigh 2 Qui-quadrado 1 √ [ ( 1 √ ) ] ( ) [ 2 ( )] ( ) ∫ [ ( ) ] Weibull ( ) ( ) [ ( )] Gama ( ) ∫ Log-normal [ ] { √ ( ) } [ Nota: representa o parâmetro de escala da distribuição de Rayleigh, distribuição qui-quadrado, e são dados, respectivamente, por: 1980). ] é o número de grau de liberdade da e (LAWLESS, √ é a função distribuição acumulada da normal padrão. Como ilustração da flexibilidade da distribuição GG, seguem alguns gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição em questão. 10 Figura 02: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para caso exponencial: Figura 03: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para caso Weibull: 11 Figura 04: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para caso Gama: Figura 05: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da distribuição gama generalizada ( ) para outras formas: 12 2.4 Reparametrização Seja uma variável aleatória com distribuição gama generalizada com densidade dada pela expressão proposta por Stacy (1962). Prentice (1974) mostrou que a variável aleatória pode ser reescrita em função de outra variável aleatória variável , em que . Logo, a fica da seguinte forma: Sendo assim, tomando , têm-se que: ( e denote-se que ) tem distribuição log-gama generalizada com parâmetros tomando , têm-se que . Temos que tem distribuição log-gama com parâmetros e . Então, e , pois tem densidade, média e variância dada por: [ [ [ ] ] ] [ ] em que, e assintóticas ( representam respectivamente as funções digama e trigama ) (ABRAMOWITZ & STEGUN, 1972). Prentice (1974) também considerou um parâmetro de transformação pois quando a distribuição da variável aleatória normal, define um ponto distribuição normal é , tende para a distribuição log- , em que a distribuição de normal e mostra que o valor de , aproxima-se da distribuição para o qual a distribuição de mais se aproxima da . Considerando-se uma padronização da variável aleatória W, ao usar uma aproximação de primeira ordem para variância, isto é, tomando dado por √ , que é igual a quando , têm-se que o desvio padrão será . Portanto, segue a padronização: 13 Então, ao substituir a expressão de na de e tomando e têm- se que: Assim, pode-se rescrever a variável aleatória ( como: ) Portanto, a densidade de Y pode ser obtida como, [ ( em que | | ) ] é o jacobiano da transformação, pois ( Logo, substituído o ponto { ) [ ( na e são maiores que zero. , têm-se: ) ] [ ( Prentice (1974) estendeu esse modelo para valores de ) ]} . A densidade para este caso é dada por: { { √ em que, { ( [ ( ) ) ] [ ( ) ]} } , pois . Uma reparametrização alternativa foi proposta por Farewell & Prentice (1977) e por Lawless (1980), sendo que a média e a variância são aproximadas, respectivamente, pelo primeiro termo das expressões da [ ] e [ ], da seguinte forma: e 14 Assim, tem função de densidade, { { { √ } } Por outro lado, substituindo a expressão de a variável na equação , temos que pode ser escrita como, [ ] Então, tomando e têm-se que, com função de densidade dada por, { { { √ Se ( ) ( ) [ ( )]} } é uma variável aleatória com função de densidade de probabilidade dada pela expressão acima, então denota-se que com parâmetros tem distribuição log-gama generalizada estendida e . A média e a variância de [ ] [ { [ ] são dadas, respectivamente, por: ] { 15 A função de distribuição acumulada e de sobrevivência para distribuição gama generalizada estendida são, respectivamente, ∫ ( ) { } ∫ ( ) { } { ∫ ( ) { } ∫ ( ) { } { em que e é a função de distribuição da normal padrão. Considerando a mudança de variável na expressão de , têm-se que: ∫ ∫ { A função de sobrevivência ainda pode ser escrita considerando a função integral gama incompleta (ABRAMOWITZ & STEGUN, 1972) e fazendo . Então, seguem, respectivamente, a função integral gama incompleta e a função de sobrevivência da distribuição gama generalizada estendida, ∫ 16 { [ ( { { ( )]} [ ( )]} ) Como casos particulares do modelo gama generalizado estendido, temos os modelos exponencial ( reparametrizado ( ), de Weibull ( ), log-normal ( ) e gama generalizada ). Será tratado a seguir, o problema de estimação dos parâmetros da distribuição log-gama generalizada estendida que vem sendo utilizada para modelagem de dados, ao invés da gama generalizada, devido às simplificações na estimação dos parâmetros (VALENÇA, 1994) e (RIZZATO, 2006). 2.5 Estimação dos Parâmetros do Modelo Uma vez assumido que a distribuição geradora dos tempos de falha e/ou censura dos indivíduos observados na amostra é conhecida. Então o problema agora consiste na estimação de quantidades desconhecidas que estão atreladas a essa distribuição, estas quantidades denominam-se parâmetros. Por exemplo, considere que o tempo de falha/censura de um tipo de componente eletrônico tem distribuição exponencial com parâmetro , mas o valor exato de é desconhecido. Se o tempo de falha/censura de vários componentes de mesmo tipo são observados, e com estes ou outra fonte relevante de informação que esteja disponível, é possível fazer inferência sobre o valor desconhecido do parâmetro . Neste trabalho será utilizado o método de máxima verossimilhança para estimação dos parâmetros, pois este incorpora com facilidade a presença de dados censurados e possui propriedades ótimas em grandes amostras (COLOSIMO & GIOLO, 2006) e (VALENÇA, 2013). Intuitivamente o estimador de máxima verossimilhança consiste em gerar a estimativa do parâmetro que, à luz da amostra é o valor que tem maior probabilidade de gerar o resultado visto na mesma. Em outras palavras, é o valor ou o conjunto de valores que melhor explica a informação observada na amostra. 17 A seguir, serão definidos alguns conceitos relacionados ao método de máxima verossimilhança, a fim de que seja possível obter estimadores para os parâmetros. Definição (Função de verossimilhança): Suponha que os dados vetor aleatório são realizações de um com função de probabilidade ou densidade de probabilidade função de verossimilhança para , dados os valores observados é a função ( ). A ( ) (BOLFARINE & SANDOVAL, 2010) e (BONAT et al., 2012). Em outras palavras, a função de verossimilhança é dada pela expressão da distribuição conjunta de todas as variáveis aleatórias envolvidas no modelo, porém vista como função dos parâmetros, uma vez que os dados são observados, essas quantidades são fixas. Para cada particular valor do parâmetro, seja escalar ou vetor, a verossimilhança é uma medida de compatibilidade, plausibilidade ou similaridade com a amostra observada. No caso em que os elementos de são independentes, a função de verossimilhança é dada pela expressão do produto das funções de densidade de cada variável individualmente, ou seja, ( ) ∏ ( ) Definição (Estimador de máxima verossimilhança): É o valor de de verossimilhança ( que maximiza a função ) (BOLFARINE & SANDOVAL, 2010) e (BONAT et al., 2012). Como dito, a verossimilhança é uma medida de compatibilidade da amostra observada com um particular vetor de parâmetros. Desta forma, é natural definir como estimador para o vetor de parâmetros , aquele particular vetor, ̂, que tenha a maior compatibilidade com a amostra, ou seja, o vetor que maximiza a função de verossimilhança. De posse dos conceitos apresentados anteriormente considere dois cenários, para os quais deseja-se fazer a estimação dos parâmetros. Um deles consiste em analisar apenas tempos de falha e o outro, os tempos de falhas e censuras. Neste último caso, será considerado que o mecanismo gerador da censura é aleatório ou tipo I, o primeiro é mais conhecido como censura aleatória (VALENÇA, 2013). Para estes casos temos as respectivas funções de verossimilhança: 18 Função de verossimilhança: Sem censura Considere que, em um estudo de sobrevivência n ítens são colocados em teste e que, associado a cada ítem, têm-se uma v.a. que representa o tempo de vida. Sendo assim, a função de verossimilhança para o caso em que não há censura é dado por: ( ) ∏ ( ) Deve-se salientar que esta expressão mostra que a contribuição de cada observação, quando não tem censura, é a sua função de densidade. Função de verossimilhança: Com censura aleatória ou tipo I Agora considere que, em um estudo de sobrevivência, n ítens são colocados em teste e que associado a cada ítem, têm-se uma v.a. que representa tempo de vida ou tempo até a censura. Santos (2012) e Valença (2013) mostram que a função de verossimilhança que considera a presença de censura nos dados é dada por: ( em que, ) ∏[ é a função de densidade, ] [ ] é a função de sobrevivência e é o indicador de censura, definido da forma abaixo, { Note que a contribuição de cada observação censurada não é, contudo, a sua função de densidade, pois a informação que se tem em relação a um ítem censurado é que o seu tempo de vida/falha é maior que o observado. Desta forma, é plausível definir que a contribuição desses para verossimilhança será a função de sobrevivência. Note também que se for considerado que itens falharam então ∑ , logo têm-se censuradas. Nas condições apresentadas acima e considerando o logaritmo da função de verossimilhança, deseja-se encontrar os estimadores de máxima verossimilhança, ou seja, o vetor de valores que maximizam ( ) ou equivalentemente [ ( )]. Quando ( ) 19 for contínua e diferenciável os valores ̂ podem ser encontrados resolvendo o sistema de equações simultâneas: ( [ ( ) )] Com muita frequência, o sistema de equações apresentado acima não pode ser resolvido analiticamente e a obtenção dos estimadores de máxima verossimilhança requer a utilização de métodos interativos. Chambers (1977) descreve vários métodos que podem ser usados nesta situação. Uma técnica utilizada com bastante frequência é o Método de NewtonRaphson. 2.5.1 Distribuição Gama Generalizada Como citado anteriormente, existem algumas dificuldades para fazer a estimação dos parâmetros da distribuição proposta por Stacy (1962), o que não ocorre quando se utiliza a distribuição log-gama generalizada estendida, apresentada na subseção 2.4. Desta forma, ao considerar a densidade e a sobrevivência da log-gama generalizada estendida será tratado dois esquemas de estimação, em que um deles consiste no fato de levar em conta apenas tempos de falha e o outro caracteriza por incluir tempos de falha e censura. Função e estimador de máxima de verossimilhança: Sem censura Seja , uma amostra aleatória com distribuição log-gama generalizada estendida e vetor de parâmetros desconhecidos verossimilhança para . O logaritmo da função de é dado por: ( { ) [ [ ( ]} )] ∑{ ∑ ( ( ) ) [ ( )]} Para se obter os estimadores de máxima verossimilhança, basta resolver, simultaneamente, as equações: 20 ( ) ( ) ( ) ( ) { No caso de têm-se os estimadores de máxima verossimilhança da distribuição normal, ̃ √ ̅e ∑ ̅ Função e estimador de máxima de verossimilhança: Com censura aleatória ou tipo I Seja , uma amostra aleatória com distribuição log-gama generalizada estendida e vetor de parâmetros desconhecidos observação associa-se um indicador de censura , em que . A cada , isto é, { Então, o logaritmo da função de verossimilhança considerando censura aleatória ou tipo I, é dada por: { ( ) [ ( ∑ { ( ∑ { { ∑ { ∑ { ∑ { √ )] ∑ { ) ( [ ( ( { ( [ ( [ ( ) ] } ] ∑ [ ] ) [ ( )]}} ) [ ( )]}} )]}} { ) [ ∑ )]}} [ ( )] 21 2.5.2 Critério de informação Akaike Para seleção dos modelos, foi utilizado o Critério de Informação Akaike (AIC). Então, assumindo que um modelo é indexado pelo vetor de parâmetros , o critério AIC, definido por Akaike (1973) é dado pela expressão, [ ( )] em que representa o número de parâmetros que indexam o modelo . 22 3 Modelos com longa duração Na teoria de análise de sobrevivência usada com maior frequência, um dos principais pressupostos dos modelos paramétricos é que, se os indivíduos forem acompanhados pelo período suficiente de tempo, todos irão apresentar o evento de interesse (RODRIGUES et al., 2008). Ou seja, quando os tempos desses indivíduos tendem para o infinito, a probabilidade de não apresentarem o evento de interesse vai para zero ( ). Mas, do ponto de vista prático, em algumas situações não será razoável considerar tal pressuposto na análise dos dados, pois pode ocorrer que um percentual significativo dos indivíduos não apresente o evento em estudo. Neste contexto, surgiram os modelos conhecidos da literatura com o nome de modelos de sobrevivência com longa duração ou com fração de cura, que assumem que um percentual de indivíduos observados no estudo podem ser considerados curados ou imunes ao evento de interesse. Em outras palavras, mesmo que observado por um longo período de tempo estes indivíduos não apresentaram o evento. Como ilustração, considere os seguintes exemplos: em estudos da área médica um provável evento de interesse pode ser a recorrência de determinado tipo de câncer, em que, após aplicação de alguns tratamentos uma parte dos indivíduos em estudo pode não apresentar o retorno da doença, ou seja, estes podem ser considerados curados (o que justifica a denominação de modelos com “fração de cura”). Já em estudos da área de criminologia, um possível evento é o tempo até um ex-detento reincidir no crime, entretanto, alguns deles estarão reabilitados e não tornarão a cometer crimes. Um indicativo da presença de indivíduos imunes na população é a ocorrência de um alto percentual de censura à direita no fim do estudo. Mas, Maller e Zhou (1996) advertem que o tempo de acompanhamento deve ser suficientemente grande para que se possa ter indícios reais de que uma proporção dos indivíduos seja realmente imune ou curado. Uma forma de visualizar a possível existência de indivíduos imunes nos dados é construindo o gráfico da sobrevivência estimada pelo método não paramétrico de Kaplan & Meier (1958), pois quando a curva estimada se mantem a um nível aproximadamente constante e estritamente maior do que zero durante um período de tempo razoável, há fortes evidências de que existe uma proporção de indivíduos não susceptíveis ao evento de interesse. Segue, na Figura 06 um exemplo com dados referentes ao tempo até a recidiva do câncer de mama de 355 pacientes analisados por Macedo & Valença (2009) inicialmente. 23 Figura 06: Gráfico da estimativa da sobrevivência pelo método de Kaplan-Meier para dados referentes ao tempo até a recidiva do câncer de mama em 355 pacientes diagnosticadas e previamente tratadas no Hospital Prof. Dr. Luiz Antônio, Unidade I da Liga Contra o Câncer, Natal-RN, 19911995: Assim, modelar estes dados ignorando a existência de uma parcela de imunes na população pode conduzir o pesquisador a conclusões distorcidas. Desta forma, a fim de dar tal tratamento correto aos dados foram estudados os modelos com longa duração proposto por Boag (1949), Berkson & Gage (1952) e Yakovlev & Tsodikov (1996), considerando a proposta de unificação de Rodrigues (2008), os resultados apresentados por Lima (2008), Fonseca (2009), Guedes (2011) e Carneiro (2012) e o modelo log-gama generalizado estendido. 3.1 Modelo log-gama generalizada estendido com longa duração Nesta subseção, serão apresentados os modelos de mistura padrão log-gama generalizado e tempo de promoção log-gama generalizado, suas funções de densidade de probabilidade, sobrevivências, riscos e verossimilhanças. 24 3.1.1 Modelo de mistura padrão log-gama generalizado estendido Considerando a unificação proposta por Rodrigues et al. (2008) e a distribuição loggama generalizada estendida, temos que a função de sobrevivência, densidade e risco impróprias (com mistura padrão) são dadas por: e em que e são, respectivamente, a função de sobrevivência e densidade da distribuição log-gama generalizada estendida e é a proporção de indivíduos imunes ou curados. Temos que a função de verossimilhança e o logaritmo da função de verossimilhança para o modelo estudado são, respectivamente, dados por: ( ( ) { ∏ ) ∑ { ∑ { ∑ { ∑ { ∑ { [ ] [ { ( { { [ ( ) [ ( { √ ( ]} [ ( ∑ [ ; [ ( )]}} [ ( )]}} )]}} ) { ) ] )]}}} ( )] Para mais informações sobre a obtenção da função de verossimilhança consulte Rodrigues et al. (2008), Rizzato (2008), Guedes (2011) e Carneiro (2012). 25 3.1.2 Modelo de Tempo de promoção log-gama generalizado estendido Considerando a unificação proposta por Rodrigues et al. (2008) e a distribuição loggama generalizada estendida, temos que a função de sobrevivência, densidade e risco impróprias (caso tempo de promoção) são dadas por: { [ ]} e em que e são, respectivamente, a função de sobrevivência e densidade da distribuição log-gama generalizada estendida e é a proporção de indivíduos imunes ou curados. Temos que a função de verossimilhança e o logaritmo da função de verossimilhança para o modelo estudado são, respectivamente, dados por: ( ∑ ( ) { { ) ( ∏ [ { ) { [ ( )]}} ∑ { { [ ( )]}} ∑ { ∑ { [ ( )]} ∑ { [ ( )]} ∑ { √ [ { ) ( ) ] } ] ) [ ( )]}} ) [ ( )]}} ( ∑ { ( ] [ ( ∑ ( ) ∑ ; ( ) Para mais informações sobre a obtenção da função de verossimilhança consulte Rodrigues et al. (2008), Lima (2008), Fonseca (2009), Guedes (2011) e Carneiro (2012). 26 4 Aplicação Neste capítulo, considera-se a aplicação da metodologia descrita nas seções anteriores em dois conjuntos de dados reais, sendo uma destas bases fornecida por uma instituição financeira brasileira e a outra de dados coletados por Ibrahim et al. (2001) referente a pacientes com câncer de pele. Para análise dos dados serão consideras as rotinas em linguagem R apresentadas no Apêndice. Então, seguem as respectivas análises dos dados supracitados, salientando que, no presente estudo, não foram consideradas covariáveis nos modelos a serem ajustados. 4.1 Análise dos dados da instituição financeira O primeiro conjunto de dados a ser analisado representa 65.535 cadastros de clientes, em que o interesse é observar o tempo até que este deixe a instituição financeira, isto é, deixar de ter relacionamento com a empresa. A base de dados é composta por duas variáveis, uma representa o tempo e a outra o status, sendo que o status é descrito em duas categorias e neste caso é definido da seguinte forma: quando o indivíduo deixa a instituição o seu tempo é dito observado, já no caso em que o cliente é ainda ativo, o seu tempo é dito censurado. Para os dados disponibilizados, têm-se a presença de 41.787 censuras que representam 63,76% dos clientes, ou seja, há evidência de que uma proporção de indivíduos é imunes ao evento de interesse, que neste caso é interromper o relacionamento com a instituição. O tempo máximo observado no estudo foi 2.770 dias e o mínimo foi de 14 dias. Na tabela que segue têm-se um resumo descritivo do tempo segundo a variável “status”. Tabela 03: Resumo descritivo para os tempos até a interrupção do relacionamento com a instituição financeira segundo a variável “status”: Tempo (em dias) Medidas descritivas Observado Censurado Geral 14 60 14 Mínimo 93,75 1.399 653 1ª Quantil 316 1.399 1399 Mediana 497,4 1.385 1064 Média 941,5 1.399 1399 3ª Quantil 2.632 2.770 2770 Máximo Assim, foram ajustados os modelos de Berkson & Gage (1952) e Yakovlev & Tsodikov (1996) para os dados de sobrevivência na presença de longa duração. A seguir, são 27 apresentados os resultados dos ajustes aos dados, ao considerar a distribuição log-gama generalizada estendida para tempos de sobrevivência. Na Tabela 04, temos as estimativas dos parâmetros para estes modelos, os erros padrões das estimativas e os valores do Critério de Informação Akaike (AIC). Tabela 04: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão loggama generalizado estendido e tempo promoção log-gama generalizado estendido para os dados da instituição financeira: Modelo log-gama generalizado estendido Parâmetros Estimativas Erro padrão AIC 5,351910 0,027336 1,894641 0,009716 418190,6 -3,534891 0,053419 Modelo de mistura padrão gama generalizado estendido 5,351226 0,005104 1,894378 0,009717 418192,8 -3,536078 0,053431 0,000205 2,776977 Modelo de tempo de promoção gama generalizado estendido 7,187160 0,014460 11,378500 0,081606 418220,9 -21,74199 1,833708 <0,000000 6,013027 Pode-se observar na Tabela 04 que, quando considerado o modelo log-gama generalizado para análise dos dados, as estimativas dos parâmetros em relação ao modelo de mistura padrão log-gama generalizado são praticamente as mesmas, ou seja, dando indícios reais que não exista uma fração de indivíduos imunes. Além disso, têm-se evidência de que a proporção estimada de clientes ativos é aproximadamente zero, quando considerados os modelos com longa duração supracitados. No tocante da seleção do modelo, levando-se em consideração o Critério de Informação Akaike, o modelo log-gama generalizado estendido sem longa duração é o mais adequado para o ajuste dos dados. A figura abaixo mostra o gráfico da estimativa da curva de sobrevivência pelo método de Kaplan-Meier e pelos modelos citados na tabela acima, com suas respectivas estimativas dos parâmetros. 28 Figura 07: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de promoção log-gama generalizado estendido para os dados da instituição financeira: Desta forma, considerando o modelo log-gama generalizado estendido, foi estimada a função de risco, ao considerar as estimativas dos parâmetros apresentadas na Tabela 04. Observa-se que o risco do cliente em abandonar a instituição após um ano de contato, diminui significativamente e tende a zero ao longo dos dias. Figura 08: Função de risco ajustada através do modelo log-gama generalizado estendido para os dados da instituição financeira: 29 5.2. Análise dos dados de câncer de pele (IBRAHIM et al., 2001) O segundo conjunto de dados a ser analisado é parte de um estudo sobre melanoma cutâneo (câncer de pele). Os pacientes que foram incluídos no estudo no intervalo de tempo de 1991 a 1995, foram acompanhados até 1998. Os dados coletados por Ibrahim et al. (2001) representam os tempos de sobrevivência (ou morte/censura) de 417 pacientes. A base de dados é composta por duas variáveis, sendo que uma representa o tempo e a outra o “status”, que neste caso é descrito da seguinte forma, quando os pacientes veem a falecer o seu tempo é dito observado, já no caso em que o paciente estava vivo ao final do estudo ou saiu do tratamento antes de terminá-lo, o seu tempo é dito censurado. O percentual de observações censuradas foi de 56%. Ou seja, como a proporção de indivíduos censurada é relativamente alta, sugere que exista uma quantidade de pacientes que possam ser considerados curados (ou imunes) do câncer. O tempo máximo observado no estudo foi 7,01 anos e o mínimo foi de 0,15 anos. Na figura que segue estão apresentados o histograma e boxplot para tempos até o óbito ou censura dos pacientes diagnosticados com câncer de pele. Figura 09: Histograma e boxplot para os tempos até o óbito ou censura de 417 pacientes diagnosticados com câncer de pele (IBRAHIM et al., 2001): 30 Portanto, foram ajustados os modelos de Berkson & Gage (1952) e Yakovlev & Tsodikov (1996) para os dados de sobrevivência na presença de longa duração. A seguir, são apresentados os resultados dos ajustes aos dados, considerando a distribuição log-gama generalizada estendida para tempos de sobrevivência. Na Tabela 05 temos as estimativas dos para estes modelos, os erros padrões das estimativas e os valores do Critério de Informação Akaike. Tabela 05: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão gama generalizado estendido e tempo promoção log-gama generalizado estendido para os dados de câncer de pele: Modelo log-gama generalizado estendido Parâmetros Estimativas Erro padrão AIC 1,007554 0,194551 1,519981 0,055361 1063,857 -1,169060 0,318813 Modelo de mistura padrão gama generalizado estendido 0,652613 0,143455 0,761222 0,125513 1057,409 0,293462 0,288898 0,487532 0,082666 Modelo de tempo de promoção gama generalizado estendido 0,851048 0,128436 0,749907 0,160835 1057,159 0,370916 0,303077 0,483676 0,089932 Pode-se observar na Tabela 05 que, quando considerado o modelo log-gama generalizado para análise dos dados às estimativas dos parâmetros em relação ao modelo de mistura padrão log-gama generalizado são evidentemente diferentes, ou seja, dando indícios reais que exista uma fração de indivíduos curados em torno de 48%. No tocante à seleção do modelo e levando em consideração o Critério de Informação Akaike, o modelo de tempo de promoção log-gama generalizado estendido é o mais adequado para o ajuste dos dados, pois é o que tem menor valor AIC. A figura abaixo mostra o gráfico da estimativa da curva de sobrevivência pelo método de Kaplan-Meier e pelos modelos citados na tabela acima com suas respectivas estimativas dos parâmetros. Observe que a curva do modelo de tempo de promoção log-gama generalizado estendido é semelhante à curva do modelo de mistura padrão. 31 Figura 10: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de promoção log-gama generalizado estendido para os dados de câncer de pele: Assim, deve-se considerar o modelo de tempo de promoção log-gama generalizado para o ajuste dos dados de câncer de pele, pois este seria o mais adequado quando considerado o AIC. Mas, graficamente os modelos mistura padrão e tempo promoção se ajustam bem à curva empírica da sobrevivência. Portanto, considerando tal modelo, têm-se que aproximadamente 48,37% dos indivíduos estão livres da doença. 32 5 Considerações finais Neste trabalho monográfico foi estudado o modelo gama generalizado com longa duração, dando ênfase na abordagem unificada. Os modelos com longa duração foram destacados pelo fato de que estes possuem vantagem em relação aos modelos de análise de sobrevivência usuais, pois incorporam a possibilidade de cura. Além disso, foi estudada com bastante detalhamento a distribuição gama generalizada, desde a função distribuição proposta por Stacy (1962) até a reparametrização proposta por Farewell & Prentice (1977) e Lawless (1980). Para estimação dos parâmetros da distribuição gama generalizada foi considerada a distribuição log-gama generalizada estendida, pois quando ajustado este modelo os resultados são mais satisfatórios e não tem problemas de convergência nos algoritmos usados para a maximização da função de verossimilhança. Foram programadas rotinas em linguagem R (R DEVELOPMENT CORE TEAM, 2013) com auxilio do pacote flexsurv (JACKSON 2013) para fazer a estimação de tais parâmetros, rotinas estas que constituem uma grande contribuição para a análise de sobrevivência, uma vez que são relativamente simples e de fácil compreensão em relação às já disponíveis na literatura. No Apêndice, são apresentadas as rotinas para estimação dos parâmetros para as distribuições log-gama generalizado estendido, com longa duração dos tipos mistura padrão e tempo de promoção. Os resultados das aplicações foram satisfatórios, pois os modelos ajustados descrevem bem o comportamento dos dados quando comparados com a curva de sobrevivência estimada pelo método de Kaplan-Meier. Contudo, ainda deve-se realizar um estudo de simulação para verificar as propriedades dos estimadores dos parâmetros do modelo gama generalizado com longa duração quando considerados amostras pequenas. Desta forma, como proposta para trabalhos futuros pode-se pensar em um estudo de simulação. Além disso, explorar os efeitos de covariáveis na fração de cura e no tempo médio de vida dos itens e comparar com os resultados apresentados em Ortega et al. (2009) e Guedes (2011) para os dados de Ibrahim et al. (2001). 33 6 Referências ABRAMOWITZ, Milton; STEGUN, Irene A. Handbook of mathematical functions: with formulas, graphs, and mathematical tables. New York: Dover, 1972. 1045 p. ADAMIDIS, K.; LOUKAS, S.. A lifetime distribution with decreasing failure rate. Statistics & Probability Letters, Amsterdam, v. 39, n. 1, p.35-42, 15 jul. 1998. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0167715298000121>. Acesso em: 11 mar. 2013. BERKSON, J. e GAGE, R. P. The likelihood ratio, Wald, and Lagrange multiplier tests: an expository note. Journal of the American Statistical Association. 1952, p.501-515. BOAG, J. W. Maximum likelihhod estimates of the proportion of patients cured by cancer therapy. Journal of the Royal Statistical Society. 1949, p. 15-53. BOLFARINE, Heleno; SANDOVAL, Mônica Carneiro. Introdução à inferência estatística. 2ª ed. Rio de Janeiro: SBM, 2010. (coleção Matemática aplicada). BONAT, Wagner Hugo et al. Métodos Computacionais para Inferência com Aplicação em R. Piracicaba: Rbras, 2012. 161 p. Publicado na Reunião Anual da Região Brasileira da Sociedade Internacional de Biometria. CARNEIRO, Hérica Priscila de Araújo. Testes de Hipóteses em Modelos de Sobrevivência com Fração de Cura. Dissertação de mestrado em Estatística. Natal: UFRN, 2012. CHAMBERS, J. M. Computational Methods for Data Analysis. New York: Wiley, 1977. CHEN, M. H.; IBRAHIM, J. G.; SINHA, D. A new baysian model for survival data with a surviving fraction. Journal of the American Statistical Association, 94, p. 909-919, 1999. Christopher Jackson (2013). flexsurv: Flexible parametric version 0.2. http://CRAN.R-project.org/package=flexsurv. survival models. R package COLOSIMO, Enrico Antônio; GIOLO, Suely Ruiz. Análise de sobrevivência aplicada. São Paulo, SP: E. Bücher, 2006. 369 p. 34 CORDEIRO, Gauss M.; CASTRO, Mário de. A new family of generalized distributions. Journal Of Statistical Computation And Simulation, London, p. 883-898. 01 jul. 2011. Disponível em: <http://www.tandfonline.com/doi/abs/10.1080/00949650903530745>. Acesso em: 11 mar. 2013. FAREWELL, Vern T.; PRENTICE, Ross L. A Study of Distributional Shape in Life Testing. American Statistical Association and American Society for Quality, vol. 15, p 69-75, 1977. FONSECA, R. S. Modelos de Sobrevivência com Fração de Cura e Omissão nas Covariáveis. Biblioteca Digital de Teses e Dissertações da UFRN, 2009. GUEDES, Alysson Lívio Vasconcelos. Modelo de Tempo de Falha Acelerado com Fração de Cura: Uma abordagem unificada. 2011. 61 f. Dissertação (Mestre em Matemática Aplicada e Estatística) - Programa de Pós-graduação em Matemática Aplicada e Estatística, Universidade Federal do Rio Grande do Norte, Natal, 2011. IBRAHIM, J.G. et. al. Bayesian survival analysis. Encyclopedia of Biostatistics, 2001. KAPLAN, E. L.; MEIER, P. Noparametris estimation from incomplete observations. Journal of the American Statistical Association. p. 457-481, 1958. KHODABIN, Morteza; AHMADABADI, Alireza. Some properties of generalized gamma distribution. Mathematical Sciences, Iran, v. 4, n. 1, p.9-28, 2010. Disponível em: <http:// mathscience.kiau.ac.ir/Content/Vol4No1/2.pdf>. Acesso em: 11 mar. 2013. LAWLESS, J. F. Statistical models and methods for lifetime data. 2nd ed. Hoboken, N.J: Wiley-Interscience, 2003. 630 p. (Wiley series in probability and statistics) LAWLESS, J. F.. Inference in the Generalized Gamma and Log Gamma Distributions. Technometrics, Wisconsin, v. 22, n. 3, p.409-419, 01 ago. 1980. Disponível em: <http: //www.jstor.org/stable/2334737>. Acesso em: 11 mar. 2013. LIMA, Rafael Ribeiro de. Modelos de Sobrevivência com Fração de Cura e Erro de Medida nas Covariáveis. Dissertação de mestrado em Estatística. Natal: UFRN, 2008. 35 MACEDO, C.P.C.; VALENÇA, D.M.. Aplicação do Modelo de Cox Para Identificar Fatores de Risco em Pacientes com Câncer de Mama. Revista Brasileira de Estatística, 2009. MALLER, Ross A; ZHOU, Xian. Survival analysis with long-term survivors. Chichester Inglaterra: Wiley, c1996. 278 p. (Wiley Series in Probability and Statistics). NADARAJAH, S. On the use of the generalized gamma distribution. International Journal of Eletronic, New York, v. 95, p.1029-1032, 2008. ORTEGA, Edwin M. M.; CANCHO, Vicente G.; PAULA, Gilberto A.. Generalized loggamma regression models with cure fraction. Lifetime Data Analysis, New York, v. 15, p.79-106, 2009. PASCOA, Marcelino Alves Rosa de. Extensões da Distribuição Gama Generalizada: Propriedades e aplicações. 2012. 145 f. Tese (Doutor em Ciências) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba, 2012. Disponível em: <http://www.teses. usp.br/teses/disponiveis/11/11134/tde-30052012-091940/pt-br.php>. Acesso em: 11 mar. 2013. PRENTICE, R. L.. A Log Gamma Model and Its Maximum Likelihood Estimation. Biometrika, London, v. 61, n. 3, p.539-544, 01 dez. 1974. Disponível em: <http://www. jstor.org/stable/2334737>. Acesso em: 11 mar. 2013. STACY, E. W. A Generalization of the Gamma Distribution. The Annals Of Mathematical Statistics, Michigan, v. 33, n. 3, p.1187-1192, 1962. Disponível em: <http://www.jstor. org/stabl/2237889>. Acesso em: 11 mar. 2013. STACY, E. W.; MIHRAM, G. A.. Parameter Estimation for a Generalized Gamma Distribution. Technometrics, New York, v. 7, n. 3, p.349-358, 01 ago. 1965. Disponível em: <http://www.jstor.org/stable/1266594>. Acesso em: 11 mar. 2013. Evert, Stefan and Baroni, Marco (2007). “zipfR: Word frequency distributions in R.” In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Posters and Demonstrations Sessions, pages 29-32, Prague, Czech Republic. (R package version 0.6-6 of 2012-04-03). 36 R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/. RIZZATO, Fernanda Buhrer. Modelos de regressão log-gama generalizado com fração de cura. 2006. 73 f. Dissertação (Mestre em Agronomia) - Escola Superior de Agricultura Luiz de Queiroz, Piracicaba, 2007. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11 /11134/tde-19032007-152443/pt-br.php>. Acesso em: 11 mar. 2013. RODRIGUES, Josemar et al. Teoria Unificada de Análise de Sobrevivência. São Paulo: ABE, 2008. SANTOS, Paulo Cerqueira dos. Análise de Sobrevivência na presença de Censura Informativa. Dissertação de mestrado em Estatística. Belo Horizonte: UFMG, 2012. VALENÇA, Dione Maria. Análise de Sobrevivência. Natal-RN: Departamento de Estatística da UFRN, 2013. (Notas de aula). VALENÇA, Dione Maria. O Modelo de Regressão Gama Generalizada para Discriminar entre Modelos Paramétricos de Tempo de Vida. Dissertação de mestrado em Estatística. São Paulo: UNICAMP/IMECC, 1994. YAKOVLEV, A. Y.; TSODIKOV, A. D. Stochastic Models of Tumor Latency and Their Biostatistical Applications. World Scientific, New Jersey, 1996. Yee TW (2010). VGAM: Vector Generalized Linear and Additive Models. R package version 0.9-0, URL http://CRAN.R-project.org/package=VGAM. 37 7 Apêndice Nesta seção são apresentadas as rotinas utilizadas nas análises dos conjuntos de dados referenciados nos resultados. Com já enunciado, foi utilizado o pacote flexsurv (JACKSON, 2013), que está disponível no repositório do R Core Team (2013). Para ajustar os modelos estudados com o uso da função flexsurvreg é necessário que estejam disponíveis nos padrões do R Core Team (2013) as funções densidade de probabilidade, a função distribuição acumulada e uma lista de argumentos. Essa lista é composta por: nome da distribuição, nomes dos parâmetros, nome do parâmetro ao qual será indexado as possíveis covariáveis, funções especificando as transformações para os parâmetros, se for o caso, funções especificando transformações inversas para os parâmetros, se for o caso, e uma função dos tempos para que seja possível calcular chutes iniciais para os algoritmos de otimização. A função flexsurvreg utiliza o algoritmo optim para maximizar as funções de verossimilhança, desta forma, todos os argumentos desta classe podem ser passados como argumentos para o flexsurvreg. Segue os algoritmos considerados nesse estudo. Em caso de dúvidas, por favor, consultar o tutorial do pacote flexsurv ou enviar um e-mail para [email protected]. ############################################################## # Modelo de mistura padrão Gama Generalizado # Função densidade de probabilidade: dgengammaMP <- function(x, mu, sigma, Q, p , log.=FALSE){ ret <- (1-p)* dgengamma(x, mu, sigma, Q, log = FALSE) if(log.) return(log(ret)) else return(ret) } # Função de distribuição acumulada: pgengammaMP <- function(q, mu, sigma, Q, p , lower.tail = TRUE, log.=FALSE){ if (lower.tail) ret <- 1 - (p + (1-p) * pgengamma(q, mu, sigma, Q, lower.tail = FALSE, log.p = FALSE)) else ret <- p + (1-p) * pgengamma(q, mu, sigma, Q, lower.tail = FALSE, log.p = FALSE) if(log.) return(log(ret)) else return(ret) } # Lista de argumentos para função flexsurvreg: custom.gengammaMP <- list(name = "gengammaMP", pars = c("p","mu","sigma","Q"), location = c("mu"), transforms = c(function(x)log(x/(1x)), identity, log, identity), 38 inv.transforms = c(function(x)exp(x)/(1+exp(x)), identity, exp, identity), inits = function(t){ lt <- log(t[t > 0]) c(p, mean(lt), sd(lt), 0)}) ############################################################## # Modelo de tempo promoção Gama Generalizado # Função densidade de probabilidade: dgengammaTP <- function(x, mu, sigma, Q, p , log.=FALSE){ ret <- p*dgengamma(x, mu, sigma, Q, log = FALSE)* exp(-p*pgengamma(x, mu, sigma, Q, lower.tail = TRUE, log = FALSE)) if(log.) return(log(ret)) else return(ret) } # Função de distribuição acumulada: pgengammaTP <- function(q, mu, sigma, Q, p , lower.tail = TRUE, log.=FALSE){ if (lower.tail) ret <- 1 - exp(-p*pgengamma(q, mu, sigma, Q, lower.tail = TRUE, log.p = FALSE)) else ret <- exp(-p*gengamma(q, mu, sigma, Q, lower.tail = TRUE, log.p = FALSE)) if (log.) return(log(ret)) else return(ret) } # Lista de argumentos para função flexsurvreg: custom.gengammaTP <- list(name = "gengammaTP", pars = c("p", "mu", "sigma", "Q"), location = c("mu"), transforms = c(log, identity, log, identity), inv.transforms = c(exp, identity, exp, identity), inits = function(t){ lt <- log(t[t > 0]) c(p, mean(lt), sd(lt), 0)}) # Ajuste para o modelo de mistura padrão Gama Generalizado: p <- 1-mean(status)# Chute inicial para fração de curados ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist = custom.gengammaMP, method="BFGS") ajust 39 # Ajuste para o modelo de tempo promoção Gama Generalizado: p <- 1-mean(status)# Chute inicial para fração de cura ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist = custom.gengammaTP, method="BFGS") ajust Observação1: O chute inicial para fração de cura ou termo de longa duração é definido como uma variável global e é definido nas rotinas com a letra p. Lembrando, que no caso do modelo de tempo promoção a fração de cura é definida como sendo exp(-p). Observação2: Para o ajuste dos modelos foi utilizado o algoritmo “BFGS” do optim, pois no estudo de simulação este apresentou melhores resultados. Caso o algoritmo “BFGS” não esteja convergindo, um alternativa é usar outros algoritmos para maximização da função de verossimilhança ou adicionar aos argumentos do flexsurvreg o comando control = list(fnscale = 2500), como segue abaixo. p <- 1-mean(status)# Chute inicial para fração de curados ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist = custom.gengammaTP, method="BFGS", control = list(fnscale = 2500)) ajust 40