INTRODUÇÃO À ANÁLISE DE SOBREVIVÊNCIA E CONFIABILIDADE Fulano de Tal1 Beltrano da Silva2 Cleber Giugioli Carrasco3* 1 Bolsista PIBIC/CNPq 2 Bolsista PBIC/UEG 3 Orientador – Curso de Matemática – Unidade Universitária de Ciências Exatas e Tecnológicas – UEG •e-mail: [email protected] UNIVERSIDADE ESTADUAL DE GOIÁS UNIVERSIDADE ESTADUAL DE GOIÁS INTRODUÇÃO RESULTADOS E DISCUSSÃO Análise de Sobrevivência é o estudo de dados relacionados ao tempo até a ocorrência de um determinado evento de interesse (falha), a partir de um tempo inicial até um tempo final (tempo de falha). A análise de sobrevivência e confiabilidade é uma das áreas da estatística que mais tem crescido nos últimos anos, uma evidência quantitativa deste sucesso é o número de aplicações de análise de sobrevivência na área médica e industrial. Na medicina, além do tempo até o falecimento do paciente, estuda-se entre outros, o tempo até a ocorrência de uma determinada doença ou complicação da mesma, tempo de duração da doença, tempo até a cura, etc. Condições similares ocorrem em outras áreas do conhecimento, como, por exemplo, na engenharia, onde são comuns os estudos para determinar se certo produto dura mais do que tantos anos. Essa área é denominada Confiabilidade. Em análise de sobrevivência e confiabilidade é comum termos a presença de censuras nos dados. Vários fatos podem colaborar para a ocorrência de censuras. Entre outros podemos citar, o evento de interesse pode não ocorrer até o final do tempo de estudo, devido a diversas peculiaridades como, por exemplo, o abandono de pacientes antes do término da pesquisa ou a falha de um determinado componente devido a outras causas não consideradas no estudo. Estes fatos comprometem a observação do tempo de vida para alguns indivíduos. Portanto, a necessidade da introdução de uma variável que indique se o tempo de vida foi ou não observado se faz necessária. Essa variável é definida na literatura como variável indicadora de censura ou simplesmente censura. Neste trabalho faz-se uma pequena introdução à análise de sobrevivência e confiabilidade, apresentando a função de sobrevivência e a função de risco. Também apresentamos um método não-paramétrico de estimação da função de sobrevivência conhecido como estimador de Kaplan-Meier. Exemplos numéricos ilustram a metodologia adotada. Consideremos o exemplo extraído de Colosimo (2001), onde o fabricante de um tipo de isolador elétrico quer conhecer o comportamento de seu produto funcionando na temperatura de 200ºC. Um teste de vida foi realizado nestas condições usando 60 isoladores elétricos. O teste terminou quando 45 deles haviam falhado, e os tempos (horas) das falhas foram: 151, 164, 336, 365, 403, 454, 455, 473, 538, 577, 592, 628, 632, 647, 675, 675, 727, 785, 801, 811, 816, 867, 893, 930, 937, 976, 1008, 1040, 1051, 1060, 1183, 1329, 1334, 1379, 1380, 1633, 1769, 1827, 1831, 1849, 2016, 2282, 2415, 2430, 2686, 2729. As 15 unidades que não haviam falhado foram censuradas em t = 2729. Dessa forma temos as funções de sobrevivência dos modelos exponencial, weibull e log-normal dadas abaixo por: MATERIAL E MÉTODO Seja T uma variável aleatória não-negativa a qual representa o tempo de falha, tal variável é usualmente especificada pela sua função de sobrevivência ou função de taxa de falha (ou risco). A seguir apresentamos estas duas funções e apresentaremos o estimador de Kaplan-Meier. Sˆ ( t ) exp( t / 2018 ) exponencia ti 151 164 336 365 403 454 455 473 538 577 592 628 632 647 675 727 785 801 811 816 867 893 930 (1) A Tabela 1 apresenta algumas funções de sobrevivência que podem ser expressas analiticamente e que são normalmente utilizadas em análise de sobrevivência e confiabilidade. Tabela 1: Algumas funções de sobrevivência paramétricas. F u n ç ã o d e S o b re v iv ê n c ia E x p o n e n c ia l e lo g t / L o g -N o rm a l * * é a função distribuição acumulada de uma normal padrão. • A Função de Risco A função de risco, representada por h(t), especifica a taxa de falha instantânea no tempo t condicionada à sobrevivência até o tempo t e é dada por (Cox & Oakes, 1984): t 0 t . K -M 0 ,9 8 3 0 ,9 6 7 0 ,9 5 0 0 ,9 3 3 0 ,9 1 7 0 ,9 0 0 0 ,8 8 3 0 ,8 6 7 0 ,8 5 0 0 ,8 3 3 0 ,8 1 7 0 ,8 0 0 0 ,7 8 3 0 ,7 6 7 0 ,7 5 0 0 ,7 3 3 0 ,7 1 7 0 ,7 0 0 0 ,6 8 3 0 ,6 6 7 0 ,6 5 0 0 ,6 3 3 0 ,6 1 7 E xp. 0 ,9 2 8 0 ,9 2 2 0 ,8 4 7 0 ,8 3 5 0 ,8 1 9 0 ,7 9 9 0 ,7 9 8 0 ,7 9 1 0 ,7 6 6 0 ,7 5 1 0 ,7 4 6 0 ,7 3 3 0 ,7 3 1 0 ,7 2 6 0 ,7 1 6 0 ,6 9 7 0 ,6 7 8 0 ,6 7 2 0 ,6 6 9 0 ,6 6 7 0 ,6 5 1 0 ,6 4 2 0 ,6 3 1 W e ib . 0 ,9 6 4 0 ,9 6 0 0 ,9 0 3 0 ,8 9 3 0 ,8 7 9 0 ,8 6 1 0 ,8 6 0 0 ,8 5 4 0 ,8 3 0 0 ,8 1 5 0 ,8 1 0 0 ,7 9 6 0 ,7 9 5 0 ,7 8 9 0 ,7 7 9 0 ,7 6 0 0 ,7 3 9 0 ,7 3 3 0 ,7 2 9 0 ,7 2 7 0 ,7 0 9 0 ,6 9 9 0 ,6 8 6 L n or. 0 ,9 9 0 0 ,9 8 7 0 ,9 3 1 0 ,9 1 8 0 ,9 0 1 0 ,8 7 8 0 ,8 7 7 0 ,8 6 9 0 ,8 3 8 0 ,8 1 9 0 ,8 1 2 0 ,7 9 5 0 ,7 9 3 0 ,7 8 6 0 ,7 7 2 0 ,7 4 8 0 ,7 2 2 0 ,7 1 5 0 ,7 1 0 0 ,7 0 8 0 ,6 8 6 0 ,6 7 5 0 ,6 5 9 ti 937 976 1008 1040 1051 1060 1183 1329 1334 1379 1380 1633 1769 1827 1831 1849 2016 2282 2415 2430 2686 2729 K -M 0 ,6 0 0 0 ,5 8 3 0 ,5 6 7 0 ,5 5 0 0 ,5 3 3 0 ,5 1 7 0 ,5 0 0 0 ,4 8 3 0 ,4 6 7 0 ,4 5 0 0 ,4 3 3 0 ,4 1 7 0 ,4 0 0 0 ,3 8 3 0 ,3 6 7 0 ,3 5 0 0 ,3 3 3 0 ,3 1 7 0 ,3 0 0 0 ,2 8 3 0 ,2 6 7 0 ,2 5 0 E xp. 0 ,6 2 9 0 ,6 1 6 0 ,6 0 7 0 ,5 9 7 0 ,5 9 4 0 ,5 9 1 0 ,5 5 6 0 ,5 1 8 0 ,5 1 6 0 ,5 0 5 0 ,5 0 5 0 ,4 4 5 0 ,4 1 6 0 ,4 0 4 0 ,4 0 4 0 ,4 0 0 0 ,3 6 8 0 ,3 2 3 0 ,3 0 2 0 ,3 0 0 0 ,2 6 4 0 ,2 5 9 W e ib . 0 ,6 8 4 0 ,6 7 0 0 ,6 5 9 0 ,6 4 8 0 ,6 4 4 0 ,6 4 1 0 ,5 9 9 0 ,5 5 2 0 ,5 5 0 0 ,5 3 6 0 ,5 3 6 0 ,4 6 1 0 ,4 2 4 0 ,4 0 9 0 ,4 0 8 0 ,4 0 3 0 ,3 6 3 0 ,3 0 4 0 ,2 7 8 0 ,2 7 6 0 ,2 3 1 0 ,2 2 4 L n or. 0 ,6 5 6 0 ,6 4 0 0 ,6 2 7 0 ,6 1 5 0 ,6 1 1 0 ,6 0 7 0 ,5 6 2 0 ,5 1 4 0 ,5 1 2 0 ,4 9 8 0 ,4 9 8 0 ,4 2 8 0 ,3 9 5 0 ,3 8 2 0 ,3 8 1 0 ,3 7 7 0 ,3 4 3 0 ,2 9 7 0 ,2 7 6 0 ,2 7 4 0 ,2 4 0 0 ,2 3 5 A Figura 1 abaixo, apresenta um indicativo de que o modelo log-normal se ajusta melhor ao conjunto de dados do que os outros dois modelos propostos: weibull e exponencial. (2) 1.0 h t lim P t T t t / T t (6) S obrevivência 0.8 Devido a sua interpretação, a função de risco tem sido preferida por muitos autores, uma vez que ela descreve como a probabilidade instantânea de falha se modifica com o passar do tempo. Além disso, através da função de risco podemos obter classes especiais de distribuições de sobrevivência. Por exemplo, a distribuição exponencial acomoda funções de riscos constantes, isto é, h(t)=1/μ, enquanto que se a função de risco for monotonicamente decrescente ou crescente em t, temos uma distribuição de Weibull (Lawless, 1982). As distribuições log-normal e log-logística acomodam funções de risco unimodais (Kalbfleish & Prentice, 1980). A Tabela 2 apresenta algumas funções de risco que podem ser expressas analiticamente e que são comumente utilizadas em análise de sobrevivência paramétrica. 0.6 e t t Sˆ ( t ) [ (log( t ) 7 , 225 ) / 0 ,95 ] log - normal 0.4 W e ib u ll (5) Tabela 3: Estimativas da função de sobrevivência para os modelos exponencial, weibull, log-normal e para estimador de Kaplan-Meier. A função de sobrevivência S(t) é definida como a probabilidade de uma observação não falhar até um certo tempo t. Desta forma, podemos escrever S(t) como: D istrib u iç ã o 1 , 28 ˆ S ( t ) exp[ ( t / 1994 ) ] weibull A Tabela 3 apresenta os resultados das estimativas para a função de sobrevivência através do estimador de Kaplan-Meier e, através dos modelos paramétricos ajustados: exponencial, weibull e log-normal. Por exemplo no tempo t = 403, temos que a estimativa de Kaplan-Meier é de 0,917, enquanto que as estimativas dos modelos ajustados log-normal, weibull e exponencial são 0,901; 0,879 e 0,819, respectivamente. • A Função de Sobrevivência S t P T t . (4) l 0.2 Tabela 2: Algumas funções de risco paramétricas. F u n ção d e R is c o E x p o n en cial 1 0.0 D istrib u ição 0 t W eib u ll 1 L o g -L o g ístic a t 1 2000 2500 3000 CONCLUSÕES • Estimador de Kaplan-Meier Considere um estudo envolvendo n indivíduos, e que os tempos (não censurados) de sobrevivência (distintos), são ordenados, isto é, t(1) < t(2) < ... < t(r). Note que r n (no caso em que o conjunto de dados não apresenta nenhum valor repetido e nenhum valor censurado temos r = n). O estimador de Kaplan-Meier é dado por: ni d i n i / ti t i 1500 Figura 1: Gráfico da Função de Sobrevivência para os Modelos exponencial(verde), weibull(vermelha),log-normal(azul) e para o estimador de Kaplan-Meier(preta). A função de risco do modelo log-normal não pode ser escrita analiticamente. Sˆ ( t ) 1000 te m p o t 500 di 1 , n i i / ti t onde: di: número de falhas no tempo ti; ni: número de observações sob risco (não falhou e não foi censurado) até o tempo ti (exclusive). (3) Neste trabalho introduzimos o conceito de análise de sobrevivência e confiabilidade, apresentando as definições das funções de sobrevivência e de risco. Também, apresentamos algumas funções paramétricas de sobrevivência e de risco que são comumente utilizadas em análise de sobrevivência e confiabilidade. Para o exemplo extraído de Colosimo (2001), modelamos os dados através da função de sobrevivência paramétrica, onde podemos observar (Figura 1) que há um indicativo de que o modelo log-normal se ajusta melhor aos dados, do que os modelos exponencial e weibull. REFERÊNCIAS BIBLIOGRÁFICAS 1. Cox, D. R. Oakes, D. Analysis of Survival Data. London: Chapman and Hall, 1984. 201p. 2. Colosimo, E. A. Análise de Sobrevivência Aplicada. 46ª Rbras. 2001. 145p. 3. Kalbfleisch, J.D., Prentice, R.L. The Statistical Analysis of Failure Time Data. New York: Wiley, 1980. 4. Kaplan. E.L. and Meier P.,”Nonparametric estimation from incomplete observations”, Journal American Statistical Association, 53, 1958. 5. Lawless, J.F. Statistical Models and Methods for Lifetime Data. New York: Wiley, 1982. 580p.