ANÁLISE ESTATÍSTICA DE SOBREVIVÊNCIA: UM ESTUDO COM PACIENTES COM CÂNCER DE MAMA Kelly Araújo César1 Universidade Católica de Brasília Resumo Este trabalho apresenta a análise estatística de sobrevivência. Essa estima o risco de falha ou morte ao longo do tempo, que é gerado por meio da estimativa da função de sobrevivência. Pode-se definir os experimentos com tempos de vida, que são variáveis aleatórias representando os tempos desde o início do experimento até a ocorrência de um evento de interesse. Utilizando técnicas em Análise de Sobrevivência, foram realizadas análises nãoparamétricas via Kaplan-Meier e Tabela de Vida para o estudo do tempo de vida de um grupo de pacientes com câncer de mama, no período de 1929 a 1938 (Elisa, 1992). Palavras-chave: análise de sobrevivência; métodos não-paramétricos; função de confiabilidade. 1. INTRODUÇÃO A Análise Estatística de Sobrevivência é um método estatístico usado para análise de dados de sobrevivência derivados de estudos de laboratórios, ou seja, ela estuda, por exemplo, o tempo em que um indivíduo sobrevive a um determinado tratamento e o tempo de resposta a um dado tratamento e por meio desta análise, buscam novos produtos farmacêuticos e tratamentos mais adequados de acordo com cada situação. Os mesmos métodos são adequados para aplicações na confiabilidade industrial, ciências sociais e negócios, e neste caso leva o nome de Teoria da Confiabilidade. Em todos os casos defini-se falha e consideram-se os tempos entre falhas. Falhas na sobrevivência pode ser morrer, recair, recuperar, etc, e na confiabilidade pode ser falha de itens eletrônicos, um mau funcionamento especificado de um produto, entre outros. Os tempos entre falhas são variáveis aleatórias e por isso um dos objetivos dessa análise é estimar a função de distribuição de probabilidade deste variável, chamada função de sobrevivência utilizando para isto a Tabela de vida e o Estimador de Kaplan-Meier. A Tabela de Vida consiste em dividir o eixo do tempo em certo número de intervalos, o que facilita a realização dos cálculos quando há uma amostra grande. Já o estimador de KaplanMeier considera tantos intervalos quanto forem o número de falhas distintas, o que possibilita maior precisão nos cálculos. Para a compreensão da aplicação, descrevemos primeiramente uma breve fundamentação teórica que irá dar alguns conceitos, explicações e fórmulas. 1 Licenciada do Curso de Matemática da Universidade Católica de Brasília A aplicação apresenta dados reais sobre um grupo de pacientes com câncer nos seios (Elisa, 1992). Uma análise de sobrevivência foi realizada para responder o tempo médio de vida desses pacientes, a proporção de sobrevivência em períodos especificados, a variância dessas estimativas, o número médio de dias para o qual 10% terão morrido. Por último foi comparado o método da tabela de vida com o estimador de Kaplan-Meier. 2. PRELIMINARES A Análise Estatística de Sobrevivência utiliza dados que envolvem tempo para um certo evento, (como morrer, recair, recuperar), ou seja, ela estuda o tempo em que um indivíduo sobrevive a um determinado tratamento, o tempo de resposta a um dado tratamento, o tempo em que um indivíduo desenvolveu uma doença, etc. Podemos exemplificar, considerando a análise da sobrevivência de pacientes infectados com um vírus letal, considerando que após ser aplicado uma determinada medicação e sabendo que o tempo de sobrevivência está sendo registrado em dias, o método pode responder: Qual o número médio de dias completados até a morte de um indivíduo? Qual a porcentagem de mortes esperada conferindo dois anos de medicação? Qual o número de dias para o qual 10% dos indivíduos terão morrido? Por meio desta análise é possível verificar e eficiência dos tratamentos, desenvolver novos produtos farmacêuticos, selecionar o tratamento mais adequado para cada situação, de acordo com os resultados obtidos nas pesquisas. O método estatístico abordado é não-paramétrico (não é necessário especificar a distribuição de probabilidade), sendo estes, a Tabela de Vida e Estimador de Klapan-Meier. Para uma melhor compreensão deste estudo, a seguir, temos uma breve fundamentação teórica. Definição 2.1. Análise de Sobrevivência (ou Teoria da Confiabilidade) é um método estatístico usado para análise de dados de sobrevivência derivados de estudos de laboratórios (muitas vezes com animais) ou de clínicas relacionadas a doenças agudas severas ou fatais. Definição 2.2. Tempo de Sobrevivência em geral, é definido como o tempo de ocorrência de um dado evento. Este evento pode ser o desenvolvimento de uma doença, resposta a um tratamento, uma recaída, ou morte. Tempos de Sobrevivência são também referenciados como Dados de Sobrevivência, Observações exatas ou ainda Observações não Censuradas. Definição 2.3. Falha ou morte é a ocorrência de um determinado evento, que pode ou não ser pré-estabelecido no início da pesquisa. Por exemplo, uma falha pode ser a morte de um ser em estudo ou uma recaída, mas também pode ser considerada como a melhora do quadro clínico do paciente. Definição 2.4. Dados Censurados ocorrem, quando alguns sujeitos em estudo não “terminam” o evento de interesse, ou seja, falham até o fim do estudo ou tempo de análise. Por exemplo, alguns pacientes podem ainda estar vivos ou em remissão no final do período de estudo. Os exatos tempos de sobrevivência destes sujeitos não são conhecidos. Estes dados são também chamados observações censuradas ou tempos censurados. Existem três tipos de censuras: A Censura Tipo I é aquela, onde o teste será terminado após um período pré-estabelecido de tempo. Neste caso o estudo é iniciado com um número fixo de pessoas (ou quaisquer seres vivos). O tempo de sobrevivência (desde o início do experimento até a falha) é registrado, ou seja, é obtida uma observação exata ou não censurada. O tempo de sobrevivência dos seres que ainda não morreram até o término do estudo não será conhecido, por isso é registrado o período mínimo observado, isto é, a observação censurada. A Censura Tipo II é aquela, onde o teste será terminado após ter ocorrido a falha em um número pré-estabelecido de seres sob teste. Trata-se de esperar até que uma parte pré-estabelecida dos seres morra. Dos sobreviventes são então extraídas as observações censuradas. Na Censura Tipo III o período de estudo é fixado e os seres entram no estudo em diferentes tempos durante aquele período. Alguns podem morrer antes do fim do estudo e os tempos de sobrevivência exatos deles são conhecidos. Outros podem ser retirados antes do final do estudo e assim, são perdidas as respostas. E ainda tem aqueles que podem estar vivos no final do estudo. Para a “perda” de pacientes, tempos de sobrevivência é o mínimo desde a entrada deles até o último contato. E para aqueles ainda vivos, tempo de sobrevivência é o mínimo da entrada até o final do estudo. Estes dois últimos gêneros constituem as observações censuradas. Observação: O sinal de “+” é usado como notação de uma observação censurada. Exemplo, 19+, isto quer dizer, que uma censura ocorre com 19 meses ou com 19 dias, etc. Podemos perceber que o tempo de sobrevivência está sujeito a variações aleatórias, e como toda variável aleatória, possui uma distribuição. A distribuição do tempo de sobrevivência é geralmente caracterizada por três funções: (a) função de sobrevivência, (b) função densidade de probabilidade e (c) função de risco. Denotando a variável aleatória tempo de sobrevivência por T, temos: 1) Função de Sobrevivência (S(t) ou R(t)) é definida como a probabilidade que um indivíduo sobreviva além de t: S (t ) = P (T > t ) = 1 − P (T ≤ t ) = 1 − F (t ), onde F(t) é a função de distribuição acumulada. Neste caso F(t) representa a probabilidade de morte até o tempo t. Temos que, S(0)=1 e lim S (t ) = 0 t →∞ Na prática, se não existem observações censuradas, a função de sobrevivência é estimada da seguinte forma: número _ de _ pacientes _ que _ sobrevivem _ após _ t Sˆ (t ) = número _ total _ de _ pacientes (proporção de sujeitos que sobreviveram após t). 2) Função Densidade de Probabilidade (f(t)) é a probabilidade, de morte (ou falha) em um pequeno intervalo por unidade de tempo. P(t < T < t + ∆ t ) f (t ) = lim . ∆ t →0 ∆t Na prática, se não existirem observações censuradas a função f(t) é estimada por: número _ de _ pacientes _ que _ morrem _ no _ int ervalo _ de _ 0 _ a _ t fˆ (t ) = (número _ total _ de _ pacientes ) (comprimento _ int ervalo) 3) Função de Risco (h(t)) é a probabilidade que um indivíduo morra em um intervalo muito curto de tempo, dado que o indivíduo sobreviveu até o início do intervalo. P(t ≤ T < t + ∆ t T ≥ t ) h(t ) = lim . ∆ t →0 ∆t Na prática quando não existirem observações censuradas, a função h(t) é estimada por: n º _ de _ pacientes _ que _ morreram _ no _ int ervalo _ que _ inicia _ em _ t hˆ(t ) = = (n º _ de _ pacientes _ que _ sobreviveram _ até _ t ).(comprimento _ do _ int ervalo) = número_ de _ pacientes_ que _ morrem_ por _ unidade_ de _ tempo _ no _ int ervalo número _ de _ pacientes_ que _ sobreviveram _ até _ t 3. ESTIMAÇÃO DA FUNÇÃO DE SOBREVIVÊNCIA NA PRESENÇA DE CENSURA 3.1- Tabela de Vida A Tabela de Vida ou Método Atuarial é uma das mais antigas técnicas estatísticas utilizadas para estimar características associadas à distribuição dos tempos de falha. A construção de uma Tabela de Vida consiste em dividir o eixo do tempo em certo número de intervalos. Para cada um dos intervalos estima-se para qˆ (t i ) a probabilidade de um item falhar no intervalo [t i −1 , t i ) . qˆ (t i ) = número _ de _ falhas _ no _ int ervalo [t i −1 , t i ) número _ sob _ risco _ em t i −1 − (número _ censurado _ em [t i −1 , t i )) / 2 Um ser está sob risco no tempo t se ainda não falhou ou não foi censurado até este tempo. A explicação para a segunda parte do denominador, é que seres para os quais a censura ocorreu no intervalo [t i −1 , t i ) são tratados como se estivessem sob risco durante a metade do intervalo considerado. Observe que, dado que o ser não morreu até t i −1 , a sua probabilidade de morrer no intervalo [t i−1 , t1 ) é qi , e conseqüentemente a probabilidade de não morrer é 1 − q i . Identificação dos itens da tabela: O termo t j (medido em dias, semanas, meses, horas e etc) é utilizado para identificar o tempo percorrido desde o início da observação, sendo que t 0 é o tempo inicial da pesquisa e t n é o tempo final. O número de pacientes que estão sob risco é denotado por n0 , sendo este o número total de pacientes no início da pesquisa. As falhas ou mortes do estudo de pesquisa são abordadas, por intervalo. Assim denotamos d 0 como sendo o número de falhas ou mortes ocorridos no intervalo [t 0 − t1 ). As censuras, também são abordadas por intervalo e denotada por c j . Em relação a probabilidade de morte no período de tempo, é expresso como q̂ j . E a proporção condicional de sobrevivência é denotada como Rˆ (t ) . j Na Tabela 1, encontramos as estimativas da tabela de vida para o caso geral. Tabela 1: Estimativas da Tabela de Vida t j (tempo) t 0 t1 t1 t 2 n j (risco) n0 n 0 − d 0 − c 0 = n1 d j (falhas ou mortes) (probabilidade de morte no tempo) período de Rˆ (t j ) -% cj censura (proporção condicional de sobrevivência) d0 d0 = q0 n0 − (c0 ÷ 2) c0 100 d1 d1 = q1 n1 − (c1 ÷ 2) c1 100 − q0 = r0 dn dn = qn nn − (c n ÷ 2) cn rn −1 − q n = rn nn−1 − dn−1 −cn−1 = nn t n −1 t n q̂ j -% O método da Tabela de Vida normalmente utiliza poucos intervalos, e isso nos dá uma aproximação grosseira da verdadeira proporção condicional e da taxa de mortos/falhas. Uma forma de minimizar este problema é usar o Estimador de Klapan-Meier. 3.2- O Estimador de Kaplan-Meier O Estimador de Kaplan-Meier na sua construção considera tantos intervalos de tempo, quanto forem o número de falhas distintas. Ele é definido da seguinte forma: Suponha que existem n itens sob teste e K (≤ n) falhas distintas nos tempos t1 < t 2 < < t k Ocasionalmente, pode ocorrer mais de uma falha no mesmo tempo, o que é chamado de empate. Desta forma, usamos a seguinte notação: d j : número de falhas no tempo t j ; n j : número de itens sob risco (não falhou e não foi censurado) em t j (exclusive). O estimador de Kaplan-Meier de Rˆ (t j ) é definido como: Rˆ (t ) = ((n1 − d1 ) / n1 )((n2 − d 2 ) / n2 ))...((nt0 − d t0 ) / nt0 ) onde t 0 é o maior tempo de falha menor que t. Na Tabela 2, encontramos o estimador de Kaplan-Meier para o caso geral. Tabela 2: Estimador de Kaplan-Meier nj (risco) n0 Rˆ (t j ) (proporção condicional de sobrevivência) 0 T1 c1 d1 n0 − c1 − 0 = n1 ((n1-d1)/n1)=r1 T2 c2 d2 n1 − c2 − d1 = n2 r1((n2-d2)/n2)=r2 tn cn dn n(n−1) −cn −d(n−1) =nn 100% ... 0 ... 0 ... dj (falhas ou mortes) ... cj (censuras) ... tj r(n-1)((nn-dn)/nn)=rn Tanto os estimadores da tabela de vida quanto o de Kaplan-Meier, são sujeitos a variação amostral e, então, é desejável que tenhamos uma idéia de sua precisão. Uma estimativa para a variância do estimador de Kaplan-Meier é dada por: Var ( Rˆ (t )) = Rˆ (t ) 2 [(d1 / n1 (n1 − d1 )) + (d 2 / n2 (n 2 − d 2 )) + ... + (d t0 / nt0 (nt0 − d t0 ))] onde t 0 é o maior tempo de falha menor que t . Esta expressão é conhecida como fórmula de Greenwood. Se a variação for pequena, mais preciso será o cálculo. 3- APLICAÇÃO Os dados abaixo representam os tempos de sobrevivência de um grupo de 121 pacientes com câncer de mama obtidos de um grande hospital num período de 1929 a 1938. Os tempos de vida são dados em meses e as observações censuradas têm um sinal “+”. (Elisa, 1992). 0.3 0.3+ 4+ 5 5.6 6.2 6.3 6.6 6.8 7.4+ 7.5 8.4 8.4 10.3 11 11.8 12.2 12.3 13.5 14.4 14.4 14.8 15.5+ 15.7 16.2 16.3 16.5 16.8 17.2 17.3 17.5 17.9 19.8 20.4 20.9 21 21 21.1 23 23.4+ 23.6 24 24 27.9 28.2 29.1 30 31 31 32 35 35 37+ 37+ 37+ 38 38+ 38+ 39+ 39+ 40 40+ 40+ 41 41 41+ 42 43+ 43+ 43+ 44 45+ 45+ 46+ 46+ 47+ 48 49+ 51 51 51+ 52 54 55+ 56 57+ 58+ 59+ 60 60+ 60+ 61+ 62+ 65+ 65+ 67+ 67+ 68+ 69+ 78 80 83+ 88+ 89 90 93+ 96+ 103+ 105+ 109+ 109+ 111+ 115+ 117+ 125+ 126 127+ 129+ 129+ 139+ 154+ Na Tabela 3, apresentamos a tabela de Kaplan-Meier, observando a mesma podemos estimar as probabilidades de sobrevivência em 1 e 5 anos. Considerando que um mês tem 30 dias. Aplicando a fórmula do estimador de Kaplan-Meier temos que, a estimativa de sobrevivência em t = 1 ano é Rˆ (12) ≅ Rˆ (11,8) = 89,04% . Realizando um cálculo mais preciso, temos por interpolação que x = Rˆ (12) = 88,61% . Tal cálculo foi obtido da seguinte forma: 0,89043 − 0,88195 x − 0,88195 = 12,2 − 11,8 12,2 − 12 A estimativa de sobrevivência em t = 5 anos é Rˆ (60) = 45,01% . Isto significa que a probabilidade de um paciente sobreviver mais que um ano é 88,61% e a probabilidade de sobreviver mais que cinco anos é 45,01%. Após um ano 13 pessoas terão falecido. E após cinco anos 60 pessoas terão falecido. Conferindo dois anos de medicação o número de mortes esperado é de 38 pessoas. O número de dias para o qual 10% dos pacientes terão morrido é aproximadamente um ano. A variância relacionada a um e cinco anos é relativamente pequena, sendo: Var ( Rˆ (11.8)) =0,000822718 e a Var ( Rˆ (60)) =0,002484108. O tempo médio de vida dos pacientes em estudo, representado pela mediana, é aproximadamente 51 meses. Tabela 3: Estimativas de Kaplan-Meier para os dados em estudo t j (meses) cj d j (falhas ou n j (risco) R(t j )-% (proporção (censuras) mortes) 0 0 0 121 condicional de sobrevivência) 100% 0,3 0 1 121 99,174% 5 3 1 118 98,333% 5,6 4 1 117 97,493% 6,2 5 1 116 96,652% 6,3 6 1 115 95,812% 6,6 7 1 114 94,971% 6,8 8 1 113 94,131% 7,5 10 1 111 93,283% 8,4 11 1 110 92,435% 8,4 12 1 109 91,587% 10,3 13 1 108 90,739% 11 14 1 107 89,891% 11,8 15 1 106 89,043% 12,2 16 1 105 88,195% 12,3 17 1 104 87,347% 13,5 18 1 103 86,499% 14,4 19 1 102 85,651% 14,4 20 1 101 84,803% 14,8 21 1 100 83,955% 15,7 23 1 98 83,098% 16,2 24 1 97 82,241% 16,3 25 1 96 81,384% 16,5 26 1 95 80,528% 16,8 27 1 94 79,671% 17,2 28 1 93 78,814% 17,3 29 1 92 77,958% 17,5 30 1 91 77,101% 17,9 31 1 90 76,244% 19,8 32 1 89 75,388% 20,4 33 1 88 74,531% 20,9 34 1 87 73,674% 21 35 1 86 72,818% 21 36 1 85 71,961% 21,1 37 1 84 71,104% 23 38 1 83 70,248% 23,6 40 1 81 69,380% 24 41 1 80 68,513% 24 42 1 79 67,646% 27,9 43 1 78 66,779% 28,2 44 1 77 65,911% 29,1 45 1 76 65,044% 30 46 1 75 64,177% 31 47 1 74 63,310% 31 48 1 73 62,442% 32 49 1 72 61,575% 35 50 1 71 60,708% 35 51 1 70 59,841% 38 55 1 66 58,934% 40 60 1 61 57,968% 41 63 1 58 56,968% 41 64 1 57 55,969% 42 66 1 55 54,951% 44 70 1 51 53,874% 48 76 1 45 52,677% 51 78 1 43 51,452% 51 79 1 42 50,227% 52 81 1 40 48,971% 54 82 1 39 47,715% 56 84 1 37 46,426% 60 88 1 33 45,019% 78 99 1 22 42,972% 80 100 1 21 40,926% 89 103 1 18 38,652% 90 104 1 17 36,379% 126 115 1 6 30,316% Abaixo temos a representação gráfica do Estimador de Kaplan-Meier. Figura 1 – Representação Gráfica das Proporções Condicionais de Sobrevivência de um grupo de 121 pacientes com câncer na mama obtidos de um grande hospital num período de 1929 a 1938 com relação às estimativas de Kaplan-Meier. Na Tabela 4, apresentamos a tabela atuarial com intervalos de um ano, para esta aplicação. A estimativa de sobrevivência em t = 1 ano é Rˆ (12) = 89,12% e t = 5 anos é Rˆ (60) = 46,18% . Isto significa, que a probabilidade de um paciente sobreviver mais que 1 ano é 89,12% e a probabilidade de sobreviver mais que cinco anos é 46,18%. Após um ano 13 pessoas terão falecido. E após cinco anos 60 pessoas terão falecido. Conferindo dois anos de medicação o número de mortes esperado é de 38 pessoas. O número de dias para o qual 10% dos pacientes terão morrido é aproximadamente um ano. Realizando uma interpolação linear, temos que o tempo médio de vida é 54 meses, ou seja, Rˆ (54) = 50% . Tal cálculo foi obtido encontrando a mediana da seguinte forma: 0,5388 − 0,4618 0,5 − 0,4618 = 60 − 48 60 − x Tabela 4: Estimativas da Tabela de Vida para os dados em estudo. t j - (ano) djn j - (risco)(falhas ou mortes) 0-12 12-24 24-36 36-48 48-60 60-72 1 72-84 84-96 96-108 108-120 120-132 132-144 >144 121 105 80 69 45 33 22 19 15 12 7 2 1 13 25 11 6 6 1 2 2 0 0 1 0 0 cj - q̂ j - (probabilidade Rˆ (t j ) (censuras) de morte no período (proporção de tempo) condicional de sobrevivência) 3 0,109 100,00% 2 0,221 89,12% 0 0,138 69,41% 18 0,1 59,87% 6 0,143 53,88% 10 0,036 46,18% 1 0,093 44,53% 2 0,111 40,39% 3 0 35,90% 5 0 35,90% 4 0,2 35,90% 1 0 28,72% 1 0 28,72% Abaixo temos a representação gráfica da Tabela de Vida. Figura 2 – Representação Gráfica das Proporções Condicionais de Sobrevivência de um grupo de 121 pacientes com câncer na mama obtidos de um grande hospital num período de 1929 a 1938 com relação às estimativas da tabela de Vida. Comparando os estimadores de Kaplan-Meier com os estimadores da Tabela de Vida, pode-se notar que não há muita diferença entre as probabilidades condicionais de sobrevivência, sendo assim, qualquer um dos métodos poderia ser utilizado. Claro que, o método da Tabela de Vida é mais rápido de ser obtido em relação aos cálculos realizados no método de Kaplan-Meier. 4. CONCLUSÃO O objetivo básico da análise de sobrevivência é estimar o risco de falha ao longo do tempo, que é gerado por meio da estimativa da função de sobrevivência. Pode-se definir os experimentos com tempos de vida cujas unidades tenham como variável dependente os tempos, observados desde o início do experimento até a ocorrência de um evento de interesse. Uma característica presente nestes tipos de estudos é a presença de censuras, que é a não observação do tempo de ocorrência do evento. As estimativas podem ser obtidas a partir de métodos não-paramétricos (que não supõe nenhuma distribuição associada). Verificou-se através da Tabela de Vida e de Kaplan-Meier a análise de sobrevivência dos pacientes com câncer na mama. Houve uma relativa diferença entre os resultados obtidos pelos dois métodos, ficando a cargo do pesquisador escolher o método mais adequado de acordo com os seus interesses. Com esta pesquisa pude perceber que uma análise estatística dos tempos de vida de objetos ou pessoas em estudo tem sido realizada em diversas áreas do conhecimento, especialmente em engenharia e ciências biomédicas. Após todo este processo de estudo-pesquisa, pude compreender os conceitos básicos da análise de sobrevivência, a estimação não paramétrica das funções de sobrevivência e, com uma aplicação, reforcei os conhecimentos adquiridos. Desde já, concluo que o trabalho é de grande valia, pois o mesmo contribui para o meu crescimento profissional e pessoal. Uma sugestão para estudos futuros seria: fazer uma aplicação comparando a análise de sobrevivência de um grupo de pacientes em relação à idade, sexo e tratamentos. BIBLIOGRAFIA Borges, Wagner S; Colosimo, Enrico A; Freitas, Marta A. (1996) Métodos Estatísticos e Melhoria da Qualidade Construindo Confiabilidade em Produtos. ABE- Associação Brasileira de Estatística, São Paulo, 217p. Downing, Douglas; Clark, Jeffrey. (2000) Estatística Aplicada. Ed. Saraiva, São Paulo, 455p. Lawless, J. F.(1982) Statistical Models and Lifetime Data. Ed. John Wiley & Sons. Martins, Gilberto A. (2002) Estatística Geral e Aplicada. Ed. Atlas, São Paulo, 417p. REFERÊNCIA BIBLIOGRÁFICA Lee, Elisa T. (1992) Statistical Methods for Survival Data Analysis. Ed. John Wiley & Sons.