TÉCNICAS NÃONÃO-PARAMÉTRICAS O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos). Como a presença de censura invalida esse tipo de tratamento aos dados de sobrevivência, o principal componente da análise descritiva é a função de sobrevivência. Dessa forma, o procedimento inicial é encontrar uma estimativa para a função de sobrevivência e, a partir dela, estimar as quantidades de interesse. Métodos não paramétricos para estimação da função de sobrevivência são fáceis de entender e aplicar. Eles são menos eficientes que os métodos paramétricos quando os tempos de sobrevivência seguem uma distribuição teórica e mais eficientes quando nenhuma distribuição teórica apropriada é conhecida. Na abordagem não paramétrica, a estimação é realizada sem que se faça nenhuma suposição sobre a distribuição de probabilidade do tempo de sobrevivência e assim não possui parâmetros a serem estimados. Iremos considerar dois estimadores não paramétricos: A tabela de vida e o estimador de Kaplan e Meier TABELA DE VIDA o o o o o As tabelas de vida são usadas pelas companhias de seguros desde o século XVII. São procedimentos que mostram a estrutura do tempo de sobrevivência para grupos homogêneos de indivíduos quando esses tempos são submetidos a censura. Para construção da tabela de vida é necessário dividir o eixo do tempo em um certo número de intervalos. Suponha que o eixo do tempo seja dividido em k intervalos definidos pelos pontos de corte, t1,t2,...,tk, ou seja, Ij=[tj-1,tj), para j=1,2,...,k em que t0=0 e tk=∞. Sejam: dj = número de falhas no intervalo [tj-1,tj), cj = número de censuras em [tj-1,tj) e nj = número de observações sob risco (não falhou e não foi censurado) em tj-1. TABELA DE VIDA o 1) A estimação de S(t) é feita da seguinte maneira: Estimamos para cada um dos intervalos a probabilidade condicional de uma observação falhar no intervalo [tj-1,tj) sabendo que ela não falhou até tj-1, ou seja d q j = P(T ∈[t j −1, t j ) | T ≥ t j −1) j qˆ j = nj − cj 2 É importante citar que o número de censuras é dividido por dois pois observações para as quais a censura ocorreu no intervalo [tj-1,tj) são tratadas como se estivessem sob risco durante a metade do intervalo considerado. 3) Podemos construir estimadores para S(t) a partir de q̂ j Suponha que em um grupo tenhamos n pacientes no instante t=t0. Desses, aproximadamente n ( qˆ 0 ) não chegarão a t=t1 sem a ocorrência do evento de interesse. 4) Em consequência, ao final do primeiro período ainda estarão sob risco n (1 − qˆ 0 ) 5) Assim, temos que 2) n (1 − qˆ 0 ) Sˆ (t1 ) = = 1 − qˆ 0 n TABELA DE VIDA 6) Analogamente, dos n(1 − qˆ0 ) que chegam ao final desse período, n(1− qˆ0 )(1− qˆ1) chegarão ao final do terceiro período. Assim, Sˆ(t2 ) = (1− qˆ0 )(1−qˆ1) 7) Em geral, para qualquer tempo t teremos j Sˆ(t j ) = (1− qˆ0 ) × (1− qˆ1) ×...× (1− qˆ j ) = ∏(1− qˆi−1) i =1 com j=1,...,s e qˆ 0 = 0 Ou seja, para as observações sob risco no tempo tj-1, a sua probabilidade de falhar no intervalo [tj-1,tj) é qj, e consequentemente a probabilidade de não falhar é 1-qj. TABELA DE VIDA INTERPRETANDO: A função de sobrevivência é a probabilidade de uma observação não falhar até o tempo tj. Considere, por exemplo, que a probabilidade de um paciente sobreviver aos primeiros dois anos de um estudo é igual a probabilidade dele sobreviver ao primeiro ano e então sobreviver a mais um ano. A representação gráfica da função de sobrevivência, chamada curva de sobrevivência, é uma função escada, com valor constante em cada intervalo de tempo. A variância assintótica para Sˆ(t j ) é obtida por EXEMPLO 1: Um estudo clínico aleatorizado foi realizado para investigar o efeito da terapia com esteróide no tratamento de hepatite viral aguda. Vinte e nove pacientes com a doença foram aleatorizados para receber um placebo ou o tratamento com esteróide. Cada paciente foi acompanhado por 16 semanas ou até a morte (evento de interesse) ou até a perda de acompanhamento. Os tempos de sobrevivência observados, em semanas, para os dois grupos foram GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+ GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+ Considere o grupo esteróide dividido em 4 intervalos: [0,5), [5,10), [10,15), [15,∞), construa a tabela de vida para os dados. EXEMPLO 1: Construa a tabela de vida para o grupo controle. Compare o resultado com o do grupo esteróide. ESTIMADOR DE KAPLANKAPLAN-MEIER o o o o O estimador de Kaplan-Meier, também chamado estimador produtolimite, foi proposto por Kaplan e Meier em 1958 e é sem dúvida o mais utilizado em estudos clínicos. A expressão estimador produto refere-se ao fato de que a probabilidade de sobrevida até a data especificada é estimada considerando-se que a sobrevivência até cada tempo é independente da sobrevivência até outros tempos, e, em consequência, a probabilidade de se chegar até o tempo t é o produto da probabilidade de se chegar até cada um dos tempos anteriores. O estimador de Kaplan-Meier considera tantos intervalos de tempo quantos forem o número de falhas distintas e os limites dos intervalos são os próprios tempos de falha da amostra. O estimador de Kaplan-Meier apresenta a forma do estimador tabela de vida, mas utiliza um estimador ligeiramente diferente para qj. ESTIMADOR DE KAPLANKAPLAN-MEIER o o Suponha que existam n pacientes no estudo e k(≤n) falhas distintas nos tempos t1<t2<...<tk. Seja dj o número de falhas no tempo tj e nj o número de observações sob risco até o tempo tj (exclusive), ou seja, os indivíduos que não falharam e não foram censurados até o instante imediatamente anterior a tj. O estimador de Kaplan-Meier é, então, definido como: nj − d j dj ˆ = ∏ 1 − S (t ) = ∏ n j:t <t n j:t j <t j j j PRINCIPAIS PROPRIEDADES: i. É o estimador de máxima verossimilhança de S(t), ii. É não-viciado para amostras grandes, iii. É fracamente consistente e iv. Converge assintoticamente para um processo Gaussiano. o EXEMPLO 1: GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+ GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+ Obtenha as estimativas de Kaplan-Meier para o grupo esteróide. o o o o o o o o EXEMPLO 1: Todos os indivíduos estavam vivos em t=0 e se mantêm até a primeira morte que ocorre em t=1 semana. Então a estimativa de S(t) deve ser 1 neste intervalo compreendido entre 0 e 1 semana. No valor correspondente a 1 semana , a estimativa deve cair devido a três mortes que ocorrem neste tempo. No segundo intervalo, existem então 14 indivíduos que estavam sob risco antes de t=1 e 3 morrem. Desta forma, a estimativa da probabilidade condicional de morte neste intervalo é 3/14 e a probabilidade de sobreviver é 1-3/14. Observe, por exemplo, que Sˆ(6) = Sˆ(5) , pois Sˆ ( t ) é uma função escada com saltos somente nos tempos de falha. A curva de sobrevivência é construída mantendo o valor estimado da função de sobrevivência constante entre os tempos de falha. Quando o maior tempo observado na amostra corresponder a uma censura, o gráfico não atinge o valor Sˆ (t ) = 0 . EXEMPLO 1: Figura 2.1: Estimativas de Kaplan-Meier para os dados de hepatite. EXEMPLO 1: GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+ GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+ Obtenha as estimativas de Kaplan-Meier para o grupo controle. EXEMPLO 2: Obtenha as estimativas de Kaplan-Meier para os dados de pacientes com aids. EXEMPLO 2: ESTIMADOR DE KAPLANKAPLAN-MEIER o Para a construção de intervalos de confiança e testes de hipóteses para S(t) é necessário uma estimativa da variância de Sˆ ( t ) ESTIMADOR DE KAPLANKAPLAN-MEIER ESTIMADOR DE KAPLANKAPLAN-MEIER ESTIMADOR DE KAPLANKAPLAN-MEIER ESTIMADOR DE KAPLANKAPLAN-MEIER o Obtenha um intervalo de 95% de confiança para S(6) (Exemplo 1). ESTIMADOR DE KAPLANKAPLAN-MEIER o Obtenha um intervalo de 95% de confiança para S(84) (Exemplo 2). ESTIMADOR DE KAPLANKAPLAN-MEIER o o o o Quando a função de sobrevivência estimada é próxima de zero ou um, este tipo de intervalo, simétrico, é inapropriado pois pode conduzir os limites de confiança para valores fora do intervalo [0,1]. Uma solução pode ser substituir os limites maiores do que um por 1.0 e os limites menores do que zero por 0.0. Uma procedimento alternativo é utilizar uma transformação para S(t) e construir um intervalo assimétrico para ln H ( t ) = ln( − ln S ( t )) . Esse método, além de assegurar que os limites de confiança sejam positivos e menores ou iguais a 1, é considerado mais preciso pois ln Hˆ KM ( t ) tem uma distribuição mais próxima da normal do que Sˆ ( t ) . ESTIMADOR DE KAPLANKAPLAN-MEIER o Assim, ESTIMADOR DE KAPLANKAPLAN-MEIER o o o o o o Assim, um intervalo aproximado de 100(1-α)% de confiança para S(t) é dado por Os estimadores tabela de vida e Kaplan-Meier são em geral similares. A grande diferença está no número de intervalos utilizados. A estimativa obtida pelo estimador de Kaplan-Meier é baseada, frequentemente, em um número maior de intervalos. É natural esperar que quanto maior o número de intervalos, melhor será a aproximação para a verdadeira distribuição do tempo de falha. Para o mecanismo de censura do tipo aleatório, as estimativas por Kaplan-Meier e Tabela de vida serão próximas mas não necessariamente coincidentes. Neste caso, alguns estudos mostram a superioridade do estimador de Kaplan-Meier. ESTIMAÇÃO DE QUANTIDADES BÁSICAS o o A partir da curva de Kaplan-Meier é possível obter estimativas de algumas quantidades de interesse, tais como tempo mediano e percentis. Como a curva de sobrevivência é uma função escada, as estimativas mais adequadas são obtidas por meio de interpolação linear. o Para obter Ŝ (6) : o Para obter o tempo mediano: o Esta forma usualmente gera uma melhor representação da distribuição contínua do tempo de falha. ESTIMAÇÃO DE QUANTIDADES BÁSICAS o o o o o o o De forma análoga pode-se obter estimativas de outros percentis da distribuição dos tempos de vida. Outra quantidade que pode ser de interesse é o tempo médio de vida. Uma estimativa pode ser obtida calculando-se a área (integral) sob a curva de Kaplan-Meier estimada. Como esta curva é uma função escada, esta integral é simplesmente a soma de áreas de retângulos. Em que t1<...<tk são os k tempos distintos e ordenados de falha. Tal estimativa deve ser evitada se o maior tempo observado for censurado. Pois nesses casos a curva de sobrevivência não atinge o valor zero e o valor do tempo médio fica subestimado. ESTIMAÇÃO DE QUANTIDADES BÁSICAS o Uma alternativa é usar a mediana ao invés do tempo médio de vida. o A variância assintótica de tˆM pode ser estimada por No R Kapla-Meir: ekm<-survfit(Surv(tempo, censura)) summary (ekm) Curva de sobrevivência: plot(ekm,conf.int=T, xlab="tempo",ylab="S(t) estimada") Kapla-Meir com estratificação: ekm<-survfit(Surv(tempo, censura) ~variável) summary (ekm) plot(ekm) o Exemplo 1: Pacientes com aids tempo <- c(16, 18, 21, 21, 22, 25, 29, 35, 37,39, 40, 50, 52, 54, 60, 80, 80, 81, 83, 84, 85) censura <- c(1,1,0,1,1,0,1,1,1,1,1,0,1,1,1,0,1,0,1,1,0) y<- Surv(tempo,censura) ekm<-survfit(y~1) ekm summary(ekm) plot(ekm, xlab="tempo",ylab="S(t) estimada") o Exemplo 2: Pacientes com hepatite tempo<- c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16) cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0) grupos<-c(rep(1,15),rep(2,14)) ekm<- survfit(Surv(tempos,cens)~grupos) summary(ekm) plot(ekm, lty=c(2,1), xlab="Tempo (semanas)",ylab="S(t) estimada") legend(1,0.3,lty=c(2,1),c("Controle","Esteroide"),lwd=1, bty="n") o Exemplo 3: Reincidência de tumor sólido Deseja-se avaliar o tempo de reincidência de 10 pacientes com tumor sólido. Dos 10 pacientes, seis deles apresentaram reincidência em 3; 6.5; 6.5; 10; 12 e 15 meses de seus respectivos ingressos no estudo. Um deles perdeu o contato após 8.4 meses de acompanhamento e três deles permaneceram sem reincidência após 4; 5.7 e 10 meses de acompanhamento. tempos<- c(3,4,5.7,6.5,6.5,8.4,10,10,12,15) cens<- c(1,0,0,1,1,0,1,0,1,1) ekm<- survfit(Surv(tempos,cens)) summary(ekm) plot(ekm,conf.int=T, xlab="Tempo (em meses)", ylab="S(t) estimada", bty="n") o Exemplo 3: Reincidência de tumor sólido OBTENÇÃO TEMPO MÉDIO t<- tempos[cens==1] tj<-c(0,as.numeric(levels(as.factor(t)))) surv<-c(1,as.numeric(levels(as.factor(ekm$surv)))) surv<-sort(surv, decreasing=T) k<-length(tj)-1 prod<-matrix(0,k,1) for(j in 1:k){ prod[j]<-(tj[j+1]-tj[j])*surv[j] } tm<-sum(prod) tm