TÉCNICAS NÃONÃO-PARAMÉTRICAS
O passo inicial de qualquer análise estatística consiste em uma descrição dos
dados através de análise descritiva (tabelas, medidas e gráficos).
Como a presença de censura invalida esse tipo de tratamento aos dados de
sobrevivência, o principal componente da análise descritiva é a função de
sobrevivência.
Dessa forma, o procedimento inicial é encontrar uma estimativa para a função
de sobrevivência e, a partir dela, estimar as quantidades de interesse.
Métodos não paramétricos para estimação da função de sobrevivência são fáceis
de entender e aplicar.
Eles são menos eficientes que os métodos paramétricos quando os tempos de
sobrevivência seguem uma distribuição teórica e mais eficientes quando
nenhuma distribuição teórica apropriada é conhecida.
Na abordagem não paramétrica, a estimação é realizada sem que se faça
nenhuma suposição sobre a distribuição de probabilidade do tempo de
sobrevivência e assim não possui parâmetros a serem estimados.
Iremos considerar dois estimadores não paramétricos: A tabela de vida e o
estimador de Kaplan e Meier
TABELA DE VIDA
o
o
o
o
o
As tabelas de vida são usadas pelas companhias de seguros desde o
século XVII.
São procedimentos que mostram a estrutura do tempo de sobrevivência
para grupos homogêneos de indivíduos quando esses tempos são
submetidos a censura.
Para construção da tabela de vida é necessário dividir o eixo do tempo
em um certo número de intervalos.
Suponha que o eixo do tempo seja dividido em k intervalos definidos
pelos pontos de corte, t1,t2,...,tk, ou seja, Ij=[tj-1,tj), para j=1,2,...,k em que
t0=0 e tk=∞.
Sejam:
dj = número de falhas no intervalo [tj-1,tj),
cj = número de censuras em [tj-1,tj) e
nj = número de observações sob risco (não falhou e não foi censurado)
em tj-1.
TABELA DE VIDA
o
1)
A estimação de S(t) é feita da seguinte maneira:
Estimamos para cada um dos intervalos a probabilidade condicional de uma
observação falhar no intervalo [tj-1,tj) sabendo que ela não falhou até tj-1, ou
seja
d
q j = P(T ∈[t j −1, t j ) | T ≥ t j −1)
j
qˆ j =
nj −
cj
2
É importante citar que o número de censuras é dividido por dois pois
observações para as quais a censura ocorreu no intervalo [tj-1,tj) são tratadas
como se estivessem sob risco durante a metade do intervalo considerado.
3)
Podemos construir estimadores para S(t) a partir de q̂ j
Suponha que em um grupo tenhamos n pacientes no instante t=t0. Desses,
aproximadamente n ( qˆ 0 ) não chegarão a t=t1 sem a ocorrência do evento de
interesse.
4)
Em consequência, ao final do primeiro período ainda estarão sob risco n (1 − qˆ 0 )
5)
Assim, temos que
2)
n (1 − qˆ 0 )
Sˆ (t1 ) =
= 1 − qˆ 0
n
TABELA DE VIDA
6)
Analogamente, dos n(1 − qˆ0 ) que chegam ao final desse período, n(1− qˆ0 )(1− qˆ1)
chegarão ao final do terceiro período. Assim,
Sˆ(t2 ) = (1− qˆ0 )(1−qˆ1)
7)
Em geral, para qualquer tempo t teremos
j
Sˆ(t j ) = (1− qˆ0 ) × (1− qˆ1) ×...× (1− qˆ j ) = ∏(1− qˆi−1)
i =1
com j=1,...,s e qˆ 0 = 0
Ou seja, para as observações sob risco no tempo tj-1, a sua
probabilidade de falhar no intervalo [tj-1,tj) é qj, e consequentemente a
probabilidade de não falhar é 1-qj.
TABELA DE VIDA
INTERPRETANDO: A função de sobrevivência é a probabilidade de uma
observação não falhar até o tempo tj. Considere, por exemplo, que a
probabilidade de um paciente sobreviver aos primeiros dois anos de um estudo
é igual a probabilidade dele sobreviver ao primeiro ano e então sobreviver a
mais um ano.
A representação gráfica da função de sobrevivência, chamada curva de
sobrevivência, é uma função escada, com valor constante em cada intervalo de
tempo.
A variância assintótica para
Sˆ(t j ) é obtida por
EXEMPLO 1: Um estudo clínico aleatorizado foi realizado para
investigar o efeito da terapia com esteróide no tratamento de hepatite viral
aguda. Vinte e nove pacientes com a doença foram aleatorizados para receber
um placebo ou o tratamento com esteróide. Cada paciente foi acompanhado
por 16 semanas ou até a morte (evento de interesse) ou até a perda de
acompanhamento. Os tempos de sobrevivência observados, em semanas, para
os dois grupos foram
GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+
GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+
Considere o grupo esteróide dividido em 4 intervalos: [0,5), [5,10), [10,15),
[15,∞), construa a tabela de vida para os dados.
EXEMPLO 1: Construa a tabela de vida para o grupo
controle. Compare o resultado com o do grupo esteróide.
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
o
o
o
O estimador de Kaplan-Meier, também chamado estimador produtolimite, foi proposto por Kaplan e Meier em 1958 e é sem dúvida o mais
utilizado em estudos clínicos.
A expressão estimador produto refere-se ao fato de que a probabilidade
de sobrevida até a data especificada é estimada considerando-se que a
sobrevivência até cada tempo é independente da sobrevivência até
outros tempos, e, em consequência, a probabilidade de se chegar até o
tempo t é o produto da probabilidade de se chegar até cada um dos
tempos anteriores.
O estimador de Kaplan-Meier considera tantos intervalos de tempo
quantos forem o número de falhas distintas e os limites dos intervalos
são os próprios tempos de falha da amostra.
O estimador de Kaplan-Meier apresenta a forma do estimador tabela de
vida, mas utiliza um estimador ligeiramente diferente para qj.
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
o
Suponha que existam n pacientes no estudo e k(≤n) falhas distintas nos
tempos t1<t2<...<tk. Seja dj o número de falhas no tempo tj e nj o número
de observações sob risco até o tempo tj (exclusive), ou seja, os indivíduos
que não falharam e não foram censurados até o instante imediatamente
anterior a tj.
O estimador de Kaplan-Meier é, então, definido como:
 nj − d j 
 dj 
ˆ
 = ∏ 1 − 
S (t ) = ∏
 n  j:t <t n 
j:t j <t
j
j 
 j 
PRINCIPAIS PROPRIEDADES:
i.
É o estimador de máxima verossimilhança de S(t),
ii.
É não-viciado para amostras grandes,
iii.
É fracamente consistente e
iv.
Converge assintoticamente para um processo Gaussiano.
o
EXEMPLO 1:
GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+
GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+
Obtenha as estimativas de Kaplan-Meier para o grupo esteróide.
o
o
o
o
o
o
o
o
EXEMPLO 1:
Todos os indivíduos estavam vivos em t=0 e se mantêm até a primeira
morte que ocorre em t=1 semana.
Então a estimativa de S(t) deve ser 1 neste intervalo compreendido
entre 0 e 1 semana.
No valor correspondente a 1 semana , a estimativa deve cair devido a
três mortes que ocorrem neste tempo.
No segundo intervalo, existem então 14 indivíduos que estavam sob
risco antes de t=1 e 3 morrem.
Desta forma, a estimativa da probabilidade condicional de morte neste
intervalo é 3/14 e a probabilidade de sobreviver é 1-3/14.
Observe, por exemplo, que Sˆ(6) = Sˆ(5) , pois Sˆ ( t ) é uma função escada
com saltos somente nos tempos de falha.
A curva de sobrevivência é construída mantendo o valor estimado da
função de sobrevivência constante entre os tempos de falha.
Quando o maior tempo observado na amostra corresponder a uma
censura, o gráfico não atinge o valor Sˆ (t ) = 0 .
EXEMPLO 1:
Figura 2.1: Estimativas de Kaplan-Meier para os dados de hepatite.
EXEMPLO 1:
GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+
GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+
Obtenha as estimativas de Kaplan-Meier para o grupo controle.
EXEMPLO 2:
Obtenha as estimativas de Kaplan-Meier para os dados de pacientes com
aids.
EXEMPLO 2:
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
Para a construção de intervalos de confiança e testes de hipóteses para
S(t) é necessário uma estimativa da variância de Sˆ ( t )
ESTIMADOR DE KAPLANKAPLAN-MEIER
ESTIMADOR DE KAPLANKAPLAN-MEIER
ESTIMADOR DE KAPLANKAPLAN-MEIER
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
Obtenha um intervalo de 95% de confiança para S(6) (Exemplo 1).
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
Obtenha um intervalo de 95% de confiança para S(84) (Exemplo 2).
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
o
o
o
Quando a função de sobrevivência estimada é próxima de zero ou um,
este tipo de intervalo, simétrico, é inapropriado pois pode conduzir os
limites de confiança para valores fora do intervalo [0,1].
Uma solução pode ser substituir os limites maiores do que um por 1.0 e
os limites menores do que zero por 0.0.
Uma procedimento alternativo é utilizar uma transformação para S(t) e
construir um intervalo assimétrico para ln H ( t ) = ln( − ln S ( t )) .
Esse método, além de assegurar que os limites de confiança sejam
positivos e menores ou iguais a 1, é considerado mais preciso pois
ln Hˆ KM ( t ) tem uma distribuição mais próxima da normal do que Sˆ ( t ) .
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
Assim,
ESTIMADOR DE KAPLANKAPLAN-MEIER
o
o
o
o
o
o
Assim, um intervalo aproximado de 100(1-α)% de confiança para S(t) é
dado por
Os estimadores tabela de vida e Kaplan-Meier são em geral similares. A
grande diferença está no número de intervalos utilizados.
A estimativa obtida pelo estimador de Kaplan-Meier é baseada,
frequentemente, em um número maior de intervalos.
É natural esperar que quanto maior o número de intervalos, melhor
será a aproximação para a verdadeira distribuição do tempo de falha.
Para o mecanismo de censura do tipo aleatório, as estimativas por
Kaplan-Meier e Tabela de vida serão próximas mas não
necessariamente coincidentes.
Neste caso, alguns estudos mostram a superioridade do estimador de
Kaplan-Meier.
ESTIMAÇÃO DE QUANTIDADES BÁSICAS
o
o
A partir da curva de Kaplan-Meier é possível obter estimativas de
algumas quantidades de interesse, tais como tempo mediano e percentis.
Como a curva de sobrevivência é uma função escada, as estimativas
mais adequadas são obtidas por meio de interpolação linear.
o
Para obter Ŝ (6) :
o
Para obter o tempo mediano:
o
Esta forma usualmente gera uma melhor representação da distribuição
contínua do tempo de falha.
ESTIMAÇÃO DE QUANTIDADES BÁSICAS
o
o
o
o
o
o
o
De forma análoga pode-se obter estimativas de outros percentis da
distribuição dos tempos de vida.
Outra quantidade que pode ser de interesse é o tempo médio de vida.
Uma estimativa pode ser obtida calculando-se a área (integral) sob a
curva de Kaplan-Meier estimada.
Como esta curva é uma função escada, esta integral é simplesmente a
soma de áreas de retângulos.
Em que t1<...<tk são os k tempos distintos e ordenados de falha.
Tal estimativa deve ser evitada se o maior tempo observado for
censurado.
Pois nesses casos a curva de sobrevivência não atinge o valor zero e o
valor do tempo médio fica subestimado.
ESTIMAÇÃO DE QUANTIDADES BÁSICAS
o
Uma alternativa é usar a mediana ao invés do tempo médio de vida.
o
A variância assintótica de tˆM pode ser estimada por
No R
Kapla-Meir:
ekm<-survfit(Surv(tempo, censura))
summary (ekm)
Curva de sobrevivência:
plot(ekm,conf.int=T, xlab="tempo",ylab="S(t) estimada")
Kapla-Meir com estratificação:
ekm<-survfit(Surv(tempo, censura) ~variável)
summary (ekm)
plot(ekm)
o
Exemplo 1: Pacientes com aids
tempo <- c(16, 18, 21, 21, 22, 25, 29, 35, 37,39, 40, 50, 52, 54, 60, 80, 80, 81, 83, 84, 85)
censura <- c(1,1,0,1,1,0,1,1,1,1,1,0,1,1,1,0,1,0,1,1,0)
y<- Surv(tempo,censura)
ekm<-survfit(y~1)
ekm
summary(ekm)
plot(ekm, xlab="tempo",ylab="S(t) estimada")
o
Exemplo 2: Pacientes com hepatite
tempo<- c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16)
cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0)
grupos<-c(rep(1,15),rep(2,14))
ekm<- survfit(Surv(tempos,cens)~grupos)
summary(ekm)
plot(ekm, lty=c(2,1), xlab="Tempo (semanas)",ylab="S(t) estimada")
legend(1,0.3,lty=c(2,1),c("Controle","Esteroide"),lwd=1, bty="n")
o
Exemplo 3: Reincidência de tumor sólido
Deseja-se avaliar o tempo de reincidência de 10 pacientes com tumor sólido. Dos
10 pacientes, seis deles apresentaram reincidência em 3; 6.5; 6.5; 10; 12 e 15
meses de seus respectivos ingressos no estudo. Um deles perdeu o contato após
8.4 meses de acompanhamento e três deles permaneceram sem reincidência
após 4; 5.7 e 10 meses de acompanhamento.
tempos<- c(3,4,5.7,6.5,6.5,8.4,10,10,12,15)
cens<- c(1,0,0,1,1,0,1,0,1,1)
ekm<- survfit(Surv(tempos,cens))
summary(ekm)
plot(ekm,conf.int=T, xlab="Tempo (em meses)", ylab="S(t) estimada", bty="n")
o
Exemplo 3: Reincidência de tumor sólido
OBTENÇÃO TEMPO MÉDIO
t<- tempos[cens==1]
tj<-c(0,as.numeric(levels(as.factor(t))))
surv<-c(1,as.numeric(levels(as.factor(ekm$surv))))
surv<-sort(surv, decreasing=T)
k<-length(tj)-1
prod<-matrix(0,k,1)
for(j in 1:k){
prod[j]<-(tj[j+1]-tj[j])*surv[j]
}
tm<-sum(prod)
tm
Download

(Microsoft PowerPoint - Aula 3 Estimadores n\343o