1
CONSEQÜÊNCIAS DO USO DE UM MODELO CONTÍNUO NA ANÁLISE DE
DADOS DISCRETOS DE SOBREVIVÊNCIA
Eduardo Yoshio Nakano 1 ; Cleber Giugioli Carrasco2
1
Professor do Departamento de Estatística da Universidade de Brasília, UnB.
2
Professor da Unidade Universitária de Ciências Exatas e Tecnológicas, UEG.
RESUMO. Apresentamos neste trabalho as conseqüências do uso de um modelo contínuo na
análise de dados discretos. Para tanto foi realizado uma comparação dos resultados de análises
de dados de sobrevivência utilizando dois modelos equivalentes, sendo um contínuo e outro
discreto. Dizemos “modelos equivalentes” pois será utilizado um modelo cuja formulação
original é contínua e através deste modelo, será gerado um modelo discreto correspondente.
Palavras-chaves: análise de sobrevivência, distribuição exponencial, modelos discretos.
INTRODUÇÃO
Em muitos casos os dados de sobrevivência são obtidos (coletados) em sua forma
discreta, devido a imprecisões nas mensurações ou simplesmente por ser discreta (quando o
tempo é medido em meses, por exemplo). Em muitas aplicações não há justificativas teóricas
para adotar, nestes casos, um modelo discreto para esses dados. O que se faz na prática é
considerar que esses dados “poderiam” ser contínuos e realizar análise utilizando um modelo
contínuo.
Neste contexto, o objetivo deste trabalho é verificar quais as conseqüências de se
utilizar um modelo contínuo em dados discretos. Para tanto, propomos neste trabalho uma
comparação dos resultados de análises de dados de sobrevivência utilizando dois modelos
equivalentes, sendo um contínuo e outro discreto. Diz-se modelos equivalentes pois será
utilizado um modelo cuja formulação original é contínua e através deste modelo contínuo,
será gerado um modelo discreto correspondente.
Por se tratar de dados de sobrevivência, optaremos neste trabalho a utilização do
modelo Exponencial. Esta escolha é justificada pelo fato da distribuição Exponencial ser uma
das mais simples e importantes distribuições utilizadas na modelagem de dados que
representam o tempo até a ocorrência de algum evento de interesse. Através do modelo
Exponencial será formulado um modelo discreto, que deverá apresentar as mesmas
características do modelo contínuo.
2
MATERIAIS E MÉTODOS
Uma importante distribuição de tempos de sobrevivência que assume independência
do risco ao longo do tempo é dada pela distribuição Exponencial. A distribuição Exponencial
é obtida tomando-se a função de risco constante ao longo do tempo. Desta forma, T é uma
variável aleatória com distribuição Expone ncial com parâmetro λ (λ>0), se sua função
densidade de probabilidades é escrita da forma:
f c ( t ) = λ e −λt ,
t ≥ 0.
(1)
A função de sobrevivência e de risco são dadas, respectivamente por:
Sc ( t ) = e −λt , t ≥ 0.
h c ( t ) = λ, t ≥ 0.
(2)
1
f(t)
S(t)
h(t)
λ
0
0
1
2
3
4
5
t
Figura 1. Funções de densidade, sobrevivência e risco da distribuição Exponencial com parâmetro ?.
Para o modelo Exponencial, a função de verossimilhança apresenta a seguinte forma:
n
L( λ, t , d) = ∏ λδ i e − λti ,
i=1
onde, λ é o parâmetro a ser estimado, t = (t1 , t2 , ..., tn ) é o vetor dos valores observados, com
seus respectivos indicadores de censuras dados por d = (d1 , d2 , ..., d n ).
Neste caso, o estimador de máxima verossimilhança do parâmetro λ é dado por
∑i =1 δ i .
n
∑i =1 t i
n
λˆ c =
Modelo Exponencial Discreto (Geométrica) - Todos os modelos de variáveis contínuas
podem ser usados para gerar modelos discretos agrupado os tempos em intervalos unitários. A
variável discreta é dada por T=[X], onde [X] representa “a parte inteira de X” (maior inteiro
menor ou igual a X).
3
No caso onde X segue a distribuição dada por (1), temos que a função (distribuição) de
probabilidades de T pode ser escrita como:
f d ( t ) = P( T = t ) = P( t ≤ X < t + 1) = e − λt (1 − e −λ ), t = 0,1,2,...
Note que T segue uma distribuição Geométrica com parâmetro 1 – e–λ.
A função de sobrevivência e de risco da variável aleatória T são dadas,
respectivamente, por:
Sd (t ) = P( T > t ) = e − λ( t +1) ,
h d (t) = 1 − e − λ ,
t = 0,1,2,...
t = 0,1, 2,...
(3)
1
f(t)
S(t)
h(t)
–λ
1–e
0
0
2
4
6
8
10
12
14
t
Figura 2. Funções de densidade, sobrevivência e risco da distribuição Exponencial Discreta com parâmetro ?.
Assumindo que a contribuição para a verossimilhança do tempo censurado em t seja
S(t)=P(T>t) (Kalbfleisch & Prentice, 1980, pág. 11), temos que para o modelo discreto, a
função de verossimilhança apresenta a seguinte forma:
n
(
L( λ, t , d) = ∏ 1 − e − λ
i =1
)
δi
e −λ( t i +1−δ i )
onde, ? é o parâmetro a ser estimado, t = (t1 , t2 , ..., tn ) é o vetor dos valores observados, com
seus respectivos indicadores de censuras dados por d = (d1 , d2 , ..., d n ).
Neste caso, o estimador de máxima verossimilhança do parâmetro ? é dado por
n

n + ∑i=1 t i

λˆ d = ln 
 n + ∑n t i − ∑n δ i

i= 1
i= 1




Comparação dos modelos - Neste trabalho, usaremos como critério para julgar os modelos, a
noção de "distância" entre a estimativa do modelo com a estimativa empírica (Kaplan &
Meier, 1958). Muitos testes estatísticos de ajuste de modelos são baseados nestas distâncias
4
(veja por exemplo, Kendall & Stuart, 1968, Cap. 30 ou Stephens, 1974). Definiremos aqui
essa distância como o erro cometido na estimação. Desta forma, definimos o erro máximo
cometido na estimação pelo modelo contínuo e discreto por
ε c = max Ŝc ( t ) − Ŝ KM ( t )
(4)
ε d = max Ŝ d ( t ) − Ŝ KM ( t )
(5)
RESULTADOS E DISCUSSÃO
As simulações realizadas neste trabalho tiveram como objetivo comparar a eficiência
dos modelos discreto e contínuo na estimação da função de sobrevivência. Para tanto, foram
gerados dados de tempos de vida discretos e estimativas foram feitas através dos dois
modelos. A geração e análise dos dados foram realizadas pelo software R (http://rproject.org).
Os dados discretos foram gerados a partir de uma distribuição Geométrica. O estudo
de simulação foi realizado em três etapas distintas de forma verificar a influência da
variabilidade dos dados, do tamanho da amostra e da quantidade de censuras. Os modelos
foram avaliados através dos erros definidos em (4) e (5).
Influência da variabilidade dos dados - Foram consideradas 1000 simulações de amostras
de tamanho 50 com 20% de censura. Os dados foram gerados através da distribuição
Geométrica com diversos valores para o parâmetro p: 0.05, 0.1, 0.2 e 0.5.
0.10
250
0.3
0.4
0.1
0.3
0.15
0.5
0.6
100 150
Frequência
#(Ed < Ec) = 925
0
50 100
Frequência
0.10
0.4
Ec - Ed
0
50 100
0.05
0.2
p=0.2
0
0.05
0.10
0.15
Ed
0.20
0.25
0.30
0.35
-0.1
0.0
0.1
Ec
p=0.1
#(Ed < Ec) = 723
0.15
0.20
0.10
0.15
0.20
0.0
0.05
0.20
#(Ed < Ec) = 591
Frequência
100 200 300
0.05
0.10
0.15
Ec
0.10
Ec - Ed
0
Frequência
50 100 150
0.15
Ed
-0.05
p=0.05
0
0.10
150
0.25
Ec
censura 20%
0.05
0 50
Frequência
0.05
Ed
0.20
150
0.10
150
Frequência
0
0.05
0 50
100 200 300
250
censura 20%
0.2
Ec - Ed
0 50
Frequência
0.6
Ec
censura 20%
Frequência
0.5
150
Frequência
0.2
0 50
100 200 300
0.15
Ed
50
0.05
Frequência
#(Ed < Ec) = 1000
0
50
Frequência
100 150
p=0.5
0
Frequência
censura 20%
-0.04
-0.02
0.0
0.02
Ec - Ed
Figura 3. Erros cometidos pelos modelos de acordo com a variabilidade dos dados.
0.04
0.06
5
Influência do tamanho da amostra - Neste caso considerou-se 1000 simulações de amostras
geradas a partir da distribuição Geométrica com parâmetro p = 0.25 e 20% de censura. Foram
utilizados diversos tamanhos de amostras: 10, 20, 50 e 100.
0.2
0.3
0.1
0.2
0.3
0.4
-0.2
0.15
0.20
0.1
0.2
0.3
0.4
Frequência
0.10
0.15
0.20
0.25
0.30
0.35
-0.1
0.0
Frequência
150
0.1
0.2
0.3
0
50
Frequência
0.12
0.4
#(Ed < Ec) = 996
0
0.10
0.3
Ec - Ed
n=100
150
0.08
0.2
0
0.05
Ec
0 50
0.06
0.1
#(Ed < Ec) = 964
50 100 150
0.20
censura 20%
0.04
0.0
Ec - Ed
0
Frequência
100 200 300
0.15
0.6
150
-0.1
n=50
0
0.10
0.4
0 50
0.5
Ec
Ed
0.02
0.2
#(Ed < Ec) = 860
Frequência
0.25
censura 20%
0.05
0.0
Ec - Ed
0
0.10
150
0.7
100 200 300
Frequência
150
0 50
Frequência
0.6
n=20
Ed
Frequência
0.5
Ec
censura 20%
0.05
50
0
Frequência
100 200 300
0.4
Ed
100 200 300
0.1
50 100
0.0
Frequência
#(Ed < Ec) = 767
0
100
Frequência
300
n=10
0
Frequência
censura 20%
0.14
0.10
0.15
0.20
Ed
0.25
0.30
0.35
0.40
0.0
0.1
Ec
0.2
0.3
Ec - Ed
Figura 4. Erros cometidos pelos modelos de acordo com o tamanho da amostra.
Influência da quantidade de censuras - Realizaram-se 1000 simulações de amostras de
tamanho 50 de uma distribuição Geométrica com parâmetro p = 0.25. As amostras foram
geradas com diferentes quantidades de censuras: 0%, 5%, 30% e 50%.
0.10
0.2
0.3
-0.1
0.10
0.15
0.3
0.4
-0.1
0.25
0.30
80 120
0.35
0.0
0.1
150
Frequência
#(Ed < Ec) = 695
0
50
Frequência
0.2
Ec - Ed
0
50 100
0.3
40
Frequência
100 200
Frequência
0.20
n=50
0.3
0.2
0
0.15
Ec
0
Ed
0.1
#(Ed < Ec) = 926
50 100
0.10
censura 50%
0.2
0.4
Ec - Ed
0
0.05
Ed
0.1
0.0
n=50
0.20
0.3
0
0.2
Ec
0.15
0.2
100 200
Frequência
100 150
0.1
0
0.10
0.1
#(Ed < Ec) = 977
50
0.20
censura 30%
0.05
0.0
Ec - Ed
0
Frequência
100 200 300
Frequência
0.5
n=50
Ed
Frequência
0.4
Ec
0
0.05
200
0
0.1
censura 5%
0.0
100
Frequência
300
100
0.15
Ed
150
0.05
50
0.0
Frequência
#(Ed < Ec) = 983
0
Frequência
100 200 300
n=50
0
Frequência
censura 0%
0.1
0.2
0.3
Ec
0.4
-0.10
-0.05
0.0
0.05
0.10
Ec - Ed
Figura 5. Erros cometidos pelos modelos de acordo com a quantidade de censuras.
0.15
0.20
6
CONCLUSÕES
Face aos resultados apresentados pelas Figuras 3, 4 e 5 pode-se concluir que:
• o uso de um modelo contínuo em dados discretos pode ser adequado quando a
variabilidade dos dados é alta. Fato já previsível visto que um aumento da variabilidade dos
dados causaria uma maior amplitude dos dados, fazendo com que ocorra um menor erro na
aproximação;
• como esperado, as estimativas de ambos modelos melhoram quando o tamanho da
amostra cresce;
• o aumento do tamanho da amostra acentua a necessidade de se utilizar um modelo
discreto para a análise dos dados, pois os dados ficam mais representativos, aumentando as
evidências dos dados serem realmente discretos;
• mesmo apresentando melhores resultados, as estimativas do modelo discreto parece
não ser robusta em relação às censuras, enquanto que o desempenho do modelo contínuo
parece não se alterar mesmo com uma grande quantidade de censuras. Desta forma o uso do
modelo discreto se mostra mais adequado em conjunto de dados com baixa proporção de
censuras. Quanto maior a quantidade de censura, menos representativo fica o conjunto de
dados. Ou seja, a o aumento da censura causa um efeito contrário do aumento do tamanho da
amostra.
Com base nas conclusões obtidas, verificou-se que nem sempre é aceitável a utilização
de um modelo contínuo para a análise de dados discretos, pois em alguns casos pode-se
observar um resultado pouco satisfatório. Sendo assim o pesquisador deve estar atento aos
seus dados e não utilizar um determinado modelo indiscriminadamente.
REFERÊNCIAS BIBLIOGRÁFICAS
Kalbfleisch, J.D.; Prentice, R.L. 1980. The Statistical Analysis of Failure Time Data, John
Wiley & Sons, New York.
Kaplan, E.L.; Meier, P. 1958. Nonparametric estimation from incomplete observations,
Journal of the American Statistical Association, 53, 457-481.
Kendall, M.G.; Stuart, A. 1968. The Advanced Theory of Statistics, Griffin, London, 2 ed.
Lawless, J.F. 1982. Statistical Models and Methods for Lifetime Data, John Wiley & Sons,
New York.
Stephens, M.A. 1974. EDF statistic s for goodness of fit and some comparisons, Journal of
the American Statistical Association, 69, 730-737.