1 CONSEQÜÊNCIAS DO USO DE UM MODELO CONTÍNUO NA ANÁLISE DE DADOS DISCRETOS DE SOBREVIVÊNCIA Eduardo Yoshio Nakano 1 ; Cleber Giugioli Carrasco2 1 Professor do Departamento de Estatística da Universidade de Brasília, UnB. 2 Professor da Unidade Universitária de Ciências Exatas e Tecnológicas, UEG. RESUMO. Apresentamos neste trabalho as conseqüências do uso de um modelo contínuo na análise de dados discretos. Para tanto foi realizado uma comparação dos resultados de análises de dados de sobrevivência utilizando dois modelos equivalentes, sendo um contínuo e outro discreto. Dizemos “modelos equivalentes” pois será utilizado um modelo cuja formulação original é contínua e através deste modelo, será gerado um modelo discreto correspondente. Palavras-chaves: análise de sobrevivência, distribuição exponencial, modelos discretos. INTRODUÇÃO Em muitos casos os dados de sobrevivência são obtidos (coletados) em sua forma discreta, devido a imprecisões nas mensurações ou simplesmente por ser discreta (quando o tempo é medido em meses, por exemplo). Em muitas aplicações não há justificativas teóricas para adotar, nestes casos, um modelo discreto para esses dados. O que se faz na prática é considerar que esses dados “poderiam” ser contínuos e realizar análise utilizando um modelo contínuo. Neste contexto, o objetivo deste trabalho é verificar quais as conseqüências de se utilizar um modelo contínuo em dados discretos. Para tanto, propomos neste trabalho uma comparação dos resultados de análises de dados de sobrevivência utilizando dois modelos equivalentes, sendo um contínuo e outro discreto. Diz-se modelos equivalentes pois será utilizado um modelo cuja formulação original é contínua e através deste modelo contínuo, será gerado um modelo discreto correspondente. Por se tratar de dados de sobrevivência, optaremos neste trabalho a utilização do modelo Exponencial. Esta escolha é justificada pelo fato da distribuição Exponencial ser uma das mais simples e importantes distribuições utilizadas na modelagem de dados que representam o tempo até a ocorrência de algum evento de interesse. Através do modelo Exponencial será formulado um modelo discreto, que deverá apresentar as mesmas características do modelo contínuo. 2 MATERIAIS E MÉTODOS Uma importante distribuição de tempos de sobrevivência que assume independência do risco ao longo do tempo é dada pela distribuição Exponencial. A distribuição Exponencial é obtida tomando-se a função de risco constante ao longo do tempo. Desta forma, T é uma variável aleatória com distribuição Expone ncial com parâmetro λ (λ>0), se sua função densidade de probabilidades é escrita da forma: f c ( t ) = λ e −λt , t ≥ 0. (1) A função de sobrevivência e de risco são dadas, respectivamente por: Sc ( t ) = e −λt , t ≥ 0. h c ( t ) = λ, t ≥ 0. (2) 1 f(t) S(t) h(t) λ 0 0 1 2 3 4 5 t Figura 1. Funções de densidade, sobrevivência e risco da distribuição Exponencial com parâmetro ?. Para o modelo Exponencial, a função de verossimilhança apresenta a seguinte forma: n L( λ, t , d) = ∏ λδ i e − λti , i=1 onde, λ é o parâmetro a ser estimado, t = (t1 , t2 , ..., tn ) é o vetor dos valores observados, com seus respectivos indicadores de censuras dados por d = (d1 , d2 , ..., d n ). Neste caso, o estimador de máxima verossimilhança do parâmetro λ é dado por ∑i =1 δ i . n ∑i =1 t i n λˆ c = Modelo Exponencial Discreto (Geométrica) - Todos os modelos de variáveis contínuas podem ser usados para gerar modelos discretos agrupado os tempos em intervalos unitários. A variável discreta é dada por T=[X], onde [X] representa “a parte inteira de X” (maior inteiro menor ou igual a X). 3 No caso onde X segue a distribuição dada por (1), temos que a função (distribuição) de probabilidades de T pode ser escrita como: f d ( t ) = P( T = t ) = P( t ≤ X < t + 1) = e − λt (1 − e −λ ), t = 0,1,2,... Note que T segue uma distribuição Geométrica com parâmetro 1 – e–λ. A função de sobrevivência e de risco da variável aleatória T são dadas, respectivamente, por: Sd (t ) = P( T > t ) = e − λ( t +1) , h d (t) = 1 − e − λ , t = 0,1,2,... t = 0,1, 2,... (3) 1 f(t) S(t) h(t) –λ 1–e 0 0 2 4 6 8 10 12 14 t Figura 2. Funções de densidade, sobrevivência e risco da distribuição Exponencial Discreta com parâmetro ?. Assumindo que a contribuição para a verossimilhança do tempo censurado em t seja S(t)=P(T>t) (Kalbfleisch & Prentice, 1980, pág. 11), temos que para o modelo discreto, a função de verossimilhança apresenta a seguinte forma: n ( L( λ, t , d) = ∏ 1 − e − λ i =1 ) δi e −λ( t i +1−δ i ) onde, ? é o parâmetro a ser estimado, t = (t1 , t2 , ..., tn ) é o vetor dos valores observados, com seus respectivos indicadores de censuras dados por d = (d1 , d2 , ..., d n ). Neste caso, o estimador de máxima verossimilhança do parâmetro ? é dado por n n + ∑i=1 t i λˆ d = ln n + ∑n t i − ∑n δ i i= 1 i= 1 Comparação dos modelos - Neste trabalho, usaremos como critério para julgar os modelos, a noção de "distância" entre a estimativa do modelo com a estimativa empírica (Kaplan & Meier, 1958). Muitos testes estatísticos de ajuste de modelos são baseados nestas distâncias 4 (veja por exemplo, Kendall & Stuart, 1968, Cap. 30 ou Stephens, 1974). Definiremos aqui essa distância como o erro cometido na estimação. Desta forma, definimos o erro máximo cometido na estimação pelo modelo contínuo e discreto por ε c = max Ŝc ( t ) − Ŝ KM ( t ) (4) ε d = max Ŝ d ( t ) − Ŝ KM ( t ) (5) RESULTADOS E DISCUSSÃO As simulações realizadas neste trabalho tiveram como objetivo comparar a eficiência dos modelos discreto e contínuo na estimação da função de sobrevivência. Para tanto, foram gerados dados de tempos de vida discretos e estimativas foram feitas através dos dois modelos. A geração e análise dos dados foram realizadas pelo software R (http://rproject.org). Os dados discretos foram gerados a partir de uma distribuição Geométrica. O estudo de simulação foi realizado em três etapas distintas de forma verificar a influência da variabilidade dos dados, do tamanho da amostra e da quantidade de censuras. Os modelos foram avaliados através dos erros definidos em (4) e (5). Influência da variabilidade dos dados - Foram consideradas 1000 simulações de amostras de tamanho 50 com 20% de censura. Os dados foram gerados através da distribuição Geométrica com diversos valores para o parâmetro p: 0.05, 0.1, 0.2 e 0.5. 0.10 250 0.3 0.4 0.1 0.3 0.15 0.5 0.6 100 150 Frequência #(Ed < Ec) = 925 0 50 100 Frequência 0.10 0.4 Ec - Ed 0 50 100 0.05 0.2 p=0.2 0 0.05 0.10 0.15 Ed 0.20 0.25 0.30 0.35 -0.1 0.0 0.1 Ec p=0.1 #(Ed < Ec) = 723 0.15 0.20 0.10 0.15 0.20 0.0 0.05 0.20 #(Ed < Ec) = 591 Frequência 100 200 300 0.05 0.10 0.15 Ec 0.10 Ec - Ed 0 Frequência 50 100 150 0.15 Ed -0.05 p=0.05 0 0.10 150 0.25 Ec censura 20% 0.05 0 50 Frequência 0.05 Ed 0.20 150 0.10 150 Frequência 0 0.05 0 50 100 200 300 250 censura 20% 0.2 Ec - Ed 0 50 Frequência 0.6 Ec censura 20% Frequência 0.5 150 Frequência 0.2 0 50 100 200 300 0.15 Ed 50 0.05 Frequência #(Ed < Ec) = 1000 0 50 Frequência 100 150 p=0.5 0 Frequência censura 20% -0.04 -0.02 0.0 0.02 Ec - Ed Figura 3. Erros cometidos pelos modelos de acordo com a variabilidade dos dados. 0.04 0.06 5 Influência do tamanho da amostra - Neste caso considerou-se 1000 simulações de amostras geradas a partir da distribuição Geométrica com parâmetro p = 0.25 e 20% de censura. Foram utilizados diversos tamanhos de amostras: 10, 20, 50 e 100. 0.2 0.3 0.1 0.2 0.3 0.4 -0.2 0.15 0.20 0.1 0.2 0.3 0.4 Frequência 0.10 0.15 0.20 0.25 0.30 0.35 -0.1 0.0 Frequência 150 0.1 0.2 0.3 0 50 Frequência 0.12 0.4 #(Ed < Ec) = 996 0 0.10 0.3 Ec - Ed n=100 150 0.08 0.2 0 0.05 Ec 0 50 0.06 0.1 #(Ed < Ec) = 964 50 100 150 0.20 censura 20% 0.04 0.0 Ec - Ed 0 Frequência 100 200 300 0.15 0.6 150 -0.1 n=50 0 0.10 0.4 0 50 0.5 Ec Ed 0.02 0.2 #(Ed < Ec) = 860 Frequência 0.25 censura 20% 0.05 0.0 Ec - Ed 0 0.10 150 0.7 100 200 300 Frequência 150 0 50 Frequência 0.6 n=20 Ed Frequência 0.5 Ec censura 20% 0.05 50 0 Frequência 100 200 300 0.4 Ed 100 200 300 0.1 50 100 0.0 Frequência #(Ed < Ec) = 767 0 100 Frequência 300 n=10 0 Frequência censura 20% 0.14 0.10 0.15 0.20 Ed 0.25 0.30 0.35 0.40 0.0 0.1 Ec 0.2 0.3 Ec - Ed Figura 4. Erros cometidos pelos modelos de acordo com o tamanho da amostra. Influência da quantidade de censuras - Realizaram-se 1000 simulações de amostras de tamanho 50 de uma distribuição Geométrica com parâmetro p = 0.25. As amostras foram geradas com diferentes quantidades de censuras: 0%, 5%, 30% e 50%. 0.10 0.2 0.3 -0.1 0.10 0.15 0.3 0.4 -0.1 0.25 0.30 80 120 0.35 0.0 0.1 150 Frequência #(Ed < Ec) = 695 0 50 Frequência 0.2 Ec - Ed 0 50 100 0.3 40 Frequência 100 200 Frequência 0.20 n=50 0.3 0.2 0 0.15 Ec 0 Ed 0.1 #(Ed < Ec) = 926 50 100 0.10 censura 50% 0.2 0.4 Ec - Ed 0 0.05 Ed 0.1 0.0 n=50 0.20 0.3 0 0.2 Ec 0.15 0.2 100 200 Frequência 100 150 0.1 0 0.10 0.1 #(Ed < Ec) = 977 50 0.20 censura 30% 0.05 0.0 Ec - Ed 0 Frequência 100 200 300 Frequência 0.5 n=50 Ed Frequência 0.4 Ec 0 0.05 200 0 0.1 censura 5% 0.0 100 Frequência 300 100 0.15 Ed 150 0.05 50 0.0 Frequência #(Ed < Ec) = 983 0 Frequência 100 200 300 n=50 0 Frequência censura 0% 0.1 0.2 0.3 Ec 0.4 -0.10 -0.05 0.0 0.05 0.10 Ec - Ed Figura 5. Erros cometidos pelos modelos de acordo com a quantidade de censuras. 0.15 0.20 6 CONCLUSÕES Face aos resultados apresentados pelas Figuras 3, 4 e 5 pode-se concluir que: • o uso de um modelo contínuo em dados discretos pode ser adequado quando a variabilidade dos dados é alta. Fato já previsível visto que um aumento da variabilidade dos dados causaria uma maior amplitude dos dados, fazendo com que ocorra um menor erro na aproximação; • como esperado, as estimativas de ambos modelos melhoram quando o tamanho da amostra cresce; • o aumento do tamanho da amostra acentua a necessidade de se utilizar um modelo discreto para a análise dos dados, pois os dados ficam mais representativos, aumentando as evidências dos dados serem realmente discretos; • mesmo apresentando melhores resultados, as estimativas do modelo discreto parece não ser robusta em relação às censuras, enquanto que o desempenho do modelo contínuo parece não se alterar mesmo com uma grande quantidade de censuras. Desta forma o uso do modelo discreto se mostra mais adequado em conjunto de dados com baixa proporção de censuras. Quanto maior a quantidade de censura, menos representativo fica o conjunto de dados. Ou seja, a o aumento da censura causa um efeito contrário do aumento do tamanho da amostra. Com base nas conclusões obtidas, verificou-se que nem sempre é aceitável a utilização de um modelo contínuo para a análise de dados discretos, pois em alguns casos pode-se observar um resultado pouco satisfatório. Sendo assim o pesquisador deve estar atento aos seus dados e não utilizar um determinado modelo indiscriminadamente. REFERÊNCIAS BIBLIOGRÁFICAS Kalbfleisch, J.D.; Prentice, R.L. 1980. The Statistical Analysis of Failure Time Data, John Wiley & Sons, New York. Kaplan, E.L.; Meier, P. 1958. Nonparametric estimation from incomplete observations, Journal of the American Statistical Association, 53, 457-481. Kendall, M.G.; Stuart, A. 1968. The Advanced Theory of Statistics, Griffin, London, 2 ed. Lawless, J.F. 1982. Statistical Models and Methods for Lifetime Data, John Wiley & Sons, New York. Stephens, M.A. 1974. EDF statistic s for goodness of fit and some comparisons, Journal of the American Statistical Association, 69, 730-737.