ANÁLISE DE SOBREVIVÊNCIA/ TÁBUAS DE MORTALIDADE Professor: Dani Gamerman Instituto de Matemática – UFRJ Sala 121E do bloco C do CT email: [email protected] Tel: (21) 2562 7911 acd.ufrj.br/~dani Para obter material do curso: ir na homepage acima, versão em Portugues, para a seção de Ensino e clicar no curso Referência básica do curso: Capítulos 3 (tábuas de mortalidade) e 18 (teoria de populações) de Actuarial Mathematics, de Bowers Jr, N.L., Gerber, H.U., Hickman, J. C., Jones, D. A e Nesbitt, C. J., publicado pela Society of Actuaries em 1986. 1 CONTEÚDO Distribuição de Sobrevivência e Tábuas de Mortalidade 1. Função de sobrevivência 2. Força (taxa) de mortalidade 3. Relações entre F(x), f(x), S(x) e (x) 4. Relações de funções de sobrevivência com tábuas de mortalidade 5. Outras funções de tábuas de mortalidade Leis de mortalidade Tipos de tábuas de mortalidade: seleta, final e agregada Inferência em tábuas de mortalidade: estimadores de px e mx Dinâmica de populações (diagrama de Lexis) Sequências de tábuas de mortalidade (previsão) 2 Planejamento do curso DIA 27/06 04/07 11/07 18/07 25/07 01/08 08/08 15/08 22/08 29/08 05/09 12/09 12/09 (CH) 2 2 2 2 2 2 2 2 2 2 2 2 2 TEMAS Apresentação do curso e introdução Elementos básicos de análise de sobrevivência Força de mortalidade Relações de funções de sobrevivência com tábuas Aplicações com tábuas de mortalidade reais Outras funções de tábuas de mortalidade Aplicações de força central de mortalidade Leis de mortalidade Tipos de tábuas: seleta, final, agregada Inferência em tábuas de mortalidade Dinâmica de populações e sequência de tábuas Revisão e tirada de dúvidas final Prova final RECURSOS Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Datashow e PC Quadro-negro Avaliação A avaliação será com base em • trabalhos feitos ao final de cada aula (peso 40%) • uma prova final (peso 60%). 3 Distribuição de Sobrevivência e Tábuas de Mortalidade 1. Função de sobrevivência X – tempo de vida ou idade na morte (variável contínua) F(x) = P(X x) , para x 0 - função de distribuição de X S(x) = 1 - F(x) = P(X > x) , para x 0 - fç de sobrevivência de X Observe que F(0) = 0 e S(0) = 1. i) A probabilidade de morte entre x e z é P(x < X z) = F(z) - F(x) = S(x) - S(z) 4 ii) Tempo até a morte de uma pessoa com idade x. Pessoa com idade x é denotada por (x). Tempo de vida futuro de (x) é X-x, também denotado por T(x). A probabilidade de morte entre x e z dado que já sobreviveu até a idade x é P( X x + t | X > x ) = P(x < X x + t ) / P( X > x ) = 1 – S(x+t) / S(x) Afirmações probabilísticas sobre T(x) utilizam a notação t qx = P( T(x) t) = P( T x + t | T > x ), para t 0 t px = 1 - t qx = P( T(x) > t), para t 0 portanto t qx t px é a função de distribuição de T(x) é a função de sobrevivência de T(x). 5 Observe as seguintes relações i) x p 0 = S(x) ii) se t=1, tqx = qx = P( morte em 1 ano após x ) e t px = px = P( sobrevivência a 1 ano após x ) Notação especial é usada para t|uqx = P( t < T(x) t + u ) = t+uqx - tqx , a probabilidade de (x) sobreviver t anos e morrer nos u anos seguintes. Analogamente, se u=1, t|uqx = t|qx . Temos ainda: t px = t p0 S(x + t) = S(x) x p0 x+t S(x + t) q x = 1 - S(x) 6 t|uqx = [ S(x+t) – S(x+t+u) ] / S(x) = tpx . uqx+t Os seguintes eventos são de interesse P( X > x ) P( x < T x + t ) P( x < T x + t | X > x) P( T(x) > t ) P( t < T(x) t + u ) 7 Tempo de vida futura encurtado (discretizado) Tábuas de mortalidade são frequentemente apresentadas com dados agrupados por anos inteiros. Pode-se definir a variável discreta K(x), dada pelo #anos completados por (x) antes de sua morte. K(x) = parte inteira de T(x). Assim, K(x) tem fç de probabilidade P( K(x) = k ) = P( k < T(x) k+1 ) = k|qx A função de distribuição de K(x) é uma função escada (K(x) é discreta) com F(k) = 0|qx + ... + k|qx = k+1qx , para k= 0, 1, 2, .. Note que k|qx = kpx - k+1px 8 2. Força (taxa) de mortalidade Sendo F(x) a função de distribuição de X, define-se função de densidade de X por f(x) = F’(x), F x + x -F(x) = f(x) . isto é, lim x0 x Seja agora: F x x - F(x) f(x) x P(x < X x + x | X > x) = 1- F(x) 1- F(x) Define-se a força de mortalidade de X como f(x) -S'(x) x = 1- F(x) = S(x) . 9 Para cada idade x, a força de mortalidade fornece a probabilidade de morte de X num pequeno intervalo após x, dada a sobrevivência até a idade x. A força de mortalidade também é chamada (em análise de sobrevivência/confiabilidade) de taxa de falha. f(x) -S'(x) Da relação x = 1- F(x) = S(x) , temos que x = - [log S(x)]’. F( x) = 1 - S(x) = 1 - e -0 sd s x Logo, a densidade f(x) = F’(x) = xp0 x e . A função de distribuição de T(x) é dada por G(t) = tqx e sua densidade por g(t) = tpx x+t . 10 3. Relações entre F(x), f(x), S(x), (x) F(x) f(x) (x) S(x) F(x) - F’(x) 1-F(x) F’(x)/1-F(x) f(x) 0xf (x)dx - 1 0 f ( x)dx f (x) / x f (x)dx S(x) 1-S(x) -S’(x) - -S’(x)/S(x) (x) 0x ( x) dx 1 e x ( x)e 0 ( x)dx x 0x ( x) dx e - 11 4. Relações de funções de sobrevivência com Tábuas de Mortalidade As tábuas em geral contém as funções básicas: lx - número (esperado) de sobreviventes na idade x dx - número (esperado) de mortes na idade x qx - probabilidade de morte de uma pessoa de idade x antes de completar x+1. l0 - chamado de raiz, número inicial de pessoas do grupo a ser observado Relações: tqx = 1 - S(x + t) S(x + 1) qx = 1 e, quando t=1, S(x) S(x) . lx = l0 S(x) e lx (x) = l0 f(x) = l0 x p 0 (x) dx = l0 [ S(x) – S(x+1) ] = lx – lx+1 . 12 Relação entre x , qx e lx x - taxa instantânea de mortalidade ou força de mortalidade qx - probabilidade de morte em 1 ano para (x) lx - número esperado de indivíduos vivos em x i) qx = 1 – S(x+1) / S(x) = 1 – ( lx+1 / l0 ) / ( lx / l0) = 1 - ( lx+1 / lx ). ii) ( t+qx - tqx ) / x , quando 0 iii) Considere uma fração de um ano e suponha qx constante entre x e x + 1. Logo, a probabilidade de morte entre x e x + será qx = ( lx - lx+ ) / lx = qx / . Assim qx = - (1 / lx ) ( lx+ - lx ) / . Fazendo 0, temos x = - (1 / lx ) ( dlx / dx ) = - ( d log lx / dx ) 13 Comentários sobre a Tábua de Mortalidade americana 1979-1981 • tabela parte de uma raiz (hipotética) l0 = 100 000; •1% dos recém-nascidos deverá morrer no 1o. ano de vida; • 77% dos recém-nascidos viverá até 65 anos; • Mínimos locais no número de mortes ocorrem aos 11 e 27 anos; • O máximo número de mortes dentro de um grupo é aos 83 anos; • Não há indicação de idade limite pois 21 ainda estão vivos; • lx e dx foram arredondados (sem haver necessidade). 14 Exercícios sobre tábuas de mortalidade - Parte I 1) Usando a tábua de mortalidade americana 1979-1981, qual a probabilidade de (20) i) viver até 100 anos? ii) morrer antes de 70 anos? iii) morrer em sua 10a década? Solução: i) P( T(20) > 100) = P( T > 100 | T > 20 ) = P( T > 100)/ P( T > 20 ) = S(100)/S(20). Mas S(x) = lx / l0 . Logo, S(100)/S(20) = l100 / l20 . ii) P( T(20) 70 ) = P( 20 < T 70 | T > 20 ) = [S(20) - S(70)] / S(20) = 1 - S(70)/S(20). Das contas em (i), S(70)/S(20) = l70 / l20 . iii) P( 90 < T(20) 100 ) = P( 90 < T 100 | T > 20 ) = [S(90) - S(100)] / S(20). Das contas em (i), P( 90 < T(20) 100 ) = ( l90 - l100 )/ l20 . 15 2) Com auxílio da tábua American Experience, determinar a probabilidade de vida para a idade de 45 anos. Solução: Queremos obter p45. Temos da tábua American Experience que l45 = 74 173 e l46 = 73 345. A probabilidade de vida da idade de x anos é p x = Logo, p 45 l x +1 lx . 73.345 l 46 p = = 74.173 . l 45 45 Assim, p45 = 0,98884 . 16 3) O número de mortos entre as idades de 30 e 31 anos na tábua semitropical de Hunter é de 858 pessoas e a probabilidade de morte para 30 anos é 0,00984. Determinar o número de sobreviventes das idades de 30 e 31 anos e a probabilidade de vida da idade de 30 anos. Solução: Encontraremos em primeiro lugar, a probabilidade de vida da idade de 30 anos. Como, px = 1 - qx temos que p30 = 1 - q30. Logo, p30 = 1 - 0,00984 = 0,990159422. 17 Achemos agora o número de sobreviventes da idade de 30 anos: d d Como l x = q x temos que l x = q x . x x d Portanto, l 30 = q 30 = 858 / 0,00984 = 87190 30 Finalmente determinaremos o número de sobreviventes da idade de 31 anos: Como lx+1 = lx - dx l31 = l30 - d30. Assim, l31 = 87190 - 858 = 86.332. 18 4) Tomando por base a tábua HM de 1869, determinar a probabilidade que um homem, atualmente com 40 anos, tem de chegar aos 50 anos. Solução: Se a pessoa tem atualmente 40 anos, para que a mesma chegue aos 50 anos, é claro que tem de sobreviver mais 50 - 40 = 10 anos. Como n p x = lx+n l 40+10 p = l x 10 40 l 40 . Assim, 10 p 40 = Temos que l50 l 40 e, como, l40 = 82.284 e l50 = 72.726 10p40= 72.726 / 82.284 = 0,88384 . 19 5) Utilizando a Tábua Italiana (M), qual é a probabilidade que um homem atualmente com a idade de 20 anos tem de falecer no 450. ano. Solução: Temos x = 20 anos (idade atual da pessoa) e n = 44 - 20 = 24 anos Utilizemos a fórmula n|qx = dx+n / lx 24|q20 = d24+20 / l20 = d44 / l20 . O número de mortos entre as idades de 44 e 45 anos é d44 = l44 - l45 = 55.790 - 55.230 Logo, d44 = 560. Como l20 = 69.524, a probabilidade desejada é igual 24|q20 = 560 / 69.524 = 0,00805. 20 6) Determinar, pela Tábua das Cias. Alemãs, qual a probabilidade de uma pessoa com a idade atual de 30 anos, falecer antes de alcançar os 60 anos. Solução: Temos que x = 30 anos (idade atual da pessoa) e n = 60 - 30 = 30 anos. Utilizaremos a fórmula x q n = 1 - x p n 30q30 = 1 - 30p30 . Mas 30p30 = l60 / l30 Da tábua, tem-se que l30 = 91.578 e l60 = 55.892. Logo, 30p30 = 55.892 / 91.578 = 0,61032. Assim, 30q30 = 1 – 0,61032 = 0,38968. 21 7) Pela tábua American Experience, achar a probabilidade que tem uma pessoa de 30 anos, de morrer entre 45 e 50 anos. Solução: Temos que x = 30 anos (idade atual da pessoa), n = 45 - 30 = 15 anos e m = 50 - 45 = 5 anos. Usaremos a fórmula n|mqx = ( lx+n - lx+n+m )/ lx 15|5q30 = ( l45 - l50 )/ l30 Da tábua, temos que l30 = 85.441, l45 = 74.173 e l50 = 69.804. Logo, 15|5q30 = ( 74.173 - 69.804 ) / 85.441 = 0,051135. 22 8) Sendo dados 10 p 30 = 0,920 , 10 p 40 = 0,890 e p40 = 0,991, calcular a probabilidade que tem uma pessoa de 30 anos de morrer: i) antes da idade de 50 anos; ii) entre as idades de 40 e 50 anos; iii) no seu 410. ano. Solução: i) Queremos 20 q 30 = l30 l50 l30 l50 = l30 l30 l30 = 1 - 20 p30 Como não temos o valor de 20 20 p 30 = Assim, 20q30 p 30 , fazemos o artifício de cálculo l40 l50 l50 l l = 40 . 50 l . l 20 p30 = 10 p30 . 10 p40 l 30 l 40 l 30 30 40 20 p 30 = 0,920 x 0,890 = 0,8188 e = 1 – 0,8188 = 0,1812. 23 ii) Temos que 10|10q30 = ( l40 – l50 ) / l30 = ( l40 / l30 ) - ( l50 / l30 ). Mas ( l40 / l30 ) = 10p30 e ( l50 / l30 ) = ( l50 / l40 ) ( l40 / l30 ) = 10p40 Logo, 10|10q30 = 10p30 - 10p40 10p30 10p30 . Colocando 10 p 30 em evidência, temos 10|10q30 = 10p30 ( 1 - 10p40 ) . Substituindo pelos valores numéricos da tábua, teremos: 10|10q30 = 0,920 ( 1 - 0,890 ) = 0,1012 iii) Apliquemos a fórmula 10|q30 =10p30 q40. Como q40 = ( 1 - p40 ), temos que 10|q30 =10p30 ( 1 - p40 ). Substituindo pelos valores numéricos da tábua, teremos 10|q30 = 0,920 (1 - 0,991) = 0,00828. 24 5. Outras funções de tábuas de mortalidades Esperança de vida na idade x e0x = E[ T(x) ] = 0 t g(t) dt = 0 t t px x+t dt = 0 t px dt Similarmente, Var[ T(x) ] = 2 0 t t px dt - [ 0 t px dt ]2. Vida mediana na idade x P(T(x) > m(x)) = 0,5 m(x) deve satisfazer a S(x+m(x)) / S(x) = 0,5. Esperança de vida encurtada na idade x ex = E[ K(x) ] = 0 k k|qx = 0 k+1px 25 • Números esperados de anos vividos por sobreviventes Tx - número esperado de anos vividos pelos sobreviventes até x Tx = 0 t lx+t x+t dt = 0 lx+t dt Pode se mostrar que Tx / lx = e0x . Lx - número esperado de anos vividos entre x e x+1 pelos sobreviventes até x Lx = 10 t lx+t x+t dt + lx+1 . 1 = 10 lx+t dt Logo, Tx = Lx + Lx+1 + ... • Vida média entre x e x+1 ax = E[ T(x) | T(x) < 1 ] = [ 10 t lx+t x+t dt ] / [ 10 lx+t x+t dt ] Logo, Lx = ax dx + lx+1 . 26 • Taxa central de mortalidade mx = [ 10 lx+t x+t dt ] / [ 10 lx+t dt ] = ( lx - lx+1 ) / Lx = dx / Lx Média de x ponderada pela padronização de lx É uma espécie de versão discreta da força de mortalidade x Útil na modelagem estatística de tábuas de mortalidade pois fornece a relação entre o número de falecidos entre as idades x e x + 1 e o número de indivíduos que possuem a idade x. Temos ainda que mx = dx / [ lx - (dx /2) ] = (dx / lx ) / [ (lx / lx)- (dx /2 lx) ] = 2 qx / ( 2 - qx ). Daí decorre que qx = 2 mx / (2 + mx ) e px = 2 - mx / (2 + mx ). 27 • Se as mortes entre x e x+1 se distribuem uniformemente (lx+t x+t = dx ) ax = 1/2 Lx = lx+1 + (1/2) dx = lx - (1/2) dx = ( lx + lx+1 ) / 2 Tx = (1/2) lx + lx+1 + lx+2 + ... (provar) e0x = ex + 0,5 Outras possibilidades podem ser contempladas para a forma de distribuição das mortes entre x e x+1. As mais famosas são: i) uniforme (vista acima), ii) exponencial (força de mortalidade constante) iii) Balducci 28 Exercícios sobre tábuas de mortalidade – parte II 1) Sabendo-se que l10 = 100.000, l11 = 99.251 e l12 = 98.505, determinar as taxas centrais de mortalidade para as idades de 10 e 11 anos. Solução: dx Temos que m x = l 1 / 2 d . x x Como dx = lx - lx+1, a fórmula acima ficará mx = l x l x 1 l x l x 1 l x l x 1 2 l x l x 1 l x 1 / 2 l x l x 1 = l x 1 / 2 1 / 2 l x +1 = l x l x 1 = l x l x 1 . 2 Substituindo os valores numéricos, temos m10 2 l10 l11 2100.000 - 99.251 = = l10 l11 100.000 + 99.251 = 0,007518. Analogamente, m11 2 99.251 - 98.505 1.492 = = = 0,007545 99.251 + 98.505 197.756 29 2) Uma tábua tem taxas centrais de mortalidade para as idades de 20 e 21 anos dadas respectivamente por 0,007835 e 0,007886 e o número de sobreviventes para a idade de 20 anos é 92.637. Determinar os valores de l21, l22, p20, p21, q20 e q21. Solução: Vimos antes que m x = 2 l x l x 1 l x l x 1 . Podemos assim, obter o valor de lx+1 através das operações mx(lx + lx+1) = 2lx - 2lx+1 2lx+1 + mxlx+1 = 2lx - mxlx (2 + mx) lx+1 = (2 - mx) lx. Portanto, l x1 = 2 - mx l x 2 + mx . 30 Substituindo os valores numéricos, temos l 21 = = 2 - m20 l 20 2 + m20 2 0,007835 x 92.637 2 + 0,007835 Donde obtemos l21 = 91.914. Analogamente, l 22 = 2 - m21 l 21 2 + m21 = 2 - 0,007886 x 91.914 2 + 0,007886 = 91.192 As probabilidades são dadas por p 20 = l 21 91.914 = = 0,992195 , l 20 92.637 l 91.192 p21 = l22 = 91.914 = 0,992145 21 q20 = 1 - p20 = 1 - 0,992195 =0,007805 e, finalmente, q21 = 1 - p21 = 1 - 0,992145 =0,007855. 31 Leis de Mortalidade Seria útil poder ter formas analíticas descrevendo o padrão de mortalidade. Assim, ao invés de + de 100 probabilidades, bastariam 2 ou 3 números para descrição completa. Hoje em dia, isso não é mais tão importante. Algumas leis mais famosas: 1) de Moivre (1697-1754) – matemático Supõe que lx é uma função linear que decresce em progressão aritmética lx = l0 (w - x) Portanto, q x = l x l x 1 1 = lx w - x , x 1 = w - x e S(x) = 1 – x / w. 32 2) Gompertz (1779 - 1875) Supõe que a força de mortalidade x cresce em partes proporcionais x = B cx , para B > 0 e c > 1. Assim, S(x) = e m c x -1 onde m = B/log c. 3) Makeham (1826-1891) - Atuário Envelhecimento faz com que log tpx decresça em progressão geométrica quando x cresce em progressão aritmética log tpx = cx ( ct – 1) log g, com c > 1 e 0 < g < 1. Daí, x = A + B cx onde B = -log g > 0 , - B A, que representa riscos acidentais, e l x = k sx g c x k > 0, 0 < s < 1, 0 < g < 1, c > 1 . A = 0 Gompertz = Makeham c=1 Gompertz = exponencial (força constante) 33 Outras leis propostas: a) Lambert (1765) - lx = a+b (x-45) + c(x-45)2 + d(x-45)3 + e(x-45)4+ f(x-45)5 b) Young e Littrow - lx - polinomio de grau n c) Babbage (1823) - lx = A + Bx + cx x 1 2 d) Thiele - x = 1(x) + 2(x) + 3(x) onde 1(x) = a1 e 1x 2(x) = a2 e 3(x) = a3 1 x-c 2 2 2 , para a população infantil , para a população adulta e 3 x , para a população idosa e) Lang - lx = a + bcx f) Moser (1839) - lx = lo - ax1/4 - bx3/4 - cx7/4 g) Opperman - x = ( + x) ekx + ex (x < 15) 34 Tábuas e Índices de Mortalidade Tabela de Mortalidade - instrumento destinado a medir as probabilidades de vida e de morte. Tabela de 1a. Espécie - construída tendo em vista todo um grupo da população. Tabela de 2a. Espécie - construída levando-se em conta um grupo de pessoas selecionadas (por exemplo, por exame médico) e por esta razão determina um grupo homogêneo. 35 Existem situações que fazem com que mortalidade seja diferenciada: • indivíduos podem ter sido aprovados em exame médico • indivíduos podem ter deficiência física • etc... Padrão de mortalidade é alterado e novas probabilidades devem ser utilizadas. Para explicitar esse ponto, notação também será alterada: x [x] , idade na qual indivíduo teve padrão mudado (por exame médico). (x+u) ([x]+u) , indivíduo com x+u anos que teve padrão mudado em x Exemplo: considere 3 indivíduos com 30+i anos: (30+i), ([30]+i) e ([31]+i-1) 2q30+i é a probabilidade de (30+i) morrer em 2 anos 2q[30]+i é a probabilidade de [30]+i 2q[31]+i-1 é morrer em 2 anos a probabilidade de [31]+i-1 morrer em 2 anos Tábuas construídas para esses indivíduos são ditas tábuas seletas. 36 Espera-se que efeito do exame acabe com o tempo e mortalidade dependa apenas da idade, isto é, que exista r tal que q[x-j]+r+j q[x]+r q[x]+r , para j > 0 r é o período de seleção. A sociedade de atuária americana recomenda r=15, isto é, tomar q[x-j]+15+j q[x]+15 Com isso, tábuas seletas só precisam ter r colunas com probs. q[x]+j , j=1,... , r. A tábua de mortalidade para ([25]) necessita dos valores de q[25]+j , j=1, ... , 15, 16, ... Podemos obter • q[25]+j , j=1,... , 15 da tábua seleta • q[25]+15+j , j=1,... das relações q[25]+16 q[26]+15 q41 , q[25]+17 q[27]+15 q42 , ... Tábuas seletas e finais são obtidas pela truncagem das tabelas seletas após o período de seleção r. A coluna contendo q[x]+r (= qx+r ) de uma tábua seleta e final é chamada de tábua final. 37 A tabela abaixo contém um trecho da tábua de seguradoras inglesas 1967-1970 [x] 1000 q[x] 1000 q[x]+1 1000 qx+2 l[x] l[x]+1 lx+2 30 31 32 33 0,43767 0,45326 0,47711 0,50961 0,57371 0,59924 0,63446 0,68001 0,69882 0,73813 0,79004 0,85577 34 0,55117 0,73655 0,93663 x+2 33.829 33.807 33.784 33.760 33.814 33.791 33.767 33.742 33.795 33.771 33.746 33.719 32 33 34 35 33.734 33.715 33.690 36 O período de seleção usado nessa tábua foi r=2. Note que l[x+2] l[x+1]+1 lx+2 e portanto é razoável supor que l[x]+2 = lx+2 . Entretanto q[x+2] < q[x+1]+1 < qx+2 são bem diferentes e, embora todas se refiram a (32), ordem faz sentido. Tábua agregada leva em conta apenas a idade dos indivíduos. 38 Exercício sobre tábuas seletas Com base na tábua das seguradoras inglesas, calcule 2q[30], 5p[30] , 1|q[31] e 3q[31]+1 Solução: i) 2q[30] = P( ([30]) sobreviver 2 anos) = l32 / l[30] = 33.795 / 33.829 = 0,99899. ii) 5p[30] = P( ([30]) sobreviver 5 anos) = l35 / l[30] = 33.719 / 33.829 = 0,99675. iii) 1|q[31] = P( ([31]) morrer em seu 32o. ano) = ( l[31]+1 - l[31]+2 ) / l[31] Como l[31]+2 = l33 ., 1|q[31] = ( 33.791 - 33.771 ) / 33.807 = 0,00059. iv) 3q[31]+1 = P( ([31]+1) morrer em 3 anos) = ( l[31]+1 - l[31]+4 ) / l[31]+1 Como l[31]+4 = l35 ., 3q[31]+1 = ( 33.791 - 33.719) / 33.791 = 0,00213. 39 Inferência em tábuas de mortalidade Estimadores de px 1) Amostra reduzida – Neste caso, supõe-se que a saída no período de observação só ocorre por morte. l x+1 dx Assim, px = l x = 1 - l x 2) Atuarial - Se no período de observação pode haver saída (censura) devido a outros fatores além de morte em cada idade x, o estimador atuarial supõe que as saídas cx ocorrem no meio do intervalo (x, x + 1) Assim, p x = 1 - dx . 1 lx cx 2 40 Inferência em tábuas de mortalidade (cont.) Normalmente em tábuas, não há censura qx = dx / lx . Supondo que as mortes na idade [x] estão concentradas em x + ½, o tempo de exposição na idade x é Ex = lx+1 . 1 + dx . ½ = lx - dx . ½ Supondo que a taxa de mortalidade é constante em cada idade (x+s = x+1/2 , para 0 < s < 1), estimamos x+1/2 = dx / Ex qx = 1– exp( - x+1/2 ) = 1– exp(- dx / Ex). Observações: • Os 2 estimadores de qx são parecidos pois 1 – exp(-z) z, se z for pequeno • Se a taxa de mortalidade é constante para cada idade, a verossimilhança da idade x é (x+1/2 )dx exp( - x+1/2 Ex) 41 dx / Ex é EMV de x+1/2 Para usar métodos analíticos de inferência, precisamos assumir distribuição para v.a.’s dx e Ex (ou lx). Costuma-se assumir Ex (ou lx) conhecidos. Existem 2 opções mais comuns para dx: • dx Poisson (x+1/2 Ex) da verossim. Acima • dx Binomial ( lx , qx ) Na prática, não há muita diferença nos 2 caminhos; Se lx é grande e qx é pequeno (normalmente verdade) então • Binomial Poisson, • lx Ex • qx x+1/2 42 Intervalos de confiança (caminho Poisson) Assumindo o caminho Poisson, podem-se construir I.C.’s para x+1/2 a partir de I.C.’s para = x+1/2 Ex. Exemplo: suponha dx = 19 e Ex = 2000, para algum x O I.C. 90% para é 12,44 < < 27,88 (da tabela do Gerber) Dividindo todos os termos por 2000, I.C. 90% para x+1/2 é 0,00622 < x+1/2 < 0,01394. 1,00624 < exp ( x+1/2 ) < 1,01404 0,98616 < exp ( - x+1/2 ) < 0,99380 0,00620 < 1 - exp (-x+1/2) < 0,01384 I.C. para qx Note semelhança entre os I.C.´s de x+1/2 e qx 43 Intervalos de confiança (caminho binomial) Assumindo o caminho binomial, podem-se construir I.C.’s para qx a partir da aproximação normal dx /lx normal (qx , qx (1- qx )/lx ). Daí, obtém-se o I.C. 95% para qx dado pelos limites (dx /lx) 1,96 [ dx (lx - dx )/ (lx)3 ]1/2 Para I.C. 99% troca-se 1,96 por 2,576. Exemplo: suponha dx = 19 e lx = 2000, para algum x dx /lx = 0,0095 dx (lx - dx )/ (lx)3 = 19 (2000-19)/20003 = (0,002169)2 Assim, I.C. 95% para qx tem limites 0,0095 1,96 . 0,002169 I.C. 95%: 0,00525 < qx < 0,01375 Aproximação normal funciona bem para lx grandes. 44 Abordagem Bayesiana (caminho Poisson) Usando Poisson, a verossimilhança da idade x é dada por l(x+1/2 ) = (x+1/2 )dx exp( - x+1/2 Ex) Supondo prioris x+1/2 Gama ( x , x ), obtém-se, pelo teorema de Bayes, a posteriori x+1/2 | dados Gama ( x + dx , x + Ex). A média a posteriori de x+1/2 é (x + dx ) / ( x + Ex). A média a posteriori de qx = 1– exp( - x+1/2 ) é 1–[x/(x + 1) ]x. Intervalos de credibilidade para x+1/2 podem ser construídos, a partir da distribuição Gama. Intervalos de credibilidade para qx podem ser construídos, a partir dos intervalos para x+1/2 . 45 Abordagem Bayesiana (caminho Binomial) Usando binomial, a verossimilhança da idade x é dada por l(x+1/2 ) (qx )dx (1 - qx )lx -dx Supondo prioris qx Beta ( x , x ), obtém-se, pelo teorema de Bayes, a posteriori qx | dados Gama ( x + dx , x + lx). A média a posteriori de qx é (x + dx ) / ( x + lx). Intervalos de credibilidade para x+1/2 podem ser construídos, a partir da distribuição Gama. Intervalos de credibilidade para qx podem ser construídos, a partir dos intervalos para x+1/2 . 46 Graduação Os valores de qx estimados por todos os procedimentos acima não levam em conta nenhuma relação entre seus sucessivos valores. A decorrência disso é que eles podem ter grandes e indesejáveis flutuações, principalmente nas idades mais avançadas. Além disso, não levam em conta possíveis formas determinísticas (leis de mortalidade) que pode se querer impor. A idéia da teoria de graduação, introduzida por Whittaker em 1920, visa justamente tratar essas questões. Veremos mais tarde como isso pode ser feito. 47 Forças de mortalidade proporcionais Sejam px+1/2 = f. m. para idade x da tábua padrão x+1/2 = f. m. para idade x da tábua de interesse Suponha que tábua de interesse tenha força de mortalidade proporcional à uma tábua padrão, isto é, x+1/2 = f px+1/2 , para toda idade x. Temos que dx Poisson (x+1/2 Ex) = Poisson (fpx+1/2 Ex). Assim, d = x dx Poisson (f x px+1/2 Ex). Portanto, f pode ser estimado por (x dx)/(x px+1/2 Ex) e e s+1/2 pode ser estimado por ps+1/2 .(x dx)/(x px+1/2 Ex) Intervalos de confiança para f (e x+1/2) podem ser construídos. 48 Múltiplas causas de morte Considere a decomposição da morte pelas suas m causas. Temos assim, para cada idade x, m forças de mortalidade 1,x+1/2 , ... , m,x+1/2 m prob. condicionais de morte q1,x , ... , qm,x m contagens de mortos d1,x , ... , dm,x Os E.M.V. de j,x+1/2 são dados por dj,x / Ex , j = 1, ... , m. Analogamente, os E.M.V. de qj,x são dados por (dj,x/dx) [ 1 – exp ( - dx/Ex ) ], j = 1, ... , m. Intervalos de confiança para j,x+1/2 e qj,x podem ser construídos. Estimadores e intervalos Bayesianos também podem ser obtidos. 49 3) Kaplan-Meier - Neste método, o indivíduo perdido (ou censurado) é considerado no estudo e, somente após a saída, deixa de ser considerado na estimação de px. Portanto é necessária saber a ordem das saídas e mortes. Seja Nj’ = número de indivíduos ainda sob observação antes da ja morte em (x, x+ 1) Nj Logo, px = . j 1 N + 1 j dx 50 Exemplo do estimador Kaplan-Meyer Suponha uma saída e uma morte no intervalo (x, x+ 1) com a saída (censura) no tempo t e a morte no tempo u. Nx - número de indivíduos no início do intervalo. 10. Caso: xt<ux+1 (x, x + 1) = (x, t) (t,u) (u,x+1) px = p(x, t) p(t, u) p(u, x + 1) Nx Nx - 2 Nx 2 Nx 2 x x = =N Nx 1 Nx 2 Nx 1 x 20. Caso: xu<tx+1 px = p(x, u) p(u, t) p(t, x + 1) Nx 1 Nx -1 Nx 2 Nx 1 x x = = Nx Nx 1 Nx 2 Nx 51 Comparação de estimadores AR (amostra reduzida), PL (produto limite ou KaplanMeier) e Atuarial para estimar sobrevivência. Uma amostra de 100 indivíduos é acompanhada no começo de 1995. Durante o ano, 70 morrem e 30 sobrevivem. Ao final do ano, uma amostra maior de 1000 indivíduos está disponível. Durante 1996, 15 indivíduos da 1 a. amostra e 750 da 2a. amostra morrem, deixando como sobreviventes 15 indivíduos na 1a. amostra e 250 indivíduos na 2a. amostra. Ao final de 1996, desejamos estimar 2p0, que é a probabilidade dos indivíduos da população sobreviverem mais de 2 anos. 52 Amostra Inicial Mortes no 10. ano Sobreviventes no 10. ano Mortes no 20. ano Sobreviventes no 20. ano 15 = 0,15 RS) 2p0 = 100 KM) I 100 70 30 15 15 II 1000 750 250 (só usa informação da amostra completa) 30 250 = 0,255 e p0 = 100 1000 p1 = 15/30 = 0,5 (Probabilidade de (1) sobreviver 2 º ano). Logo, 2p0 = p0 p1 = 0,255 . 0,50 = 0,127 Atuarial) p1 =1- 2p 0 15 15 = 1= 1- 0.094 e 1 160 280 - 250 2 = p0 p1 = 0,255 (1 - 0,094) = 0,231 53 Inferência em tábuas de mortalidade Estimação de mx Na prática, dispomos de informação sobre mortes observadas na população. Com base, nesses dados procuramos obter estimadores de propriedades da população. Uma das mais usadas é a taxa central de mortalidade pois é dada por uma relação direta entre mortes e indivíduos em risco para cada dado intervalo (de 1 ano). Sejam Dx = número observado de mortes na idade x e Lx = número observado de anos vividos na idade x Note que E[Dx ] = dx , E [ Lx ] = Lx e mx = dx / Lx . Uma hipótese comumente feita é que Dx | Lx Poisson ( mx Lx ). Daí, obtém-se o estimador Dx / Lx para mx Hipóteses paramétricas sobre mx podem ser feitas. Exemplo: Gompertz - mx= B cx Pela regra de multiplicação P(A1... An) = P(A1) P(A2 | A1) .... P(An|An-1... A1) ( D1 | L1 ) , ( D2 | L2 ), ( D3 | L3 ) , ... são independentes. 54 Temos todas as condições de um modelo linear generalizado (MLG): • observações independentes D1 , D2, ... , Dw • função de ligação para a média • variáveis explicativas (no caso, x a idade) Aplicando para o caso Gompertz temos mx= B cx. Portanto, E [Dx ] = mx Lx = B Lx cx. Tomando ligação logarítmica temos log E [Dx ] = log Lx + log B + (log c) x. Trata-se de MLG com 1 covariável: x e intercepto dado por log Lx + log B . Se Gompertz não é apropriada, outras opções podem ser usadas. Descrições mais realistas podem ter covariáveis x, x2 , x3 , ... Ligação logarítmica é útil pois garante positividade de mx Outra opção é a abordagem não-paramétrica. Exemplo: modelos autocorrelacionados para mx mx = mx-1 + vx onde vx N(0, V) . 55 Beltrão e Pinheiro (2002) num relatorio técnico da Funenseg construíram uma tábua seleta da população consumidora de produtos das seguradoras brasileiras . Eles optaram pelo caminho binomial. A graduação foi feita através da especificação de Thiele qx = q1(x) + q2(x) + q3(x) onde q1(x) cuidaria da população infantil (ausente nesse caso), q2(x) cuida da mortalidade por causas externas q3(x) cuida da mortalidade por envelhecimento As formas adotadas foram q2(x) = D exp [ - E (log x – log F )2 ] e q3(x) = G Hx / ( 1 + K G Hx ) 56 Outras possibilidades a serem exploradas em graduação: Ao tomar o caminho binomial, queremos modelar probabilidades de morte qx que estão no intervalo [0,1]. Nesse caso, a transformação mais apropriada não é a logarítmica, usada no caso de taxas de mortalidade. A mais comum é a trasformação logit: x = log [qx /(1- qx )]. Diferentes modelos podem ser usados aqui como visto anteriormente. 57 Outra opção é aplicar as transformações diretamente nos dados e assumir a partir daí distribuição normal. Assim, no caminho Poisson, tomamos log (dx/Ex) como sendo normal com média x+1/2; no caminho binomial, tomamos logit (dx /lx) como sendo normal com média qx. Nesses casos, ainda resta a variância normal para ser modelada. Esse caminho é aproximado (os anteriores são exatos). Mas a aproximação será boa para Ex (ou lx) grandes. 58 Dinâmica de Populações Consideremos uma população hipotética com idade limite w = 4 anos. Suponha que 700 indivíduos nascem no ano z e são acompanhados até a morte Destes indivíduos, 140 morrem no primeiro ano (antes do 1 0. aniversário) 56 morrem no segundo ano (com um ano mas antes de completar 2 0. aniversário) 252 morrem no terceiro ano (com dois anos mas antes de completar 3 0. aniversário) 252 morrem no quarto ano (com três anos mas antes de completar 4 0. aniversário) O diagrama de Lexis* (1875) representa o acompanhamento dessas vidas com i) tempo z no eixo x ii) idade x no eixo dos y iii) vidas em linhas fazendo 45o com os eixos x e y. * 59 Wilhelm Lexis (1837-1914) – estatístico, demógrafo e atuário alemão No diagrama, cada vida é representada por uma linha inclinada de 45 o. A linha inicia-se na data do nascimento e termina na data e idade da morte. Para nossa população o diagrama terá 700 linhas inclinadas começando no eixo horizontal na idade z e teremos 140 terminando no paralelograma ADBC (antes da horizontal da idade). 56 terminando no paralelograma CDEF (entre as horizontais das idades 1 e 2). 252 terminando em EFGH e o resto em GHIJ. Os números que atingem as horizontais nas idades 0, 1, 2, 3, 4 são respectivamente 700, 560, 504, 252. Podemos estimar probabilidades de morte com base no acompanhamento dessa população. Por exemplo, q1 = 56 / [ 700 – 140 ] = 0,1. 60 Na descrição feita anteriormente, a população era um coorte, isto é, um grupo (nascido em um certo ano e) acompanhado até extinção. Cada ano l0 nascimentos ocorrem em uma população Cada coorte (grupo) de nascimento segue o padrão de uma dada tabela de mortalidade (padrão) Se isso permanecer inalterado por muitos anos a população se torna estacionária. Assim, um censo tomado desta população em qualquer momento n lx após o estado estacionário ser atingido obteria pessoas no intervalo x a x + n. Referimos esta população como população da tabela de mortalidade. 61 Na construção de tabelas de mortalidade: essencial que o período de referência (tempo) e intervalo de idade envolvido sejam bem especificados e entendidos. O diagrama de Lexis permite deixar claro esses aspectos. Por exemplo as estimativas de qx baseadas no coorte podem ser obtidas a partir de: Px – no. de pessoas no início do ano z com idade entre x e x + 1 (linhas cruzando AD). E zx = no. de pessoas que chegam a idade x no ano z (linhas cruzando AB) Dzx - no. de mortes no ano z ds pessoas com idade x (linhas que terminam em ABCD). D zx - número de mortes no ano z entre as pessoas com idade x que completaram x anos no ano z (linhas que terminam em ABC). z Dx - número de mortes no ano z entre as pessoas com idade x que completaram x anos no ano z-1 (linhas que terminam em ADC). Relações entre esses dados estimativa de qx dada por q zx = D z x + D zx 1 / p zx . Cada coluna do diagrama de Lexis fornece uma tábua de mortalidade (padrão). 62 Sequência de tábuas de mortalidade Na prática, observamos várias tábuas publicadas a intervalos de tempo regulares. Podemos coloca-las em sequência de forma a estabelecer padrão para evolução delas. Se população for estacionária, padrão é constante. Isso pode ser checado! Idade \ Ano 1 2 3 4 5 6 ... 1975 D11975 D21975 D31975 D41975 D51975 D61975 1980 D11980 D21980 D31980 D41980 D51980 D61980 1985 D11985 D21985 D31985 D41985 D51985 D61985 1990 D11990 D21990 D31990 D41990 D51990 D61990 1995 D11995 D21995 D31995 D41995 D51995 D61995 2000 D12000 D22000 D32000 D42000 D52000 D62000 onde Dxz denota o número de mortos da idade x observado no ano z Continuamos com independência (condicional) entre D1z , ... , Dwz , para todo ano z. Supondo que as tabelas foram geradas de forma independente, temos independência entre as tabelas. 63 Assim, temos independência para D11975 , ... , Dw1975 , ... , D12000 , ... , Dw2000. A hipótese básica se mantém: Dxz | Lxz Poisson ( mxz Lxz ), onde mxz é a taxa central de mortalidade da idade x no ano z Lxz é o número observado de anos vividos após x no ano z Podemos propor MLG como o anterior só que agora temos x e z como possíveis covariáveis. Modelando x (como vimos antes) estudamos o padrão de morte da população. Modelando z estudamos o padrão de evolução da mortalidade ao longo do tempo. Exemplo: é razoável supor um declínio da taxa central de mortalidade ao longo dos anos para todas as idades (x=1, ... , w) log mxz = x + x z onde espera-se < 0. x = 0 indica estacionariedade da população. 64