UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE MEDICINA SOCIAL ASPECTOS METODOLÓGICOS EM ANÁLISE DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS DO EFEITO DA POLUIÇÃO ATMOSFÉRICA NA SAÚDE PÚBLICA: UMA REVISÃO BIBLIOGRÁFICA E UM ESTUDO COMPARATIVO VIA SIMULAÇÃO. Hugo Segrilo Simas Dissertação apresentada como requisito parcial para obtenção do grau de Mestre em Saúde Coletiva, Curso de Pós-graduação em Saúde Coletiva – área de concentração em Epidemiologia do Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro. ORIENTADOR: ANTONIO CARLOS MONTEIRO PONCE DE LEON CO-ORIENTADOR: DENISE BRITZ DO NASCIMENTO E SILVA RIO DE JANEIRO 2003 O único lugar onde o sucesso vem antes do trabalho é no dicionário. (Einstein) Onde não falta vontade existe sempre um caminho. (em O Senhor dos Anéis) O verdadeiro conhecimento é aquele que transformamos em ação. (Hugo Simas) Aos meus pais e a minha noiva pela paciência e compreensão durante este período da minha vida. AGRADECIMENTOS Agradeço a todos que contribuíram para a realização desta dissertação e aqueles que de alguma forma acrescentaram para a minha formação acadêmica: Ao Professor e orientador Ponce pela motivação para o tema, por seu sólido conhecimento em estatística e pelo direcionamento ao objetivo central do meu trabalho. A Professora Denise pela a sua amizade e dedicação em meu trabalho. Ao Professor Paulo Maurício pelas sugestões valiosas durante a qualificação do projeto. A todos professores do IMS que contribuíram para a minha formação em Epidemiologia, ao estimular o questionamento e me entusiasmar pelos novos conhecimentos. Ao Washington e Joana pelo auxílio a respeito das bases de dados utilizadas e aos procedimentos de análises de séries temporais epidemiológicas realizados no projeto de poluição atmosférica e saúde coletiva. Ao Professor Nelson Gouveia pela atenção dada aos meus e-mails, auxiliando em etapas importantes da elaboração do texto da dissertação. Aos amigos Wagner, Alexandre e Denis pelo compartilhamento de experiências, tanto profissionais quanto de vida. Aos professores e colegas do período da ENCE, pelo começo da minha formação acadêmica e que não podiam ser esquecidos nesse momento. Adicionalmente, aos meus primos Henrique e Roberto que me incentivaram para o aprendizado da Matemática na época de colégio. A Bob família, pelos momentos de alegria e descontração compartilhados sempre que reunida. Aos meus pais, minha irmã e minha noiva pela paciência nas horas adversas. A Deus, a quem devo minha maior gratidão: A VIDA !!! APRESENTAÇÃO Esta dissertação segue o modelo proposto pelo Departamento de Epidemiologia na forma estruturada incluindo um artigo. O texto é dividido em três partes. A primeira compreende a Introdução, Justificativa, Objetivos e Metodologia. A segunda consiste no Artigo originário do trabalho de pesquisa. Finalmente, na terceira parte são apresentadas as Conclusões e Propostas Futuras, e ainda, as tabelas e gráficos que não são incluídas no artigo. RESUMO (GERAL) Estudos recentes têm avaliado o impacto da poluição atmosférica na saúde em áreas urbanas, reportando associações significativas entre os níveis de poluição e indicadores de mortalidade e morbidade. OBJETIVOS: Avaliar o desempenho de métodos paramétricos e não paramétricos no controle dos fatores de confusão na estimação do efeito da poluição do ar sobre saúde coletiva através de dois estudos comparativos. METODOLOGIA: A comparação dos métodos foi realizada mediante a aplicação dos Modelos Lineares Generalizados (MLG) e Modelos Aditivos Generalizados (MAG) aos dados da cidade do Rio de Janeiro. Inicialmente foi elaborada uma comparação via simulação para a contagem diária de internações hospitalares. Em seguida, realizou-se uma aplicação ilustrativa aplicando-se os modelos à série de mortalidade por doenças do aparelho respiratório entre idosos. RESULTADOS: O estudo comparativo via simulação mostrou que não existe diferença significativa para o valor médio do efeito do PM10 nas simulações. No estudo ilustrativo, o modelo central, cujos componentes referem-se aos fatores meteorológicos, efeitos de calendário, bem como tendência e sazonalidade da série do desfecho foram ajustados utilizando-se as abordagens paramétrica (MLG) e não especificadas (MAG). Destaca-se que os modelos forneceram resultados similares no que tange às estatísticas de qualidade do ajuste e ao diagnóstico dos resíduos. CONCLUSÃO: Nesses dois estudos comparativos, não há evidências de desempenho diferenciado dos métodos paramétricos e não paramétricos para o controle dos fatores de confusão na análise de séries temporais epidemiológicas. Palavras-chave: Séries Temporais; Poluição Atmosférica; Simulação; Fatores de confusão; Modelos lineares generalizados; Modelos aditivos generalizados. SUMÁRIO APRESENTAÇÃO Pág. 6 RESUMO (GERAL) 7 LISTA DE ILUSTRAÇÕES E ANEXOS 10 1. INTRODUÇÃO 13 1.1. Considerações iniciais 13 1.2. Fatores de confusão em séries temporais epidemiológicas 15 1.3. Técnicas para o controle de fatores de confusão e modelagem de séries temporais 20 epidemiológicas. 1.4. Conceitos básicos de simulação 24 2. JUSTIFICATIVA 27 3. OBJETIVOS 28 4. HIPÓTESE 28 5. METODOLOGIA 29 6. ARTIGO 32 Resumo (Artigo) 33 1.Introdução 34 2. Metodologia 43 3. Resultados 50 4. Discussão 64 5. Referências bibliográficas (Artigo) 66 7. CONCLUSÕES 72 7.1. Considerações finais 72 7.2. Propostas Futuras 72 8 REFERÊNCIAS BIBLIOGRÁFICAS (INTRODUÇÃO E CONCLUSÕES) 74 ANEXO I – Método Monte Carlo 78 ANEXO II – As covariáveis que compõem o componente sistemático 79 ANEXO III – Análises dos resíduos do modelo base para as séries de internações 80 hospitalares simuladas ANEXO IV – Resultado do modelo base para as séries simuladas 84 ANEXO V 86 – Resultados das simulações ANEXO VI – Implementação da simulação e da comparação entre as classes de 92 modelos ANEXO VII – Análise descritiva das variáveis da ilustração 97 ANEXO VIII – Análise dos resíduos do ajuste por modelo Linear Generalizado 99 ANEXO IX – Análise dos resíduos do ajuste por modelo Aditivo Generalizado 101 ANEXO X 103 – Análise descritiva dos resíduos dos modelos ajustados ANEXO XI – Resultados dos Ajustes 104 ANEXO XII – Correlação das covariáveis do cenário simulado. 105 ANEXO XIII – Técnicas para o controle de fatores de confusão 106 LISTA DE ILUSTRAÇÕES E ANEXOS Figura 1 Variáveis dos estudos de séries temporais sobre o efeito da poluição atmosférica na saúde coletiva, seus componentes e suas inter-relações. 19 Figura 2 Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro, 2000-2001, entre indivíduos de 65 anos de idade ou mais. 24 Figura 3 Séries temporais vistas como possíveis trajetórias de um processo estocástico. Figura 4 30 Observações de uma série temporal vistas como valores de distribuição Poisson 31 com média igual à própria observação. Tabela 1 Configuração conceitual das séries simuladas. 31 ARTIGO Tabela 1 Coeficientes considerados na geração de µt a partir de uma regressão Poisson por Modelos Lineares Generalizados. Tabela 2 Estatísticas descritivas dos efeitos estimados do PM10 pelos modelos em 54 comparação. Tabela 3 Comparação entre as médias dos efeitos estimados pelos 100 modelos. Tabela 4 52 55 Estatísticas descritivas para a mortalidade diária em idosos e para a poluição 58 diária por partículas na cidade do Rio de Janeiro. Tabela 5 Matriz dos coeficientes de correlação de Pearson para as covariáveis em análise. 58 Tabela 6 Comparação dos resultados através de medida de ajuste. 59 Tabela 7 Medidas de qualidade do ajuste utilizadas em análises de séries temporais. 59 Tabela 8 Estimativas dos coeficientes de regressão e dos riscos relativos da mortalidade 60 por doenças do aparelho respiratório entre os idosos. Comparação do efeito do dia anterior do poluente através do controle dos fatores Tabela 9 de confusão pelo ajuste de um Modelo Aditivo Generalizado. Tabela 10 Resultado da Regressão Poisson para estimação do efeito do PM10 anterior. Figura 1 Gráfico dos quartis dos resíduos do modelo ajustado (MLG). do dia 60 62 52 Intervalos de confiança a 95% para a estimação do efeito da poluição do ar por Figura 2 partículas suspensas nos 100 ajustes. 53 Figura 3 Diagrama de caixa das estimativas. 54 Figura 4 Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro. 58 Figura 5 Função de autocorrelação parcial e gráfico dos quartis dos resíduos. 59 Figura 6 Função de autocorrelação parcial para a série de mortalidade entre idosos 61 Figura 7 Ajuste do modelo central pelo MAG. 62 Figura 7 Ajuste do modelo central pelo MLG. 63 ANEXO I Figura I Adaptação do fluxograma do método Monte Carlo apresentado em 78 Barton,1973. ANEXO II Figura II Séries temporais das covariáveis que compõem o componente sistemático. 79 ANEXO III Figura III Figura IV Figura V Figura VI Figura VII Figura VIII Figura IX Figura X Função de autocorrelação parcial da série de resíduos do modelo central ajustado através de modelo linear generalizado. Função de autocorrelação parcial da série de resíduos do modelo central ajustado através de modelo aditivo generalizado. Periodograma da série de resíduos do modelo central ajustado através de modelo linear generalizado. Periodograma da série de resíduos do modelo central ajustado através de modelo aditivo generalizado. Quartis dos resíduos do modelo central ajustado através de modelo linear generalizado versus os quartis da distribuição Normal. Quartis dos resíduos do modelo central ajustado através de modelo aditivo generalizado versus os quartis da distribuição Normal. Resíduos do modelo central ajustado através de modelo linear generalizado versus o tempo. Resíduos do modelo central ajustado através de modelo aditivo generalizado versus o tempo. 80 80 81 81 82 82 83 83 ANEXO IV Tabela 1 Tabela 2 Coeficientes de regressão Poisson no ajuste por Modelo Linear 84 Generalizado (MLG). Coeficientes de regressão Poisson no ajuste por Modelo Aditivo 85 Generalizado (MAG). ANEXO V Tabela 3 Tabela 4 Resultados através de ajuste por modelos lineares generalizados. Resultados através de ajuste por modelos aditivos generalizados. ANEXO VI - Implementação da simulação e da comparação entre as classes de modelos. 86 89 92 ANEXO VII Figura XI Figura XII Figura XIII Histograma distribuição dos óbitos por doença do aparelho respiratório 97 entre idosos no Rio de Janeiro no período em estudo. Séries das covariáveis em análise (temperatura, umidade e PM10 ). Dados 97 diários 2000-2001. Matriz de correlação das variáveis em análise.Dados diários 2000-2001. 98 ANEXO VIII Figura XIV Figura XV Figura XVI Figura XVII Função de autocorrelação parcial da série de resíduos do modelo central. Periodograma da série de resíduos do modelo central. Quartis dos resíduos do modelo central versus os quartis da distribuição Normal. Resíduos do modelo central versus o tempo. 99 99 100 100 ANEXO IX Figura XVIII Figura XIX Figura XX Figura XXI Função de autocorrelação parcial da série de resíduos do modelo central. Periodograma da série de resíduos do modelo central. Quartis dos resíduos do modelo central versus os quartis da distribuição Normal. Resíduos do modelo central versus o tempo. 101 101 Estatísticas do resíduo do modelo. Diagrama de caixa dos resíduos do modelo central. 103 103 102 102 ANEXO X Tabela 5 Figura XXII ANEXO XI Figura XXIII Figura XXIV Ajustado através de modelo linear generalizado. Ajustado através de modelo aditivo generalizado. 104 105 CATALOGAÇÃO NA FONTE UERJ/REDE SIRIUS/BIBLIOTECA CB/C S588 Simas, Hugo Segrilo. Aspectos metodológicos em análise de séries temporais epidemiológicas do efeito da poluição atmosférica na saúde pública: uma revisão bibliográfica e um estudo comparativo via simulação / Hugo Segrilo Simas. - 2003. 103f. Orientador: Antônio Carlos Monteiro Ponce de Leon. Co-Orientadora: Denise Britz do Nascimento e Silva. Dissertação (mestrado) – Universidade do Estado do Rio de Janeiro, Instituto de Medicina Social. 1. Ar – Poluição - Teses. 2. Modelos lineares (Estatística) Teses. 3. Análise de séries temporais – Processamento de dados - Epidemiologia – Teses. 4. Fatores de confusão(Epidemiologia) I. Ponce de Leon, Antônio Carlos Monteiro. II. Silva, Denise Britz do Nascimento e. III. Universidade do Estado do Rio de Janeiro. Instituto de Medicina Social. IV. Título. CDU628.395 13 1. INTRODUÇÃO 1.1. CONSIDERAÇÕES INICIAIS A poluição atmosférica é um fenômeno notório em todas as grandes cidades do mundo, principalmente nos países em desenvolvimento. Em razão do crescimento desordenado das áreas urbanas e do deslocamento de algumas indústrias para áreas remotas, as emissões veiculares tornaram-se as principais fontes geradoras de poluição do ar, contribuindo ainda mais para agravar os problemas de saúde pública já existentes. Há muito tempo a poluição atmosférica deixou de ser apenas um problema ambiental para integrar também os problemas de saúde (Ministry of Health, 1954). Atualmente, efeitos imediatos e corriqueiros, como coceira nos olhos e lacrimejamento, já são indicadores de dias mais poluídos reconhecidos pela população. Outros efeitos mais sutis são observados, tais como conjuntivites sintomáticas, crises cardíacas e respiratórias, alterações comportamentais e, entre outros efeitos adversos, recentes evidências associadas a abortos espontâneos são relatadas ( Costa, 2002). Na primeira metade do século XX, episódios de poluição excessiva causaram aumento do número de mortes em algumas cidades da Europa e dos Estados Unidos (McCarroll & Bradley, 1966). As principais fontes poluidoras eram as indústrias e a combustão de carvão para aquecimento domiciliar. O mais grave episódio relatado do efeito nocivo da poluição do ar ocorreu em dezembro de 1952, em Londres, e ficou conhecido como o grande nevoeiro londrino (Martin & Bradley, 1960). Na década de 1950 houve uma preocupação com os agravos à saúde causados pela poluição atmosférica. Nos Estados Unidos e na Inglaterra, no final dos anos 50, era evidente a associação entre os níveis de poluentes atmosféricos e indicadores de mortalidade proveniente de alguns episódios de poluição acentuada (Yaffe, 1970). Devido ao elevado nível de poluição observado e suas conseqüências na saúde da população, medidas governamentais de controle ambiental (Clean Air Acts) foram adotadas nesses países para redução dos níveis de emissão de poluentes no ar, como a proibição da combustão de carvão para aquecimento domiciliar (Schwartz, 1994). De 1960 a 1979, poucos estudos foram realizados sobre o tema, uma vez que os níveis de poluição haviam diminuído. No entanto, no início da década de 70, Londres já possuía níveis poluição semelhantes aos atuais, o mesmo ocorrendo na Europa Ocidental e nos Estados Unidos (Schwartz & Marcus, 1990). 14 O aumento da frota de veículos nas grandes metrópoles, no final dos anos 70, fez voltar à tona a suspeita de que a poluição do ar poderia estar associada às flutuações nas séries de mortalidade e morbidade, mesmo quando os níveis de poluição eram mais baixos que nas décadas anteriores. Com a disponibilidade de banco de dados de domínio público sobre poluição atmosférica e mortalidade nos Estados Unidos e na Europa, pesquisas epidemiológicas continuaram a ser realizadas no sentido de observar a tendência da associação entre essas séries (Mazumdar & Schimmel, 1982; Ostro, 1984). A partir de 1980, os estudos de séries temporais epidemiológicas se beneficiaram da melhoria ocorrida nas bases de dados e passaram a utilizar definições mais específicas e medidas mais precisas, tanto para as exposições aos poluentes, como para os eventos de saúde. Além disso, incorporaram métodos estatísticos mais complexos e apropriados, entre eles, a análise espectral e os modelos autorregressivos (Anderson et al., 1996). Nos países desenvolvidos onde o controle ambiental é mais efetivo existe um crescente interesse sobre os efeitos da poluição atmosférica na saúde. Até mesmo naquelas concentrações consideradas “seguras” pelas legislações, uma vez que o efeito na população exposta era mais sutil (Schwartz & Marcus, 1990). Na última década foram realizados vários estudos, em diversos países, para estimar o efeito da poluição atmosférica na saúde, com o intuito de avaliar a associação entre os níveis de mortalidade e/ou morbidade ao nível de poluição do ar nas grandes metrópoles, em especial, os efeitos de curto prazo. Cabe ressaltar que os achados dos estudos epidemiológicos acompanharam os progressos na metodologia estatística e os avanços tecnológicos. Recentemente, em um estudo do programa Indian Ocean Experiment (Indoex) divulgado pela ONU em agosto de 2002, foi constatado que uma enorme massa de poluentes com 3 km de espessura está cobrindo o sul da Ásia, afetando principalmente a agricultura, além de colocar em risco a saúde pública. Essa massa de poluentes é um coquetel de partículas de carbono, sulfato e cinzas orgânicas resultantes das emissões de gases de fábricas, de usinas termoelétricas e de escapamentos dos automóveis. A cidade de Jacarta está envolta por nuvens de poluentes que reduziram a luz solar em até 15% (Madov et al., 2002). O estudo revela que o problema pode se estender para o sudeste e leste do continente, chegando à China. A nuvem de poluição também poderá reduzir em 10% as colheitas de arroz devido à chuva ácida e provocar a morte prematura dos habitantes por doenças respiratórias. 15 Desde então, setores da ONU acompanham os impactos regionais e globais nos próximos 30 anos, quando a população asiática chegará à casa de cinco bilhões de pessoas. Na próxima seção serão expostos sucintamente alguns fatores de confusão mais comuns em estudos sobre o impacto da poluição atmosférica na saúde coletiva. 1.2. FATORES DE CONFUSÃO EM SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Em estudos de séries temporais epidemiológicas, o interesse é estimar a associação ao longo do tempo entre um agravo à saúde (desfecho) e um fator de exposição (possível fator de risco) controlando-se por potenciais fatores de confusão. Esses fatores são variáveis cujos valores se modificam com o tempo (temperatura diária, por exemplo), influenciando tanto a exposição quanto o desfecho, ou seja, confundindo a associação entre a exposição de interesse e o desfecho. Nos estudos sobre o efeito de curto prazo da poluição atmosférica na saúde, os agravos à saúde mais comuns são a mortalidade e a morbidade por causas específicas, em geral, entre idosos ou crianças. Os principais fatores de confusão são as condições meteorológicas e os dias da semana e feriados (efeito de calendário), segundo Díez (1999). Em geral, os fatores meteorológicos, como a temperatura e a umidade relativa do ar, são medidos diariamente e contribuem com uma certa parcela para a autocorrelação e sazonalidade da série de desfecho. Por exemplo, um dia com baixa temperatura pode afetar a mortalidade ocorrida tanto no próprio dia, quanto no dia seguinte ou pode ser um efeito acumulado de dias anteriores (médias móveis). Em condições meteorológicas típicas é plausível imaginar que se tenha menor concentração de poluição atmosférica em dias com menos fluxo de veículos e/ou em dias nos quais as fábricas não funcionam com força total, como em fins de semana, feriados, greves de transportes coletivos e dias de rodízio de veículos. Em algumas ocasiões podem ocorrer mudanças significativas no registro do número de ocorrências do desfecho devido a algum evento atípico durante o período em estudo, como epidemias causadas principalmente por diferentes doenças do aparelho respiratório. Nota-se que, nas circunstâncias mencionadas anteriormente, somente a presença dos fatores meteorológicos e do calendário não são suficientes nas análises. Neste caso, faz-se necessário contemplar outros fatores no estudo, como greves e epidemias. Nos estudos ecológicos de séries temporais epidemiológicas para avaliação do impacto (de curto prazo) da poluição atmosférica sobre a saúde da população, além de 16 considerar as condições meteorológicas, os efeitos de calendários e eventos atípicos como potenciais fatores de confusão para a associação de interesse, inclui-se no modelo componentes da própria série temporal do desfecho, como tendência, sazonalidade e autocorrelação. Todos esses fatores e componentes devem ser controlados nas análises, garantindo assim, validade na estimativa do efeito da poluição atmosférica sobre a saúde. Na Figura 1, tem-se a representação das principais variáveis das análises epidemiológicas, suas possíveis inter-relações e os seus componentes. A seguir, apresentam-se características das variáveis no contexto dos estudos de séries temporais epidemiológicas do efeito da poluição atmosférica na saúde coletiva, e seus componentes. Outros detalhes serão abordados na próxima seção. • Indicadores de Mortalidade ou Morbidade Representa a série do agravo à saúde de interesse. Esse componente possui algumas características específicas, como autocorrelação, tendência e sazonalidade e pode sofrer influência da poluição atmosférica, de fatores meteorológicos, dos dias da semana e feriados, de greves de serviços de saúde, das epidemias e de outros eventos atípicos. • Poluição Atmosférica Representa a série da exposição de interesse (possível fator de risco). A estimação do seu efeito é o objetivo principal das análises. Apresenta tendência, autocorrelação e sazonalidade características, além de sofrer influência dos dias da semana e feriados e de fatores meteorológicos. • Epidemias e outros eventos atípicos Representa um indicador da presença de uma epidemia ou algum evento atípico (greves de transportes, dos serviços de saúde e das indústrias) que pode afetar o número e/ou registro de ocorrências de um certo agravo à saúde no período em estudo. 17 • Dias da semana e feriados Representa um indicador dos dias da semana e feriados. Afeta diretamente tanto a exposição de interesse como o desfecho, representando um fator de confusão para a associação de interesse. Este indicador é conhecido como efeito de calendário, pois a mortalidade e/ou morbidade podem sofrer alterações diferenciadas nos dias da semana. É um efeito de curto prazo. • Meteorologia Representa um fator de confundimento. Mudanças na temperatura, umidade do ar, direção e velocidade do vento e efeitos da pressão atmosférica alteram a concentração de poluentes na atmosfera e também podem alterar os níveis de mortalidade/morbidade. Conseqüentemente, os níveis de mortalidade ou morbidade são aumentados ou diminuídos. Adicionalmente, possíveis interações entre fatores meteorológicos e a poluição atmosférica podem ocorrer, como por exemplo, o fenômeno de inversão térmica. Em geral, as séries das condições meteorológicas e da poluição atmosférica são correlacionadas. Esse aspecto caracteriza um fenômeno denominado multicolinearidade das séries. • Tendência Este componente está presente na meteorologia, na poluição atmosférica e no desfecho. Para a série de desfecho, representa mudança de longo prazo no seu nível médio, por um comportamento temporal crescente ou decrescente. • Autocorrelação Este componente representa o fenômeno de correlação serial inerente a dados de séries temporais. Portanto, é de se esperar que as séries do desfecho, do fator de risco (poluente atmosférico) e das características meteorológicas apresentem autocorrelação. 18 • Sazonalidade Este componente está presente na meteorologia, na poluição atmosférica e no desfecho. Quando existente nos dois últimos simultaneamente é considerado um fator de confusão para a associação de interesse. A sazonalidade é uma das fontes de autocorrelação de longa dependência e representa também, como a tendência, os efeitos de longo prazo. Na série do desfecho a sua contribuição é, em parte, devida a fatores meteorológicos. Na seção seguinte serão abordadas algumas técnicas estatísticas para o controle dos potenciais fatores de confusão mais comuns em estudos sobre o impacto da poluição atmosférica na saúde coletiva. 19 Poluição Atmosférica (Fator de Risco) Mortalidade / Morbidade (Desfecho) ü autocorrelação ü sazonalidade ü tendência ü autocorrelação ü sazonalidade ü tendência Meteorologia ü autocorrelação ü sazonalidade ü tendência Dias da Semana e Feriados (Efeito de Calendário) Epidemias ou Eventos atípicos Figura 1 - Variáveis dos estudos de séries temporais sobre o efeito da poluição atmosférica na saúde coletiva, seus componentes e suas inter-relações. 20 1.3. TÉCNICAS PARA O CONTROLE DE FATORES DE CONFUSÃO E MODELAGEM DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS As técnicas para o controle das variáveis de confusão em estudos sobre o impacto da poluição atmosférica correspondem a ajustes de modelos estatísticos paramétricos ou não paramétricos sobre as covariáveis, como as características meteorológicas, os efeitos de calendário, a sazonalidade e outros padrões cíclicos. Esses modelos sumarizam a tendência dos valores do desfecho (Yt) como uma função de uma ou mais covariáveis (Xt ). Na abordagem não paramétrica (funções não especificada), os modelos são compostos de suavizadores lineares cujas formas são definidas pelos dados. Entre as possíveis funções suavizadoras, a técnica spline é a mais utilizada para o controle dos fatores de confusão em análise de séries temporais epidemiológicas. Em geral são ajustados modelos semi-paramétricos (Modelos Aditivos Generalizados - MAG) para avaliar o efeito de curto prazo da poluição atmosférica sobre a saúde da população, como descrito em Hastie & Tibshirani ,1990. A técnica splines (cubic smoothing splines) consiste em dividir os valores da variável preditiva em intervalos (“janelas”) predefinidos e ajustar um polinômio (em geral cúbico) para cada intervalo, de forma que, os polinômios se juntam suavemente. A função das janelas é essencialmente considerar uma proporção do conjunto de valores para a construção da função suavizadora (alguns aspectos teóricos são abordados no Anexo XII e maiores detalhes em Hastie & Tibshirani ,1990). No MAG, um dos modos de controlar a tendência temporal e a sazonalidade da série de desfecho é feito por ajuste de um spline da variável tempo. Ajusta-se adicionalmente um spline para cada uma das variáveis meteorológicas. Uma das maneiras de controlar os fatores de confusão por meio de técnicas paramétricas consiste em ajustar um polinômio harmônico que é uma combinação linear de senos e co-senos para a sazonalidade da série do desfecho e um outro polinômio de grau q (em geral q não excede ao valor de três) para a tendência temporal. Ambos os polinômios são funções da variável tempo (maiores detalhes em Wei, 1989 e Morettin & Toloi, 1987). Para o controle das variáveis meteorológicas é ajustado um polinômio de grau q para cada variável em questão. Em geral são ajustados Modelos Lineares Generalizados (MLG), como descrito em McCullagh & Nelder (1989) para alcançar o objetivo. Finalmente o 21 ajuste das covariáveis relativas ao efeito de calendário é realizado apenas por técnicas paramétricas, pois são variáveis indicadoras (dummy) no modelo. Ressalta-se que, nos estudos sobre o impacto da poluição atmosférica na saúde coletiva, o interesse principal é na estimação do efeito do poluente atmosférico. Os efeitos dos fatores de confusão não são de interesse, porém sua descrição (controle) é necessária. O controle dos fatores de confusão consiste em tentar captar a contribuição (efeito) específica de cada fator nos níveis de mortalidade ou morbidade. Em seguida, pode-se avaliar o efeito do fator de exposição de interesse (poluição atmosférica) sobre o desfecho na presença dos fatores de confundimento. Entre os fatores de confusão destacam-se as variáveis meteorológicas (temperatura e umidade), de calendário (dias da semana e feriados) e outros padrões cíclicos. Além dos possíveis fatores de confusão, também devem ser levados em consideração os componentes inerentes às séries, como a sua tendência, autocorrelação e sazonalidade, que podem ser estimados mediante procedimentos de filtragem e suavização. Um modelo de decomposição de uma série temporal epidemiológica pode ser expresso por: Yt = Tt + S t + FCt + Pt + εt (1.3.1) sendo Yt a série do desfecho de interesse, Tt a tendência expressa pelo tempo, St a sazonalidade expressa como uma função do tempo, FCt os possíveis fatores de confusão , Pt as séries dos poluentes atmosféricos de interesse (fatores de risco) e εt um componente aleatório, com média zero e variância constante. Como a probabilidade de um indivíduo morrer (ou ser admitido em um hospital), em um certo dia, por causa de problemas respiratórios é pequena, considera-se esse evento como raro, bem como a sua contagem. Em geral esses eventos seguem a distribuição Poisson (Schwartz et al., 1996). Nesse sentido, a técnica estatística que vem sendo mais empregada nos estudos epidemiológicos para avaliar a associação entre os níveis de poluição do ar e um determinado agravo à saúde é a modelagem de Regressão Poisson (log-linear). Dessa forma, o modelo (1.3.1) pode ser expresso como: Ln( E[Yt ]) = Tt + S t + FCt + Pt (1.3.2) Tal que: Yt ~Poisson(µt). Na última década, duas classes de modelos de regressão se destacaram nos estudos do efeito da poluição atmosférica na saúde. Os Modelos Lineares Generalizado (MLG), paramétrico, e os Modelos Aditivos Generalizados (MAG), semiparamétrico. 22 O modelo (1.3.2) é expresso da seguinte forma sob a abordagem dos modelos MLG: p Ln( E[Yt ]) = α + β 1 X t 1 + K + β p X tp = α + ∑ β j X t j , (1.3.3) j =1 sendo Yt a contagem diária de óbitos por um determinado agravo à saúde (desfecho ou variável resposta), E[Yt ] o valor esperado de Yt , X t 1 ,K , X tp as variáveis preditivas (covariáveis) da contagem diária (fatores de confusão e o fator de exposição) , β1 , K, β p os coeficientes de regressão das covariáveis. Ao passo que, pelo MAG o modelo (1.3.2) é expresso como: p Ln( E[Yt ]) = α + ∑ f j ( X tj ) , (1.3.4) j =1 sendo f j ( X tj ) o conjunto das funções arbitrárias e não especificadas das séries dos preditores (suavizadores lineares). As funções arbitrárias e não especificadas dos preditores são funções contínuas suaves (smooth) dos dados funções não paramétricas que permitem descrever mais adequadamente a relação entre as covariáveis e o desfecho, a partir de uma forma funcional que os próprios dados sugerem (data driven). Como o MAG permite que algumas funções sejam específicas e não arbitrárias (funções lineares paramétricas), este fato o transforma em um modelo semiparamétrico. Nas duas classes de modelos de regressão pressupõem-se que as observações do desfecho não são correlacionadas. Em se tratando de métodos de séries temporais é importante levar em consideração a possível ocorrência de autocorrelação nos dados, antes de se extrair alguma conclusão sobre o modelo de predição. Em geral, autocorrelação presente na série de desfecho é supostamente introduzida pelos fatores meteorológicos (temperatura e umidade), pela concentração de poluição atmosférica e pela sazonalidade da própria série. Como o interesse dos estudos é estimar o efeito da poluição do ar sobre a mortalidade/morbidade (desfecho), então a autocorrelação proveniente da série de temperatura e umidade deve ser controlada. Os estudos também consideram possíveis flutuações da série de desfecho causados por efeitos dos dias da semana e feriados (efeito de calendário). Nesse sentido, os fatores meteorológicos e o calendário são potenciais fatores de confusão (FCt) na associação entre poluição atmosférica e 23 mortalidade/morbidade, logo devem ser controlados na análise. O controle desses fatores baseia-se no ajuste do componente de sazonalidade de cada série de variável de confusão. Os estudos sobre o tema espera-se que a autocorrelação observada no desfecho seja proveniente, em parte, da influência das variáveis meteorológicas (temperatura e umidade). Se a característica meteorológica for a única fonte de autocorrelação, a correlação serial desaparecerá após o ajuste do modelo pelos efeitos de temperatura e umidade, restando a série dos resíduos não-correlacionados sob a forma de ruído branco. Entretanto, quando existem outras fontes de autocorrelação além das contempladas no modelo, o ajuste para as variáveis de confusão não minimiza suficientemente a autocorrelação da série de mortalidade/morbidade. Nesse caso, é necessário a adoção de um modelo que incorpore essa autocorrelação (Ponce de Leon,1996). Isto é, a mortalidade ou a morbidade apresenta ainda uma autocorrelação que não é proveniente de uma variável do modelo. Em relação à tendência temporal da série de desfecho, é comum a incorporação da variável tempo (t=1,2,3,...n) no modelo preditivo. As flutuações provenientes do efeito de calendário, como os dias da semana, em geral são controladas pela inclusão de variáveis indicadoras (dummy); e a sazonalidade da série do desfecho é ajustada a partir de uma função do tempo (St), de forma paramétrica ou não-paramétrica, como mostra a Figura 2, através de um ajuste (smoothing splines) sobre observações do desfecho. Um modelo denominado modelo central (core model) é obtido quando os fatores de confusão (características meteorológicas e efeitos de calendário), componentes da série de desfecho (tendência, sazonalidade e autocorrelação), identificadores de epidemias, greves e outros padrões cíclicos foram todos controlados, seja por métodos paramétricos ou não paramétricos. Este modelo associa o desfecho com as variáveis de confusão, descrevendo a dependência da mortalidade/morbidade para cada variável de confusão e componentes da mesma. O modelo central acrescentado da variável de exposição (o poluente atmosférico) é que permite avaliar a associação entre os níveis de poluição do ar e os níveis de mortalidade (ou morbidade), quando possíveis fatores de confusão foram controlados. O efeito dos fatores confundidores sobre a mortalidade ou morbidade atribuída a poluição atmosférica de fato não é imediato, mas em geral, de curto prazo. Nesse sentido, o modelo central tenta “eliminar” os efeitos de médio e longo prazo da tendência e sazonalidade da série do desfecho e controlar os efeitos de curto prazo das demais covariáveis que o compõem. Em seguida, espera-se que o único efeito de curto prazo ainda 24 existente sobre o desfecho seja, em parte, do poluente atmosférico que será incorporado ao 15 Motalidade por DAR 10 15 5 5 10 Motalidade por DAR 20 20 25 25 modelo para se estimar o seu efeito. 01/09/00 01/12/00 01/03/01 01/06/01 01/09/01 01/12/01 01/09/00 01/12/00 Data 01/03/01 01/06/01 01/09/01 01/12/01 Data Figura 2 - Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro, 2000-2001, entre indivíduos de 65 anos de idade ou mais. Modelos que incorporam a autocorrelação dos dados são abordados em Harvey (1981), Zeger (1988) e Fenandes (1990). Aspectos metodológicos em análise de séries temporais epidemiológicas aplicadas ao tema podem ser observados em Schwartz et al.(1996), Ponce de Leon, (1996) e Gouveia (1997). A seguir, são apresentados alguns conceitos de simulação necessários para um entendimento do processo de simulação utilizado no presente trabalho. 1.4. CONCEITOS BÁSICOS DE SIMULAÇÃO Estudos baseados em simulação são realizados em diversas áreas do conhecimento, principalmente em pesquisas científicas. Ferreira (1999) define simulação como: “uma reprodução ou representação do funcionamento de um processo, fenômeno ou sistema relativamente complexo, por meio de um outro, gerado para fins científicos de observação, análise e predição, ou para treinamento, diversão etc.”. Por exemplo, em um projeto de aeronave é freqüente a simulação de seu comportamento em um túnel de vento para estudar os efeitos que seriam observados na aeronave real. O significado e a utilização da simulação vão além de semelhanças visuais ou sensoriais, representando ainda, idéias ou conceitos análogos. Dessa forma, um estudo simulado pode fornecer novos conhecimentos sobre o objeto que inspira o estudo. Esta é a 25 aplicação científica da simulação. A simulação contribui significativamente tanto para a teoria como para a prática (Barton, 1973). De uma forma geral, no campo científico o ato de simular significa elaborar, empregar e explorar modelos para reprodução, representação ou imitação de fenômeno, situação ou processo concreto. Existem dois tipos de modelos de simulação: 1. Simulação determinística: Ä O sistema não depende de nenhuma variável probabilística (aleatória). A única forma de obter diferentes saídas da simulação é por intermédio da modificação das variáveis de entrada. 2. Simulação estocástica: Ä O sistema depende de variáveis probabilísticas (aleatórias). É possível obter diferentes saídas da simulação a partir de um mesmo conjunto de variáveis de entrada. Nesse tipo de simulação é possível avaliar o comportamento do modelo e das variáveis aleatórias (investigação da distribuição amostral). Ä Exemplos de simulações estocásticas: tempo de espera, tempo de serviço, tempo de vida, processo epidêmico, interação homemmáquina e interação homem-homem. Ä As simulações estocásticas são largamente utilizadas em tomadas de decisões. A simulação estocástica utiliza realizações das distribuições de probabilidades das variáveis de entrada, processa essas informações dentro do modelo específico, e obtém como saída as distribuições de probabilidade da variável resultante. Um método de simulação denominado de Monte Carlo é um tipo de simulação utilizada em modelos envolvendo eventos probabilísticos (modelos estocásticos). É chamado de “Monte Carlo” porque utiliza um processo aleatório, tal como um lançamento de dados ou o girar de uma roleta para selecionar os valores das variáveis em cada tentativa. Este método permite, essencialmente, simular o comportamento de processos que dependem de fatores aleatórios. A sua origem data da década de 1940 a partir de um trabalho de Von Neumann e Ulam que consistia em uma técnica para solucionar o problema de blindagem em reatores nucleares (Andrade, 1999). O método é largamente utilizado tanto com o objetivo de 26 geração de números aleatórios, como para a redução da variância. O presente trabalho utilizará o método Monte Carlo somente para o primeiro objetivo citado. O método Monte Carlo é um processo que se destina a operar modelos estatísticos, de forma a lidar experimentalmente com variáveis descritas por funções probabilísticas que permitem analisar o efeito de mais de uma variável aleatória de um sistema. Por exemplo, suponha que o sistema seja a recepção e o controle do atendimento na emergência de um determinado hospital. Tem-se, intuitivamente, pelo menos duas variáveis a serem consideradas: o intervalo entre chegadas de pacientes e o tempo de permanência do paciente. 27 2. JUSTIFICATIVA Ao longo dos anos, estudos epidemiológicos verificaram danos na saúde coletiva associada à poluição atmosférica, principalmente em áreas urbanas. Tais evidências foram acompanhadas dos progressos na metodologia estatística, tanto para controle de fatores de confusão, como para a precisão da estimação da magnitude do efeito da poluição do ar sobre a saúde. A evolução das técnicas de análise de séries temporais epidemiológicas permitiu captar com mais acurácia os efeitos da poluição do ar sobre a saúde mesmo quando os níveis médios de poluentes atmosféricos não eram tão acentuados, se comparadas aos estudos pioneiros da década de 1950 nos EUA e na Inglaterra. Nas últimas décadas, estudos vêm propondo e aplicando variadas técnicas estatísticas para análise das séries temporais epidemiológicas do efeito da poluição atmosférica na saúde pública. Entre as inovações estatísticas adotadas na área destacam-se os modelos aditivos generalizados (MAG), semiparamétrico, e os modelos lineares generalizados (MLG), paramétrico, em análise de Regressão Poisson. Os diferentes modelos empregados tentam estimar a associação entre a mortalidade (ou morbidade) e os níveis de poluição atmosférica, levando em consideração potenciais fatores de confusão: a sazonalidade, a tendência, as características meteorológicas e o efeito de calendário (dias da semana e feriados). Os métodos mais utilizados para o controle de fatores de confusão são técnicas estatísticas não paramétricas, que foram incorporadas nas investigações sobre o tema. Esses métodos ganharam destaque, especialmente, pela flexibilidade da modelagem e disponibilidade em programas computacionais para aplicação na área de estatística. Porém há uma discussão entre os pesquisadores quanto ao fato de tais métodos serem mais eficientes no controle dos fatores de confusão que os métodos paramétricos, embora estes sejam menos flexíveis. Nesse contexto, estudos sobre alguns métodos e modelos específicos para o controle dos fatores de confusão e a compreensão da evolução dos modelos estatísticos em análises de séries temporais epidemiológicas são aspectos fundamentais à incorporação de futuras metodologias nas investigações que buscam identificar os efeitos adversos da poluição atmosférica sobre a saúde pública. 28 3. OBJETIVOS Objetivo Geral Avaliar o desempenho de métodos paramétricos e não paramétricos no controle de variáveis de confusão em estudos de séries temporais do efeito da poluição atmosférica na saúde pública, a partir de configurações da série de desfecho geradas por simulação. Objetivos Específicos 1. Comparar modelos lineares generalizados e modelos aditivos generalizados para o controle de variáveis de confusão a partir de diversas séries do número de internações hospitalares entre idosos geradas por simulação. 2. Discutir e testar os modelos apresentados para o controle de fatores de confusão a partir de uma investigação real na cidade do Rio de Janeiro e mostrar as suas conseqüências em termos de resultados. 4. HIPÓTESE “O controle de fatores de confusão em modelagem de séries temporais epidemiológicas é adequado, tanto por ajuste de funções específicas e não arbitrárias (forma paramétrica), como por funções arbitrárias e não especificadas (forma não paramétrica).” 29 5. METODOLOGIA Detalhes da metodologia utilizada no presente trabalho são apresentados no corpo do artigo e alguns procedimentos intermediários, como diagnósticos dos modelos, podem ser vistos em anexos ao final da dissertação. A seguir são apresentados alguns aspectos do método de simulação denominado Monte Carlo e detalhes da sua implementação no presente estudo. Tais questões metodológicas não foram possíveis de serem incluídas no artigo por motivo de sua extensão. O método Monte Carlo se baseia no seguinte conceito: Seja x uma variável aleatória com uma certa função de probabilidade f (x ) e uma função distribuição F ( x) . É definida uma nova variável aleatória y = F (x ) , com distribuição uniforme no intervalo fechado [0,1]. Nota-se que y = F (x ) é uma relação entre duas variáveis, de forma que x tem distribuição aleatória própria e y se distribuiu uniformemente no intervalo [0,1]. O método consiste no seguinte algoritmo: 1. Calcula-se a função de probabilidade acumulada da variável em simulação ( x ); 2. Determina-se para cada valor dos dados de entrada (observados) um número gerado aleatoriamente no intervalo (0,1); 3. Associa-se o valor do intervalo (0,1) de cada observação com a função de probabilidade acumulada e determina-se o valor da variável x que corresponde ao número gerado. Um fluxograma do método Monte Carlo é apresentado em anexo ao final da dissertação. Quando não é especificada a função de probabilidade da variável a ser simulada utiliza-se a distribuição acumulada como sua função de distribuição de probabilidade. Porém, quando há uma suposição sobre a distribuição dos dados ( x ), é aconselhável utilizá-la. Maiores detalhes sobre simulação em Morgan (1995), Barton (1973) e Andrade (1999). No presente trabalho, uma série temporal de entrada para a simulação é gerada a partir de um modelo da parte sistemática (parte explicativa de um modelo estatístico) de 30 um ajuste paramétrico, de forma que um algoritmo específico (apresentado na metodologia do artigo) produzirá a série a ser simulada. Uma série do número de internações hospitalares entre idosos serviu como entrada para as simulações. Essa série foi gerada seguindo um algoritmo específico descrito na metodologia do artigo. O procedimento realizado para a obtenção das observações (realizações) das séries por simulação e alguns aspectos relevantes do mesmo são apresentados a seguir: As 100 simulações da série do desfecho, yt, foram produzidas seguindo os presentes pressupostos: Seja um processo estocástico definido como uma família de variáveis aleatórias ordenadas/indexadas no tempo, em que para um dado t, Yt é uma variável aleatória. Uma série temporal é uma realização (uma das trajetórias) de um processo estocástico. Ou seja, cada observação de uma série temporal pode ser considerada como uma realização de um experimento aleatório. Um modelo de séries temporais para {yt} é uma especificação da distribuição conjunta de uma seqüência de variáveis aleatórias {Yt} para a qual {yt} série temporal é supostamente uma das possíveis realizações (trajetórias), como mostra a Figura 3. Processo Estocástico: Yt 9 8 7 6 5 4 3 Séries Temporais 2 1 0 1 2 3 4 5 6 7 8 9 Tempo y1 y2 y3 Figura 3 - Séries temporais vistas como possíveis trajetórias de um processo estocástico. Nota-se que a relação entre um processo estocástico e uma realização do mesmo (uma série temporal) pode ser comparada àquela existente entre uma população e a amostra observada. Portanto, considerando que cada observação de uma série temporal é uma realização de um experimento aleatório, no processo de simulação cada realização y t( j ) ( t=1,..., T e j=1,..., 100 ) foi gerada segundo uma distribuição Poisson com parâmetro µ t (Figura 4). 31 fY Poisson(µ2 ) Poisson(µ3 ) Poisson(µ1 ) Yt µ2 µt µ3 µ1 1 2 3 t Figura 4 – Observações de uma série temporal vistas como valores de distribuição Poisson com média igual à própria observação. Neste sentido, as séries temporais simuladas {y } ( j) t foram produzidas a partir da geração de séries com distribuição Poisson com médias µ 1, µ 2, . . . , µ T, como mostra a Tabela 1 . Tabela 1 - Configuração conceitual das séries simuladas. Séries Simuladas Distribuição das µt observações y (1) y (2) ... y (100) µ1 y1 (1) y1 (2) . . . y1 (100) Poisson(µ µ 1) µ2 y2 (1) y2 (2) . . . y2 (100) Poisson(µ µ 2) M M M µT YT (1) YT (2) OBS: no estudo T=487 dias. ... M . . . yT (100) M Poisson(µ µ T) 32 6. ARTIGO ASPECTOS METODOLÓGICOS EM ANÁLISE DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS DO EFEITO DA POLUIÇÃO ATMOSFÉRICA NA SAÚDE PÚBLICA: UM ESTUDO COMPARATIVO VIA SIMULAÇÃO E UMA APLICAÇÃO. SIMAS, HUGO 33 RESUMO (ARTIGO) OBJETIVOS: Avaliar o desempenho de métodos paramétricos e não paramétricos no controle dos fatores de confusão na estimação do efeito da poluição do ar sobre saúde coletiva através de dois estudos comparativos. METODOLOGIA: A comparação dos métodos foi realizada mediante a aplicação dos Modelos Lineares Generalizados (MLG) e Modelos Aditivos Generalizados (MAG) aos dados da cidade do Rio de Janeiro. Inicialmente foi elaborada uma comparação via simulação para a contagem diária de internações hospitalares. Em seguida, realizou-se uma aplicação ilustrativa aplicando-se os modelos à série de mortalidade por doenças do aparelho respiratório entre idosos. RESULTADOS: O estudo comparativo via simulação mostrou que não existe diferença significativa para o valor médio do efeito do PM10 nas simulações. No estudo ilustrativo, o modelo central, cujos componentes referem-se aos fatores meteorológicos, efeitos de calendário, bem como tendência e sazonalidade da série do desfecho foram ajustados utilizando-se as abordagens paramétrica (MLG) e não especificadas (MAG). Destaca-se que os modelos forneceram resultados similares no que tange às estatísticas de qualidade do ajuste e ao diagnóstico dos resíduos. CONCLUSÃO: Nesses dois estudos comparativos, não há evidências de desempenho diferenciado dos métodos paramétricos e não paramétricos para o controle dos fatores de confusão na análise de séries temporais epidemiológicas. Palavras-chave: Séries Temporais; Poluição Atmosférica; Simulação; Fatores de confusão; Modelos lineares generalizados; Modelos aditivos generalizados. 34 1. Introdução Estudos recentes têm mostrado efeitos adversos de curto prazo da poluição atmosférica sobre a saúde da população. Essa preocupação data da década de 50, após alguns episódios de poluição excessiva com efeitos deletérios imediatos na mortalidade e morbidade (Schwartz,1994; Abercrombie,1953). O episódio mais expressivo ocorreu em dezembro de 1952, em Londres, e ficou conhecido como o grande nevoeiro londrino. Durante uma inversão térmica e a ocorrência de uma epidemia de influenza, um excessivo aumento da poluição do ar foi acompanhado de grandes incrementos na mortalidade e na morbidade, principalmente por doenças do aparelho respiratório (DAR) e doenças do aparelho circulatório (DAC) em crianças e idosos. Estudo realizado por Abercrombie (1953) mostrou o efeito da nuvem de fumaça no aumento do número de admissões hospitalares no mesmo período. Esses estudos utilizaram técnicas simples de análises descritivas dos dados, como construção de tabelas, gráficos e mapas para a visualização e entendimento dos eventos ocorridos no período. Embora todas as evidências tenham sido resultado apenas de análises estatísticas descritivas, elas foram suficientes para indicar um possível efeito da poluição atmosférica na saúde da população, no que se refere à mortalidade, morbidade e admissão/emergência hospitalar. Na época, medidas governamentais para o controle ambiental (Clean Air Act) foram adotadas na Inglaterra e nos Estados Unidos da América (EUA) visando a redução dos níveis de emissão de poluentes atmosféricos. No entanto, alguns episódios isolados, com elevadas concentrações de poluição do ar combinadas com um aumento no número de mortes ou admissões hospitalares, foram registrados nas duas décadas seguintes. Nas duas décadas seguintes poucos estudos foram realizados, uma vez que os níveis de poluição haviam diminuído devido a políticas públicas de controle ambiental. No início da década de 70, Londres já possuía níveis de poluição do ar semelhantes aos mais recentes, o mesmo ocorrendo na Europa e nos Estados Unidos (Schwartz & Marcus, 1990). No início dos anos 60, Martin e Bradley (1960) publicaram um estudo relativo a um incidente de nevoeiro no inverno londrino de 1958-59 avaliando os efeitos da poluição atmosférica sobre a saúde da população. As análises de correlação e regressão linear simples entre o número de mortes diárias e a concentração de poluente na atmosfera (no mesmo dia) encontraram significativas associações. O efeito do aumento da poluição atmosférica em um certo dia foi significativo sobre um acréscimo na mortalidade do dia 35 seguinte, demonstrando que o efeito sobre a mortalidade era efetivamente imediato, diminuindo a mortalidade logo após. Prováveis efeitos de fatores meteorológicos foram discutidos, mas não considerados nas análises. Na mesma década, Sterling (1966, 1967) investigou possíveis efeitos da poluição atmosférica sobre a taxa de admissões hospitalares ocorridas em Los Angeles, 1961, para diferentes patologias. No artigo de 1966, o autor detecta a influência dos dias da semana no aumento do número de admissões hospitalares, demonstrando o efeito de calendário no fenômeno em estudo. Nesse trabalho, análises de correlação linear foram realizadas a partir de uma correção nos valores do número de admissões hospitalares e dos poluentes atmosféricos. Os valores corrigidos significavam um “escore padrão” (zj) para cada uma das características, e o método produziu estimativas independentes dos dias da semana ( j=1,2,3,4,5,6,7 ). Após o controle do efeito de calendário efetuou-se uma análise de correlação que mostrou uma significativa correlação entre os níveis de poluição atmosférica e a morbidade. O valor dessa correlação foi considerado extremamente alto. Já em 1967, Sterling realizou, a partir dos mesmos dados, um refinamento na correção do efeito do calendário utilizando apenas as medidas originais do poluente. Na ocasião, a reavaliação das análises somente foi possível por intermédio de um suporte computacional pelo Instituto Nacional de Saúde (National Institutes of Health). Os resultados foram similares aos encontrados em Sterling (1966). Nesse estudo, os efeitos sazonais devidos a condições meteorológicas, como a temperatura e a umidade, eram identificados como sendo, além do efeito calendário, potenciais fatores de confusão na associação de interesse. No entanto nenhum tipo de controle era realizado, pois o primeiro estudo de Sterling (1996) não considerou as condições meteorológicas do período. Ainda na mesma época, Greenburg et al.(1967) examinaram o padrão da mortalidade (por todas as causas) durante um episódio de elevada poluição atmosférica ocorrido em Nova York, entre 29 de janeiro e 12 de fevereiro de 1963. Para avaliar a influência da poluição do ar sobre a saúde, a mortalidade durante o episódio (1963) foi comparada com a mortalidade de anos anteriores (1961-1962) e seguintes (1964-1965) para os meses em estudo. Os anos de 1961-1962 e 1964-1965 foram considerados anos de controle. A 36 poluição atmosférica foi avaliada através do valor médio diário da concentração de dióxido de enxofre (SO2 ) para os meses de janeiro e fevereiro. A poluição atmosférica e as condições meteorológicas foram avaliadas por meio de gráficos descritivos. A série de 1963 apresentou alguns picos na concentração de SO2 no período crítico (janeiro e fevereiro) quando comparada com as séries dos anos de controle. No mesmo período em estudo, as condições meteorológicas (temperatura e umidade) também mostraram-se mais elevadas. Sob a suposição de que os óbitos são distribuídos segundo uma Poisson, a comparação entre o número total de mortes por todas as causas durante o período de 29 de janeiro a 12 de fevereiro, para cada ano (1961-1965), foi realizada através de um teste quiquadrado de tendência. O estudo revelou que o aumento da mortalidade durante o episódio era estatisticamente significativo quando comparado aos anos de controle. Quando realizada a mesma análise para diferentes grupos etários (menos de 1 ano, 1-24, 25-44, 45-64 e 65 ou mais) foi encontrado um acréscimo significativo na mortalidade atribuída principalmente a pneumonia, infartos e problemas cardiovasculares entre a população mais velha (indivíduos de 45-64 e idosos de 65 anos ou mais). No mesmo período, Glasser et al. (1967) realizaram um estudo para a cidade de Nova York durante outro episódio de excesso de poluição atmosférica ocorrido de 23 a 25 novembro de 1966. Os resultados encontrados são similares a Greenburg et al.(1967) período de janeiro e fevereiro de 1963 demonstrando que episódios com excesso de mortalidade continuavam a ocorrer na década de 60 nas cidades onde políticas ambientais foram implementadas mas ainda não tinham sido efetivas. Na década de 70 poucos estudos foram realizados, em parte devido a resultados de políticas públicas ambientais adotadas nos países desenvolvidos. Mesmo assim, pesquisas continuaram a ser realizadas a partir das bases de dados disponíveis e da adoção de novas tecnologias computacionais e estatísticas. Entre as inovações estatísticas nos estudos sobre o tema destaca-se a utilização de modelos de regressão múltipla (análise de regressão linear gaussiana) nas análises com o controle dos fatores meteorológicos e das flutuações de longo prazo (tendência e sazonalidade). Shimmel & Murawski (1976) estudaram a relação da poluição atmosférica sobre a mortalidade, baseado em dados de Nova York para o período de 1963-1972. O objetivo principal foi avaliar a associação estatística entre os níveis diários de mortalidade e a 37 poluição do ar diária. Além disso, determinar se uma substancial redução nos níveis de SO2 após 1969 foi acompanhada de uma redução nos efeitos adversos à saúde e melhorar as análises principalmente pela observação da variação sazonal e seus possíveis efeitos. A estimação da associação entre a poluição do ar e a mortalidade foi feita por meio de uma regressão múltipla por controle da tendência, da sazonalidade e do fator meteorológico (temperatura) para três períodos: 1963-66, 1967-69 e 1970-72. O ajuste do efeito de longo prazo consistiu basicamente em uma média móvel de 15 dias para a série de mortalidade (por todas as causas, por doenças do coração, por doenças respiratórias) e na inclusão de uma variável para a série centrada na média (diferença entre o valor atual e a média móvel). O controle do fator meteorológico foi realizado pela inclusão da variável temperatura média diária no modelo. O estudo revelou que o efeito da poluição atmosférica ocorre no mesmo dia ou em poucos dias, demonstrando que o seu efeito adverso sobre a saúde era de curto prazo. Os resultados mostraram que a associação entre a mortalidade e SO2 foi mais expressiva no período 1970-1972 e confirmaram uma redução dos níveis de SO2 , embora não tenha sido considerada conclusiva. A década de 70 também representou uma época de constantes discussões sobre questões metodológicas. Diversos estudos avaliaram a ausência e o tratamento inadequado das variáveis meteorológicas, a multicolinearidade entre as variáveis preditivas e investigaram padrões espaço-temporal como alternativa para a análise de regressão (Goldstein, 1972; Goldstein et al., 1977; Goldstein et al., 1978; Goldstein et al., 1979 ). Na década de 80 os estudos prosseguiram as análises por regressão múltipla que incluíam um controle por potenciais fatores de confusão (Wichmann et al., 1989 e Ostro, 1984, por exemplo) e continuaram a buscar modelos alternativos, como regressão não linear (Shumway et al., 1988). A partir da década de 80 as publicações mostraram-se mais claras na apresentação dos modelos utilizados e de alguns detalhes dos seus ajustes, como o controle de fatores de confusão nas análises. O modelo mais utilizado continuou sendo a regressão múltipla, levando em consideração os fatores de confusão. Mazudar & Schimmel (1982) avaliaram a associação entre os óbitos diários e a poluição atmosférica por SO2 (dióxido de enxofre) e fumaça na cidade de Londres, para 14 invernos, durante os anos de 1958 a 1972. A associação de interesse foi estimada a 38 partir de ajuste de regressão múltipla controlada por potenciais fatores de confusão, como variações anuais, tendência sazonal, fatores meteorológicos e efeitos dos dias da semana. O estudo utilizou três estratégias de análises: (1) regressão múltipla ano-a-ano; (2) estratificação usando quartis alinhados; (3) regressão múltipla considerando apenas os dias com elevada concentração de poluição atmosférica. A primeira estratégia examinou separadamente cada um dos invernos, usando regressão múltipla (regressão ano-a-ano) que representou um controle de variações anuais. A segunda representou uma análise estratificada, usando quartis alinhados de um determinado poluente dentro de um outro poluente atmosférico. Ou seja, primeiro os dados foram classificados de acordo com os quartis 1º (baixo), 2°, 3º e 4° (alto) de um poluente. Depois, então, dentro de cada um desses quartis, o outro poluente foi classificado novamente por quartis, resultando em uma matriz de 16 células, com número aproximadamente igual de amostra de dias. Essa estratégia serviu para manter um poluente constante enquanto examinava-se o efeito de um outro. Além disso, mostrou ser um método de análise simples e robusto, que foi relativamente satisfatório. Uma mudança percentual na mortalidade associada ao poluente em análise foi estimada, assumindo um modelo linear. Na terceira estratégia foram analisados apenas os dias em que havia elevados níveis de poluição atmosférica. A regressão múltipla foi conduzida utilizando termo linear e quadrático para os poluentes, como por exemplo, SO2 e (SO2 )2 . Para as três estratégias de análises, potenciais fatores de confusão foram controlados. Associações espúrias resultantes de tendência sazonal foram controladas por meio do cálculo de médias móveis de 15 dias para cada variável e realizando as regressões separadamente para cada 4 meses. Variáveis relativas à umidade e à temperatura (valores do mesmo dia, do dia anterior e do dia seguinte) foram incluídas para eliminar a influência de fatores meteorológicos. Flutuações provenientes dos efeitos dos dias da semana foram controlados pela inclusão de variáveis indicadoras (dummy) para cada dia. O estudo concluiu que a análise dos 14 invernos londrinos confirmou resultados observados em Martin&Bradley (1960). A mortalidade estava associada com a poluição atmosférica, mesmo controlando-se potenciais fatores de confusão. As diferentes estratégias de análises permitiram concluir que a associação entre mortalidade e poluição do ar era quase que exclusivamente por fumaça, uma vez que seus efeitos mostraram-se significativos e mais expressivos. 39 Hatzakis et al.(1986) examinaram os efeitos de curto prazo da poluição do ar (SO2 e fumaça) sobre a mortalidade em Atenas durante os anos de 1975-1982. A associação entre a mortalidade e a poluição atmosférica foi estudada por intermédio de um modelo de regressão múltipla com controle de potenciais fatores de confusão. Inicialmente realizaram uma correção para controlar possíveis variações sazonais da série de mortalidade diária. Utilizaram como variável dependente (desfecho) um valor que representava a diferença entre a mortalidade observada (número de óbitos) e um valor esperado da mortalidade, ajustado por curvas senoidais nos períodos em que a série apresentava padrão sazonal de 30 dias. Fatores meteorológicos, como a temperatura média diária e a umidade média relativa do ar, foram introduzidos no modelo como preditores. As flutuações devidas a dias da semana e feriados foram incorporadas nas análises por meio de variáveis indicadoras para os dias da semana e uma variável binária para os feriados. Para o controle de possíveis efeitos de variações mensais e tendências seculares na mortalidade diária, introduziram variáveis indicadoras para os anos e meses no modelo. Embora a flutuação sazonal da série de mortalidade tenha sido controlada por curvas senoidais, um possível resíduo confundidor foi controlado pela introdução de variáveis indicadoras para duas estações do ano: o inverno e o verão. Além disso, possíveis interações entre efeitos meteorológicos e as estações do ano também foram incluídas no modelo. O modelo de regressão múltipla ajustado permitiu concluir que havia uma associação positiva e significativa entre os níveis de SO2 e a mortalidade diária, independente dos efeitos da temperatura, umidade, variações seculares, sazonalidade, variações mensais e anuais e possíveis interações entre fatores meteorológicos e estações do ano. Nenhuma associação foi encontrada entre a fumaça e a mortalidade diária ajustada por potenciais fatores de confusão no período em estudo. Na primeira metade dos anos 90 (1990-1994) o modelo de regressão múltipla ainda se desatacava em estudos epidemiológicos, como observado em Saldiva (1994). Ressaltase que, nesse período, modelos que incorporaram a correlação serial dos dados começaram a ser adotados. Modelos de regressão com erros autoregressivos, como descrito em Harvey (1981), foi empregado em Schwartz & Marcus (1990), Londres, Reino Unido. Nestes dois estudos, as análises foram controladas pela inclusão de variáveis meteorológicas 40 (temperatura e umidade diária: efeitos de curto prazo) e pelo cálculo de médias móveis da série de desfecho (ajuste da tendência a sazonalidade: efeitos de longo prazo). No estudo realizado por Saldiva (1994) foi evidenciada associação significativa entre NO2 (Dióxido de Nitrogênio) e mortalidade por causas respiratórias em crianças na cidade de São Paulo. Em Schwartz & Marcus (1990) concluiu-se que partículas (British Smoke: BS) eram fortemente associadas com a taxa de mortalidade de Londres. Em paralelo, modelo para regressão Poisson controlando fatores meteorológicos, tendência temporal e correlação serial também foi utilizado no período para avaliar a associação entre poluição atmosférica e mortalidade/morbidade (Schwartz, 1992; Schwartz, 1994). Schwartz (1992) estimou a associação de interesse a partir de equações de estimação generalizada (EEG), como proposto em Zeger (1988), permitindo realizar adequadamente a análise de regressão considerando a autocorrelação observada na série de mortalidade. O estudo encontrou associação significativa com o PM10 . Na segunda metade dos anos 1990 (1995-1999) destacou-se nas análises o modelo de regressão para séries temporais de contagem, proposto por Zeger (1988), que permitia ajustar adequadamente os dados quando os mesmos apresentam sobredispersão e/ou autocorrelação. Este modelo ficou conhecido por modelo Poisson autoregressivo (modelo log-linear com erros Poisson autoregressivos ou modelo de regressão de séries temporais Poisson). Diversos estudos sobre o efeito de poluição atmosférica na mortalidade ou morbidade empregaram este modelo nas análises (Saez et al., 1999; Zmirou et al, 1998; Toumloi et al., 1997; Katsouyanni et al., 1997; Sunyer et al., 1997; Poloniecki et al., 1997; Ponce de Leon et al., 1996; Anderson et al.,1996; Saldiva el al., 1995). As séries analisadas (desfecho) eram contagens diárias de mortalidade ou admissões hospitalares por causa específica, principalmente em cidades da Europa associadas ao projeto APHEA (Air Pollution and Health: a European Approach). Além do ajuste para autocorrelação, também levaram em consideração a tendência temporal, a sazonalidade e outros padrões cíclicos, os dias da semana, feriados, epidemias de influenza, temperatura e umidade. Em geral, a tendência era ajustada por polinômio de 2º grau da variável tempo (dia ou ano), enquanto as variações sazonais ou outros padrões cíclicos eram ajustados por polinômios harmônicos (curvas de seno e co-senos). Para o ajuste dos efeitos de calendário incluíam variáveis indicadoras (dummy), uma para os dias da semana e outra para os feriados. Os fatores meteorológicos foram ajustados de várias formas, considerando diferentes períodos de latência, sendo necessário optar por aquele 41 que mostrava maior efeito ou combinar, de certa forma, indicadores de alguns dias precedentes. Em particular, o padrão da relação entre a série de desfecho e a temperatura era geralmente em U ou em V, isto é, ambos os extremos de temperatura tendem a estar associados ao maior número de ocorrências do desfecho (óbitos, por exemplo). Tais formatos eram modelados através de uma parábola, trechos de função linear ou uma seqüência de variáveis indicadores para intervalos de temperatura (Ponce de Leon, 1996). Os poluentes atmosféricos estudados foram as partículas suspensas (BS ou PM10 ), SO2 , O3 (Ozônio) e NO2 , todos com defasagem (latência) de 0 a 3 dias. Cabe ressaltar que ainda na segunda metade da década de 1990, modelos aditivos generalizados para regressão Poisson, como descritos em Hastie & Tibshirani (1990), foram adotados em alguns estudos permitindo ajustar de forma não paramétrica tanto os fatores meteorológicos como a tendência e sazonalidade. Este modelo forneceu maior flexibilidade na descrição da relação entre o desfecho e as covariáveis, que não é linear (Loomis et al., 1999; Spix et al., 1998; Braga et al., 1999; Bremer et al, 1999; Burnnett et al., 1998; Schwratz, 1995). Braga et al.(1999), além do emprego de modelos aditivos generalizados, utilizaram também os modelos lineares generalizados, como descrito em McCullagh & Nelder (1989). Na ocasião as duas classes de modelos indicavam associação significativa entre admissões hospitalares por problemas respiratórios entre crianças menores de 13 anos de idade na cidade de São Paulo (Brasil). Ao longo dos últimos anos (2000-2002), os modelos aditivos generalizados (MAG), em regressão Poisson, destacaram-se entre as classes de modelos utilizados em estudos ecológicos de séries temporais epidemiológicas sobre o tema (Zanobetti et al., 2000; Schwartz, 2000; Zanobetti et al., 2001; Katsouyanni et al., 2001; Goldberg et al., 2001; Braga et al., 2002; Hong et al., 2002; Schwartz, 2002 ). Esta classe de modelos foi utilizada como alternativa aos modelos lineares generalizados (Conceição, 2001; Cifuentes et al., 2000; Gouveia & Fletcher, 2000), uma vez que fornecia maior flexibilidade na descrição de padrões complexos da associação a partir de funções suaves (média móveis ponderada:loess ou spline cúbico: spline) para o controle dos fatores meteorológicos e da tendência e sazonalidade da série de desfecho. Finalmente, os estudos recentes têm mostrado evidências da associação entre poluição atmosférica e um determinado agravo à saúde nas grandes metrópoles, principalmente em cidades de países em desenvolvimento. Adicionalmente, as duas classes 42 de modelos mais utilizados têm sido os Modelos Lineares Generalizados e os Modelos Aditivos Generalizados. A evolução das técnicas de análises de séries temporais epidemiológicas permitiu captar os efeitos da poluição do ar na saúde, mesmo quando os níveis de poluição atmosférica não eram tão acentuados, se comparados aos estudos pioneiros da década de 50 nos EUA e na Inglaterra. A maioria dos estudos sobre o tema foram realizados nos países do hemisfério Norte. Na América Latina relataram-se também associações significativas da poluição do ar com a mortalidade geral, principalmente por partículas, como no Chile (Cifuentes et al., 2000). No Brasil, na cidade de São Paulo, maior metrópole do país, estudos ecológicos de séries temporais avaliaram efeitos da poluição atmosférica na mortalidade e morbidade diárias, por causas específicas e por todas as causas, nos subgrupos considerados mais suscetíveis (crianças e idosos) e constataram que a poluição do ar naquela cidade é um relevante problema de saúde pública (Saldiva et al., 1994; Braga et al., 1999; Gouveia & Fletcher , 2000; Conceição, 2001). Por outro lado, no âmbito do município do Rio de Janeiro, a segunda maior metrópole do país, foi realizado somente um estudo ecológico de série temporal epidemiológica para avaliar a existência de efeito adverso da poluição atmosférica sobre a saúde da população (Daumas, 2002). Nesse sentido, percebe-se a necessidade da realização de novas pesquisas visando estimar possíveis efeitos da poluição atmosférica sobre a saúde da população, aprimorar a metodologia utilizada e avaliar a qualidade dos dados utilizados. O presente trabalho tem por objetivo apresentar e discutir alguns aspectos metodológicos da modelagem de séries temporais epidemiológicas para a investigação da associação entre a poluição atmosférica e os agravos à saúde. Para tal, introduz uma revisão da evolução dos métodos estatísticos de séries temporais empregados na área. Em seguida apresenta os resultados de um estudo comparativo entre modelos lineares generalizados e modelos aditivos generalizados através de simulações de séries temporais. Finalmente apresenta uma aplicação ilustrativa dos referidos modelos em comparação. 43 2. Metodologia A metodologia desse trabalho baseou-se na elaboração de dois estudos comparativos da utilização dos modelos lineares generalizados (MLG) e dos modelos aditivos generalizados (MAG), descritos respectivamente em McCullagh & Nelder (1989) e Hastie & Tibshirani (1990), para estimar a associação entre poluição atmosférica e agravos à saúde coletiva pelo controle de potenciais fatores de confusão. Os dois estudos comparativos entre MLG e MAG visaram estimar o efeito da poluição atmosférica por material particulado em suspensão (PM10 ) na saúde da população da cidade do Rio de Janeiro. O PM10 refere-se a partículas inaláveis com diâmetro igual ou menor do que 10 microns, consideradas potenciais causadoras de danos à saúde. O primeiro estudo avaliou os modelos através de simulações de uma série de internações hospitalares, enquanto o segundo realizou uma ilustração da aplicação empírica dos modelos considerados a partir de uma série de mortalidade por doenças do aparelho respiratório. As informações utilizadas no presente trabalho são do âmbito do projeto sobre a poluição ambiental e seus efeitos na saúde das populações em grandes metrópoles brasileiras. Tal projeto é desenvolvido no Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro (IMS/UERJ) em parceria com a Universidade de São Paulo (USP) e consta de relatórios para o Ministério da Saúde e Ministério do Meio Ambiente. O estudo de simulação estimou a associação entre o número de internações hospitalares diárias por problemas respiratórios em indivíduos com 65 anos de idade ou mais e os níveis de PM10 no período de 01/08/2000 a 31/11/2001. A associação de interesse foi controlada pela tendência e sazonalidade da série de internações hospitalares e pelos fatores de confusão mais comuns nas investigações sobre o tema (Schwartz et al., 1996), tais como, os fatores meteorológicos (temperatura e umidade relativa do ar) e os efeitos de calendário (dias da semana e feriados). Os modelos (MLG e MAG) foram comparados mediante 100 séries temporais do número diário de internações hospitalares obtidas por simulação. Os dados referentes ao PM10 e aos registros de internações hospitalares foram provenientes, respectivamente, da Fundação Estadual de Engenharia do Meio Ambiente (FEEMA) e do Sistema de Informações Hospitalares (SIH/SUS). O segundo estudo estimou a associação entre o número óbitos diários por doenças do aparelho respiratório (DAR) em indivíduos com 65 anos de idade ou mais e os níveis de PM10 no período de 01/09/2000 a 01/12/2001. A associação de interesse foi controlada 44 pelos mesmos fatores de confusão do estudo de simulação. Os modelos foram comparados para ilustrar a utilização das duas classes de modelos considerados (MLG e MAG). Neste estudo foram utilizados dados mais recentes do PM10, oriundos da Secretaria de Meio Ambiente da cidade do Rio de janeiro (SMAC). Estudo comparativo via simulação No estudo comparativo via simulação foram utilizados métodos paramétricos e não paramétricos para o controle dos fatores de confusão na estimação da associação entre o número de internações hospitalares (desfecho) e os níveis de poluição atmosférica por PM10 . Os métodos foram comparados mediante o ajuste de 100 séries temporais de internações obtidas por simulação. A simulação utilizou como parâmetro de entrada os valores esperados do número de internações hospitalares gerados segundo um cenário determinado para a evolução das covariáveis temperatura, umidade e partículas em suspensão. O cenário utilizado foi assim caracterizado: 1. Não existe multicolinearidade entre as variáveis meteorológicas e o poluente atmosférico. 2. Existe autocorrelação nas séries das condições meteorológicas e do poluente atmosférico. 3. Os padrões de autocorrelação considerados foram aqueles inerentes às séries de covariáveis. 4. Os efeitos no valor esperado das séries meteorológicas e do poluente atmosférico foram determinados a partir de dados empíricos da cidade do Rio de Janeiro. 5. Possíveis perturbações aleatórias nas séries de covariáveis não foram consideradas, isto é, a série gerada dos valores esperados do número de internações hospitalares compôs a componente sistemática de um modelo. Os métodos não paramétricos utilizaram funções suavizadoras (cubic spline) para representar os potenciais fatores de confusão considerados. A tendência e sazonalidade da série de internações foi ajustada por um spline com 4 graus de liberdade (gl) da variável tempo, enquanto a umidade e a temperatura foram controladas, respectivamente, por um spline com 3 gl e outro com 5 gl. 45 Os métodos paramétricos consistiram de ajustes por polinômios. Empregou-se um polinômio de 2º grau e um polinômio harmônico da variável tempo para o controle da tendência e sazonalidade da série de internações. Os fatores meteorológicos foram ajustados por um polinômio de 2º grau para a temperatura e um outro, de 3º grau, para a umidade relativa do ar. A representação das flutuações provenientes dos dias da semana e feriados (efeito de calendário) foi realizada nos dois modelos de forma paramétrica por intermédio de variáveis indicadoras (dummy) para cada dia da semana e uma variável dicotômica representando a ocorrência de feriado. O controle dos fatores de confusão por métodos não paramétricos foi realizado pelo emprego dos MAG, enquanto que por métodos paramétricos foram utilizados os MLG. Nas duas classes de modelos, a estimação do efeito do PM10 sobre as séries de desfecho simuladas foi obtida a partir de uma regressão Poisson (log-linear). Em seguida, será apresentado um algoritmo que descreve a geração das séries de desfecho (obtidas por simulação), segundo o cenário considerado para as covariáveis escolhidas. Adicionalmente, serão definidas as estratégias de avaliação dos resultados dos modelos e especificadas as premissas de qualidade e validade da simulação. A geração das séries de internações hospitalares por DAR entre idosos, segundo o cenário das covariáveis considerado para o presente trabalho, é definida pelo algoritmo a seguir: 1. Define-se um preditor linear (ηt ) de interesse, expresso de forma sucinta como: p −1 ηt = ∑ β i X it + β p X pt i =1 • X it , i = 1,2, L, p − 1 representam os conjuntos de covariáveis associadas com o tempo, dias da semana, feriados, temperatura, umidade e o poluente atmosférico. • β i , i = 1,2,L , p − 1 são os parâmetros (ou efeitos) desconhecidos associados às covariáveis. • X pt representa a covariável associada com valor de referência para o estudo de simulação. • β p representa o valor de referência para o estudo de simulação. 46 Este componente sistemático foi especificado a partir de valores das covariáveis temperatura, umidade e poluição atmosférica na cidade do Rio de Janeiro e dos dias da semana e feriados no período em análise. Os seus respectivos efeitos (parâmetros) foram estimados por meio de um ajuste por MLG, no qual a variável resposta foi o número de internações hospitalares entre idosos. Nota-se que o preditor linear representa somente a parte sistemática do modelo utilizado para determinar os efeitos das covariáveis de interesse. Este estudo comparativo visou estimar o efeito da poluição atmosférica (β p ) por PM10 (Xp ) a partir da modelagem de 100 séries temporais de internações obtidas por simulação. O valor especificado inicialmente para β p serviu como valor de referência do efeito da poluição atmosférica para o estudo, isto é, o valor que se esperava alcançar nos ajustes (“verdadeiro valor”). As estimativas dos efeitos das covariáveis de interesse foram obtidas pelo método de quasi-verrosimilhança (McCullagh & Nelder, 1989), uma vez que encontrou-se um valor maior do que 1 para a estimativa do fator de dispersão (φ). Esse fenômeno é denominado de sobredispersão (overdispersion) dos dados, no qual verifica-se a ocorrência de Var (Yt ) > E (Yt ) . No modelo em questão, a variância do desfecho foi definida como uma função da média. 2. Após obter os componentes sistemáticos (covariáveis e parâmetros), foram gerados valores para o preditor linear em cada instante t, ηt, conforme o modelo especificado por Ln(µ t ) = ηt , de forma que os dados simulados do desfecho (contagens diárias) fossem distribuídos segundo a distribuição Poisson. Em seguida, calculou-se o valor esperado µ t = g −1 (ηt ) , onde g −1 (.) foi a função de ligação inversa que associou a média do desfecho, µ t , ao preditor linear gerado pelo componente sistemático. Isto é, utilizou-se a função exponencial para gerar os valores esperados do desfecho: µ t = exp (η t ) = E ( y t ) . 3. A partir dos valores esperados obtidos no passo anterior (µt), um procedimento de simulação foi aplicado para se obter observações do desfecho em cada instante t, {yt , t = 1, K, T } , sendo y t ~ Poisson ( µ t ) com T =487 (o número de dias na investigação). 47 É importante ressaltar que o processo de obtenção das observações da série através da simulação realizada garantiu que as observações fossem independentes. 4. Repetindo-se o passo anterior 100 vezes, obteve-se 100 replicações da série de desfecho { yt }, de forma que o procedimento de simulação realizado produziu séries do desfecho (amostras) independentes. Obtidas as 100 simulações da série de internações { yt }, modelos paramétricos (MLG) e semiparamétricos (MAG) foram ajustados, sendo as séries de internação obtidas por simulação e as covariáveis provenientes de investigação empírica. O modelo ajustado para a 1ª série simulada foi considerado como o modelo base para os demais 99 ajustes. A estratégia para avaliar os resultados dos modelos, e realizar a comparação, consistiu em verificar se os intervalos de confiança para o parâmetro referente ao efeito da poluição atmosférica continham o valor especificado (β p ) no componente sistemático. Além disso, elaborou-se um diagrama de caixa (Box-Plots) das estimativas do parâmetro de interesse (referente ao PM10 ) nos dois modelos (MLG e MAG) visando a análise da variabilidade dos resultados e a comparação do valor de referência (β p ) com as médias dos efeitos estimados em cada modelo. A qualidade e validade da simulação e dos ajustes dos modelos basearam-se em duas premissas: 1. O parâmetro referente ao poluente atmosférico devia ser significativamente diferente de zero mediante a análise de seu intervalo de confiança (construído com base na estimativa obtida através da modelagem da série simulada). 2. O intervalo de confiança do parâmetro associado ao efeito do poluente atmosférico de interesse devia conter o valor inicialmente estimado (valor de referência: β p ) obtido para a série de internações hospitalares da cidade do Rio de Janeiro. A seguir será apresentada uma ilustração baseada em dados reais sobre os efeitos do PM10 na mortalidade entre idosos por doenças do aparelho respiratório (DAR), enfatizando-se os aspectos metodológicos relevantes para a análise de séries temporais epidemiológicas. 48 Ilustração O interesse principal da ilustração foi estimar o efeito da poluição atmosférica sobre o número de óbitos por DAR entre os idosos, através da associação entre poluição do ar e mortalidade por causa específica. O estudo utilizou os níveis do PM10 do dia anterior (defasagem de 1ª ordem) para avaliar um possível dano, de curto prazo, na saúde da população da cidade do Rio de Janeiro, em virtude da poluição atmosférica por partículas suspensas. A associação foi estimada utilizando-se um modelo de regressão Poisson (log-linear) e controlada por fatores de confusão, como a tendência e a sazonalidade da série de mortalidade (efeitos de longo prazo), os dias da semana e feriados (efeitos de calendário) e a temperatura e a umidade (fatores meteorológicos). Modelos lineares generalizados e modelos aditivos generalizados foram empregados na comparação tanto do método para o controle de fatores de confusão, como na estimação do efeito de curto prazo do PM10 . Estatísticas descritivas relativas à mortalidade por DAR entre idosos e o nível diário de PM10 foram calculadas visando descrever o quadro das duas variáveis no período em estudo (01/09/2000 a 01/12/2001). Também foi calculada a matriz de correlação de Pearson para avaliar um possível fenômeno de multicolinearidade entre as variáveis em análise (temperatura, umidade relativa do ar e PM10 ). Inicialmente, um modelo que inclui somente os potenciais fatores de confusão (fatores meteorológicos, dias da semana e feriados) e a tendência e sazonalidade da série de mortalidade (desfecho), denominado modelo central (core model), foi ajustado para “eliminar” qualquer padrão de longo prazo da série do desfecho e de curto prazo supostamente introduzidos pelos fatores de confusão. O modelo central foi considerado adequado quando os resíduos não apresentaram mais associação com as variáveis meteorológicas e a série de resíduos não apresentou evidência de tendência, sazonalidade ou autocorrelação. Adicionalmente, era esperado que os resíduos se apresentassem, assintóticamente, com distribuição Normal quando observando o gráfico dos quartis (qq-plot) dos resíduos da função desvio (deviance). Nesse estudo, os métodos paramétricos para o controle dos fatores de confusão foram aplicados no MLG. Um polinômio de 3º grau e 3 polinômios harmônicos da variável do tempo foram utilizados para o ajuste da tendência e sazonalidade da série de mortalidade. 49 A temperatura e a umidade foram ajustadas, respectivamente, por um polinômio de 3º grau e outro de 2º. Os métodos não paramétricos foram utilizados no MAGpor intermédio do suavizador linear spline. Um spline com 6 gl da variável tempo para o controle da tendência e sazonalidade da série de mortalidade foi utilizado; um suavizador com 7 gl da variável temperatura e outro com 5 gl da variável umidade foram utilizados para o ajuste dos fatores meteorológicos. Para o controle dos efeitos dos dias de semana e feriados foram criadas variáveis indicadoras e incluídas nas duas classes de modelos considerados. Os feriados foram agrupados em duas variáveis: uma contendo os feriados que apresentaram efeitos estimados positivos e outra referente aos efeitos estimados negativos. Após a construção do modelo central, a série referente ao PM10 do dia anterior foi incluída no modelo estimando-se, então, o efeito de curto prazo da poluição do ar na mortalidade por DAR entre os idosos, supondo linearidade. A comparação entre os modelos foi elaborada mediante a análise de medidas de ajustes, como o Critério de Informação de Akaike (CIA) e um diagnóstico dos resíduos (q-q plot), para avaliar o método (paramétrico ou não paramétrico) mais adequado para o controle dos fatores de confusão e estimação do efeito do poluente atmosférico. Além disso, também foi realizada uma análise de sensibilidade para mostrar a influência dos fatores de confusão nos achados através da análise de séries temporais epidemiológicas. As simulações e os ajustes foram implementados no programa S-Plus2000 (MathSoft,1999). A seguir será apresentado um estudo comparativo entre os ajustes por modelos lineares generalizados e modelos aditivos generalizados para avaliar o controle dos potenciais fatores de confusão na estimação do efeito da poluição atmosférica na saúde coletiva. 50 3. Resultados Comparação de modelos por meio de simulação As estimativas dos parâmetros do componente sistemático do modelo (ηt ) utilizado para a geração do valor esperado (µt) do número de internações hospitalares por problemas respiratórios entre idosos, correspondentes ao período entre 01/08/2000 e 30/11/2001, são encontradas na Tabela 1. Adicionalmente são apresentadas medidas de ajuste (Função desvio e o Critério de Informação de Akaike) e um diagnóstico dos resíduos do referido modelo (Figura 1) para demonstrar a qualidade do ajuste. Nota-se que o efeito da poluição atmosférica por partículas suspensas foi estimado em 0,00285 ( βˆ p = 0,00285 ). Este valor do efeito do PM10 foi considerado nesse estudo de simulação como sendo o valor de referência (“verdadeiro valor do parâmetro”). A comparação entre os modelos foi realizada inicialmente pela avaliação dos intervalos de confiança para o parâmetro referente ao efeito do PM10 nas 100 simulações. Na Figura 2, a linha pontilhada na vertical refere-se ao valor de referência ( 0,00285 ) conforme a tabela 1, e as outras duas são os seus limites de confiança. Os intervalos de confiança (IC) apresentados em vermelho referem-se às séries para as quais o parâmetro de interesse não foi considerado significativamente diferente de zero ou o IC não continha o valor de referência. Com os resultados do estudo realizado utilizando modelos lineares generalizados ajustados às séries simuladas, estimou-se que em 90% dos casos o parâmetro referente ao PM10 foi significativamente diferente de zero e que o intervalo de confiança com grau de confiança de 95%, obtido a partir dos valores simulados, continha o valor de referência. Ressalta-se que, conforme apresentado na metodologia desse estudo comparativo, os resultados estão de acordo com as premissas de qualidade e validade definidas para a simulação. O mesmo efeito foi observado no caso de ajuste de modelos aditivos generalizados, para os quais as restrições de qualidade e validade foram alcançadas em 92% das séries simuladas. Pela análise da Tabela 2 e da Figura 3 observa-se que a distribuição das estimativas do efeito do PM10 nas 100 simulações mostrou-se relativamente simétrica e que a média das estimativas apresentou-se maior para o ajuste não paramétrico (MAG) dos fatores de confusão (MLG: 0,00296; MAG: 0,00309). Embora essa diferença tenha sido significativa 51 de acordo com o teste t de comparação das médias para dados pareados (Tabela 3), o seu resultado é desprazível para o cenário simulado. 52 Tabela 1 – Coeficientes considerados na geração de µt a partir de uma regressão Poisson por Modelos Lineares Generalizados (MLG). Variável Coeficiente Erro Padrão Intercepto 2,28018 3,4196* TEMPO -0,00366 0,0004 TEMPO**2 0,00000 0,0000 wave(n, 245, 1095)$cosine -0,03912 0,0185 TERÇA -0,07364 0,0458* QUARTA -0,00165 0,0447* QUINTA -0,21714 0,0469* SEXTA -0,08154 0,0456* SÁBADO -0,57337 0,0528 DOMINGO -0,72758 0,0562 FERIADO -0,28178 0,0783 Wetm02 0,16543 0,0540 Wetm02**2 -0,00114 0,0004 Tempmin2 -0,81694 0,3721 Tempmin2**2 0,04509 0,0190 Tempmin2**3 -0,00082 0,0003 PM10 0,00285• 0,0009 Critério de informação Função Desvio de Akaike Fator de dispersão (φ φ ) + 635,655 684,772 1,5 * p > 0,05 (Segunda-feira é a linha de base). • valor de referência para o estudo de simulação. ajustou-se um modelo quasi-verossimilhança (função de ligação=log, variância=µ). Wetm02 – média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes. Tempmin2 – temperatura mínima de dois dias antes (defasagem de ordem 2). + 0 -2 -4 Deviance residuals 2 Deviance Residuals Normal Q-Q Plot -3 -2 -1 0 1 2 Standard Normal Quantiles Figura 1 - Gráfico dos quartis dos resíduos do modelo ajustado (MLG). 3 53 60 40 0 20 Simulação 80 100 Modelos Lineares Generalizados 0.000 0.002 0.004 0.006 PM10 60 40 0 20 Simulação 80 100 Modelos Aditivos Generalizados 0.000 0.002 0.004 0.006 PM10 Figura 2 – Intervalos de confiança a 95% para a estimação do efeito da poluição do ar por partículas suspensas nos 100 ajustes. 54 Tabela 2 – Estatísticas descritivas dos efeitos estimados do PM10 pelos modelos em comparação Medidas descritivas Mín. Percentil 25 Percentil 50 Média Percentil 75 Max. DP Classe de modelo MLG MAG 0,00090 0,00103 0,00241 0,00248 0,00299 0,00316 0,00296 0,00309 0,00355 0,00366 0,00465 0,00488 0,00084 0,00085 Estimativas do efeito do PM10 nas 100 simulações 0.001 0.002 0.003 0.004 0.005 DP – desvio padrão MLG MAG Figura 3 – Diagrama de caixa das estimativas. A linha em vermelho refere-se ao verdadeiro valor do parâmetro. A linha em azul refere-se ao valor médio do parâmetro estimado pelo ajuste MLG e em cinza ao valor médio do parâmetro estimado pelo MAG. Tabela 3 – Comparação entre as médias dos efeitos estimados pelos 100 modelos. Classe de modelo MLG MAG MLG- MLG * p< 0,05 Média 0,00296 0,00309 -0,00013 Erro IC 95% Padrão 0,000084 0,002793 a 0,003126 0,000085 0,002925 a 0,003264 0,000119 -0,000174 a -0,000097 Nível descritivo (p) 0,00 0,00 0,00* 55 Em seguida, uma ilustração foi realizada visando comparar as duas classes de modelos (MLG e MAG) e contribuir para a avaliação dos achados da simulação. Este estudo investigou a associação entre os níveis de mortalidade por DAR e PM10 na cidade do Rio de Janeiro. Foram abordados também alguns aspectos metodológicos relativos ao controle dos potenciais fatores de confusão em análises de séries temporais epidemiológica sobre o tema. Ilustração Estatísticas descritivas das séries de mortalidade e poluição atmosférica são apresentadas na Tabela 4. Durante o período em estudo (487 dias), o nível máximo diário de PM10 na cidade do Rio de Janeiro excedeu em muito pouco (150,5 µg/m3 ) o nível médio diário considerado seguro à saúde (150 µg/m3 ) segundo resolução do Conselho Nacional de Meio Ambiente (Conama,1990), e o número médio de óbitos diários por DAR entre idosos foi aproximadamente 11 casos por dia, variando entre 3 e 27. A matriz de correlação de Pearson (Tabela 5) entre os fatores meteorológicos e a poluição atmosférica (covariáveis em análise) mostrou apenas uma correlação estatisticamente significante (temperatura × PM10 ). No entanto, a magnitude dessa correlação ( ρ̂ = -0,1427 ) não foi suficientemente expressiva para considerar uma colinearidade entre as duas variáveis. Nesse sentido, a aplicação de modelos de regressão (Poisson) foi adequada para estimar associação entre a mortalidade por DAR e a poluição atmosférica por partículas, uma vez que o fenômeno de multicolinearidade não estava presente nos dados. A Figura 4 apresenta uma descrição da série temporal de mortalidade por DAR entre idosos durante o período em estudo. A flutuação e autocorrelação da série foram supostamente introduzidas pela sua tendência temporal e sazonalidade (efeitos de longo prazo) e pelos dias da semana, feriados e valores diários da temperatura e umidade do ar (efeitos de curto prazo). Os efeitos de curto prazo foram considerados potenciais fatores de confusão na associação de interesse, que juntamente com os efeitos de longo prazo devem ser controlados. Uma análise da adequação dos dois modelos em comparação (MLG e MAG) visando o controle dos fatores de confusão foi realizada por meio da comparação de medidas de 56 qualidade do ajuste e pelos diagnósticos dos resíduos do modelo central. Os resultados demostraram uma diferença percentual menor que 1% entre os valores do Critério de Informação de Akaike (CIA) para os modelos considerados (Tabela 6) e um grau de liberdade do modelo relativamente maior (26,8%) no ajuste não paramétrico (MAG). As demais medidas de ajuste (Tabela 7) também não demonstraram diferenças significativas entre as duas classes de modelos. O mesmo resultado foi observado pela análise dos resíduos (Figura 5) dos modelos centrais ajustados. A partir da modelagem de regressão Poisson para cada classe de modelos considerados, evidenciou-se uma elevação significativa dos níveis de PM10 (com defasagem de 1ª ordem) do 10º ao 90º percentil (45,62 µg/m3 ) associada a um acréscimo de 10,97% na mortalidade por DAR no ajuste MLG e de 10,71% no ajuste MAG (Tabela 8). Para demonstrar a influência dos fatores de confusão na estimativa do efeito da poluição atmosférica sobre a saúde, foi realizada uma análise de sensibilidade para avaliar o efeito do PM10 do dia anterior (Tabela 9). A partir do ajuste de um MAG que incluiu somente o poluente, foi acrescentado progressivamente cada componente do modelo central e ajustado um modelo buscando detectar a contribuição da cada fator nos achados epidemiológicos. No modelo que não considerava qualquer correção referente à tendência, à sazonalidade, ao calendário ou à meteorologia, o PM10 apresentou um coeficiente consideravelmente expressivo que foi reduzido após o ajuste para a existência de tendência de longo prazo e sazonalidade da série de mortalidade. Uma substancial redução no efeito da poluição ocorreu quando os efeitos dos dias da semana e feriados foram incluídos (-32,25%), demonstrando que a falta de correção dos efeitos de calendário levaria a sobre-estimação do parâmetro (efeito da poluição). Os fatores meteorológicos (-27,36%) e a tendência e sazonalidade (-29,97%) mostraram uma considerável contribuição na análise da série de mortalidade. O aumento do coeficiente do PM10 quando incluída a temperatura e a umidade no modelo possivelmente se deve a uma possível interação entre as condições meteorológicas e a poluição atmosférica que não é contemplada no modelo central em análise. O controle da flutuação e da autocorrelação da série de mortalidade realizado através da construção do modelo central é ilustrado na Figura 6. Observa-se que toda a autocorrelação da série de mortalidade (a) foi controlada por intermédio da contribuição 57 dos fatores meteorológicos, do calendário e da tendência e sazonalidade da própria série (d). O ajuste do modelo central por MAG é apresentado na Figura 7 e a estimativa do efeito do PM10 após o controle dos fatores de confusão encontra-se na Tabela 10. O ajuste do modelo central por MLG é apresentado na Figura 8 . 58 Tabela 4 – Estatísticas descritivas para a mortalidade diária em idosos e para a poluição diária por partículas na cidade do Rio de Janeiro. Percentis Média (dp) Mín. 10 25 50 75 90 Máx. Mortalidade DAR 10,98(3,68) 3,00 6,60 8,00 11,00 13,00 16,00 27,00 PM10 62,94(18,78) 20,00 42,05 49,75 59,71 73,25 87,60 150,50 dp – desvio padrão Tabela 5 – Matriz dos coeficientes de correlação de Pearson para as covariáveis em análise. tmpmin2 wetm02 PM10 tmpmin2 1.0000 wetm02 1.0000 -0.2782 * PM 1.0000 -0.1427 -0.2077 * 15 5 10 Óbitos por DAR 20 25 p < 0,05 tmpmin2 – temperatura mínima de dois dias antes. wetm02 – média móvel da umidade relativa do ar entre os valores correntes e de dois dias antes. PM - nível de material particulado do dia anterior. 01/09/00 01/12/00 01/03/01 01/06/01 01/09/01 01/12/01 Data Figura 4 - Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro. A curva suave (spline com 8 graus de liberdade) representa um ajuste para o efeito de longo prazo (tendência e sazonalidade) da série de mortalidade. 59 Tabela 6 – Comparação dos resultados através de medida de ajuste. Modelo Central MLG MAG gl modelo 21 26,6273 CIA 544,571 548,575 Dif% 0,7% gl – grau de liberdade. CIA – aproximação do Critério de Informação de Akaike. Dif % – diferença percentual do valor do CIA no MAG em relação ao do MLG. Tabela 7 - Medidas de qualidade do ajuste utilizadas em análises de séries temporais. Erro MLG MAG Percentual médio -0,49% -0,61% Médio quadrático 1,03 1,01 Médio absoluto 0,82 0,81 Percentual médio absoluto 7,60% 7,47% ( a1 ) 2 1 0 -1 Deviance residuals -2 -3 -0.10 -0.05 0.00 Partial ACF 0.05 3 ( a2 ) 5 10 15 20 25 -3 -2 -1 0 1 Lag Standard Normal Quantiles ( b1 ) ( b2 ) 2 3 2 3 2 1 0 -3 -2 -1 Deviance residuals 0.00 -0.10 -0.05 Partial ACF 0.05 3 0 0 5 10 15 Lag 20 25 -3 -2 -1 0 1 Standard Normal Quantiles Figura 5 – Função de autocorrelação parcial e gráfico dos quartis dos resíduos: (a1) e (a2) ajuste por MLG , (b1) e (b2) ajuste por MAG. 60 Tabela 8 – Estimativas dos coeficientes de regressão e dos riscos relativos da mortalidade por doenças do aparelho respiratório entre os idosos. Nível Erro descritivo Modelo coeficiente padrão IC 95% %RR10-90 IC 95% (p) MLG 0,0228 0,0092 0,01 0,0049 - 0,0408 10,97 2,24 - 20,44 MAG 0,0223 0,0076 0,00 0,0074 - 0,0372 10,71 3,44 - 18,50 IC - intervalo de confiança. %RR10-90 – risco relativo em variação percentual para um aumento nos níveis de PM 10 do 10º ao 90º percentil. Tabela 9 – Comparação do efeito do dia anterior do poluente através do controle dos fatores de confusão pelo ajuste de um modelo aditivo generalizado (MAG). Modelo PM 10 (cada componente incluído progressivamente) coeficiente Erro Nível Diferença padrão descritivo relativa ** (p) % Sem confundidores 0,0307 0,0078 0,00 Sazonalidade e Tendência 0,0215 0,0073 0,00 -29,97 Dias da semana e Feriados 0,0208 0,0075 0,01 -32,25 Temperatura e Umidade 0,0223* 0,0076 0,00 -27,36 (modelo central) * possível efeito de interação entre o poluente atmosférico e os fatores meteorológicos ** cada diferença é em relação a 1ª componente. 0.05 0.00 Partial ACF 5 10 15 20 25 0 5 10 15 Lag (c) (d) 20 25 20 25 0.00 Partial ACF 0.05 0.05 Lag -0.10 -0.05 Partial ACF -0.05 -0.10 0 0 5 10 15 Lag 20 25 -0.10 -0.05 0.00 Partial ACF (b) (a) 0.10 -0.10 -0.05 0.00 0.05 0.10 0.15 0.20 61 0 5 10 15 Lag Figura 6 – Função de autocorrelação parcial para a série de mortalidade entre idosos. (a) dados não ajustados. (b) ajuste para o efeito da tendência em longo prazo e sazonalidade. (c) ajuste para os dias da semana e feriados. (d) ajuste para a temperatura e umidade (modelo central). Todos os ajustes foram por Modelos Aditivos Generalizados (MAG). 62 Tabela 10 – Resultado da Regressão Poisson para estimação do efeito do PM10 do dia anterior. Erro Variável Coeficiente padrão Valor t Parte paramétrica Intercepto 2,20845 0,29653 7,45 TERÇA -0,10492 0,05261 -1,99 QUARTA -0,05836 0,05240 -1,11* QUINTA -0,05846 0,05247 -1,11* SEXTA -0,04389 0,05231 -0,84* SÁBADO -0,02252 0,05210 -0,43* DOMINGO -0,07026 0,05214 -1,35* 1 fer.pos 0,25292 0,09291 2,72 2 fer.neg -0,12948 0,08357 -1,55* L1PM • 0,00223 0,00076 2,94 Nível descritivo (p) associado ao χ 2 Parte não paramétrica s(TEMPO, 6) 0,00 s(tmpmin2, 7) 0,04 s(wetm02, 5) 0,01 * p > 0,05 (Segunda-feira foi a linha de base) 1 refere-se a todos aqueles feriados com efeitos positivos sobre a mortalidade. 2 15 5 10 (last.gam$y) 20 25 refere-se a todos aqueles feriados com efeitos negativos sobre a mortalidade. tmpmin2 - temperatura mínima de dois dias antes (defasagem de ordem 2). wetm02 - média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes. • L1PM - nível de material particulado do dia anterior (defasagem de ordem 1). 01/09/00 01/12/00 01/03/01 01/06/01 dod Figura 7 – Ajuste do modelo central pelo MAG. 01/09/01 01/12/01 15 5 10 (last.gam$y) 20 25 63 01/09/00 01/12/00 01/03/01 01/06/01 dod Figura 8 – Ajuste do modelo central pelo MLG. 01/09/01 01/12/01 64 4. Discussão O estudo comparativo via simulação indicou que há diferença significativa na estimativa do efeito do PM10 sobre o número de internações hospitalares por problemas respiratórios entre idosos (desfecho), controlando-se os fatores de confusão e a tendência e a sazonalidade da série de desfecho a partir do emprego de métodos paramétricos ou nãoparamétricos. O fato de os dois métodos produzirem as mesmas conclusões em 90% das simulações realizadas demonstrou que os modelos ajustados estimaram o efeito do PM10 adequadamente. Na aplicação ilustrativa, os modelos em comparação forneceram resultados similares no que tange as estatísticas de qualidade do ajuste e ao diagnóstico dos resíduos. Conseqüentemente não foi possível apontar um dos métodos (paramétrico ou não paramétrico) como o mais adequado para o controle da tendência e sazonalidade da série de desfecho, e dos fatores de confusão no estudo da associação entre o PM10 e a mortalidade por DAR entre idosos. No que se refere às duas classes de modelos considerados (Modelos Lineares Generalizados e Modelos Aditivos Generalizados) para a efetiva estimação do efeito do PM10 sobre a saúde da população do Rio de Janeiro, também não foi encontrada diferença significativa. O fato das duas classes de modelos convergirem para a mesma conclusão a respeito do efeito da poluição atmosférica corroborou os resultados de Lima (2001), no qual as duas classes de modelos mostraram achados similares para a série de mortalidade fetal tardia (desfecho) no período de 1991 a 1992, para a cidade de São Paulo, considerando o efeito do NO2 (dióxido de nitrogênio). No entanto, ressalta-se que no estudo comparativo entre os dois modelos, realizado na cidade de São Paulo por Conceição (2001), os Modelos Aditivos Generalizados tiveram maior poder de captar efeitos significativos de pequena magnitude, embora nesta ocasião a poluição atmosférica não tenha sido significativamente associada à mortalidade no caso de utilização de Modelos Lineares Generalizados. Finalmente, a partir dos resultados dos dois estudos comparativos realizados (via simulação e ilustração), sugere-se que a escolha do método de ajuste das covariáveis do modelo central deve se basear principalmente pelo diagnósticos dos resíduos e pela flexibilidade da modelagem, além de considerar o princípio da parcimônia. Esta estratégia visa controlar adequadamente toda a flutuação e autocorrelação existente na série de desfecho supostamente introduzida pelas covariáveis e/ou componentes do modelo central, 65 permitindo então, a inclusão de um termo linear referente à poluição atmosférica que possibilite estimar o seu efeito sobre a saúde da população. Adicionalmente, ressalta-se que a ilustração demonstrou claramente a importância do controle dos potenciais fatores de confusão (condições meteorológicas e dos efeitos dos dias da semana e feriados) e da tendência e sazonalidade da série de mortalidade por DAR. O efeito de curto prazo do PM10 em um modelo sem qualquer confundidor mostrouse 37,67% maior do que em um modelo controlado pelos fatores de confusão e pela tendência e sazonalidade da série de mortalidade. A respeito das evidências encontradas nesse trabalho ressalta-se que os resultados são válidos essencialmente para o cenário simulado (consideravelmente simples), de maneira que a simulação do preditor linear (η) de forma linear tenha favorecido o ajuste por MLG. No entanto, se fosse simulado de forma não linear provavelmente o MAG se ajustaria melhor, uma vez que a sua modelagem é mais flexível. 66 5. Referências Bibliográficas (ARTIGO) Abercrombie G. F. December fog in London and the emergency bed service. Lancet, v. 1, p. 234-235, 1953. Anderson H.R., Ponce dL., Bland J.M., Bower J.S., Strachan D.P. Air pollution and daily mortality in London: 1987-92. BMJ, v.312, n. 7032, p.665-669,1996. Braga AL., Conceicao G M , Pereira LA, Kishi HS, Pereira JC, Andrade MF et al. Air pollution and pediatric respiratory hospital admissions in São Paulo, Brazil. J. Environ Med, v.1, p. 95-102, 1999. Braga, A. L., A. Zanobetti, and J. Schwartz. The effect of weather on respiratory and cardiovascular deaths in 12 U.S. cities. Environ.Health Perspect. v. 110, n. 9, p. 859863, 2002. Bremner et al. Short term associations betwe en outdoor air pollution and mortality in London 1992-4. Occup Environ Med, v.56, p.237-244, 1999. Burnett, R. T. et al. The association between ambient carbon monoxide levels and daily mortality in Toronto, Canada. J. Air Waste Manag. Assoc. v. 48, n. 8, p. 689-700, 1998. Cifuentes, L. A. et al. Effect of the Fine Fraction of Particulate Matter versus the Coarse Mass and Other Pollutants on Daily Mortalility in Santiago, Chile. Journal of the Air & Waste Management Association. v. 50, p. 1287-1298, 2000. Conama. Resolução n. 003 (PRONAR). 28 de junho de 1990. Conceição, G.M.S., Saldiva, P.H.N. e Singer, J.M. Modelos Lineares Generalizados e Modelos Aditivos Generalizados para análise da associação entre poluição atmosférica e marcadores de morbi-mortalidade: uma introdução baseada em dados da cidade de São Paulo. Revista Brasileira de Epidemiologia, v. 4, n. 3, p.206–219, 2001. 67 Daumas, R.P. Poluição do ar e mortalidade em idosos no Município do Rio de Janeiro: análise de série temporal. 2002. 205f. Dissertação de Mestrado, Rio de Janeiro: Instituto de Medicina Social, Universidade do Estado do Rio de Janeiro. Goldberg, M. S. et al. The association between daily mortality and ambient air particle pollution in Montreal, Quebec. 2. Cause-specific mortality. Environ.Res. v. 86, n. 1, p. 26-36, 2001. Gouveia N and Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med, v. 57, n.7, p. 477-483, 2000. Glasser, M., L. Greenburg, and F. Field. Mortality and morbidity during a period of high levels of air pollution. New York, Nov. 23 to 25, 1966. Arch.Environ.Health, v.15, n.6 , p. 684- 694, 1967. Goldstein, I. F. Interaction of air pollution and weather in their effects on health. HSMHA.Health Rep.,v. 87, n.1, p.50-55, 1972. Goldstein, I. F., M. Goldstein, and L. Landovitz. A critique of "The relation of air pollution to mortality. J.Occup.Med., v. 19, n.6 , p. 375- 376, 1977. Goldstein, I. F. and L. E. Rausch. Time series analysis of morbidity data for assessment of acute environmental health effects. Environ.Res., v.17, n.2 , p. 266-275, 1978. Goldstein, I. F. et al. Methodological problems arising from the choice of an independent variable in linear regression, with application to an air pollution epidemiological study. Environ.Health Perspect., v. 32 , p. 311- 315, 1979. Greenburg, L. et al. Air pollution, influenza, and mortality in New York City; January-February 1963. Arch.Environ.Health v.15, n.4, p. 430- 438, 1967. Harvey, A.C. The econometric analysis of time series models. Philip Allan, 1981. 68 Hastie T.; Tibshirani R. Generalized Additive Models. Chapman&Hall, 1990. Hatzakis, A. et al. Short-term effects of air pollution on mortality in Athens. Int.J.Epidemiol. v. 15, n.1, p. 73-81, 1986. Hong, Y. C. et al. Effects of air pollutants on acute stroke mortality. Environ.Health Perspect. v .110, n. 2, p. 187-191, 2002. Katsouyanni, K. et al. Short-term effects of ambient sulphur dioxide and particulate matter on mortality in 12 European cities: results from time series data from the APHEA project. Air Pollution and Health: a European Approach. BMJ, v. 314, n. 7095, p. 1658-1663, 1997. Katsouyanni, K. et al. Confounding and effect modification in the short-term effects of ambient particles on total mortality: results from 29 European cities within the APHEA2 project. Epidemiology, v. 12, n. 5, p. 521-531, 2001. Lima L. P. Modelos Aditivos Generalizados: aplicação a um estudo epidemiológico ambiental. 2001.115f. Dissertação de Mestrado, São Paulo: Instituto de Matemática e Estatística, Universidade de São Paulo. Loomis et al. Air Pollution and Infant Mortality in Mexico City. Epidemiology, v. 10, n. 2, p. 118-123, 1999. Martin A.E.; Bradley D.M. Mortality, fog and atmospheric pollution. Mon Bull Minist Health Lab Serv, v.19, p. 56-73, 1960. MathSoft (1998). S-Plus User’s Guide. Version 2000. Seattle, Data Analysis Products Division. 69 Mazumdar, S., H. Schimmel; I. T. Higgins. Relation of daily mortality to air pollution: an analysis of 14 London winters, 1958/59-1971/72. Arch.Environ.Health, v. 37, n. 4, p. 213-20, 1982. McCullagh , P.; Nelder, J. A. Generalized Linear Models. Chapman&Hall, 1989. Ministry of Health. Mortality and morbidity during the London Fog of December 1952. London: Her Majesty's Stationary Office, 1954. (Report No. 95 on public health and medical subjects). Ostro, B. A search for a threshold in the relationship of air pollution to mortality: a reanalysis of data on London winters. Environ.Health Perspect., v. 58, p. 397- 399, 1984. Poloniecki et al. Daily time series for cardiovascular hospital admissions and previous day’s air pollution in London, UK. Occupational and Environmental Medicine,v. 54, p.535-540, 1997. Ponce de Leon , A. Searching for Associations Between Counts of Helth Events and &&sterr. Zeitshrift Fu&&r Statistik , v. 25, p. 25-34, 1996. Air Pollution. O Ponce de Leon A.; Anderson H.R.; Bland JM, Strachan DP, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. J Epidemiol Community Health, v. 50, suppl. 1, p. 63-70, 1996. Sáez M. et al. Métodos de séries temporales em los estúdios epidemiológicos sobre Contaminación Atmosférica. Rev Esp Salud Pública, v. 73, p.133-143, 1999. Saldiva et al. Association between air pollution and mortality due to respiratory diseases in children in São Paulo, Brazil: a preliminary report. Environ Res, v. 65, p.218-225, 1994. 70 Saldiva et al. Air Pollution and Mortality in Elderly People: A Time-Series Study in São Paulo, Brazil. Archives of Environmental Health, v. 50, n. 2, p.159-163, 1995. Schimmel, H. and Murawski, T. J. The relation of air pollution to mortality. J. Occup. Med., v.18, p. 316-333, 1976. Schwartz J; Marcus A. Mortality and air pollution in London: a time series analysis. Am J Epidemiol, v.131, n. 1, p.185-194, 1990. Schwartz J. Particulate air pollution and daily mortality: A synthesis. Public Health Res, v. 64, p. 39-60, 1992. Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res, v. 64, n.1, p. 36-52, 1994. Schwartz J. Air pollution and hospital admission for respiratory disease. Epidemioloy, v. 7, n. 1, p. 20-8, 1995. Schwartz J.; Spix G.; Toulomi G et al. Methodological issue in studies of air pollution and daily counts of deaths or hospital admission. J Epidemiol Community Health, v. 50, suppl. 1, p. 3-11, 1996. Schwartz J. Assessing Confounding, Effect Modification, and Thresholds in the Association between Ambient Particles and Daily Deaths. Environment Health, v. 108, n. 6, p. 563-567, 2000. Schwartz, J., F. Laden, and A. Zanobetti. The concentration-response relation between PM(2.5) and daily deaths. Environ.Health Perspect., v. 110, n.10, p. 1025-1029, 2002. Shumway, R. H., A. S. Azari, and Y. Pawitan. Modeling mortality fluctuations in Los Angeles as functions of pollution and weather effects. Environ.Res.,v. 45, n.2, p. 224241,1988. 71 Spix, C. et al. Short-term effects of air pollution on hospital admissions of respiratory diseases in Europe: a quantitative summary of APHEA study results. Air Pollution and Health: a European Approach. Arch.Environ.Health, v. 53, n.1, p. 54-64, 1998. Sterling, T. D. et al. Urban morbidity and air pollution. A first report. Arch.Environ.Health, v.13, n.2, p.158- 170, 1966. Sterling, T. D., S. V. Pollack, and J. J. Phair. Urban hospital morbidity and air pollution. A second report. Arch.Environ.Health, v. 15, n.3 , p. 362- 374, 1967. Sunyer, J. et al. Urban air pollution and emergency admissions for asthma in four European cities: the APHEA Project. Thorax, v. 52, p.760-765, 1997. Touloumi et al. Short-term Effects of Ambient Oxidant Exposure on Mortality: a combined Analysis within the APHEA Project. American Journal of Epidemiology, v. 146, n. 2, p. 177-185, 1997. Wichmann, H. E. et al. Health effects during a smog episode in West Germany in 1985. Environ.Health Perspect., v. 79, p. 89-99, 1989. Zanobetti et al. Airborne Particles Are a Risk Factor for Hospital Admissions for Heart and Lung Disease. Environmental Healt Perspectives, v. 108, n. 11, p. 1071-1077, 2000. Zanobetti et al. The Temporal Pattern of Mortality Responses to Air Pollution: A Multicity Assessment of Mortalilty Displacement. Epidemiology, v. 13, n. 1, p. 87-93, 2001. Zeger, S. L. A regression model for time series of counts. Biometrika, v. 75, n. 4, p. 621-629, 1988. Zmirou, D. et al. Time-series analysis of air pollution and cause-specific mortality. Epidemiology, v. 9, n. 5, p. 495-503, 1998. 72 7. CONCLUSÕES 7.1. CONSIDERAÇÕES FINAIS A comparação entre os métodos paramétricos e não paramétricos para o controle de potenciais fatores de confusão em estudos do efeito da poluição atmosférica sobre um determinado agravo à saúde, realizados nesse trabalho, apresentou resultados coerentes e similares no que diz respeito à adequação das classes de modelos considerados (Modelos Lineares Generalizados e Modelos Aditivos Generalizados). É importante ressaltar que o estudo de simulação considerou apenas um cenário relativamente simples utilizando dados empíricos para as covariáveis. Mesmo assim, o resultado obtido pela simulação realizada nesta dissertação mostrou-se satisfatório, pois no estudo empírico (ilustração) foi encontrado achado similar. Finalmente, cabe ressaltar que o presente estudo encontrou efeito estatisticamente significativo da poluição atmosférica sobre cidade do Rio de Janeiro, mortalidade por DAR entre os idosos na fato que não havia sido evidenciado no estudo pioneiro de análise de séries temporais epidemiológica sobre o tema realizado em Daumas (2002). 7.1. PROPOSTAS FUTURAS Embora o estudo de simulação realizado tenha apresentado resultados coerentes, deve-se considerar que seus resultados são restritos ao cenário proposto. Nesse sentido fazse necessário a realização de estudos suplementares que considerem outros possíveis cenários no que se refere à evolução das covariáveis. Por exemplo, pode-se simular séries temporais não estacionárias, com certa estrutura de autocorrelacão, multicolineares e com possíveis perturbações aleatórias sobre os processos. Do ponto de vista tanto da modelagem de séries temporais epidemiológicas sobre o tema, quanto da estimação do efeito da poluição atmosférica, estudos futuros com dados da cidade do Rio de Janeiro podem ser desenvolvidos visando: 1. Estimar o efeito da poluição do ar por PM10 sobre a mortalidade/morbidade por doenças do aparelho respiratório para outros períodos mais recentes. 2. Estimar o efeito da poluição do ar por PM10 sobre a mortalidade/morbidade por doenças do aparelho circulatório. 73 3. Realizar comparações entre Modelos Lineares Generalizados e Modelos Aditivos Generalizados considerando outras distribuições de probabilidade em vez da distribuição Poisson. 4. Empregar outras técnicas de diagnósticos para os ajustes e os resíduos na avaliação dos resultados segundo as duas classes de modelos utilizados, como gráfico de envelope, validação cruzada, entre outras técnicas. 5. Criar um protocolo de análise para uniformizar a estratégia de modelagem utilizando Modelos Aditivos Generalizados. 6. Aplicar modelos alternativos para estimar a associação entre poluição atmosférica e um determinado agravo à saúde, como modelos estruturais (modelo de espaço de estados): Poisson-Gama e Binomial negativa-Beta . 7. Empregar modelos de análise espacial (modelo espaço-temporal). 8. Apresentar e discutir com maiores detalhes os modelos estatísticos de séries temporais epidemiológicas e seus principais testes diagnósticos, buscando um melhor aprimoramento dos epidemiologistas interessados no assunto. 74 8. REFERÊNCIAS BIBLIOGRÁFICAS ( INTRODUÇÃO E CONCLUSÕES ) Anderson H.R., Ponce dL., Bland J.M., Bower J.S., Strachan D.P. Air pollution and daily mortality in London: 1987-92. BMJ, v.312, n. 7032, p.665-669,1996. Andrade, E. L. Introdução à pesquisa operacional: métodos e técnicas para análise de decisão. Rio de Janeiro: LTC, 1999.p.236-255. Barton, R. F. Manual de Simulação e Jogo. Petrópolis: Vozes, 1973. p.173-201. Costa, V. R. Poluição Atmosférica Mata. Revista Ciência Hoje, Agosto de 2002; vol. 28, nº 163. Díez F. B., Tenías J. M. e Pérez-Hoyos S. Efectos de La Contaminación Atmosférica Sobre a Salud: Una Introducción. Rev Esp Salud Pública, v. 73, p.109-121, 1999. Fernandes, C. A. C. Non-Gaussian Structural Time Series Models. 1990. 233f. Tese de Doutorado, London: London School of Economics, University London. Ferreira, A. B. H. Novo Aurélio Século XXI: O Dicionário da Língua Portuguesa. Rio de Janeiro, Nova Fronteira, 1999. Gouveia N. Air Pollution and Health effects in São Paulo, Brazil: A Time Series Analysis. 1997. 238f. Tese de Doutorado, London: London School of Hygiene and Tropical Medicine, University London. Harvey, A.C. The econometric analysis of time series models. Philip Allan, 1981. Hastie T.; Tibshirani R. Generalized Additive Models. Chapman&Hall, 1990. Martin A.E.; Bradley D.M. Mortality, fog and atmospheric pollution. Mon Bull Minist Health Lab Serv, v.19, p. 56-73, 1960. 75 Madov N.; Greco A.; Sampaio F.; Coutinho L. A Terra pede socorro. Revista Veja, Agosto de 2002. Mazumdar, S., H. Schimmel; I. T. Higgins. Relation of daily mortality to air pollution: an analysis of 14 London winters, 1958/59-1971/72. Arch.Environ.Health, v. 37, n. 4, p. 213-20, 1982. McCullagh , P.; Nelder, J. A. Generalized Linear Models. Chapman&Hall, 1989. McCarroll, J.; W. Bradley. Excess mortality as an indicator of health effects of air pollution. Am.J.Public Health Nations.Health. v. 56, n.11 p.1933-42, 1966. Ministry of Health. Mortality and morbidity during the London Fog of December 1952. London: Her Majesty's Stationary Office, 1954. (Report No. 95 on public health and medical subjects). Morettin, P. A.; Toloi, C. M. Previsão de Séries Temporais. São Paulo: Atual, 1987. Morgan, B. J. T. Elements of Simulation. Chapman&Hall, 1995. Ostro, B. A search for a threshold in the relationship of air pollution to mortality: a reanalysis of data on London winters. Environ.Health Perspect, v. 58, p. 397-99, 1984. Ponce de Leon , A. Searching for Associations Between Counts of Helth Events and &&sterr. Zeitshrift Fu&&r Statistik , v. 25, p. 25-34, 1996. Air Pollution. O Schwartz J; Marcus A. Mortality and air pollution in London: a time series analysis. Am J Epidemiol, v.131, n. 1, p.185-194, 1990. Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res, v. 64, n.1, p. 36-52, 1994. 76 Schwartz J.; Spix G.; Toulomi G et al. Methodological issue in studies of air pollution and daily counts of deaths or hospital admission. J Epidemiol Community Health, v. 50, suppl. 1, p. 3-11, 1996. Wei, W. W. S. Time Series Analysis. Univariate and Multivariate Methods. AddisonWesley Publishing Company,1989. Yaffe, C. D. Progress in state and local air pollution control under the Clean Air Act. Am.Ind.Hyg.Assoc.J, v. 31, n. 4,p. 506-09, 1970. Zeger, S. L. A regression model for time series of counts. Biometrika, v. 75, n. 4, p. 621-629, 1988. 77 ANEXOS 78 ANEXO I - MÉTODO MONTE CARLO Figura I - Adaptação do Fluxograma do método Monte Carlo apresentado em Barton,1973, página 194. Segmento de acontecimento único para Simulação Monte Carlo Discreto Calcule as probabilidades acumulativas de cada acontecimento. Identifique cada acontecimento à sua probabilidade acumulada . O último é associado com o número 1, que é a probabilidade acumulativa final dos dados Designe n números aleatórios com pelo menos tantos dígitos quanto os números da probabilidade acumulada. O número aleatório deve vir de uma distribuição uniforme(0,1). Observe a probabilidade acontecimento. acumulada do O número aleatório é Não menor do que essa probabilidade Sim Considere o acontecimento correspondente a esta iteração. Registre o acontecimento na base de dados. Fim * Para a simulação de uma série temporal, o segmento de acontecimento único é a serie temporal de entrada, o acontecimento representa cada observação da série temporal e o n é o número total de observações da s érie temporal considerada. 79 ANEXO II - AS SISTEMÁTICO COVARIÁVEIS QUE COMPÕEM O COMPONENTE Figura II – Séries temporais das covariáveis que compõem o componente sistemático. (a) Temperatura 0 100 200 300 400 12 14 16 18 20 22 24 26 30 20 0 10 Internações 40 (b) 500 0 100 200 (c) 400 500 300 400 500 60 0 60 65 20 40 75 PM10 80 80 85 90 100 (d) 70 Umidade 300 0 100 200 300 400 500 0 100 200 * (a) Série do número de internações hospitalares diárias por problemas respiratórios na cidade do Rio de janeiro. (b) Série da temperatura mínima de dois dias antes (defasagem de ordem 2) . (c) Série da umidade diária (média móvel entre o valor corrente e o valor de dois dias antes). (d) Série diária do material particulado em suspensão (PM 10 ). A curva apresentada em (a) descreve a tendência e a sazonalidade da série de internações. 80 ANEXO III – ANÁLISES DOS RESÍDUOS DO MODELO BASE PARA AS SÉRIES DE INTERNAÇÕES HOSPITALARES SIMULADAS Figura III – Função de autocorrelação parcial da série de resíduos do modelo central ajustado através de modelo linear generalizado. 0.00 -0.10 -0.05 Partial ACF 0.05 0.10 Series : residuals(last.gam, "deviance") 0 5 10 15 20 25 30 Lag Figura IV – Função de autocorrelação parcial da série de resíduos do modelo central ajustado através de modelo aditivo generalizado. 0.00 -0.05 -0.10 Partial ACF 0.05 0.10 Series : residuals(last.gam, "deviance") 0 5 10 15 Lag 20 25 30 81 Figura V – Periodograma da série de resíduos do modelo central ajustado através de modelo linear generalizado. Periodogram 6.28 3.14 2.09 0 1 2 I(omega) 3 4 5 487 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Angular frequency (rads.) (top axis is period in days) Figura VI – Periodograma da série de resíduos do modelo central ajustado através de modelo aditivo generalizado. Periodogram 6.28 3.14 2.09 0 1 2 I(omega) 3 4 5 487 0.0 0.5 1.0 1.5 2.0 2.5 Angular frequency (rads.) (top axis is period in days) 3.0 82 Figura VII – Quartis dos resíduos do modelo central ajustado através de modelo linear generalizado versus os quartis da distribuição Normal. 1 0 -2 -1 Deviance residuals 2 3 Deviance Residuals Normal Q-Q Plot -3 -2 -1 0 1 2 3 Standard Normal Quantiles Figura VIII – Quartis dos resíduos do modelo central ajustado através de modelo aditivo generalizado versus os quartis da distribuição Normal. 1 0 -1 -2 Deviance residuals 2 3 Deviance Residuals Normal Q-Q Plot -3 -2 -1 0 1 Standard Normal Quantiles 2 3 83 Figura IX – Resíduos do modelo central ajustado através de modelo linear generalizado 2 0 -2 -4 resid(last.gam, "deviance") 4 versus o tempo. As linhas em vermelho na horizontal referem-se aos valores 3 e –3. 01/08/00 01/11/00 01/02/01 01/05/01 01/08/01 dod Figura X – Resíduos do modelo central ajustado através de modelo aditivo generalizado 2 0 -2 -4 resid(last.gam, "deviance") 4 versus o tempo. As linhas em vermelho na horizontal referem-se aos valores 3 e –3. 01/08/00 01/11/00 01/02/01 01/05/01 dod 01/08/01 84 ANEXO IV – RESULTADO DO MODELO BASE PARA AS SÉRIES SIMULADAS Tabela 1 – Coeficientes de regressão Poisson no ajuste por Modelo Linear Generalizado (MLG). Variável Coeficiente Erro Padrão Intercepto 2,57248 3,41258 * TEMPO -0,00386 0,00044 TEMPO**2 0,00000 0,00000 wave(n, 245, 1095)$cosine -0,05667 0,01840 TERÇA -0,13417 0,04587 QUARTA -0,02707 0,04435 * QUINTA -0,20346 0,04611 SEXTA -0,10938 0,04519 SÁBADO -0,58351 0,05207 DOMINGO -0,73774 0,05541 FERIADO -0,30225 0,07824 Wetm02 0,15855 0,05344 Wetm02**2 -0,00111 0,00036 Tempmin2 -0,80591 0,37360 Tempmin2**2 0,04513 0,01908 Tempmin2**3 -0,00084 0,00032 PM10 0,00191 0,00092 Critério de informação Função Desvio de Akaike Fator de dispersão (φ φ ) 445,36 480,98 1,0 * p > 0,05 (Segunda-feira é a linha de base). Wetm02 – média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes. Tempmin2 – temperatura mínima de dois dias antes (defasagem de ordem 2). 85 Tabela 2 – Coeficientes de regressão Poisson no ajuste por Modelo Aditivo Generalizado (MAG). Erro Variável Coeficiente padrão Valor t Parte paramétrica Intercepto 4,30129 0,26860 16,01 TERÇA -0,14508 0,04690 -3,09 QUARTA -0,03710 0,04550 -0,82 * QUINTA -0,21242 0,04725 -4,50 SEXTA -0,11562 0,04632 -2,50 SÁBADO -0,59126 0,05331 -11,09 DOMINGO -0,74279 0,05686 -13,06 FERIADO -0,30922 0,08030 -3,85 PM10 0,00212 0,00093 2,27 Nível descritivo (p) associado ao χ 2 Parte não paramétrica s(TEMPO, 4) 0,005 s(Tempmin, 5) 0,000 s(Wetm02, 3) 0,003 Critério de Fator de dispersão informação de Função Desvio Akaike (φ φ ) 448,85 493,62 1,0 * p > 0,05 (Segunda-feira é a linha de base). Wetm02 – média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes. Tempmin2 – temperatura mínima de dois dias antes (defasagem de ordem 2). 86 ANEXO V – RESULTADOS DAS SIMULAÇÕES Tabela 3 – Resultados através de ajuste por modelos lineares generalizados. Nº Sim 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 PM10 0,00191078 0,00337607 0,00387000 0,00329004 0,00406732 0,00325383 0,00116003 0,00447746 0,00246286 0,00330267 0,00223498 0,00339995 0,00220262 0,00238751 0,00338055 0,00422335 0,00350118 0,00205578 0,00329219 0,00366630 0,00232200 0,00374389 0,00352919 0,00278517 0,00391700 0,00268275 0,00267719 0,00407307 0,00249958 0,00324397 0,00277494 0,00163846 0,00292295 0,00321238 0,00241063 0,00339556 0,00251759 0,00297393 0,00257033 0,00296419 0,00244381 0,00158373 0,00123833 0,00367955 0,00184519 0,00212004 STD T.valor 0,00092 2,08 0,00091 3,72 0,00092 4,20 0,00091 3,60 0,00090 4,50 0,00091 3,56 0,00091 1,27 0,00091 4,90 0,00090 2,72 0,00091 3,61 0,00091 2,45 0,00093 3,66 0,00092 2,40 0,00091 2,63 0,00090 3,75 0,00091 4,65 0,00092 3,82 0,00091 2,25 0,00092 3,58 0,00091 4,03 0,00091 2,55 0,00092 4,09 0,00091 3,90 0,00091 3,07 0,00090 4,33 0,00093 2,87 0,00091 2,94 0,00091 4,46 0,00091 2,73 0,00092 3,52 0,00092 3,03 0,00091 1,81 0,00091 3,23 0,00091 3,51 0,00092 2,61 0,00091 3,73 0,00092 2,74 0,00091 3,26 0,00092 2,78 0,00092 3,24 0,00092 2,66 0,00091 1,74 0,00090 1,38 0,00092 3,99 0,00092 2,02 0,00092 2,31 Deviance 445,36 461,50 465,03 454,07 419,74 449,15 467,58 451,83 418,04 406,17 411,54 428,86 442,11 467,41 470,98 451,26 383,28 384,33 478,45 436,73 399,94 456,60 451,79 497,75 424,17 403,19 401,34 382,42 477,96 423,41 413,67 409,00 462,23 405,58 418,70 405,80 407,16 402,53 431,34 428,34 422,20 404,61 471,79 424,43 427,37 386,09 CIA 480,98 497,87 502,12 490,28 452,92 484,68 504,80 487,53 451,60 438,55 444,00 462,70 476,49 504,74 507,49 486,44 414,09 414,89 515,85 470,84 431,77 492,20 487,26 536,85 458,48 435,05 433,03 412,07 515,41 456,48 446,24 440,87 498,55 436,69 451,57 437,58 438,84 434,12 466,38 462,63 455,59 436,73 508,04 457,70 461,24 416,54 IC 95% 0,00010798 0,00371359 0,00159508 0,00515706 0,00206421 0,00567578 0,00149688 0,00508319 0,00229523 0,00583942 0,00146284 0,00504481 -0,00062797 0,00294802 0,00268753 0,00626739 0,00068959 0,00423613 0,00151184 0,00509349 0,00044506 0,00402491 0,00158036 0,00521955 0,00040626 0,00399898 0,00060485 0,00417017 0,00161234 0,00514877 0,00244460 0,00600210 0,00170707 0,00529528 0,00026434 0,00384722 0,00148876 0,00509562 0,00188145 0,00545114 0,00053532 0,00410868 0,00194811 0,00553968 0,00175514 0,00530325 0,00100500 0,00456534 0,00214345 0,00569054 0,00085285 0,00451265 0,00089266 0,00446172 0,00228309 0,00586305 0,00070666 0,00429250 0,00143775 0,00505018 0,00098067 0,00456920 -0,00013801 0,00341492 0,00114792 0,00469797 0,00141960 0,00500516 0,00060194 0,00421933 0,00161079 0,00518033 0,00071456 0,00432063 0,00118466 0,00476319 0,00075769 0,00438296 0,00116924 0,00475914 0,00064384 0,00424378 -0,00020173 0,00336920 -0,00052405 0,00300071 0,00187353 0,00548557 0,00005088 0,00363950 0,00032268 0,00391739 SIG SIT 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 87 Nº Sim 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 PM10 0,00168745 0,00300374 0,00319405 0,00404059 0,00409189 0,00337868 0,00379600 0,00196550 0,00373183 0,00247515 0,00160242 0,00373496 0,00343945 0,00320162 0,00465140 0,00146367 0,00308324 0,00390908 0,00229896 0,00137598 0,00321926 0,00257509 0,00259176 0,00250382 0,00399356 0,00267995 0,00360633 0,00343237 0,00391746 0,00090154 0,00277043 0,00297568 0,00340196 0,00214854 0,00451064 0,00414011 0,00297546 0,00345660 0,00208337 0,00185292 0,00285124 0,00183927 0,00187681 0,00376130 0,00267234 0,00282197 0,00307421 0,00239119 0,00439566 STD T.valor 0,00092 1,83 0,00090 3,32 0,00091 3,50 0,00092 4,41 0,00092 4,44 0,00092 3,67 0,00092 4,11 0,00092 2,14 0,00092 4,07 0,00092 2,70 0,00092 1,75 0,00091 4,10 0,00091 3,77 0,00091 3,53 0,00091 5,11 0,00091 1,60 0,00093 3,33 0,00091 4,28 0,00091 2,53 0,00091 1,51 0,00093 3,47 0,00093 2,77 0,00091 2,86 0,00091 2,74 0,00092 4,36 0,00092 2,93 0,00092 3,94 0,00092 3,74 0,00091 4,30 0,00092 0,98 0,00091 3,04 0,00091 3,26 0,00093 3,67 0,00092 2,34 0,00092 4,92 0,00091 4,54 0,00090 3,29 0,00093 3,73 0,00091 2,28 0,00092 2,02 0,00092 3,11 0,00090 2,03 0,00092 2,05 0,00093 4,05 0,00090 2,97 0,00091 3,09 0,00091 3,37 0,00093 2,58 0,00091 4,84 Deviance 465,65 423,03 406,22 429,44 418,01 437,57 470,37 413,25 479,89 413,33 429,60 419,13 454,36 386,65 417,32 460,06 419,76 447,11 440,26 393,09 443,95 417,21 414,22 377,34 408,52 377,96 415,92 526,47 441,23 395,88 470,62 436,73 445,55 406,60 423,79 398,33 406,90 459,95 374,23 397,47 418,87 405,28 402,40 436,91 434,62 438,06 408,96 405,26 453,47 CIA 502,67 455,84 438,42 463,85 451,52 471,49 507,69 445,52 518,09 446,58 463,80 452,66 491,15 417,24 450,73 496,78 452,54 482,45 474,89 424,42 478,74 449,75 447,20 406,93 441,02 408,73 448,69 567,61 475,61 427,89 507,38 470,82 479,85 437,88 457,11 429,60 438,66 495,88 403,34 428,41 451,59 436,44 434,50 471,40 469,23 472,61 441,62 437,27 489,67 IC 95% -0,00011728 0,00349217 0,00123021 0,00477727 0,00140308 0,00498503 0,00224299 0,00583820 0,00228717 0,00589661 0,00157665 0,00518072 0,00198644 0,00560556 0,00016727 0,00376373 0,00193277 0,00553088 0,00067541 0,00427490 -0,00019133 0,00339617 0,00195070 0,00551921 0,00165308 0,00522583 0,00142229 0,00498095 0,00286773 0,00643508 -0,00032384 0,00325118 0,00126833 0,00489816 0,00211986 0,00569830 0,00052017 0,00407775 -0,00040503 0,00315700 0,00139870 0,00503982 0,00075191 0,00439827 0,00081496 0,00436856 0,00071070 0,00429693 0,00219912 0,00578801 0,00088575 0,00447415 0,00181025 0,00540242 0,00163431 0,00523043 0,00213131 0,00570361 -0,00089972 0,00270280 0,00098476 0,00455609 0,00118479 0,00476656 0,00158643 0,00521749 0,00035182 0,00394526 0,00271406 0,00630723 0,00235301 0,00592722 0,00120301 0,00474791 0,00164221 0,00527098 0,00029147 0,00387527 0,00005700 0,00364884 0,00105589 0,00464659 0,00006568 0,00361286 0,00008305 0,00367057 0,00194152 0,00558109 0,00091049 0,00443418 0,00103010 0,00461385 0,00128700 0,00486142 0,00057439 0,00420799 0,00261723 0,00617409 SIG SIT 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 88 Nº Sim 96 97 98 99 100 PM10 – STD – PM10 0,00398660 0,00265786 0,00406838 0,00314994 0,00327406 STD T.valor 0,00091 4,38 0,00090 2,94 0,00092 4,44 0,00092 3,43 0,00092 3,57 Deviance 392,69 406,55 478,31 412,72 394,75 CIA 423,55 438,17 515,46 445,31 425,58 IC 95% 0,00220251 0,00577068 0,00088717 0,00442855 0,00227405 0,00586271 0,00134802 0,00495185 0,00147667 0,00507145 estimativa do efeito do PM10. erro padrão. T.valor – valor do teste t associado ao efeito do PM10 . CIA – Critério de Informação de Akaike. IC 95% – Intervalo de confiança a 95%. SIG – Indica 1 quando o parâmetro é estatisticamente significativo sob H0 : β=0. SIT – Indica 1 quando o valor de referência da simulação está contido no IC. SIG SIT 1 1 1 1 1 1 1 1 1 1 89 Tabela 4 – Resultados através de ajuste por modelos aditivos generalizados. Nº Sim 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 PM10 0,00216225 0,00360273 0,00416676 0,00341361 0,00441152 0,00326214 0,00115450 0,00452281 0,00248798 0,00337738 0,00239471 0,00345472 0,00201290 0,00238645 0,00349360 0,00454704 0,00380023 0,00230411 0,00321348 0,00387467 0,00246967 0,00397599 0,00365236 0,00279030 0,00387191 0,00276634 0,00269173 0,00431188 0,00245984 0,00315366 0,00279631 0,00160813 0,00281553 0,00306224 0,00257316 0,00344947 0,00257899 0,00358582 0,00316673 0,00312236 0,00263601 0,00223340 0,00125746 0,00387940 0,00220673 0,00203031 STD 0,00094 0,00093 0,00095 0,00094 0,00089 0,00094 0,00094 0,00092 0,00089 0,00089 0,00088 0,00092 0,00092 0,00095 0,00094 0,00091 0,00086 0,00085 0,00096 0,00090 0,00089 0,00093 0,00093 0,00097 0,00090 0,00089 0,00088 0,00086 0,00094 0,00090 0,00089 0,00087 0,00094 0,00086 0,00092 0,00087 0,00088 0,00087 0,00093 0,00093 0,00090 0,00088 0,00092 0,00090 0,00091 0,00087 T.valor 2,30 3,88 4,37 3,63 4,94 3,48 1,23 4,89 2,78 3,81 2,72 3,76 2,19 2,52 3,73 5,01 4,40 2,73 3,36 4,29 2,77 4,29 3,94 2,88 4,30 3,12 3,07 4,99 2,60 3,52 3,14 1,86 3,00 3,55 2,80 3,99 2,93 4,11 3,39 3,38 2,92 2,54 1,37 4,31 2,42 2,34 Deviance 448,85 458,42 460,66 452,04 423,50 456,11 459,92 448,57 419,04 405,62 406,02 426,10 444,81 468,81 477,93 442,56 380,90 370,92 475,27 433,70 412,19 453,12 459,09 499,29 421,31 395,94 402,50 395,00 468,05 416,66 411,97 403,64 464,69 399,20 430,48 399,54 405,37 399,94 435,20 436,93 420,20 402,12 469,05 419,61 429,39 387,60 CIA 493,62 503,35 506,65 497,16 465,31 501,03 505,60 492,66 460,97 445,92 445,88 467,96 487,78 515,52 524,17 485,50 419,01 407,72 521,60 475,96 453,13 497,25 504,00 548,24 463,83 434,76 442,10 433,30 513,81 457,23 452,52 442,83 510,56 437,35 472,87 438,48 444,79 439,07 478,91 480,56 461,75 442,01 513,90 460,58 471,81 425,64 IC 95% 0,00032313 0,00400137 0,00178074 0,00542472 0,00229759 0,00603593 0,00157256 0,00525467 0,00265960 0,00616344 0,00142605 0,00509822 -0,00069069 0,00299969 0,00271006 0,00633556 0,00073513 0,00424082 0,00163859 0,00511617 0,00067050 0,00411892 0,00165598 0,00525346 0,00021522 0,00381058 0,00052699 0,00424592 0,00165666 0,00533054 0,00276680 0,00632728 0,00210910 0,00549135 0,00064686 0,00396135 0,00134111 0,00508585 0,00210465 0,00564469 0,00072034 0,00421900 0,00215816 0,00579383 0,00183639 0,00546834 0,00089177 0,00468883 0,00210698 0,00563684 0,00102749 0,00450518 0,00097441 0,00440905 0,00261772 0,00600604 0,00060878 0,00431089 0,00139657 0,00491075 0,00104981 0,00454281 -0,00009011 0,00330637 0,00097664 0,00465442 0,00137185 0,00475263 0,00077040 0,00437592 0,00175310 0,00514584 0,00085215 0,00430583 0,00187633 0,00529532 0,00133632 0,00499714 0,00130927 0,00493544 0,00086460 0,00440743 0,00050933 0,00395748 -0,00054421 0,00305913 0,00211524 0,00564355 0,00042191 0,00399156 0,00033285 0,00372777 SIG SIT 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 90 Nº Sim 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 PM10 0,00193858 0,00300194 0,00318978 0,00406354 0,00442076 0,00333704 0,00389280 0,00194541 0,00369613 0,00263157 0,00211533 0,00333219 0,00348864 0,00332111 0,00473525 0,00157384 0,00341638 0,00408298 0,00238371 0,00140533 0,00321762 0,00287094 0,00271538 0,00272155 0,00379296 0,00293413 0,00395948 0,00381660 0,00436942 0,00103229 0,00258541 0,00307543 0,00349085 0,00199160 0,00458380 0,00423997 0,00326522 0,00351439 0,00229473 0,00200110 0,00339499 0,00216608 0,00217614 0,00355361 0,00253338 0,00276674 0,00311592 0,00287480 0,00487969 STD 0,00096 0,00088 0,00088 0,00091 0,00090 0,00091 0,00096 0,00089 0,00096 0,00092 0,00090 0,00089 0,00095 0,00085 0,00090 0,00094 0,00091 0,00092 0,00090 0,00086 0,00094 0,00091 0,00088 0,00085 0,00089 0,00087 0,00090 0,00100 0,00090 0,00089 0,00094 0,00090 0,00092 0,00087 0,00091 0,00087 0,00087 0,00095 0,00085 0,00087 0,00089 0,00086 0,00088 0,00092 0,00091 0,00092 0,00088 0,00089 0,00093 T.valor 2,02 3,40 3,62 4,44 4,90 3,67 4,07 2,18 3,86 2,86 2,35 3,73 3,67 3,90 5,28 1,68 3,77 4,44 2,64 1,62 3,44 3,15 3,08 3,18 4,28 3,38 4,41 3,80 4,83 1,16 2,76 3,40 3,79 2,29 5,04 4,86 3,76 3,71 2,71 2,30 3,80 2,53 2,47 3,86 2,79 3,02 3,52 3,21 5,27 Deviance 475,45 421,63 402,98 426,66 412,96 432,97 467,74 414,28 469,05 427,12 419,93 411,62 458,98 383,60 417,88 455,79 421,72 441,92 431,05 391,32 443,55 420,27 410,32 380,84 403,59 378,08 417,75 527,05 435,30 397,47 465,67 432,02 442,36 401,62 428,41 400,64 405,79 459,41 376,95 399,44 417,09 401,06 399,42 429,70 437,12 438,46 405,28 407,81 449,52 CIA 522,29 462,51 442,88 469,30 454,27 474,90 514,02 454,73 515,66 470,00 461,65 452,80 505,61 421,48 459,48 501,22 462,76 485,62 473,39 430,23 486,96 461,24 450,93 418,16 443,62 416,54 458,75 578,38 477,60 437,46 511,00 474,24 484,94 440,42 470,64 439,91 445,34 504,14 413,63 438,13 457,89 439,46 439,16 472,04 480,75 481,49 445,69 447,75 494,24 IC 95% 0,00005450 0,00382267 0,00126978 0,00473410 0,00146373 0,00491583 0,00227164 0,00585544 0,00265071 0,00619081 0,00155601 0,00511807 0,00201651 0,00576909 0,00019746 0,00369337 0,00182136 0,00557090 0,00082988 0,00443326 0,00035246 0,00387819 0,00158321 0,00508116 0,00162492 0,00535236 0,00165022 0,00499199 0,00297907 0,00649143 -0,00026196 0,00340964 0,00163932 0,00519344 0,00227915 0,00588680 0,00061592 0,00415149 -0,00028980 0,00310046 0,00138302 0,00505222 0,00108681 0,00465507 0,00098490 0,00444586 0,00104666 0,00439644 0,00205634 0,00552958 0,00123510 0,00463315 0,00220086 0,00571811 0,00185055 0,00578264 0,00259813 0,00614071 -0,00070590 0,00277048 0,00075017 0,00442064 0,00130266 0,00484820 0,00168442 0,00529729 0,00028563 0,00369758 0,00280126 0,00636634 0,00252908 0,00595087 0,00156174 0,00496870 0,00165872 0,00537005 0,00063557 0,00395389 0,00029847 0,00370373 0,00164432 0,00514566 0,00048908 0,00384309 0,00045216 0,00390011 0,00174751 0,00535970 0,00075640 0,00431036 0,00096957 0,00456392 0,00138200 0,00484984 0,00112140 0,00462820 0,00306321 0,00669618 SIG SIT 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 91 Nº Sim 96 97 98 99 100 PM10 – STD – PM10 0,00423519 0,00305043 0,00418479 0,00343746 0,00349251 STD 0,00086 0,00085 0,00095 0,00090 0,00087 T.valor 4,92 3,57 4,42 3,83 4,02 Deviance 390,01 397,84 474,64 413,11 397,36 CIA 428,37 436,35 520,71 453,98 435,98 IC 95% 0,00254966 0,00592072 0,00137586 0,00472499 0,00232717 0,00604242 0,00167936 0,00519557 0,00178861 0,00519640 estimativa do efeito do PM10. erro padrão. T.valor – valor do teste t associado ao efeito do PM10 . CIA – Critério de Informação de Akaike. IC 95% – Intervalo de confiança a 95%. SIG – Indica 1 quando o parâmetro é estatisticamente significativo sob H0 : β=0. SIT – Indica 1 quando o valor de referência da simulação está contido no IC. SIG SIT 1 1 1 1 1 1 1 1 1 1 92 ANEXO VI – IMPLEMENTAÇÃO DA SIMULAÇÃO E DA COMPARAÇÃO ENTRE AS CLASSES DE MODELOS. ########################################################################## # Simulação do número de internações hospitalares segundo o cenário considerado # # para as covariáveis que compõem o componente sistemático # # - Hugo Simas # ########################################################################## n<-487 # número de observações: T N<-100 # número de realizações da simulação ################################################################### # Criação dos gráficos para análise dos resíduos: # # Periodograma, PACF, QQPLOT, Ajustado X Tempo e Resíduos X Tempo # ################################################################### Analise<-function() { source( "C:\\Hugo\\Analise\\ResPlot.SSC" ) } ################################################################ # Ajuste da sazonalidade através de polinômio harmônico: seno/co-seno # # - Washington # ################################################################ wave<-function(n,k,N) { fk<-k/N wk<-2*pi*fk s<-numeric(n) c<-numeric(n) for (t in 1:n) { s[t]<-sin(wk*t) c[t]<-cos(wk*t) } wave<-as.data.frame(cbind(sine=s,cosine=c)) } ############################### ### Procedimento de simulação ### ############################### simula<-function(N,n,mi) { sim<-matrix(0,n,N) for(j in 1:N) for (i in 1:n) sim[i,j]<-rpois(1,mi[i]) simula<-as.data.frame(sim) } 93 ######################################################## # Determinação dos parâmetros do componente sistemático # # e geração da série do valor esperado do número diário # # de internações hospitalares # ######################################################## attach(dados) ajuste.glm<-glm(ITRESP65~ TEMPO+TEMPO^2 + wave(n,245,1095)$cosine + TUE+WED+THU+FRI+SAT+SUN + FERIADO + Wetm02+ Wetm02^2 + Tempmin+Tempmin^2+Tempmin^3 + Pm10 , family=quasi(link=log,variance="mu"), data=dados, na.action=na.omit, control=list(epsilon=.0001, maxit=50, trace=T)) sum.hss<-summary(ajuste.glm) # Sumário da estimação dos parâmetros do modelo t<-data.frame(sum.hss[["coeff"]]) # Obtenção dos valores dos coeficientes do modelo:t$Value[] PHI<-round(sum.hss$deviance/sum.hss$df[2],2) # Cálculo do fator de dispersão attach(dados) const<-t$Value[1] tend<-(t$Value[2]*TEMPO)+(t$Value[3]*TEMPO^2) saz<-t$Value[4]*wave(n,245,1095)$cosine semana<-(t$Value[5]*TUE)+(t$Value[6]*WED)+(t$Value[7]*THU)+(t$Value[8]*FRI)+(t$Value[9]*SAT)+(t$Value[10]*SUN) feriado<-t$Value[11]*FERIADO umidade<-(t$Value[12]* Wetm02)+(t$Value[13]* Wetm02^2) temperatura<-(t$Value[14]*Tempmin)+(t$Value[15]*Tempmin^2)+(t$Value[16]*Tempmin^3) poluente<- t$Value[17]*dados$Pm10 soma<-numeric(n) for (k in 1:n) soma[k]<-sum(const,tend[k],saz[k],semana[k],feriado[k],umidade[k],temperatura[k],poluente[k],na.rm=T) ln.mi<-soma mi<-exp(ln.mi) # geração do nº esperado de internações hospitalares ### Simulação das 100 séries do desfecho ### y1<-data.frame(simula(N,n,mi)) ################################################### # Ajustes dos modelos para as Simulações: MLG # ################################################### # Inicialização de variáveis # PM10<-numeric(N) STD<-numeric(N) T.valor<-numeric(N) Deviance<-numeric(N) CIA<-numeric(N) LI<-numeric(N) LS<-numeric(N) SIG<-numeric(N) SIT<-numeric(N) 94 PM<-0.00285088 attach(dados) for (i in 1:N) { last.gam<-glm(y1[,i]~ TEMPO+TEMPO^2 + wave(n,245,1095)$cosine + TUE+WED+THU+FRI+SAT+SUN+FERIADO + Wetm02+ Wetm02^2 + Tempmin+Tempmin^2+Tempmin^3 + Pm10 , family=poisson, data=dados, na.action=na.omit , control=list(epsilon=.0001, maxit=50, trace=T)) # Sumário da estimação dos parâmetros do modelo sum.glm<-summary(last.gam) est<-data.frame(sum.glm[["coef"]]) Analise() # Aproximação para o Critério de Informação de Akaike pres2<-(residuals(last.gam,type="pearson"))^2 Dhat<-sum(pres2)/last.gam$df.residual # Cálculo do AIC CIA[i]<-last.gam$deviance+2*Dhat*(length(last.gam$residual)-last.gam$df.residual) PM10[i]<-est$Value[17] # Estimação do parâmetro de interesse: efeito do poluente STD[i]<-est$Std..Error[17] # Erro Padrão T.valor[i]<-est$t.value[17] # T-valor Deviance[i]<-sum.glm$deviance # Cálculo da deviance do modelo LI[i]<-PM10[i]-(1.96*STD[i]) # Limite inferior do IC para o parâmetro de interesse LS[i]<-PM10[i]+(1.96*STD[i]) # Limite superior do IC para o parâmetro de interesse Teste<-Mod(T.valor[i]) if ( Teste>=1.96 ) SIG[i]<-1 else SIG[i]<-0 if ( (PM>=LI[i])&&(PM<=LS[i]) ) { SIT[i]<-1 } else SIT[i]<-0 rm(pres2,Dhat) rm(est) } Betas1<-data.frame(PM10,STD,T.valor,Deviance,CIA,LI,LS,SIG,SIT) 95 #################################### ### Análise geral dos resultados ### #################################### attach(Betas1) int.conf(N,Betas1) # construção dos IC 95% para os 100 ajustes ################################################### # Ajustes dos modelos para as Simulações: MAG # ################################################### # Inicialização de variáveis # PM10<-numeric(N) STD<-numeric(N) T.valor<-numeric(N) Deviance<-numeric(N) CIA<-numeric(N) LI<-numeric(N) LS<-numeric(N) SIG<-numeric(N) SIT<-numeric(N) PM<-0.00285088 attach(dados) for (i in 1:N) { last.gam<-gam(y1[,i]~ s(TEMPO,4) + TUE+WED+THU+FRI+SAT+SUN+FERIADO + s(Wetm02,3) + s(Tempmin,5) + Pm10 , family=poisson, data=dados, na.action=na.omit) # Sumário da estimação dos parâmetros do modelo sum.gam<-summary.lm(last.gam,correlation=F) est<-sum.gam$coefficients sum.gam2<-summary(last.gam) Analise() # Aproximação para o Critério de Informação de Akaike pres2<-(residuals(last.gam,type="pearson"))^2 Dhat<-sum(pres2)/last.gam$df.residual 96 # Cálculo do AIC CIA[i]<-last.gam$deviance+2*Dhat*(length(last.gam$residual)-last.gam$df.residual) PM10[i]<-est[12,1] # Estimação do parâmetro de interesse: efeito do poluente STD[i]<-est[12,2] # Erro Padrão T.valor[i]<-est[12,3] # T-valor Deviance[i]<-sum.gam2$deviance # Cálculo da deviance do modelo LI[i]<-PM10[i]-(1.96*STD[i]) # Limite inferior do IC para o parâmetro de interesse LS[i]<-PM10[i]+(1.96*STD[i]) # Limite superior do IC para o parâmetro de interesse Teste<-Mod(T.valor[i]) if ( Teste>=1.96 ) SIG[i]<-1 else SIG[i]<-0 if ( (PM>=LI[i])&&(PM<=LS[i]) ) { SIT[i]<-1 } else SIT[i]<-0 rm(pres2,Dhat) rm(est) } Betas2<-data.frame(PM10,STD,T.valor,Deviance,CIA,LI,LS,SIG,SIT) # Resultados pelo Modelo GAM attach(Betas2) int.conf (N,Betas2) # construção dos IC 95% para os 100 ajustes ################################################ ### Comparação das estimativas do modelos ### ################################################ comp<-data.frame(Betas1$PM10,Betas2$PM10) boxplot(comp) abline(h=PM) 97 ANEXO VII – ANÁLISE DESCRITIVA DAS VARIÁVEIS DA ILUSTRAÇÃO Figura XI – Histograma distribuição dos óbitos por doença do aparelho respiratório entre idosos no Rio de Janeiro no período em estudo. 0 20 40 60 80 100 Mortalidade por Doença do Aparelho Respiratório em indivíduos acima dos 65 anos 5 10 15 20 25 Figura XII – Séries das covariáveis em análise (temperatura, umidade e PM10 ). Dados Temperatura 1618 20 22 24 26 diários 2000-2001. 01/09/00 01/12/00 01/03/01 01/06/01 01/09/01 01/12/01 01/06/01 01/09/01 01/12/01 01/06/01 01/09/01 01/12/01 Umidade 65 70 75 80 85 90 Data 01/09/00 01/12/00 01/03/01 100 140 60 20 PM10 Data 01/09/00 01/12/00 01/03/01 Data 98 Figura XIII – Matriz de correlação das variáveis em análise.Dados diários 2000-2001. MDAR65 26.86 tmpmin2 14.9 wetm02 150.5 PM10 20 3 27 64.1105 92.6136 OBS: MDAR65 é a variável associada à mortalidade por DAR entre indivíduos com 65 anos de idade ou mais. (Gráfico realizado no Stata 7) 99 ANEXO VIII – ANÁLISE DOS RESÍDUOS DO AJUSTE POR MODELO LINEAR GENERALIZADO Figura XIV – Função de autocorrelação parcial da série de resíduos do modelo central. 0.00 -0.05 -0.10 Partial ACF 0.05 Series : residuals(last.gam, "deviance") 0 5 10 15 20 25 30 Lag MDAR65 ~ TEMPO + TEMPO^2 + TEMPO^3 + wave(n, 3.27, 1095)$cosine + wave(n, 3.27, 1095)$sine + wave(n, 3.27, 180) cosine + wave(n, 2.66, 1095)$cosine + TUE + WED Figura XV – Periodograma da série de resíduos do modelo central. Periodogram 6.28 3.14 2.09 0 2 I(omega) 4 6 487 0.0 0.5 1.0 1.5 2.0 2.5 Angular frequency (rads.) (top axis is period in days) THU + FRI + SAT + SUN + fer.pos + fer.neg + 3.0 100 Figura XVI – Quartis dos resíduos do modelo central versus os quartis da distribuição Normal. 0 -1 -3 -2 Deviance residuals 1 2 3 Deviance Residuals Normal Q-Q Plot -3 -2 -1 0 1 2 3 Standard Normal Quantiles Figura XVII – Resíduos do modelo central versus o tempo. As linhas em vermelho na 0 -2 -4 resid(last.gam, "deviance") 2 4 horizontal referem-se aos valores 3 e –3. 01/09/00 01/12/00 01/03/01 01/06/01 dod 01/09/01 01/12/01 101 ANEXO IX – ANÁLISE DOS RESÍDUOS DO AJUSTE POR MODELO ADITIVO GENERALIZADO Figura XVIII – Função de autocorrelação parcial da série de resíduos do modelo central. 0.00 -0.10 -0.05 Partial ACF 0.05 Series : residuals(last.gam, "deviance") 0 5 10 15 20 25 30 Lag MDAR65 ~ s(TEMPO, 6) + TUE + WED + THU + FRI + SAT + SUN + fer.pos + fer.neg + s(tmpmin2, 7) + s wetm02, 5)Mon Mar 10 19:14:05 200 Figura XIX – Periodograma da série de resíduos do modelo central. Periodogram 6.28 3.14 2.09 3 2 1 0 I(omega) 4 5 6 487 0.0 0.5 1.0 1.5 2.0 2.5 Angular frequency (rads.) (top axis is period in days) 3.0 102 Figura XX – Quartis dos resíduos do modelo central versus os quartis da distribuição Normal. 0 -1 -3 -2 Deviance residuals 1 2 Deviance Residuals Normal Q-Q Plot -3 -2 -1 0 1 2 3 Standard Normal Quantiles Figura XXI – Resíduos do modelo central versus o tempo. As linhas em vermelho na 0 -2 -4 resid(last.gam, "deviance") 2 4 horizontal referem-se aos valores 3 e –3. 01/09/00 01/12/00 01/03/01 01/06/01 dod 01/09/01 01/12/01 103 ANEXO X – ANÁLISE DESCRITIVA DOS RESÍDUOS DOS MODELOS AJUSTADOS Tabela 5 – Estatísticas do resíduo do modelo. Medidas descritivas Mínimo Percentil 25 Percentil 50 Percentil 75 Média Máximo Classe de Modelos MLG -3,107 -0,757 -0,033 0,651 -0,053 3,092 MAG -2,794 -0,760 -0,041 0,626 -0,057 2,618 -3 -2 -1 0 1 2 3 Figura XXII – Diagrama de caixa dos resíduos do modelo central. MLG MAG 104 ANEXO XI – RESULTADOS DOS AJUSTES 15 5 10 (last.gam$y) 20 25 Figura XXIII – Ajustado através de modelo linear generalizado. 01/09/00 01/12/00 01/03/01 01/06/01 01/09/01 01/12/01 dod 15 10 5 (last.gam$y) 20 25 Figura XXIV – Ajustado através de modelo aditivo generalizado. 01/09/00 01/12/00 01/03/01 01/06/01 dod 01/09/01 01/12/01 105 ANEXO XII - CORRELAÇÃO DAS COVARIÁVEIS DO CENÁRIO SIMULADO. Tabela 6 – Matriz dos coeficientes de correlação de Pearson para as covariáveis em análise. tmpmin2 wetm02 PM * tmpmin2 1.0000 -0.0597* -0.1247* wetm02 PM10 1.0000 -0.1089* 1.0000 p > 0,05 tmpmin2 – temperatura mínima de dois dias antes. wetm02 – média móvel da umidade relativa do ar entre os valores correntes e de dois dias antes. 106 ANEXO XIII - TÉCNICAS PARA O CONTROLE DE FATORES DE CONFUSÃO O spline cúbico (Cubic splines / Cubic smoothing splines) refere-se a um método de regressão não paramétrico devido ao fato de não supor uma forma funcional específica na relação entre uma variável dependente (Y) e a explicativa (X). O interesse principal é buscar uma melhor estimativa para os valores de variável resposta que são sumarizados na relação entre Y e X, enquanto os parâmetros que descrevem a equação do spline cúbico não são de interesse. De forma geral o método consiste em dividir a variável em intervalos (“janelas”) predefinidos e ajustar um polinômio, em geral cúbico, para cada intervalo com restrição de que os polinômios se juntam a partir de nós, de forma suave (esta condição é garantida via a 2ª derivada da função suave). A estimação do spline cúbico (suavizador linear) se baseia em: entre todas funções f(x) que possui segunda derivada, busca-se a função fˆ ( x ) que minimizar a soma dos quadrado dos resíduos penalizados, dado pela equação: ∑ [y n i =1 − f ( x i ) ] + λ ∫ [ f ′′( x ) ] dx 2 i b 2 a Onde λ é o parâmetro de suavização (parâmetro fixo) e [a,b] é o intervalo arbitrário que contém os valores da variável de suavização x. O primeiro termo da equação refere-se a soma dos quadrados dos resíduos enquanto o segundo termo é uma penalização à curva de suavização (medida de suavização), de forma que: ü O parâmetro de suavização tem o mesmo sentido do span em uma regressão local (Loess): determinar uma proporção de pontos que farão parte da vizinhança (janela) para a construção da função suavizadora. Portanto, existe uma evidente relação entre o tamanho da janela a ser utilizada nos cálculos dos valores suavizados para cada ponto em particular e o valor do parâmetro suavizador λ, isto é: regula o tamanho da janela. ü Quanto maior o valor do parâmetro de suavização, maior é o tamanho da janela de ajuste e mais suave é a função suavizadora. Quanto menor o seu 107 valor, menos suave será a curva de suavização: a curva é mais sinuosa (pode ocorrer uma superestimação). ü Para λ→∞, fˆ ( x ) do termo de penalidade é selecionado de forma que f ′′( x ) = 0 para todo o intervalo dos dados. A solução é obtida pela reta de mínimos quadrados (equivale uma regressão local com uma vizinhança de tamanho infinito). ü Para λ→0, o termo de penalidade perde a sua importância e a solução tende a uma função de interpolação (similar a uma regressão local com span=1/n). Nota-se que o a curva suavizadora via o ajuste por splines cúbicos depende da escolha do parâmetro de suavização, o que não é uma tarefa simples. Alguns métodos para a avaliação da escolha do parâmetro (ou escolha do tamanho da janela) são sugeridos em Hastie (1989) e aplicados na em investigações a respeito do impacto da poluição atmosférica na saúde coletiva: inspeção gráfica, critério de informação de Akaike, crossvalidation, trade-off, etc. Entre as funções paramétricas, uma das técnicas utilizada para de controle dos fatores de confusão é um ajuste via polinômio harmônico, ou seja, uma combinação linear de senos e co-senos com coeficientes constantes, da forma: p 2πn 2πn f (t ) = ∑ α n cos t + β n sen t p p n =1 Onde f (t ) tem período p , t é o instante do tempo (t=1,2,..., T) e, α n e β n são os coeficientes. Nos estudos epidemiológicos de séries temporais, o ajuste das covariáveis relativas ao efeito de calendário é realizado apenas por técnicas paramétricas, pois estas são variáveis indicadoras (dummys) no modelo.