UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO
INSTITUTO DE MEDICINA SOCIAL
ASPECTOS
METODOLÓGICOS
EM
ANÁLISE
DE
SÉRIES
TEMPORAIS EPIDEMIOLÓGICAS DO EFEITO DA POLUIÇÃO
ATMOSFÉRICA
NA
SAÚDE
PÚBLICA:
UMA
REVISÃO
BIBLIOGRÁFICA E UM ESTUDO COMPARATIVO VIA SIMULAÇÃO.
Hugo Segrilo Simas
Dissertação apresentada como requisito parcial
para obtenção do grau de Mestre em Saúde
Coletiva, Curso de Pós-graduação em Saúde
Coletiva – área de concentração em
Epidemiologia do Instituto de Medicina Social
da Universidade do Estado do Rio de Janeiro.
ORIENTADOR: ANTONIO CARLOS MONTEIRO PONCE DE LEON
CO-ORIENTADOR: DENISE BRITZ DO NASCIMENTO E SILVA
RIO DE JANEIRO
2003
O único lugar onde o sucesso vem antes do trabalho é no dicionário.
(Einstein)
Onde não falta vontade existe sempre um caminho.
(em O Senhor dos Anéis)
O verdadeiro conhecimento é aquele que transformamos em ação.
(Hugo Simas)
Aos meus pais e a minha noiva pela paciência e
compreensão durante este período
da minha vida.
AGRADECIMENTOS
Agradeço a todos que contribuíram para a realização desta dissertação e aqueles que de
alguma forma acrescentaram para a minha formação acadêmica:
Ao Professor e orientador Ponce pela motivação para o tema, por seu sólido conhecimento em
estatística e pelo direcionamento ao objetivo central do meu trabalho.
A Professora Denise pela a sua amizade e dedicação em meu trabalho.
Ao Professor Paulo Maurício pelas sugestões valiosas durante a qualificação do projeto.
A todos professores do IMS que contribuíram para a minha formação em Epidemiologia, ao
estimular o questionamento e me entusiasmar pelos novos conhecimentos.
Ao Washington e Joana pelo auxílio a respeito das bases de dados utilizadas e aos
procedimentos de análises de séries temporais epidemiológicas realizados no projeto de
poluição atmosférica e saúde coletiva.
Ao Professor Nelson Gouveia pela atenção dada aos meus e-mails, auxiliando em etapas
importantes da elaboração do texto da dissertação.
Aos amigos Wagner, Alexandre e Denis pelo compartilhamento de experiências, tanto
profissionais quanto de vida.
Aos professores e colegas do período da ENCE, pelo começo da minha formação acadêmica e
que não podiam ser esquecidos nesse momento. Adicionalmente, aos meus primos Henrique e
Roberto que me incentivaram para o aprendizado da Matemática na época de colégio.
A Bob família, pelos momentos de alegria e descontração compartilhados sempre que reunida.
Aos meus pais, minha irmã e minha noiva pela paciência nas horas adversas.
A Deus, a quem devo minha maior gratidão: A VIDA !!!
APRESENTAÇÃO
Esta dissertação segue o modelo proposto pelo Departamento de Epidemiologia na forma
estruturada incluindo um artigo. O texto é dividido em três partes. A primeira compreende a
Introdução, Justificativa, Objetivos e Metodologia. A segunda consiste no Artigo originário do
trabalho de pesquisa. Finalmente, na terceira parte são apresentadas as Conclusões e Propostas
Futuras, e ainda, as tabelas e gráficos que não são incluídas no artigo.
RESUMO (GERAL)
Estudos recentes têm avaliado o impacto da poluição atmosférica na saúde em áreas urbanas,
reportando associações significativas entre os níveis de poluição e indicadores de mortalidade
e morbidade.
OBJETIVOS: Avaliar o desempenho de métodos paramétricos e não
paramétricos no controle dos fatores de confusão na estimação do efeito da poluição do ar
sobre saúde coletiva através de dois estudos comparativos. METODOLOGIA: A comparação
dos métodos foi realizada mediante a aplicação dos Modelos Lineares Generalizados (MLG) e
Modelos Aditivos Generalizados (MAG) aos dados da cidade do Rio de Janeiro. Inicialmente
foi elaborada uma comparação via simulação para a contagem diária de internações
hospitalares. Em seguida, realizou-se uma aplicação ilustrativa aplicando-se os modelos à
série de mortalidade por doenças do aparelho respiratório entre idosos. RESULTADOS: O
estudo comparativo via simulação mostrou que não existe diferença significativa para o valor
médio do efeito do PM10 nas simulações. No estudo ilustrativo, o modelo central, cujos
componentes referem-se aos fatores meteorológicos, efeitos de calendário, bem como
tendência e sazonalidade da série do desfecho foram ajustados utilizando-se as abordagens
paramétrica (MLG) e não especificadas (MAG). Destaca-se que os modelos forneceram
resultados similares no que tange às estatísticas de qualidade do ajuste e ao diagnóstico dos
resíduos. CONCLUSÃO: Nesses dois estudos comparativos, não há evidências de
desempenho diferenciado dos métodos paramétricos e não paramétricos para o controle dos
fatores de confusão na análise de séries temporais epidemiológicas.
Palavras-chave: Séries Temporais; Poluição Atmosférica; Simulação; Fatores de confusão;
Modelos lineares generalizados; Modelos aditivos generalizados.
SUMÁRIO
APRESENTAÇÃO
Pág.
6
RESUMO (GERAL)
7
LISTA DE ILUSTRAÇÕES E ANEXOS
10
1. INTRODUÇÃO
13
1.1. Considerações iniciais
13
1.2. Fatores de confusão em séries temporais epidemiológicas
15
1.3. Técnicas para o controle de fatores de confusão e modelagem de séries temporais
20
epidemiológicas.
1.4. Conceitos básicos de simulação
24
2. JUSTIFICATIVA
27
3. OBJETIVOS
28
4. HIPÓTESE
28
5. METODOLOGIA
29
6. ARTIGO
32
Resumo (Artigo)
33
1.Introdução
34
2. Metodologia
43
3. Resultados
50
4. Discussão
64
5. Referências bibliográficas (Artigo)
66
7. CONCLUSÕES
72
7.1. Considerações finais
72
7.2. Propostas Futuras
72
8 REFERÊNCIAS BIBLIOGRÁFICAS (INTRODUÇÃO E CONCLUSÕES)
74
ANEXO I – Método Monte Carlo
78
ANEXO II – As covariáveis que compõem o componente sistemático
79
ANEXO III – Análises dos resíduos do modelo base para as séries de internações 80
hospitalares simuladas
ANEXO IV – Resultado do modelo base para as séries simuladas
84
ANEXO V
86
– Resultados das simulações
ANEXO VI – Implementação da simulação e da comparação entre as classes de 92
modelos
ANEXO VII – Análise descritiva das variáveis da ilustração
97
ANEXO VIII – Análise dos resíduos do ajuste por modelo Linear Generalizado
99
ANEXO IX – Análise dos resíduos do ajuste por modelo Aditivo Generalizado
101
ANEXO X
103
– Análise descritiva dos resíduos dos modelos ajustados
ANEXO XI – Resultados dos Ajustes
104
ANEXO XII – Correlação das covariáveis do cenário simulado.
105
ANEXO XIII – Técnicas para o controle de fatores de confusão
106
LISTA DE ILUSTRAÇÕES E ANEXOS
Figura 1
Variáveis dos estudos de séries temporais sobre o efeito da poluição atmosférica
na saúde coletiva, seus componentes e suas inter-relações.
19
Figura 2
Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro,
2000-2001, entre indivíduos de 65 anos de idade ou mais.
24
Figura 3 Séries temporais vistas como possíveis trajetórias de um processo estocástico.
Figura 4
30
Observações de uma série temporal vistas como valores de distribuição Poisson
31
com média igual à própria observação.
Tabela 1 Configuração conceitual das séries simuladas.
31
ARTIGO
Tabela 1
Coeficientes considerados na geração de µt a partir de uma regressão Poisson por
Modelos Lineares Generalizados.
Tabela 2
Estatísticas descritivas dos efeitos estimados do PM10 pelos modelos em
54
comparação.
Tabela 3 Comparação entre as médias dos efeitos estimados pelos 100 modelos.
Tabela 4
52
55
Estatísticas descritivas para a mortalidade diária em idosos e para a poluição
58
diária por partículas na cidade do Rio de Janeiro.
Tabela 5 Matriz dos coeficientes de correlação de Pearson para as covariáveis em análise.
58
Tabela 6 Comparação dos resultados através de medida de ajuste.
59
Tabela 7 Medidas de qualidade do ajuste utilizadas em análises de séries temporais.
59
Tabela 8 Estimativas dos coeficientes de regressão e dos riscos relativos da mortalidade 60
por doenças do aparelho respiratório entre os idosos.
Comparação do efeito do dia anterior do poluente através do controle dos fatores
Tabela 9 de confusão pelo ajuste de um Modelo Aditivo Generalizado.
Tabela 10
Resultado da Regressão Poisson para estimação do efeito do PM10
anterior.
Figura 1 Gráfico dos quartis dos resíduos do modelo ajustado (MLG).
do dia
60
62
52
Intervalos de confiança a 95% para a estimação do efeito da poluição do ar por
Figura 2 partículas suspensas nos 100 ajustes.
53
Figura 3 Diagrama de caixa das estimativas.
54
Figura 4 Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro.
58
Figura 5 Função de autocorrelação parcial e gráfico dos quartis dos resíduos.
59
Figura 6 Função de autocorrelação parcial para a série de mortalidade entre idosos
61
Figura 7 Ajuste do modelo central pelo MAG.
62
Figura 7 Ajuste do modelo central pelo MLG.
63
ANEXO I
Figura I
Adaptação do fluxograma do método Monte Carlo apresentado em
78
Barton,1973.
ANEXO II
Figura II
Séries temporais das covariáveis que compõem o componente sistemático.
79
ANEXO III
Figura III
Figura IV
Figura V
Figura VI
Figura VII
Figura VIII
Figura IX
Figura X
Função de autocorrelação parcial da série de resíduos do modelo central
ajustado através de modelo linear generalizado.
Função de autocorrelação parcial da série de resíduos do modelo central
ajustado através de modelo aditivo generalizado.
Periodograma da série de resíduos do modelo central ajustado através de
modelo linear generalizado.
Periodograma da série de resíduos do modelo central ajustado através de
modelo aditivo generalizado.
Quartis dos resíduos do modelo central ajustado através de modelo linear
generalizado versus os quartis da distribuição Normal.
Quartis dos resíduos do modelo central ajustado através de modelo aditivo
generalizado versus os quartis da distribuição Normal.
Resíduos do modelo central ajustado através de modelo linear
generalizado versus o tempo.
Resíduos do modelo central ajustado através de modelo aditivo
generalizado versus o tempo.
80
80
81
81
82
82
83
83
ANEXO IV
Tabela 1
Tabela 2
Coeficientes de regressão Poisson no ajuste por Modelo Linear 84
Generalizado (MLG).
Coeficientes de regressão Poisson no ajuste por Modelo Aditivo 85
Generalizado (MAG).
ANEXO V
Tabela 3
Tabela 4
Resultados através de ajuste por modelos lineares generalizados.
Resultados através de ajuste por modelos aditivos generalizados.
ANEXO VI - Implementação da simulação e da comparação entre as classes de modelos.
86
89
92
ANEXO VII
Figura XI
Figura XII
Figura XIII
Histograma distribuição dos óbitos por doença do aparelho respiratório
97
entre idosos no Rio de Janeiro no período em estudo.
Séries das covariáveis em análise (temperatura, umidade e PM10 ). Dados
97
diários 2000-2001.
Matriz de correlação das variáveis em análise.Dados diários 2000-2001.
98
ANEXO VIII
Figura XIV
Figura XV
Figura XVI
Figura XVII
Função de autocorrelação parcial da série de resíduos do modelo central.
Periodograma da série de resíduos do modelo central.
Quartis dos resíduos do modelo central versus os quartis da distribuição
Normal.
Resíduos do modelo central versus o tempo.
99
99
100
100
ANEXO IX
Figura XVIII
Figura XIX
Figura XX
Figura XXI
Função de autocorrelação parcial da série de resíduos do modelo central.
Periodograma da série de resíduos do modelo central.
Quartis dos resíduos do modelo central versus os quartis da distribuição
Normal.
Resíduos do modelo central versus o tempo.
101
101
Estatísticas do resíduo do modelo.
Diagrama de caixa dos resíduos do modelo central.
103
103
102
102
ANEXO X
Tabela 5
Figura XXII
ANEXO XI
Figura XXIII
Figura XXIV
Ajustado através de modelo linear generalizado.
Ajustado através de modelo aditivo generalizado.
104
105
CATALOGAÇÃO NA FONTE
UERJ/REDE SIRIUS/BIBLIOTECA CB/C
S588
Simas, Hugo Segrilo.
Aspectos metodológicos em análise de séries temporais
epidemiológicas do efeito da poluição atmosférica na saúde
pública: uma revisão bibliográfica e um estudo comparativo via
simulação / Hugo Segrilo Simas. - 2003.
103f.
Orientador: Antônio Carlos Monteiro Ponce de Leon.
Co-Orientadora: Denise Britz do Nascimento e Silva.
Dissertação (mestrado) – Universidade do Estado do Rio de
Janeiro, Instituto de Medicina Social.
1. Ar – Poluição - Teses. 2. Modelos lineares (Estatística) Teses. 3. Análise de séries temporais – Processamento de dados
- Epidemiologia – Teses. 4. Fatores de confusão(Epidemiologia)
I. Ponce de Leon, Antônio Carlos Monteiro. II. Silva, Denise
Britz do Nascimento e. III. Universidade do Estado do Rio de
Janeiro. Instituto de Medicina Social. IV. Título.
CDU628.395
13
1. INTRODUÇÃO
1.1. CONSIDERAÇÕES INICIAIS
A poluição atmosférica é um fenômeno notório em todas as grandes cidades do
mundo, principalmente nos países em desenvolvimento. Em razão do crescimento
desordenado das áreas urbanas e do deslocamento de algumas indústrias para áreas
remotas, as emissões veiculares tornaram-se as principais fontes geradoras de poluição do
ar, contribuindo ainda mais para agravar os problemas de saúde pública já existentes.
Há muito tempo a poluição atmosférica deixou de ser apenas um problema ambiental
para integrar também os problemas de saúde (Ministry of Health, 1954). Atualmente,
efeitos imediatos e corriqueiros, como coceira nos olhos e lacrimejamento, já são
indicadores de dias mais poluídos reconhecidos pela população. Outros efeitos mais sutis
são observados, tais como conjuntivites sintomáticas, crises cardíacas e respiratórias,
alterações comportamentais e, entre outros efeitos adversos, recentes evidências associadas
a abortos espontâneos são relatadas ( Costa, 2002).
Na primeira metade do século XX, episódios de poluição excessiva causaram
aumento do número de mortes em algumas cidades da Europa e dos Estados Unidos
(McCarroll & Bradley, 1966).
As principais fontes poluidoras eram as indústrias e a
combustão de carvão para aquecimento domiciliar. O mais grave episódio relatado do
efeito nocivo da poluição do ar ocorreu em dezembro de 1952, em Londres, e ficou
conhecido como o grande nevoeiro londrino (Martin & Bradley, 1960).
Na década de 1950 houve uma preocupação com os agravos à saúde causados pela
poluição atmosférica. Nos Estados Unidos e na Inglaterra, no final dos anos 50, era
evidente a associação entre os níveis de poluentes atmosféricos e indicadores de
mortalidade proveniente de alguns episódios de poluição acentuada (Yaffe, 1970). Devido
ao elevado nível de poluição observado e suas conseqüências na saúde da população,
medidas governamentais de controle ambiental (Clean Air Acts) foram adotadas nesses
países para redução dos níveis de emissão de poluentes no ar, como a proibição da
combustão de carvão para aquecimento domiciliar (Schwartz, 1994).
De 1960 a 1979, poucos estudos foram realizados sobre o tema, uma vez que os
níveis de poluição haviam diminuído. No entanto, no início da década de 70, Londres já
possuía níveis poluição semelhantes aos atuais, o mesmo ocorrendo na Europa Ocidental e
nos Estados Unidos (Schwartz & Marcus, 1990).
14
O aumento da frota de veículos nas grandes metrópoles, no final dos anos 70, fez
voltar à tona a suspeita de que a poluição do ar poderia estar associada às flutuações nas
séries de mortalidade e morbidade, mesmo quando os níveis de poluição eram mais baixos
que nas décadas anteriores. Com a disponibilidade de banco de dados de domínio público
sobre poluição atmosférica e mortalidade nos Estados Unidos e na Europa, pesquisas
epidemiológicas continuaram a ser realizadas no sentido de observar a tendência da
associação entre essas séries (Mazumdar & Schimmel, 1982; Ostro, 1984).
A partir de 1980, os estudos de séries temporais epidemiológicas se beneficiaram da
melhoria ocorrida nas bases de dados e passaram a utilizar definições mais específicas e
medidas mais precisas, tanto para as exposições aos poluentes, como para os eventos de
saúde. Além disso, incorporaram métodos estatísticos mais complexos e apropriados, entre
eles, a análise espectral e os modelos autorregressivos (Anderson et al., 1996).
Nos países desenvolvidos  onde o controle ambiental é mais efetivo  existe um
crescente interesse sobre os efeitos da poluição atmosférica na saúde. Até mesmo naquelas
concentrações consideradas “seguras” pelas legislações, uma vez que o efeito na população
exposta era mais sutil (Schwartz & Marcus, 1990).
Na última década foram realizados vários estudos, em diversos países, para estimar o
efeito da poluição atmosférica na saúde, com o intuito de avaliar a associação entre os
níveis de mortalidade e/ou morbidade ao nível de poluição do ar nas grandes metrópoles,
em especial, os efeitos de curto prazo.
Cabe ressaltar que os achados dos estudos epidemiológicos acompanharam os
progressos na metodologia estatística e os avanços tecnológicos.
Recentemente, em um estudo do programa Indian Ocean Experiment (Indoex)
divulgado pela ONU em agosto de 2002, foi constatado que uma enorme massa de
poluentes com 3 km de espessura está cobrindo o sul da Ásia, afetando principalmente a
agricultura, além de colocar em risco a saúde pública.
Essa massa de poluentes é um coquetel de partículas de carbono, sulfato e cinzas
orgânicas resultantes das emissões de gases de fábricas, de usinas termoelétricas e de
escapamentos dos automóveis. A cidade de Jacarta está envolta por nuvens de poluentes
que reduziram a luz solar em até 15% (Madov et al., 2002).
O estudo revela que o problema pode se estender para o sudeste e leste do
continente, chegando à China. A nuvem de poluição também poderá reduzir em 10% as
colheitas de arroz devido à chuva ácida e provocar a morte prematura dos habitantes por
doenças respiratórias.
15
Desde então, setores da ONU acompanham os impactos regionais e globais nos
próximos 30 anos, quando a população asiática chegará à casa de cinco bilhões de pessoas.
Na próxima seção serão expostos sucintamente alguns fatores de confusão mais
comuns em estudos sobre o impacto da poluição atmosférica na saúde coletiva.
1.2. FATORES DE CONFUSÃO EM SÉRIES TEMPORAIS EPIDEMIOLÓGICAS
Em estudos de séries temporais epidemiológicas, o interesse é estimar a associação
ao longo do tempo entre um agravo à saúde (desfecho) e um fator de exposição (possível
fator de risco) controlando-se por potenciais fatores de confusão. Esses fatores são
variáveis cujos valores se modificam com o tempo (temperatura diária, por exemplo),
influenciando tanto a exposição quanto o desfecho, ou seja, confundindo a associação entre
a exposição de interesse e o desfecho.
Nos estudos sobre o efeito de curto prazo da poluição atmosférica na saúde, os
agravos à saúde mais comuns são a mortalidade e a morbidade por causas específicas, em
geral, entre idosos ou crianças. Os principais fatores de confusão são as condições
meteorológicas e os dias da semana e feriados (efeito de calendário), segundo Díez (1999).
Em geral, os fatores meteorológicos, como a temperatura e a umidade relativa do ar,
são medidos diariamente e contribuem com uma certa parcela para a autocorrelação e
sazonalidade da série de desfecho. Por exemplo, um dia com baixa temperatura pode afetar
a mortalidade ocorrida tanto no próprio dia, quanto no dia seguinte ou pode ser um efeito
acumulado de dias anteriores (médias móveis).
Em condições meteorológicas típicas é plausível imaginar que se tenha menor
concentração de poluição atmosférica em dias com menos fluxo de veículos e/ou em dias
nos quais as fábricas não funcionam com força total, como em fins de semana, feriados,
greves de transportes coletivos e dias de rodízio de veículos. Em algumas ocasiões podem
ocorrer mudanças significativas no registro do número de ocorrências do desfecho devido a
algum evento atípico durante o período em estudo, como epidemias causadas
principalmente por diferentes doenças do aparelho respiratório.
Nota-se que, nas circunstâncias mencionadas anteriormente, somente a presença dos
fatores meteorológicos e do calendário não são suficientes nas análises. Neste caso, faz-se
necessário contemplar outros fatores no estudo, como greves e epidemias.
Nos estudos ecológicos de séries temporais epidemiológicas para avaliação do
impacto (de curto prazo) da poluição atmosférica sobre a saúde da população, além de
16
considerar as condições meteorológicas, os efeitos de calendários e eventos atípicos como
potenciais fatores de confusão para a associação de interesse, inclui-se no modelo
componentes da própria série temporal do desfecho, como tendência,
sazonalidade e
autocorrelação. Todos esses fatores e componentes devem ser controlados nas análises,
garantindo assim, validade na estimativa do efeito da poluição atmosférica sobre a saúde.
Na Figura 1, tem-se a representação das principais variáveis das análises epidemiológicas,
suas possíveis inter-relações e os seus componentes.
A seguir, apresentam-se características das variáveis no contexto dos estudos de
séries temporais epidemiológicas do efeito da poluição atmosférica na saúde coletiva, e
seus componentes. Outros detalhes serão abordados na próxima seção.
•
Indicadores de Mortalidade ou Morbidade
Representa a série do agravo à saúde de interesse. Esse componente possui
algumas
características
específicas,
como
autocorrelação,
tendência
e
sazonalidade e pode sofrer influência da poluição atmosférica, de fatores
meteorológicos, dos dias da semana e feriados, de greves de serviços de saúde,
das epidemias e de outros eventos atípicos.
•
Poluição Atmosférica
Representa a série da exposição de interesse (possível fator de risco). A
estimação do seu efeito é o objetivo principal das análises. Apresenta tendência,
autocorrelação e sazonalidade características, além de sofrer influência dos dias
da semana e feriados e de fatores meteorológicos.
•
Epidemias e outros eventos atípicos
Representa um indicador da presença de uma epidemia ou algum evento
atípico (greves de transportes, dos serviços de saúde e das indústrias) que pode
afetar o número e/ou registro de ocorrências de um certo agravo à saúde no
período em estudo.
17
•
Dias da semana e feriados
Representa um indicador dos dias da semana e feriados. Afeta diretamente
tanto a exposição de interesse como o desfecho, representando um fator de
confusão para a associação de interesse. Este indicador é conhecido como efeito
de calendário, pois a mortalidade e/ou morbidade podem sofrer alterações
diferenciadas nos dias da semana. É um efeito de curto prazo.
•
Meteorologia
Representa um fator de confundimento. Mudanças na temperatura, umidade
do ar, direção e velocidade do vento e efeitos da pressão atmosférica alteram a
concentração de poluentes na atmosfera e também podem alterar os níveis de
mortalidade/morbidade.
Conseqüentemente,
os
níveis
de
mortalidade
ou
morbidade são aumentados ou diminuídos. Adicionalmente, possíveis interações
entre fatores meteorológicos e a poluição atmosférica podem ocorrer, como por
exemplo, o fenômeno de inversão térmica.
Em geral, as séries das condições meteorológicas e da poluição atmosférica
são
correlacionadas.
Esse
aspecto
caracteriza
um
fenômeno
denominado
multicolinearidade das séries.
•
Tendência
Este componente está presente na meteorologia, na poluição atmosférica e
no desfecho. Para a série de desfecho, representa mudança de longo prazo no seu
nível médio, por um comportamento temporal crescente ou decrescente.
•
Autocorrelação
Este componente representa o fenômeno de correlação serial inerente a
dados de séries temporais. Portanto, é de se esperar que as séries do desfecho, do
fator de risco (poluente atmosférico) e das características meteorológicas
apresentem autocorrelação.
18
•
Sazonalidade
Este componente está presente na meteorologia, na poluição atmosférica
e no desfecho. Quando existente nos dois últimos simultaneamente é considerado
um fator de confusão para a associação de interesse.
A sazonalidade é uma das fontes de autocorrelação de longa dependência
e representa também, como a tendência, os efeitos de longo prazo. Na série do
desfecho a sua contribuição é, em parte, devida a fatores meteorológicos.
Na seção seguinte serão abordadas algumas técnicas estatísticas para o controle dos
potenciais fatores de confusão mais comuns em estudos sobre o impacto da poluição
atmosférica na saúde coletiva.
19
Poluição Atmosférica
(Fator de Risco)
Mortalidade / Morbidade
(Desfecho)
ü autocorrelação
ü sazonalidade
ü tendência
ü autocorrelação
ü sazonalidade
ü tendência
Meteorologia
ü autocorrelação
ü sazonalidade
ü tendência
Dias da Semana
e Feriados
(Efeito de Calendário)
Epidemias
ou
Eventos atípicos
Figura 1 - Variáveis dos estudos de séries temporais sobre o efeito da poluição atmosférica na saúde coletiva, seus componentes e suas inter-relações.
20
1.3. TÉCNICAS PARA O CONTROLE DE FATORES DE CONFUSÃO E
MODELAGEM DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS
As técnicas para o controle das variáveis de confusão em estudos sobre o impacto da
poluição atmosférica correspondem a ajustes de modelos estatísticos paramétricos ou não
paramétricos sobre as covariáveis, como as características meteorológicas, os efeitos de
calendário, a sazonalidade e outros padrões cíclicos. Esses modelos sumarizam a tendência
dos valores do desfecho (Yt) como uma função de uma ou mais covariáveis
(Xt ).
Na abordagem não paramétrica (funções não especificada), os modelos são
compostos de suavizadores lineares cujas formas são definidas pelos dados. Entre as
possíveis funções suavizadoras, a técnica spline é a mais utilizada para o controle dos
fatores de confusão em análise de séries temporais epidemiológicas. Em geral são
ajustados modelos semi-paramétricos (Modelos Aditivos Generalizados - MAG) para
avaliar o efeito de curto prazo da poluição atmosférica sobre a saúde da população, como
descrito em Hastie & Tibshirani ,1990.
A técnica splines (cubic smoothing splines) consiste em dividir os valores da variável
preditiva em intervalos (“janelas”) predefinidos e ajustar um polinômio (em geral cúbico)
para cada intervalo, de forma que, os polinômios se juntam suavemente. A função das
janelas é essencialmente considerar uma proporção do conjunto de valores para a
construção da função suavizadora (alguns aspectos teóricos são abordados no Anexo XII e
maiores detalhes em Hastie & Tibshirani ,1990).
No MAG, um dos modos de controlar a tendência temporal e a sazonalidade da série
de desfecho é feito por ajuste de um spline da variável tempo. Ajusta-se adicionalmente
um spline para cada uma das variáveis meteorológicas.
Uma das maneiras de controlar os fatores de confusão por meio de técnicas
paramétricas consiste em ajustar um polinômio harmônico que é uma combinação linear de
senos e co-senos para a sazonalidade da série do desfecho e um outro polinômio de grau q
(em geral q não excede ao valor de três) para a tendência temporal. Ambos os polinômios
são funções da variável tempo (maiores detalhes em Wei, 1989 e Morettin & Toloi, 1987).
Para o controle das variáveis meteorológicas é ajustado um polinômio de grau q para cada
variável em questão. Em geral são ajustados Modelos Lineares Generalizados (MLG),
como descrito em McCullagh & Nelder (1989) para alcançar o objetivo. Finalmente o
21
ajuste das covariáveis relativas ao efeito de calendário é realizado apenas por técnicas
paramétricas, pois são variáveis indicadoras (dummy) no modelo.
Ressalta-se que, nos estudos sobre o impacto da poluição atmosférica na saúde
coletiva, o interesse principal é na estimação do efeito do poluente atmosférico. Os efeitos
dos fatores de confusão não são de interesse, porém sua descrição (controle) é necessária.
O controle dos fatores de confusão consiste em tentar captar a contribuição (efeito)
específica de cada fator nos níveis de mortalidade ou morbidade. Em seguida, pode-se
avaliar o efeito do fator de exposição de interesse (poluição atmosférica) sobre o desfecho
na presença dos fatores de confundimento. Entre os fatores de confusão destacam-se as
variáveis meteorológicas (temperatura e umidade), de calendário (dias da semana e
feriados) e outros padrões cíclicos.
Além dos possíveis fatores de confusão, também devem ser levados em consideração
os componentes inerentes às séries, como a sua tendência, autocorrelação e sazonalidade,
que podem ser estimados mediante procedimentos de filtragem e suavização. Um modelo
de decomposição de uma série temporal epidemiológica pode ser expresso por:
Yt = Tt + S t + FCt + Pt + εt (1.3.1)
sendo Yt a série do desfecho de interesse, Tt a tendência expressa pelo tempo, St a
sazonalidade expressa como uma função do tempo, FCt os possíveis fatores de confusão ,
Pt as séries dos poluentes atmosféricos de interesse (fatores de risco) e εt um componente
aleatório, com média zero e variância constante.
Como a probabilidade de um indivíduo morrer (ou ser admitido em um hospital), em
um certo dia, por causa de problemas respiratórios é pequena, considera-se esse evento
como raro, bem como a sua contagem. Em geral esses eventos seguem a distribuição
Poisson (Schwartz et al., 1996). Nesse sentido, a técnica estatística que vem sendo mais
empregada nos estudos epidemiológicos para avaliar a associação entre os níveis de
poluição do ar e um determinado agravo à saúde é a modelagem de Regressão Poisson
(log-linear). Dessa forma, o modelo (1.3.1) pode ser expresso como:
Ln( E[Yt ]) = Tt + S t + FCt + Pt
(1.3.2)
Tal que: Yt ~Poisson(µt).
Na última década, duas classes de modelos de regressão se destacaram nos estudos
do efeito da poluição atmosférica na saúde. Os Modelos Lineares Generalizado (MLG),
paramétrico, e os Modelos Aditivos Generalizados (MAG), semiparamétrico.
22
O modelo (1.3.2) é expresso da seguinte forma sob a abordagem dos modelos MLG:
p
Ln( E[Yt ]) = α + β 1 X t 1 + K + β p X tp = α + ∑ β j X t j , (1.3.3)
j =1
sendo Yt
a contagem diária de óbitos por um determinado agravo à saúde
(desfecho ou variável resposta), E[Yt ] o valor esperado de Yt ,
X t 1 ,K , X tp as variáveis
preditivas (covariáveis) da contagem diária (fatores de confusão e o fator de exposição) ,
β1 , K, β p os coeficientes de regressão das covariáveis.
Ao passo que, pelo MAG o modelo (1.3.2) é expresso como:
p
Ln( E[Yt ]) = α + ∑ f j ( X tj ) ,
(1.3.4)
j =1
sendo f j ( X tj )
o conjunto das funções arbitrárias e não especificadas das séries dos
preditores (suavizadores lineares).
As funções arbitrárias e não especificadas dos preditores são funções contínuas
suaves (smooth) dos dados  funções não paramétricas  que permitem descrever mais
adequadamente a relação entre as covariáveis e o desfecho, a partir de uma forma
funcional que os próprios dados sugerem (data driven).
Como o MAG permite que algumas funções sejam específicas e não arbitrárias
(funções lineares paramétricas), este fato o transforma em um modelo semiparamétrico.
Nas duas classes de modelos de regressão pressupõem-se que as observações do
desfecho não são correlacionadas. Em se tratando de métodos de séries temporais é
importante levar em consideração a possível ocorrência de autocorrelação nos dados, antes
de se extrair alguma conclusão sobre o modelo de predição.
Em geral, autocorrelação presente na série de desfecho é supostamente introduzida
pelos fatores meteorológicos (temperatura e umidade), pela concentração de poluição
atmosférica e pela sazonalidade da própria série.
Como o interesse dos estudos é estimar o efeito da poluição do ar sobre a
mortalidade/morbidade (desfecho), então a autocorrelação proveniente da série de
temperatura e umidade deve ser controlada. Os estudos também consideram possíveis
flutuações da série de desfecho causados por efeitos dos dias da semana e feriados (efeito
de calendário). Nesse sentido, os fatores meteorológicos e o calendário são potenciais
fatores
de
confusão
(FCt)
na
associação
entre
poluição
atmosférica
e
23
mortalidade/morbidade, logo devem ser controlados na análise. O controle desses fatores
baseia-se no ajuste do componente de sazonalidade de cada série de variável de confusão.
Os estudos sobre o tema espera-se que a autocorrelação observada no desfecho seja
proveniente, em parte, da influência das variáveis meteorológicas (temperatura e umidade).
Se a característica meteorológica for a única fonte de autocorrelação, a correlação serial
desaparecerá após o ajuste do modelo pelos efeitos de temperatura e umidade, restando a
série dos resíduos não-correlacionados sob a forma de ruído branco.
Entretanto, quando existem outras fontes de autocorrelação além das contempladas
no modelo, o ajuste para as variáveis de confusão não minimiza suficientemente a
autocorrelação da série de mortalidade/morbidade. Nesse caso, é necessário a adoção de
um modelo que incorpore essa autocorrelação (Ponce de Leon,1996). Isto é, a mortalidade
ou a morbidade apresenta ainda uma autocorrelação que não é proveniente de uma variável
do modelo.
Em relação à tendência temporal da série de desfecho, é comum a incorporação da
variável tempo (t=1,2,3,...n) no modelo preditivo. As flutuações provenientes do efeito de
calendário, como os dias da semana, em geral são controladas pela inclusão de variáveis
indicadoras (dummy); e a sazonalidade da série do desfecho é ajustada a partir de uma
função do tempo (St), de forma paramétrica ou não-paramétrica, como mostra a Figura 2,
através de um ajuste (smoothing splines) sobre observações do desfecho.
Um modelo denominado modelo central (core model) é obtido quando os fatores de
confusão (características meteorológicas e efeitos de calendário), componentes da série de
desfecho (tendência, sazonalidade e autocorrelação), identificadores de epidemias, greves e
outros padrões cíclicos foram todos controlados, seja por métodos paramétricos ou não
paramétricos. Este modelo associa o desfecho com as variáveis de confusão, descrevendo a
dependência da mortalidade/morbidade para cada variável de confusão e componentes da
mesma.
O modelo central acrescentado da variável de exposição (o poluente atmosférico) é
que permite avaliar a associação entre os níveis de poluição do ar e os níveis de
mortalidade (ou morbidade), quando possíveis fatores de confusão foram controlados.
O efeito dos fatores confundidores sobre a mortalidade ou morbidade atribuída a
poluição atmosférica de fato não é imediato, mas em geral, de curto prazo. Nesse sentido, o
modelo central tenta “eliminar” os efeitos de médio e longo prazo da tendência e
sazonalidade da série do desfecho e controlar os efeitos de curto prazo das demais
covariáveis que o compõem. Em seguida, espera-se que o único efeito de curto prazo ainda
24
existente sobre o desfecho seja, em parte, do poluente atmosférico que será incorporado ao
15
Motalidade por DAR
10
15
5
5
10
Motalidade por DAR
20
20
25
25
modelo para se estimar o seu efeito.
01/09/00
01/12/00
01/03/01
01/06/01
01/09/01
01/12/01
01/09/00
01/12/00
Data
01/03/01
01/06/01
01/09/01
01/12/01
Data
Figura 2 - Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro, 2000-2001, entre indivíduos de 65 anos de
idade ou mais.
Modelos que incorporam a autocorrelação dos dados são abordados em Harvey
(1981), Zeger (1988) e Fenandes (1990).
Aspectos metodológicos em análise de séries temporais epidemiológicas aplicadas ao
tema podem ser observados em Schwartz et al.(1996), Ponce de Leon, (1996) e Gouveia
(1997).
A seguir, são apresentados alguns conceitos de simulação necessários para um
entendimento do processo de simulação utilizado no presente trabalho.
1.4. CONCEITOS BÁSICOS DE SIMULAÇÃO
Estudos baseados em simulação são realizados em diversas áreas do conhecimento,
principalmente em pesquisas científicas. Ferreira (1999) define simulação como: “uma
reprodução ou representação do funcionamento de um processo, fenômeno ou sistema
relativamente complexo, por meio de um outro, gerado para fins científicos de observação,
análise e predição, ou para treinamento, diversão etc.”. Por exemplo, em um projeto de
aeronave é freqüente a simulação de seu comportamento em um túnel de vento para
estudar os efeitos que seriam observados na aeronave real.
O significado e a utilização da simulação vão além de semelhanças visuais ou
sensoriais, representando ainda, idéias ou conceitos análogos. Dessa forma, um estudo
simulado pode fornecer novos conhecimentos sobre o objeto que inspira o estudo. Esta é a
25
aplicação científica da simulação. A simulação contribui significativamente tanto para a
teoria como para a prática (Barton, 1973).
De uma forma geral, no campo científico o ato de simular significa elaborar,
empregar e explorar modelos para reprodução, representação ou imitação de fenômeno,
situação ou processo concreto.
Existem dois tipos de modelos de simulação:
1. Simulação determinística:
Ä O sistema não depende de nenhuma variável probabilística (aleatória).
A única forma de obter diferentes saídas da simulação é por
intermédio da modificação das variáveis de entrada.
2. Simulação estocástica:
Ä O sistema depende de variáveis probabilísticas (aleatórias). É possível
obter diferentes saídas da simulação a partir de um mesmo conjunto de
variáveis de entrada. Nesse tipo de simulação é possível avaliar o
comportamento do modelo e das variáveis aleatórias (investigação da
distribuição amostral).
Ä Exemplos de simulações estocásticas: tempo de espera, tempo de
serviço, tempo de vida, processo epidêmico, interação homemmáquina e interação homem-homem.
Ä As simulações estocásticas são largamente utilizadas em tomadas de
decisões.
A simulação estocástica utiliza realizações das distribuições de probabilidades das
variáveis de entrada, processa essas informações dentro do modelo específico, e obtém
como saída as distribuições de probabilidade da variável resultante.
Um método de simulação denominado de Monte Carlo é um tipo de simulação
utilizada em modelos envolvendo eventos probabilísticos (modelos estocásticos). É
chamado de “Monte Carlo” porque utiliza um processo aleatório, tal como um lançamento
de dados ou o girar de uma roleta para selecionar os valores das variáveis em cada
tentativa. Este método permite, essencialmente, simular o comportamento de processos que
dependem de fatores aleatórios.
A sua origem data da década de 1940 a partir de um trabalho de Von Neumann e
Ulam que consistia em uma técnica para solucionar o problema de blindagem em reatores
nucleares (Andrade, 1999). O método é largamente utilizado tanto com o objetivo de
26
geração de números aleatórios, como para a redução da variância. O presente trabalho
utilizará o método Monte Carlo somente para o primeiro objetivo citado.
O método Monte Carlo é um processo que se destina a operar modelos estatísticos, de
forma a lidar experimentalmente com variáveis descritas por funções probabilísticas que
permitem analisar o efeito de mais de uma variável aleatória de um sistema. Por exemplo,
suponha que o sistema seja a recepção e o controle do atendimento na emergência de um
determinado hospital. Tem-se, intuitivamente, pelo menos duas variáveis a serem
consideradas: o intervalo entre chegadas de pacientes e o tempo de permanência do
paciente.
27
2. JUSTIFICATIVA
Ao longo dos anos, estudos epidemiológicos verificaram danos na saúde coletiva
associada à poluição atmosférica, principalmente em áreas urbanas. Tais evidências foram
acompanhadas dos progressos na metodologia estatística, tanto para controle de fatores de
confusão, como para a precisão da estimação da magnitude do efeito da poluição do ar
sobre a saúde.
A evolução das técnicas de análise de séries temporais epidemiológicas permitiu
captar com mais acurácia os efeitos da poluição do ar sobre a saúde mesmo quando os
níveis médios de poluentes atmosféricos não eram tão acentuados, se comparadas aos
estudos pioneiros da década de 1950 nos EUA e na Inglaterra.
Nas últimas décadas, estudos vêm propondo e aplicando variadas técnicas estatísticas
para análise das séries temporais epidemiológicas do efeito da poluição atmosférica na
saúde pública. Entre as inovações estatísticas adotadas na área destacam-se os modelos
aditivos generalizados (MAG), semiparamétrico, e os modelos lineares generalizados
(MLG), paramétrico, em análise de Regressão Poisson.
Os diferentes modelos empregados tentam estimar a associação entre a mortalidade
(ou morbidade) e os níveis de poluição atmosférica, levando em consideração potenciais
fatores de confusão: a sazonalidade, a tendência, as características meteorológicas e o
efeito de calendário (dias da semana e feriados).
Os métodos mais utilizados para o controle de fatores de confusão são técnicas
estatísticas não paramétricas, que foram incorporadas nas investigações sobre o tema.
Esses métodos ganharam destaque, especialmente, pela flexibilidade da modelagem e
disponibilidade em programas computacionais para aplicação na área de estatística. Porém
há uma discussão entre os pesquisadores quanto ao fato de tais métodos serem mais
eficientes no controle dos fatores de confusão que os métodos paramétricos, embora estes
sejam menos flexíveis.
Nesse contexto, estudos sobre alguns métodos e modelos específicos para o controle
dos fatores de confusão e a compreensão da evolução dos modelos estatísticos em análises
de séries temporais epidemiológicas são aspectos fundamentais à incorporação de futuras
metodologias nas investigações que buscam identificar os efeitos adversos da poluição
atmosférica sobre a saúde pública.
28
3. OBJETIVOS
Objetivo Geral
Avaliar o desempenho de métodos paramétricos e não paramétricos no controle de
variáveis de confusão em estudos de séries temporais do efeito da poluição atmosférica na
saúde pública, a partir de configurações da série de desfecho geradas por simulação.
Objetivos Específicos
1. Comparar modelos lineares generalizados e modelos aditivos generalizados para o
controle de variáveis de confusão a partir de diversas séries do número de
internações hospitalares entre idosos geradas por simulação.
2. Discutir e testar os modelos apresentados para o controle de fatores de confusão a
partir de uma investigação real na cidade do Rio de Janeiro e mostrar as suas
conseqüências em termos de resultados.
4. HIPÓTESE
“O controle de fatores de confusão em modelagem de séries temporais epidemiológicas é
adequado, tanto por ajuste de funções específicas e não arbitrárias (forma paramétrica),
como por funções arbitrárias e não especificadas (forma não paramétrica).”
29
5. METODOLOGIA
Detalhes da metodologia utilizada no presente trabalho são apresentados no corpo do
artigo e alguns procedimentos intermediários, como diagnósticos dos modelos, podem ser
vistos em anexos ao final da dissertação.
A seguir são apresentados alguns aspectos do método de simulação denominado
Monte Carlo e detalhes da sua implementação no presente estudo. Tais questões
metodológicas não foram possíveis de serem incluídas no artigo por motivo de sua
extensão.
O método Monte Carlo se baseia no seguinte conceito:
Seja x uma variável aleatória com uma certa função de probabilidade f (x ) e uma
função distribuição
F ( x) . É definida uma nova variável aleatória
y = F (x ) , com
distribuição uniforme no intervalo fechado [0,1].
Nota-se que y = F (x ) é uma relação entre duas variáveis, de forma que x tem
distribuição aleatória própria e y se distribuiu uniformemente no intervalo [0,1].
O método consiste no seguinte algoritmo:
1. Calcula-se a função de probabilidade acumulada da variável em simulação
( x );
2. Determina-se para cada valor dos dados de entrada (observados) um número
gerado aleatoriamente no intervalo (0,1);
3. Associa-se o valor do intervalo (0,1) de cada observação com a função de
probabilidade acumulada e determina-se o valor da variável
x
que
corresponde ao número gerado.
Um fluxograma do método Monte Carlo é apresentado em anexo ao final da
dissertação.
Quando não é especificada a função de probabilidade da variável a ser simulada
utiliza-se a distribuição acumulada como sua função de distribuição de probabilidade.
Porém, quando há uma suposição sobre a distribuição dos dados ( x ), é aconselhável
utilizá-la. Maiores detalhes sobre simulação em Morgan (1995), Barton (1973) e Andrade
(1999).
No presente trabalho, uma série temporal de entrada para a simulação é gerada a
partir de um modelo da parte sistemática (parte explicativa de um modelo estatístico) de
30
um ajuste paramétrico, de forma que um algoritmo específico (apresentado na metodologia
do artigo) produzirá a série a ser simulada.
Uma série do número de internações hospitalares entre idosos serviu como entrada
para as simulações. Essa série foi gerada seguindo um algoritmo específico descrito na
metodologia do artigo. O procedimento realizado para a obtenção das observações
(realizações) das séries por simulação e alguns aspectos relevantes do mesmo são
apresentados a seguir:
As 100 simulações da série do desfecho, yt, foram produzidas seguindo os presentes
pressupostos:
Seja um processo estocástico definido como uma família de variáveis aleatórias
ordenadas/indexadas no tempo, em que para um dado t, Yt é uma variável aleatória. Uma
série temporal é uma realização (uma das trajetórias) de um processo estocástico. Ou seja,
cada observação de uma série temporal pode ser considerada como uma realização de um
experimento aleatório.
Um modelo de séries temporais para {yt} é uma especificação da distribuição
conjunta de uma seqüência de variáveis aleatórias {Yt} para a qual {yt}  série temporal
 é supostamente uma das possíveis realizações (trajetórias), como mostra a Figura 3.
Processo Estocástico: Yt
9
8
7
6
5
4
3
Séries
Temporais
2
1
0
1
2
3
4
5
6
7
8
9
Tempo
y1
y2
y3
Figura 3 - Séries temporais vistas como possíveis trajetórias de um processo estocástico.
Nota-se que a relação entre um processo estocástico e uma realização do mesmo
(uma série temporal) pode ser comparada àquela existente entre uma população e a
amostra observada.
Portanto, considerando que cada observação de uma série temporal é uma realização
de um experimento aleatório, no processo de simulação cada realização y t( j ) ( t=1,..., T e
j=1,..., 100 ) foi gerada segundo uma distribuição Poisson com parâmetro µ t (Figura 4).
31
fY
Poisson(µ2 )
Poisson(µ3 )
Poisson(µ1 )
Yt
µ2
µt
µ3
µ1
1
2
3
t
Figura 4 – Observações de uma série temporal vistas como valores de distribuição Poisson com média igual à própria observação.
Neste sentido, as séries temporais simuladas
{y }
( j)
t
foram produzidas a partir da
geração de séries com distribuição Poisson com médias µ 1, µ 2,
. . . ,
µ T, como mostra a
Tabela 1 .
Tabela 1 - Configuração conceitual das séries simuladas.
Séries Simuladas
Distribuição das
µt
observações
y
(1)
y
(2)
...
y
(100)
µ1
y1 (1)
y1 (2)
. . . y1 (100)
Poisson(µ
µ 1)
µ2
y2 (1)
y2 (2)
. . . y2 (100)
Poisson(µ
µ 2)
M
M
M
µT
YT (1)
YT (2)
OBS: no estudo T=487 dias.
...
M
. . . yT (100)
M
Poisson(µ
µ T)
32
6. ARTIGO
ASPECTOS METODOLÓGICOS EM ANÁLISE DE SÉRIES TEMPORAIS
EPIDEMIOLÓGICAS DO EFEITO DA POLUIÇÃO ATMOSFÉRICA
NA SAÚDE PÚBLICA: UM ESTUDO COMPARATIVO VIA
SIMULAÇÃO E UMA APLICAÇÃO.
SIMAS, HUGO
33
RESUMO (ARTIGO)
OBJETIVOS: Avaliar o desempenho de métodos paramétricos e não paramétricos no
controle dos fatores de confusão na estimação do efeito da poluição do ar sobre saúde
coletiva através de dois estudos comparativos. METODOLOGIA: A comparação dos
métodos foi realizada mediante a aplicação dos Modelos Lineares Generalizados (MLG) e
Modelos Aditivos Generalizados (MAG) aos dados da cidade do Rio de Janeiro.
Inicialmente foi elaborada uma comparação via simulação para a contagem diária de
internações hospitalares. Em seguida, realizou-se uma aplicação ilustrativa aplicando-se os
modelos à série de mortalidade por doenças do aparelho respiratório entre idosos.
RESULTADOS: O estudo comparativo via simulação mostrou que não existe diferença
significativa para o valor médio do efeito do PM10 nas simulações. No estudo ilustrativo, o
modelo central, cujos componentes referem-se aos fatores meteorológicos, efeitos de
calendário, bem como tendência e sazonalidade da série do desfecho foram ajustados
utilizando-se as abordagens paramétrica (MLG) e não especificadas (MAG). Destaca-se
que os modelos forneceram resultados similares no que tange às estatísticas de qualidade
do ajuste e ao diagnóstico dos resíduos. CONCLUSÃO: Nesses dois estudos comparativos,
não há evidências de desempenho diferenciado dos métodos paramétricos e não
paramétricos para o controle dos fatores de confusão na análise de séries temporais
epidemiológicas.
Palavras-chave: Séries Temporais; Poluição Atmosférica; Simulação; Fatores de confusão;
Modelos lineares generalizados; Modelos aditivos generalizados.
34
1. Introdução
Estudos recentes têm mostrado efeitos adversos de curto prazo da poluição
atmosférica sobre a saúde da população. Essa preocupação data da década de 50, após
alguns episódios de poluição excessiva com efeitos deletérios imediatos na mortalidade e
morbidade (Schwartz,1994; Abercrombie,1953).
O episódio mais expressivo ocorreu em dezembro de 1952, em Londres, e ficou
conhecido como o grande nevoeiro londrino. Durante uma inversão térmica e a ocorrência
de uma epidemia de influenza, um excessivo aumento da poluição do ar foi acompanhado
de grandes incrementos na mortalidade e na morbidade, principalmente por doenças do
aparelho respiratório (DAR) e doenças do aparelho circulatório (DAC) em crianças e
idosos. Estudo realizado por Abercrombie (1953) mostrou o efeito da nuvem de fumaça no
aumento do número de admissões hospitalares no mesmo período.
Esses estudos utilizaram técnicas simples de análises descritivas dos dados, como
construção de tabelas, gráficos e mapas para a visualização e entendimento dos eventos
ocorridos no período. Embora todas as evidências tenham sido resultado apenas de análises
estatísticas descritivas, elas foram suficientes para indicar um possível efeito da poluição
atmosférica na saúde da população, no que se refere à mortalidade, morbidade e
admissão/emergência hospitalar.
Na época, medidas governamentais para o controle ambiental (Clean Air Act) foram
adotadas na Inglaterra e nos Estados Unidos da América (EUA) visando a redução dos
níveis de emissão de poluentes atmosféricos. No entanto, alguns episódios isolados, com
elevadas concentrações de poluição do ar combinadas com um aumento no número de
mortes ou admissões hospitalares, foram registrados nas duas décadas seguintes.
Nas duas décadas seguintes poucos estudos foram realizados, uma vez que os níveis
de poluição haviam diminuído devido a políticas públicas de controle ambiental. No início
da década de 70, Londres já possuía níveis de poluição do ar semelhantes aos mais
recentes, o mesmo ocorrendo na Europa e nos Estados Unidos (Schwartz & Marcus, 1990).
No início dos anos 60, Martin e Bradley (1960) publicaram um estudo relativo a um
incidente de nevoeiro no inverno londrino de 1958-59 avaliando os efeitos da poluição
atmosférica sobre a saúde da população. As análises de correlação e regressão linear
simples entre o número de mortes diárias e a concentração de poluente na atmosfera (no
mesmo dia) encontraram significativas associações. O efeito do aumento da poluição
atmosférica em um certo dia foi significativo sobre um acréscimo na mortalidade do dia
35
seguinte, demonstrando que o efeito sobre a mortalidade era efetivamente imediato,
diminuindo a mortalidade logo após. Prováveis efeitos de fatores meteorológicos foram
discutidos, mas não considerados nas análises.
Na mesma década, Sterling (1966, 1967) investigou possíveis efeitos da poluição
atmosférica sobre a taxa de admissões hospitalares ocorridas em Los Angeles, 1961, para
diferentes patologias.
No artigo de 1966, o autor detecta a influência dos dias da semana no aumento do
número de admissões hospitalares, demonstrando o efeito de calendário no fenômeno em
estudo. Nesse trabalho, análises de correlação linear foram realizadas a partir de uma
correção nos valores do número de admissões hospitalares e dos poluentes atmosféricos.
Os valores corrigidos significavam um “escore padrão” (zj) para cada uma das
características, e o método produziu estimativas independentes dos dias da semana
( j=1,2,3,4,5,6,7 ).
Após o controle do efeito de calendário efetuou-se uma análise de correlação que
mostrou uma significativa correlação entre os níveis de poluição atmosférica e a
morbidade. O valor dessa correlação foi considerado extremamente alto.
Já em 1967, Sterling realizou, a partir dos mesmos dados, um refinamento na
correção do efeito do calendário utilizando apenas as medidas originais do poluente. Na
ocasião, a reavaliação das análises somente foi possível por intermédio de um suporte
computacional pelo Instituto Nacional de Saúde (National Institutes of Health). Os
resultados foram similares aos encontrados em Sterling (1966).
Nesse estudo, os efeitos sazonais devidos a condições meteorológicas, como a
temperatura e a umidade, eram identificados como sendo, além do efeito calendário,
potenciais fatores de confusão na associação de interesse. No entanto nenhum tipo de
controle era realizado, pois o primeiro estudo de Sterling (1996) não considerou as
condições meteorológicas do período.
Ainda na mesma época, Greenburg et al.(1967) examinaram o padrão da mortalidade
(por todas as causas) durante um episódio de elevada poluição atmosférica ocorrido em
Nova York, entre 29 de janeiro e 12 de fevereiro de 1963. Para avaliar a influência da
poluição do ar sobre a saúde, a mortalidade durante o episódio (1963) foi comparada com a
mortalidade de anos anteriores (1961-1962) e seguintes (1964-1965) para os meses em
estudo. Os anos de 1961-1962 e 1964-1965 foram considerados anos de controle. A
36
poluição atmosférica foi avaliada através do valor médio diário da concentração de dióxido
de enxofre (SO2 ) para os meses de janeiro e fevereiro.
A poluição atmosférica e as condições meteorológicas foram avaliadas por meio de
gráficos descritivos. A série de 1963 apresentou alguns picos na concentração de SO2 no
período crítico (janeiro e fevereiro) quando comparada com as séries dos anos de controle.
No mesmo período em estudo, as condições meteorológicas (temperatura e umidade)
também mostraram-se mais elevadas.
Sob a suposição de que os óbitos são distribuídos segundo uma Poisson, a
comparação entre o número total de mortes por todas as causas durante o período de 29 de
janeiro a 12 de fevereiro, para cada ano (1961-1965), foi realizada através de um teste quiquadrado de tendência.
O estudo revelou que o aumento da mortalidade durante o episódio era
estatisticamente significativo quando comparado aos anos de controle. Quando realizada a
mesma análise para diferentes grupos etários (menos de 1 ano, 1-24, 25-44, 45-64 e 65 ou
mais) foi encontrado um acréscimo significativo na mortalidade atribuída principalmente a
pneumonia, infartos e problemas cardiovasculares entre a população mais velha
(indivíduos de 45-64 e idosos de 65 anos ou mais).
No mesmo período, Glasser et al. (1967) realizaram um estudo para a cidade de Nova
York durante outro episódio de excesso de poluição atmosférica ocorrido de 23 a 25
novembro de 1966. Os resultados encontrados são similares a Greenburg et al.(1967) 
período de janeiro e fevereiro de 1963  demonstrando que
episódios com excesso de
mortalidade continuavam a ocorrer na década de 60 nas cidades onde políticas ambientais
foram implementadas mas ainda não tinham sido efetivas.
Na década de 70 poucos estudos foram realizados, em parte devido a resultados de
políticas públicas ambientais adotadas nos países desenvolvidos. Mesmo assim, pesquisas
continuaram a ser realizadas a partir das bases de dados disponíveis e da adoção de novas
tecnologias computacionais e estatísticas. Entre as inovações estatísticas nos estudos sobre
o tema destaca-se a utilização de modelos de regressão múltipla (análise de regressão
linear gaussiana) nas análises com o controle dos fatores meteorológicos e das flutuações
de longo prazo (tendência e sazonalidade).
Shimmel & Murawski (1976) estudaram a relação da poluição atmosférica sobre a
mortalidade, baseado em dados de Nova York para o período de 1963-1972. O objetivo
principal foi avaliar a associação estatística entre os níveis diários de mortalidade e a
37
poluição do ar diária. Além disso, determinar se uma substancial redução nos níveis de SO2
após 1969 foi acompanhada de uma redução nos efeitos adversos à saúde e melhorar as
análises principalmente pela observação da variação sazonal e seus possíveis efeitos.
A estimação da associação entre a poluição do ar e a mortalidade foi feita por meio
de uma regressão múltipla por controle da tendência, da sazonalidade e do fator
meteorológico (temperatura) para três períodos: 1963-66, 1967-69 e 1970-72. O ajuste do
efeito de longo prazo consistiu basicamente em uma média móvel de 15 dias para a série
de mortalidade (por todas as causas, por doenças do coração, por doenças respiratórias) e
na inclusão de uma variável para a série centrada na média (diferença entre o valor atual e
a média móvel). O controle do fator meteorológico foi realizado pela inclusão da variável
temperatura média diária no modelo.
O estudo revelou que o efeito da poluição atmosférica ocorre no mesmo dia ou em
poucos dias, demonstrando que o seu efeito adverso sobre a saúde era de curto prazo. Os
resultados mostraram que a associação entre a mortalidade e SO2 foi mais expressiva no
período 1970-1972 e confirmaram uma redução dos níveis de SO2 , embora não tenha sido
considerada conclusiva.
A década de 70 também representou uma época de constantes discussões sobre
questões metodológicas. Diversos estudos avaliaram a ausência e o tratamento inadequado
das variáveis meteorológicas, a multicolinearidade entre as variáveis preditivas e
investigaram padrões espaço-temporal como alternativa para a análise de regressão
(Goldstein, 1972; Goldstein et al., 1977; Goldstein et al., 1978; Goldstein et al., 1979 ).
Na década de 80 os estudos prosseguiram as análises por regressão múltipla que
incluíam um controle por potenciais fatores de confusão (Wichmann et al., 1989 e Ostro,
1984, por exemplo) e continuaram a buscar modelos alternativos, como regressão não
linear (Shumway et al., 1988).
A partir da década de 80 as publicações mostraram-se mais claras na apresentação
dos modelos utilizados e de alguns detalhes dos seus ajustes, como o controle de fatores de
confusão nas análises. O modelo mais utilizado continuou sendo a regressão múltipla,
levando em consideração os fatores de confusão.
Mazudar & Schimmel (1982) avaliaram a associação entre os óbitos diários e a
poluição atmosférica por SO2 (dióxido de enxofre) e fumaça na cidade de Londres, para
14 invernos, durante os anos de 1958 a 1972. A associação de interesse foi estimada a
38
partir de ajuste de regressão múltipla controlada por potenciais fatores de confusão, como
variações anuais, tendência sazonal, fatores meteorológicos e efeitos dos dias da semana.
O estudo utilizou três estratégias de análises: (1) regressão múltipla ano-a-ano;
(2) estratificação usando quartis alinhados; (3) regressão múltipla considerando apenas os
dias com elevada concentração de poluição atmosférica.
A primeira estratégia examinou separadamente cada um dos invernos, usando
regressão múltipla (regressão ano-a-ano) que representou um controle de variações anuais.
A segunda representou uma análise estratificada, usando quartis alinhados de um
determinado poluente dentro de um outro poluente atmosférico. Ou seja, primeiro os dados
foram classificados de acordo com os quartis  1º (baixo), 2°, 3º e 4° (alto)  de um
poluente. Depois, então, dentro de cada um desses quartis, o outro poluente foi classificado
novamente por quartis, resultando em uma matriz de 16 células, com número
aproximadamente igual de amostra de dias. Essa estratégia serviu para manter um poluente
constante enquanto examinava-se o efeito de um outro. Além disso, mostrou ser um
método de análise simples e robusto, que foi relativamente satisfatório. Uma mudança
percentual na mortalidade associada ao poluente em análise foi estimada, assumindo um
modelo linear.
Na terceira estratégia foram analisados apenas os dias em que havia elevados níveis
de poluição atmosférica. A regressão múltipla foi conduzida utilizando termo linear e
quadrático para os poluentes, como por exemplo, SO2 e (SO2 )2 .
Para as três estratégias de análises, potenciais fatores de confusão foram controlados.
Associações espúrias resultantes de tendência sazonal foram controladas por meio do
cálculo de médias móveis de 15 dias para cada variável e realizando as regressões
separadamente para cada 4 meses. Variáveis relativas à umidade e à temperatura (valores
do mesmo dia, do dia anterior e do dia seguinte) foram incluídas para eliminar a influência
de fatores meteorológicos. Flutuações provenientes dos efeitos dos dias da semana foram
controlados pela inclusão de variáveis indicadoras (dummy) para cada dia. O estudo
concluiu que a análise dos 14 invernos londrinos confirmou resultados observados em
Martin&Bradley (1960). A mortalidade estava associada com a poluição atmosférica,
mesmo controlando-se potenciais fatores de confusão.
As diferentes estratégias de análises permitiram concluir que a associação entre
mortalidade e poluição do ar era quase que exclusivamente por fumaça, uma vez que seus
efeitos mostraram-se significativos e mais expressivos.
39
Hatzakis et al.(1986) examinaram os efeitos de curto prazo da poluição do ar (SO2 e
fumaça) sobre a mortalidade em Atenas durante os anos de 1975-1982. A associação entre
a mortalidade e a poluição atmosférica foi estudada por intermédio de um modelo de
regressão múltipla com controle de potenciais fatores de confusão.
Inicialmente realizaram uma correção para controlar possíveis variações sazonais da
série de mortalidade diária. Utilizaram como variável dependente (desfecho) um valor que
representava a diferença entre a mortalidade observada (número de óbitos) e um valor
esperado da mortalidade, ajustado por curvas senoidais nos períodos em que a série
apresentava padrão sazonal de 30 dias.
Fatores meteorológicos, como a temperatura média diária e a umidade média relativa
do ar, foram introduzidos no modelo como preditores. As flutuações devidas a dias da
semana e feriados foram incorporadas nas análises por meio de variáveis indicadoras para
os dias da semana e uma variável binária para os feriados. Para o controle de possíveis
efeitos de variações mensais e tendências seculares na mortalidade diária, introduziram
variáveis indicadoras para os anos e meses no modelo.
Embora a flutuação sazonal da série de mortalidade tenha sido controlada por curvas
senoidais, um possível resíduo confundidor foi controlado pela introdução de variáveis
indicadoras para duas estações do ano: o inverno e o verão. Além disso, possíveis
interações entre efeitos meteorológicos e as estações do ano também foram incluídas no
modelo.
O modelo de regressão múltipla ajustado permitiu concluir que havia uma associação
positiva e significativa entre os níveis de SO2
e a mortalidade diária, independente dos
efeitos da temperatura, umidade, variações seculares, sazonalidade, variações mensais e
anuais e possíveis interações entre fatores meteorológicos e estações do ano. Nenhuma
associação foi encontrada entre a fumaça e a mortalidade diária ajustada por potenciais
fatores de confusão no período em estudo.
Na primeira metade dos anos 90 (1990-1994) o modelo de regressão múltipla ainda
se desatacava em estudos epidemiológicos, como observado em Saldiva (1994). Ressaltase que, nesse período, modelos que incorporaram a correlação serial dos dados começaram
a ser adotados. Modelos de regressão com erros autoregressivos, como descrito em Harvey
(1981), foi empregado em Schwartz & Marcus (1990), Londres, Reino Unido. Nestes dois
estudos, as análises foram controladas pela inclusão de variáveis meteorológicas
40
(temperatura e umidade diária: efeitos de curto prazo) e pelo cálculo de médias móveis da
série de desfecho (ajuste da tendência a sazonalidade: efeitos de longo prazo).
No estudo realizado por Saldiva (1994) foi evidenciada associação significativa entre
NO2 (Dióxido de Nitrogênio) e mortalidade por causas respiratórias em crianças na cidade
de São Paulo. Em Schwartz & Marcus (1990) concluiu-se que partículas (British Smoke:
BS) eram fortemente associadas com a taxa de mortalidade de Londres.
Em paralelo, modelo para regressão Poisson controlando fatores meteorológicos,
tendência temporal e correlação serial também foi utilizado no período para avaliar a
associação
entre
poluição
atmosférica
e
mortalidade/morbidade
(Schwartz,
1992;
Schwartz, 1994). Schwartz (1992) estimou a associação de interesse a partir de equações
de estimação generalizada (EEG), como proposto em Zeger (1988), permitindo realizar
adequadamente a análise de regressão considerando a autocorrelação observada na série de
mortalidade. O estudo encontrou associação significativa com o PM10 .
Na segunda metade dos anos 1990 (1995-1999) destacou-se nas análises o modelo de
regressão para séries temporais de contagem, proposto por Zeger (1988), que permitia
ajustar adequadamente os dados
quando os mesmos apresentam sobredispersão e/ou
autocorrelação. Este modelo ficou conhecido por modelo Poisson autoregressivo
(modelo log-linear com erros Poisson autoregressivos ou modelo de regressão de séries
temporais Poisson). Diversos estudos sobre o efeito de poluição atmosférica na
mortalidade ou morbidade empregaram este modelo nas análises (Saez et al., 1999; Zmirou
et al, 1998; Toumloi et al., 1997; Katsouyanni et al., 1997; Sunyer et al., 1997; Poloniecki
et al., 1997; Ponce de Leon et al., 1996; Anderson et al.,1996; Saldiva el al., 1995). As
séries analisadas (desfecho) eram contagens diárias de mortalidade ou admissões
hospitalares por causa
específica, principalmente em cidades da Europa associadas ao
projeto APHEA (Air Pollution and Health: a European Approach).
Além do ajuste para autocorrelação, também levaram em consideração a tendência
temporal, a sazonalidade e outros padrões cíclicos, os dias da semana, feriados, epidemias
de influenza, temperatura e umidade. Em geral, a tendência era ajustada por polinômio de
2º grau da variável tempo (dia ou ano), enquanto as variações sazonais ou outros padrões
cíclicos eram ajustados por polinômios harmônicos (curvas de seno e co-senos). Para o
ajuste dos efeitos de calendário incluíam variáveis indicadoras (dummy), uma para os dias
da semana e outra para os feriados. Os fatores meteorológicos foram ajustados de várias
formas, considerando diferentes períodos de latência, sendo necessário optar por aquele
41
que mostrava maior efeito ou combinar, de certa forma, indicadores de alguns dias
precedentes. Em particular, o padrão da relação entre a série de desfecho e a temperatura
era geralmente em U ou em V, isto é, ambos os extremos de temperatura tendem a estar
associados ao maior número de ocorrências do desfecho (óbitos, por exemplo). Tais
formatos eram modelados através de uma parábola, trechos de função linear ou uma
seqüência de variáveis indicadores para intervalos de temperatura (Ponce de Leon, 1996).
Os poluentes atmosféricos estudados foram as partículas suspensas (BS ou PM10 ), SO2 , O3
(Ozônio) e NO2 , todos com defasagem (latência) de 0 a 3 dias.
Cabe ressaltar que ainda na segunda metade da década de 1990, modelos aditivos
generalizados para regressão Poisson, como descritos em Hastie
& Tibshirani (1990),
foram adotados em alguns estudos permitindo ajustar de forma não paramétrica tanto os
fatores meteorológicos como a tendência e sazonalidade. Este modelo forneceu maior
flexibilidade na descrição da relação entre o desfecho e as covariáveis, que não é linear
(Loomis et al., 1999; Spix et al., 1998; Braga et al., 1999; Bremer et al, 1999; Burnnett et
al., 1998; Schwratz, 1995).
Braga et al.(1999), além do emprego de modelos aditivos generalizados, utilizaram
também os modelos lineares generalizados, como descrito em McCullagh & Nelder
(1989). Na ocasião as duas classes de modelos indicavam associação significativa entre
admissões hospitalares por problemas respiratórios entre crianças menores de 13 anos de
idade na cidade de São Paulo (Brasil).
Ao longo dos últimos anos (2000-2002), os modelos aditivos generalizados (MAG),
em regressão Poisson, destacaram-se entre as classes de modelos utilizados em estudos
ecológicos de séries temporais epidemiológicas sobre o tema (Zanobetti et al., 2000;
Schwartz, 2000; Zanobetti et al., 2001; Katsouyanni et al., 2001; Goldberg et al., 2001;
Braga et al., 2002; Hong et al., 2002; Schwartz, 2002 ).
Esta classe de modelos foi utilizada como alternativa aos modelos lineares
generalizados (Conceição, 2001; Cifuentes et al., 2000; Gouveia & Fletcher, 2000), uma
vez que fornecia maior flexibilidade na descrição de padrões complexos da associação a
partir de funções suaves (média móveis ponderada:loess ou spline cúbico: spline) para o
controle dos fatores meteorológicos e da tendência e sazonalidade da série de desfecho.
Finalmente, os estudos recentes têm mostrado evidências da associação entre
poluição atmosférica e um determinado agravo à saúde nas grandes metrópoles,
principalmente em cidades de países em desenvolvimento. Adicionalmente, as duas classes
42
de modelos mais utilizados têm sido os Modelos Lineares Generalizados e os Modelos
Aditivos Generalizados.
A evolução das técnicas de análises de séries temporais epidemiológicas permitiu
captar os efeitos da poluição do ar na saúde, mesmo quando os níveis de poluição
atmosférica não eram tão acentuados, se comparados aos estudos pioneiros da década de
50 nos EUA e na Inglaterra.
A maioria dos estudos sobre o tema foram realizados nos países do hemisfério Norte.
Na América Latina relataram-se também associações significativas da poluição do ar com
a mortalidade geral, principalmente por partículas, como no Chile (Cifuentes et al., 2000).
No Brasil, na cidade de São Paulo, maior metrópole do país, estudos ecológicos de
séries temporais avaliaram efeitos da poluição atmosférica na mortalidade e morbidade
diárias, por causas específicas e por todas as causas, nos subgrupos considerados mais
suscetíveis (crianças e idosos) e constataram que a poluição do ar naquela cidade é um
relevante problema de saúde pública (Saldiva et al., 1994; Braga et al., 1999; Gouveia &
Fletcher , 2000; Conceição, 2001).
Por outro lado, no âmbito do município do Rio de Janeiro, a segunda maior
metrópole do país, foi realizado somente um estudo ecológico de série temporal
epidemiológica para avaliar a existência de efeito adverso da poluição atmosférica sobre a
saúde da população (Daumas, 2002). Nesse sentido, percebe-se a necessidade da realização
de novas pesquisas visando estimar possíveis efeitos da poluição atmosférica sobre a saúde
da população, aprimorar a metodologia utilizada e avaliar a qualidade dos dados utilizados.
O presente trabalho tem por objetivo apresentar e discutir alguns aspectos
metodológicos da modelagem de séries temporais epidemiológicas para a investigação da
associação entre a poluição atmosférica e os agravos à saúde. Para tal, introduz uma
revisão da evolução dos métodos estatísticos de séries temporais empregados na área. Em
seguida apresenta os resultados de um estudo comparativo entre modelos lineares
generalizados e modelos aditivos generalizados através de simulações de séries temporais.
Finalmente apresenta uma aplicação ilustrativa dos referidos modelos em comparação.
43
2. Metodologia
A metodologia desse trabalho baseou-se na elaboração de dois estudos comparativos
da utilização dos modelos lineares generalizados (MLG) e dos modelos aditivos
generalizados (MAG), descritos respectivamente em McCullagh & Nelder (1989) e Hastie
& Tibshirani (1990),
para estimar a associação entre poluição atmosférica e agravos à
saúde coletiva pelo controle de potenciais fatores de confusão.
Os dois estudos comparativos entre MLG e MAG visaram estimar o efeito da
poluição atmosférica por material particulado em suspensão (PM10 ) na saúde da população
da cidade do Rio de Janeiro. O PM10 refere-se a partículas inaláveis com diâmetro igual ou
menor do que 10 microns, consideradas potenciais causadoras de danos à saúde. O primeiro
estudo avaliou os modelos através de simulações de uma série de internações hospitalares,
enquanto o segundo realizou uma ilustração da aplicação empírica dos modelos
considerados a partir de uma série de mortalidade por doenças do aparelho respiratório.
As informações utilizadas no presente trabalho são do âmbito do projeto sobre a
poluição ambiental e seus efeitos na saúde das populações em grandes metrópoles
brasileiras. Tal projeto é desenvolvido no Instituto de Medicina Social da Universidade do
Estado do Rio de Janeiro (IMS/UERJ) em parceria com a Universidade de São Paulo
(USP) e consta de relatórios para o Ministério da Saúde e Ministério do Meio Ambiente.
O estudo de simulação estimou a associação entre o número de internações
hospitalares diárias por problemas respiratórios em indivíduos com 65 anos de idade ou
mais e os níveis de PM10 no período de 01/08/2000 a 31/11/2001. A associação de
interesse foi controlada pela tendência e sazonalidade da série de internações hospitalares e
pelos fatores de confusão mais comuns nas investigações sobre o tema (Schwartz et al.,
1996), tais como, os fatores meteorológicos (temperatura e umidade relativa do ar) e os
efeitos de calendário (dias da semana e feriados). Os modelos (MLG e MAG) foram
comparados mediante 100 séries temporais do número diário de internações hospitalares
obtidas por simulação.
Os dados referentes ao PM10 e aos registros de internações hospitalares foram
provenientes, respectivamente, da Fundação Estadual de Engenharia do Meio Ambiente
(FEEMA) e do Sistema de Informações Hospitalares (SIH/SUS).
O segundo estudo estimou a associação entre o número óbitos diários por doenças do
aparelho respiratório (DAR) em indivíduos com 65 anos de idade ou mais e os níveis de
PM10 no período de 01/09/2000 a 01/12/2001. A associação de interesse foi controlada
44
pelos mesmos fatores de confusão do estudo de simulação. Os modelos foram comparados
para ilustrar a utilização das duas classes de modelos considerados (MLG e MAG). Neste
estudo foram utilizados dados mais recentes do PM10, oriundos da Secretaria de Meio
Ambiente da cidade do Rio de janeiro (SMAC).
Estudo comparativo via simulação
No estudo comparativo via simulação foram utilizados métodos paramétricos e não
paramétricos para o controle dos fatores de confusão na estimação da associação entre o
número de
internações hospitalares (desfecho) e os níveis de poluição atmosférica por
PM10 . Os métodos foram comparados mediante o ajuste de 100 séries temporais de
internações obtidas por simulação.
A simulação utilizou como parâmetro de entrada os valores esperados do número de
internações hospitalares gerados segundo um cenário determinado para a evolução das
covariáveis temperatura, umidade e partículas em suspensão. O cenário utilizado foi assim
caracterizado:
1. Não existe multicolinearidade entre as variáveis meteorológicas e o poluente
atmosférico.
2. Existe autocorrelação nas séries das condições meteorológicas e do poluente
atmosférico.
3. Os padrões de autocorrelação considerados foram aqueles inerentes às séries de
covariáveis.
4. Os efeitos no valor esperado das séries meteorológicas e do poluente atmosférico
foram determinados a partir de dados empíricos da cidade do Rio de Janeiro.
5. Possíveis
perturbações
aleatórias
nas
séries
de
covariáveis
não
foram
consideradas, isto é, a série gerada dos valores esperados do número de
internações hospitalares compôs a componente sistemática de um modelo.
Os métodos não paramétricos utilizaram funções suavizadoras (cubic spline) para
representar os potenciais fatores de confusão considerados. A tendência e sazonalidade da
série de internações foi ajustada por um spline com 4 graus de liberdade (gl) da variável
tempo, enquanto a umidade e a temperatura foram controladas, respectivamente, por um
spline com 3 gl e outro com 5 gl.
45
Os métodos paramétricos consistiram de ajustes por polinômios. Empregou-se um
polinômio de 2º grau e um polinômio harmônico da variável tempo para o controle da
tendência e sazonalidade da série de internações. Os fatores meteorológicos foram
ajustados por um polinômio de 2º grau para a temperatura e um outro, de 3º grau, para a
umidade relativa do ar.
A representação das flutuações provenientes dos dias da semana e feriados (efeito de
calendário) foi realizada nos dois modelos de forma paramétrica por intermédio de
variáveis indicadoras (dummy) para cada dia da semana e uma variável dicotômica
representando a ocorrência de feriado.
O controle dos fatores de confusão por métodos não paramétricos foi realizado pelo
emprego dos MAG, enquanto que por métodos paramétricos foram utilizados os MLG.
Nas duas classes de modelos, a estimação do efeito do PM10 sobre as séries de desfecho
simuladas foi obtida a partir de uma regressão Poisson (log-linear).
Em seguida, será apresentado um algoritmo que descreve a geração das séries de
desfecho (obtidas por simulação), segundo o cenário considerado para as covariáveis
escolhidas. Adicionalmente, serão definidas as estratégias de avaliação dos resultados dos
modelos e especificadas as premissas de qualidade e validade da simulação.
A geração das séries de internações hospitalares por DAR entre idosos, segundo o
cenário das covariáveis considerado para o presente trabalho, é definida pelo algoritmo a
seguir:
1. Define-se um preditor linear (ηt ) de interesse, expresso de forma sucinta como:
p −1
ηt = ∑ β i X it + β p X pt
i =1
•
X it , i = 1,2, L, p − 1 representam os conjuntos de covariáveis associadas com
o
tempo, dias da semana, feriados, temperatura, umidade e o poluente
atmosférico.
•
β i , i = 1,2,L , p − 1 são os parâmetros (ou efeitos) desconhecidos associados
às covariáveis.
•
X pt representa a covariável associada com valor de referência para o estudo
de simulação.
•
β p representa o valor de referência para o estudo de simulação.
46
Este componente sistemático foi especificado a partir de valores das covariáveis
temperatura, umidade e poluição atmosférica na cidade do Rio de Janeiro e dos dias da
semana e feriados no período em análise. Os seus respectivos efeitos (parâmetros) foram
estimados por meio de um ajuste por MLG, no qual a variável resposta foi o número de
internações hospitalares entre idosos. Nota-se que o preditor linear representa somente a
parte sistemática do modelo utilizado para determinar os efeitos das covariáveis de
interesse.
Este estudo comparativo visou estimar o efeito da poluição atmosférica (β p ) por PM10
(Xp ) a partir da modelagem de 100 séries temporais de internações obtidas por simulação.
O valor especificado inicialmente para β p serviu como valor de referência do efeito da
poluição atmosférica para o estudo, isto é, o valor que se esperava alcançar nos ajustes
(“verdadeiro valor”).
As estimativas dos efeitos das covariáveis de interesse foram obtidas pelo método de
quasi-verrosimilhança (McCullagh & Nelder, 1989), uma vez que encontrou-se um valor
maior do que 1 para a estimativa do fator de dispersão (φ). Esse fenômeno é denominado
de sobredispersão (overdispersion) dos dados, no qual verifica-se a ocorrência de
Var (Yt ) > E (Yt ) . No modelo em questão, a variância do desfecho foi definida como uma
função da média.
2. Após obter os componentes sistemáticos
(covariáveis e parâmetros), foram
gerados valores para o preditor linear em cada instante t, ηt, conforme o modelo
especificado por Ln(µ t ) = ηt , de forma que os dados simulados do desfecho (contagens
diárias) fossem distribuídos segundo a distribuição Poisson. Em seguida, calculou-se o
valor esperado µ t = g −1 (ηt ) , onde g −1 (.) foi a função de ligação inversa que associou a
média do desfecho, µ t , ao preditor linear gerado pelo componente sistemático. Isto é,
utilizou-se a função exponencial para gerar os valores esperados do desfecho:
µ t = exp (η t ) = E ( y t ) .
3. A partir dos valores esperados obtidos no passo anterior (µt), um procedimento de
simulação foi aplicado para se obter observações do desfecho em cada instante t,
{yt , t = 1, K, T } , sendo
y t ~ Poisson ( µ t ) com T =487 (o número de dias na investigação).
47
É importante ressaltar que o processo de obtenção das observações da série através da
simulação realizada garantiu que as observações fossem independentes.
4. Repetindo-se o passo anterior 100 vezes, obteve-se 100 replicações da série de
desfecho { yt }, de forma que o procedimento de simulação realizado produziu séries do
desfecho (amostras) independentes.
Obtidas as 100 simulações da série de internações { yt }, modelos paramétricos
(MLG) e semiparamétricos (MAG) foram ajustados, sendo as séries de internação obtidas
por simulação e as covariáveis provenientes de investigação empírica. O modelo ajustado
para a 1ª série simulada foi considerado como o modelo base para os demais 99 ajustes.
A estratégia para avaliar os resultados dos modelos, e realizar a comparação,
consistiu em verificar se os intervalos de confiança para o parâmetro referente ao efeito da
poluição atmosférica continham o valor especificado (β p ) no componente sistemático.
Além disso, elaborou-se um diagrama de caixa (Box-Plots) das estimativas do parâmetro
de interesse (referente ao PM10 ) nos dois modelos (MLG e MAG) visando a análise da
variabilidade dos resultados e a comparação do valor de referência (β p ) com as médias dos
efeitos estimados em cada modelo.
A qualidade e validade da simulação e dos ajustes dos modelos basearam-se em
duas premissas:
1. O parâmetro referente ao poluente atmosférico devia ser significativamente
diferente de zero mediante a análise de seu intervalo de confiança
(construído com base na estimativa obtida através da modelagem da série
simulada).
2. O intervalo de confiança do parâmetro associado ao efeito do poluente
atmosférico de interesse devia conter o valor inicialmente estimado (valor de
referência: β p ) obtido para a série de internações hospitalares da cidade do
Rio de Janeiro.
A seguir será apresentada uma ilustração baseada em dados reais sobre os efeitos do
PM10 na mortalidade entre idosos por doenças do aparelho respiratório (DAR),
enfatizando-se os aspectos metodológicos relevantes para a análise de séries temporais
epidemiológicas.
48
Ilustração
O interesse principal da ilustração foi estimar o efeito da poluição atmosférica sobre
o número de óbitos por DAR entre os idosos, através da associação entre poluição do ar e
mortalidade por causa específica. O estudo utilizou os níveis do PM10 do dia anterior
(defasagem de 1ª ordem) para avaliar um possível dano, de curto prazo, na saúde da
população da cidade do Rio de Janeiro, em virtude da poluição atmosférica por partículas
suspensas.
A associação foi estimada utilizando-se um modelo de regressão Poisson (log-linear)
e controlada por fatores de confusão, como a tendência e a sazonalidade da série de
mortalidade (efeitos de longo prazo), os dias da semana e feriados (efeitos de calendário) e
a temperatura e a umidade (fatores meteorológicos). Modelos lineares generalizados e
modelos aditivos generalizados foram empregados na comparação tanto do método para o
controle de fatores de confusão, como na estimação do efeito de curto prazo do PM10 .
Estatísticas descritivas relativas à mortalidade por DAR entre idosos e o nível diário
de PM10 foram calculadas visando descrever o quadro das duas variáveis no período em
estudo (01/09/2000 a 01/12/2001). Também foi calculada a matriz de correlação de
Pearson para avaliar um possível fenômeno de multicolinearidade entre as variáveis em
análise (temperatura, umidade relativa do ar e PM10 ).
Inicialmente, um modelo que inclui somente os potenciais fatores de confusão
(fatores meteorológicos, dias da semana e feriados) e a tendência e sazonalidade da série
de mortalidade (desfecho), denominado modelo central (core model), foi ajustado para
“eliminar” qualquer padrão de longo prazo da série do desfecho e de curto prazo
supostamente introduzidos pelos fatores de confusão.
O modelo central foi considerado adequado quando os resíduos não apresentaram
mais associação com as variáveis meteorológicas e a série de resíduos não apresentou
evidência de tendência, sazonalidade ou autocorrelação. Adicionalmente, era esperado que
os resíduos se apresentassem, assintóticamente, com distribuição Normal quando
observando o gráfico dos quartis (qq-plot) dos resíduos da função desvio (deviance).
Nesse estudo, os métodos paramétricos para o controle dos fatores de confusão foram
aplicados no MLG. Um polinômio de 3º grau e 3 polinômios harmônicos da variável do
tempo foram utilizados para o ajuste da tendência e sazonalidade da série de mortalidade.
49
A temperatura e a umidade foram ajustadas, respectivamente, por um polinômio de 3º grau
e outro de 2º.
Os métodos não paramétricos foram utilizados no MAGpor intermédio do suavizador
linear spline. Um spline com 6 gl da variável tempo para o controle da tendência e
sazonalidade da série de mortalidade foi utilizado;
um suavizador
com 7 gl da variável
temperatura e outro com 5 gl da variável umidade foram utilizados para o ajuste dos
fatores meteorológicos.
Para o controle dos efeitos dos dias de semana e feriados foram criadas variáveis
indicadoras e incluídas nas duas classes de modelos considerados.
Os feriados foram
agrupados em duas variáveis: uma contendo os feriados que apresentaram efeitos
estimados positivos e outra referente aos efeitos estimados negativos.
Após a construção do modelo central, a série referente ao PM10 do dia anterior foi
incluída no modelo estimando-se, então, o efeito de curto prazo da poluição do ar na
mortalidade por DAR entre os idosos, supondo linearidade.
A comparação entre os modelos foi elaborada mediante a análise de medidas de
ajustes, como o Critério de Informação de Akaike (CIA) e um diagnóstico dos resíduos
(q-q plot), para avaliar o método (paramétrico ou não paramétrico) mais adequado para o
controle dos fatores de confusão e estimação do efeito do poluente atmosférico. Além
disso, também foi realizada uma análise de sensibilidade para mostrar a influência dos
fatores de confusão nos achados através da análise de séries temporais epidemiológicas.
As simulações e os ajustes foram implementados no programa S-Plus2000
(MathSoft,1999).
A seguir será apresentado um estudo comparativo entre os ajustes por modelos
lineares generalizados e modelos aditivos generalizados para avaliar o controle dos
potenciais fatores de confusão na estimação do efeito da poluição atmosférica na saúde
coletiva.
50
3. Resultados
Comparação de modelos por meio de simulação
As estimativas dos parâmetros do componente sistemático do modelo (ηt ) utilizado
para a geração do valor esperado (µt) do número de internações hospitalares por problemas
respiratórios entre idosos, correspondentes ao período entre 01/08/2000 e 30/11/2001, são
encontradas na Tabela 1. Adicionalmente são apresentadas medidas de ajuste (Função
desvio e o Critério de Informação de Akaike) e um diagnóstico dos resíduos do referido
modelo (Figura 1) para demonstrar a qualidade do ajuste.
Nota-se que o efeito da poluição atmosférica por partículas suspensas foi estimado
em 0,00285 ( βˆ p = 0,00285 ). Este valor do efeito do PM10 foi considerado nesse estudo de
simulação como sendo o valor de referência (“verdadeiro valor do parâmetro”).
A comparação entre os modelos foi realizada inicialmente pela avaliação dos
intervalos de confiança para o parâmetro referente ao efeito do PM10 nas 100 simulações.
Na Figura 2, a linha pontilhada na vertical refere-se ao valor de referência ( 0,00285 )
conforme a tabela 1, e as outras duas são os seus limites de confiança. Os intervalos de
confiança (IC) apresentados em vermelho referem-se às séries para as quais o parâmetro de
interesse não foi considerado significativamente diferente de zero ou o IC não continha o
valor de referência.
Com os resultados do estudo realizado utilizando modelos lineares generalizados
ajustados às séries simuladas, estimou-se que em 90% dos casos o parâmetro referente ao
PM10 foi significativamente diferente de zero e que o intervalo de confiança com grau de
confiança de 95%, obtido a partir dos valores simulados, continha o valor de referência.
Ressalta-se que, conforme apresentado na metodologia desse estudo comparativo, os
resultados estão de acordo com as premissas de qualidade e validade definidas para a
simulação. O mesmo efeito foi observado no caso de ajuste de modelos aditivos
generalizados, para os quais as restrições de qualidade e validade foram alcançadas em
92% das séries simuladas.
Pela análise da Tabela 2 e da Figura 3 observa-se que a distribuição das estimativas
do efeito do PM10 nas 100 simulações mostrou-se relativamente simétrica e que a média
das estimativas apresentou-se maior para o ajuste não paramétrico (MAG) dos fatores de
confusão (MLG: 0,00296; MAG: 0,00309). Embora essa diferença tenha sido significativa
51
de acordo com o teste t de comparação das médias para dados pareados (Tabela 3), o seu
resultado é desprazível para o cenário simulado.
52
Tabela 1 – Coeficientes considerados na geração de µt a partir de uma regressão
Poisson por Modelos Lineares Generalizados (MLG).
Variável
Coeficiente
Erro Padrão
Intercepto
2,28018
3,4196*
TEMPO
-0,00366
0,0004
TEMPO**2
0,00000
0,0000
wave(n, 245, 1095)$cosine
-0,03912
0,0185
TERÇA
-0,07364
0,0458*
QUARTA
-0,00165
0,0447*
QUINTA
-0,21714
0,0469*
SEXTA
-0,08154
0,0456*
SÁBADO
-0,57337
0,0528
DOMINGO
-0,72758
0,0562
FERIADO
-0,28178
0,0783
Wetm02
0,16543
0,0540
Wetm02**2
-0,00114
0,0004
Tempmin2
-0,81694
0,3721
Tempmin2**2
0,04509
0,0190
Tempmin2**3
-0,00082
0,0003
PM10
0,00285•
0,0009
Critério de informação
Função Desvio
de Akaike
Fator de dispersão (φ
φ )
+
635,655
684,772
1,5
* p > 0,05 (Segunda-feira é a linha de base).
•
valor de referência para o estudo de simulação.
ajustou-se um modelo quasi-verossimilhança (função de ligação=log, variância=µ).
Wetm02 – média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes.
Tempmin2 – temperatura mínima de dois dias antes (defasagem de ordem 2).
+
0
-2
-4
Deviance residuals
2
Deviance Residuals Normal Q-Q Plot
-3
-2
-1
0
1
2
Standard Normal Quantiles
Figura 1 - Gráfico dos quartis dos resíduos do modelo ajustado (MLG).
3
53
60
40
0
20
Simulação
80
100
Modelos Lineares Generalizados
0.000
0.002
0.004
0.006
PM10
60
40
0
20
Simulação
80
100
Modelos Aditivos Generalizados
0.000
0.002
0.004
0.006
PM10
Figura 2 – Intervalos de confiança a 95% para a estimação do efeito da poluição do ar por partículas
suspensas nos 100 ajustes.
54
Tabela 2 – Estatísticas descritivas dos efeitos estimados do
PM10 pelos modelos em comparação
Medidas descritivas
Mín.
Percentil 25
Percentil 50
Média
Percentil 75
Max.
DP
Classe de modelo
MLG
MAG
0,00090
0,00103
0,00241
0,00248
0,00299
0,00316
0,00296
0,00309
0,00355
0,00366
0,00465
0,00488
0,00084
0,00085
Estimativas do efeito do PM10 nas 100 simulações
0.001
0.002
0.003
0.004
0.005
DP – desvio padrão
MLG
MAG
Figura 3 – Diagrama de caixa das estimativas. A linha em vermelho refere-se ao verdadeiro valor do parâmetro. A linha
em azul refere-se ao valor médio do parâmetro estimado pelo ajuste MLG e em cinza ao valor médio do parâmetro
estimado pelo MAG.
Tabela 3 – Comparação entre as médias dos efeitos estimados pelos 100 modelos.
Classe de
modelo
MLG
MAG
MLG- MLG
* p< 0,05
Média
0,00296
0,00309
-0,00013
Erro
IC 95%
Padrão
0,000084 0,002793 a 0,003126
0,000085 0,002925 a 0,003264
0,000119 -0,000174 a -0,000097
Nível
descritivo (p)
0,00
0,00
0,00*
55
Em seguida, uma ilustração foi realizada visando comparar as duas classes de
modelos (MLG e MAG) e contribuir para a avaliação dos achados da simulação. Este
estudo investigou a associação entre os níveis de mortalidade por DAR e PM10 na cidade
do Rio de Janeiro. Foram abordados também alguns aspectos metodológicos relativos ao
controle dos potenciais fatores de confusão em análises de séries temporais epidemiológica
sobre o tema.
Ilustração
Estatísticas descritivas das séries de mortalidade e poluição atmosférica são
apresentadas na Tabela 4. Durante o período em estudo (487 dias), o nível máximo diário
de PM10 na cidade do Rio de Janeiro excedeu em muito pouco (150,5 µg/m3 ) o nível médio
diário considerado seguro à saúde (150 µg/m3 ) segundo resolução do Conselho Nacional
de Meio Ambiente (Conama,1990), e o número médio de óbitos diários por DAR entre
idosos foi aproximadamente 11 casos por dia, variando entre 3 e 27.
A matriz de correlação de Pearson (Tabela 5) entre os fatores meteorológicos e a
poluição
atmosférica
(covariáveis
em
análise)
mostrou
apenas
uma
correlação
estatisticamente significante (temperatura × PM10 ). No entanto, a magnitude dessa
correlação ( ρ̂ = -0,1427 ) não foi suficientemente expressiva para considerar uma
colinearidade entre as duas variáveis. Nesse sentido, a aplicação de modelos de regressão
(Poisson) foi adequada para estimar associação entre a mortalidade por DAR e a poluição
atmosférica por partículas, uma vez que o fenômeno de multicolinearidade não estava
presente nos dados.
A Figura 4 apresenta uma descrição da série temporal de mortalidade por DAR entre
idosos durante o período em estudo. A flutuação e autocorrelação da série foram
supostamente introduzidas pela sua tendência temporal e sazonalidade (efeitos de longo
prazo) e pelos dias da semana, feriados e valores diários da temperatura e umidade do ar
(efeitos de curto prazo). Os efeitos de curto prazo foram considerados potenciais fatores de
confusão na associação de interesse, que juntamente com os efeitos de longo prazo devem
ser controlados.
Uma análise da adequação dos dois modelos em comparação (MLG e MAG) visando
o controle dos fatores de confusão foi realizada por meio da comparação de medidas de
56
qualidade do ajuste e pelos diagnósticos dos resíduos do modelo central. Os resultados
demostraram uma diferença percentual menor que 1% entre os valores do Critério de
Informação de Akaike (CIA) para os modelos considerados (Tabela 6) e um grau de
liberdade do modelo relativamente maior (26,8%) no ajuste não paramétrico (MAG). As
demais medidas de ajuste (Tabela 7) também não demonstraram diferenças significativas
entre as duas classes de modelos. O mesmo resultado foi observado pela análise dos
resíduos (Figura 5) dos modelos centrais ajustados.
A partir da modelagem de regressão Poisson para cada classe de modelos
considerados, evidenciou-se uma elevação significativa dos níveis de PM10 (com
defasagem de 1ª ordem) do 10º ao 90º percentil (45,62 µg/m3 ) associada a um acréscimo
de 10,97% na mortalidade por DAR no ajuste MLG e de 10,71% no ajuste MAG
(Tabela 8).
Para demonstrar a influência dos fatores de confusão na estimativa do efeito da
poluição atmosférica sobre a saúde, foi realizada uma análise de sensibilidade para avaliar
o efeito do PM10 do dia anterior (Tabela 9). A partir do ajuste de um MAG que incluiu
somente o poluente, foi acrescentado progressivamente cada componente do modelo
central e ajustado um modelo buscando detectar a contribuição da cada fator nos achados
epidemiológicos.
No modelo que não considerava qualquer correção referente à tendência, à
sazonalidade, ao calendário ou à meteorologia, o PM10 apresentou um coeficiente
consideravelmente expressivo que foi reduzido após o ajuste
para a existência de
tendência de longo prazo e sazonalidade da série de mortalidade. Uma substancial redução
no efeito da poluição ocorreu quando os efeitos dos dias da semana e feriados foram
incluídos (-32,25%), demonstrando que a falta de correção dos efeitos de calendário levaria
a sobre-estimação do parâmetro (efeito da poluição). Os fatores meteorológicos (-27,36%)
e a tendência e sazonalidade (-29,97%) mostraram uma considerável contribuição na
análise da série de mortalidade. O aumento do coeficiente do PM10 quando incluída a
temperatura e a umidade no modelo possivelmente se deve a uma possível interação entre
as condições meteorológicas e a poluição atmosférica que não é contemplada no modelo
central em análise.
O controle da flutuação e da autocorrelação da série de mortalidade realizado através
da construção do modelo central é ilustrado na Figura 6. Observa-se que toda a
autocorrelação da série de mortalidade (a) foi controlada por intermédio da contribuição
57
dos fatores meteorológicos, do calendário e da tendência e sazonalidade da própria série
(d). O ajuste do modelo central por MAG é apresentado na Figura 7 e a estimativa do
efeito do PM10 após o controle dos fatores de confusão encontra-se na Tabela 10. O ajuste
do modelo central por MLG é apresentado na Figura 8 .
58
Tabela 4 – Estatísticas descritivas para a mortalidade diária em idosos e para a
poluição diária por partículas na cidade do Rio de Janeiro.
Percentis
Média (dp)
Mín. 10
25
50
75
90
Máx.
Mortalidade DAR
10,98(3,68) 3,00 6,60 8,00 11,00 13,00 16,00 27,00
PM10
62,94(18,78) 20,00 42,05 49,75 59,71 73,25 87,60 150,50
dp – desvio padrão
Tabela 5 – Matriz dos coeficientes de correlação de Pearson
para as covariáveis em análise.
tmpmin2
wetm02
PM10
tmpmin2
1.0000
wetm02
1.0000
-0.2782
*
PM
1.0000
-0.1427
-0.2077
*
15
5
10
Óbitos por DAR
20
25
p < 0,05
tmpmin2 – temperatura mínima de dois dias antes.
wetm02 – média móvel da umidade relativa do ar entre os valores
correntes e de dois dias antes.
PM - nível de material particulado do dia anterior.
01/09/00
01/12/00
01/03/01
01/06/01
01/09/01
01/12/01
Data
Figura 4 - Óbitos diários por Doenças do Aparelho Respiratório (DAR) no Rio de Janeiro. A curva
suave (spline com 8 graus de liberdade) representa um ajuste para o efeito de longo prazo (tendência
e sazonalidade) da série de mortalidade.
59
Tabela 6 – Comparação dos resultados através de medida de ajuste.
Modelo Central
MLG
MAG
gl modelo
21
26,6273
CIA
544,571
548,575
Dif%
0,7%
gl
– grau de liberdade.
CIA – aproximação do Critério de Informação de Akaike.
Dif % – diferença percentual do valor do CIA no MAG em relação ao do MLG.
Tabela 7 - Medidas de qualidade do ajuste
utilizadas em análises de séries temporais.
Erro
MLG MAG
Percentual médio
-0,49% -0,61%
Médio quadrático
1,03
1,01
Médio absoluto
0,82
0,81
Percentual médio absoluto
7,60% 7,47%
( a1 )
2
1
0
-1
Deviance residuals
-2
-3
-0.10 -0.05 0.00
Partial ACF
0.05
3
( a2 )
5
10
15
20
25
-3
-2
-1
0
1
Lag
Standard Normal Quantiles
( b1 )
( b2 )
2
3
2
3
2
1
0
-3
-2
-1
Deviance residuals
0.00
-0.10 -0.05
Partial ACF
0.05
3
0
0
5
10
15
Lag
20
25
-3
-2
-1
0
1
Standard Normal Quantiles
Figura 5 – Função de autocorrelação parcial e gráfico dos quartis dos resíduos: (a1) e (a2) ajuste por MLG , (b1) e (b2) ajuste por
MAG.
60
Tabela 8 – Estimativas dos coeficientes de regressão e dos riscos relativos da mortalidade
por doenças do aparelho respiratório entre os idosos.
Nível
Erro
descritivo
Modelo coeficiente padrão
IC 95%
%RR10-90
IC 95%
(p)
MLG
0,0228
0,0092
0,01
0,0049 - 0,0408
10,97
2,24 - 20,44
MAG
0,0223
0,0076
0,00
0,0074 - 0,0372
10,71
3,44 - 18,50
IC - intervalo de confiança.
%RR10-90 – risco relativo em variação percentual para um aumento nos níveis de PM 10 do 10º ao 90º percentil.
Tabela 9 – Comparação do efeito do dia anterior do poluente através do controle dos
fatores de confusão pelo ajuste de um modelo aditivo generalizado (MAG).
Modelo
PM 10
(cada componente incluído
progressivamente)
coeficiente Erro
Nível
Diferença
padrão descritivo relativa **
(p)
%
Sem confundidores
0,0307
0,0078
0,00
Sazonalidade e Tendência
0,0215
0,0073
0,00
-29,97
Dias da semana e Feriados
0,0208
0,0075
0,01
-32,25
Temperatura e Umidade
0,0223*
0,0076
0,00
-27,36
(modelo central)
* possível efeito de interação entre o poluente atmosférico e os fatores meteorológicos
** cada diferença é em relação a 1ª componente.
0.05
0.00
Partial ACF
5
10
15
20
25
0
5
10
15
Lag
(c)
(d)
20
25
20
25
0.00
Partial ACF
0.05
0.05
Lag
-0.10 -0.05
Partial ACF
-0.05
-0.10
0
0
5
10
15
Lag
20
25
-0.10 -0.05 0.00
Partial ACF
(b)
(a)
0.10
-0.10 -0.05 0.00 0.05 0.10 0.15 0.20
61
0
5
10
15
Lag
Figura 6 – Função de autocorrelação parcial para a série de mortalidade entre idosos. (a) dados não ajustados. (b) ajuste para o
efeito da tendência em longo prazo e sazonalidade. (c) ajuste para os dias da semana e feriados. (d) ajuste para a temperatura e
umidade (modelo central). Todos os ajustes foram por Modelos Aditivos Generalizados (MAG).
62
Tabela 10 – Resultado da Regressão Poisson para estimação do efeito do PM10
do dia anterior.
Erro
Variável
Coeficiente padrão
Valor t
Parte paramétrica
Intercepto
2,20845
0,29653
7,45
TERÇA
-0,10492
0,05261
-1,99
QUARTA
-0,05836
0,05240
-1,11*
QUINTA
-0,05846
0,05247
-1,11*
SEXTA
-0,04389
0,05231
-0,84*
SÁBADO
-0,02252
0,05210
-0,43*
DOMINGO
-0,07026
0,05214
-1,35*
1
fer.pos
0,25292
0,09291
2,72
2
fer.neg
-0,12948
0,08357
-1,55*
L1PM •
0,00223
0,00076
2,94
Nível descritivo (p) associado ao χ 2
Parte não paramétrica
s(TEMPO, 6)
0,00
s(tmpmin2, 7)
0,04
s(wetm02, 5)
0,01
* p > 0,05 (Segunda-feira foi a linha de base)
1
refere-se a todos aqueles feriados com efeitos positivos sobre a mortalidade.
2
15
5
10
(last.gam$y)
20
25
refere-se a todos aqueles feriados com efeitos negativos sobre a mortalidade.
tmpmin2 - temperatura mínima de dois dias antes (defasagem de ordem 2).
wetm02 - média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes.
•
L1PM - nível de material particulado do dia anterior (defasagem de ordem 1).
01/09/00
01/12/00
01/03/01
01/06/01
dod
Figura 7 – Ajuste do modelo central pelo MAG.
01/09/01
01/12/01
15
5
10
(last.gam$y)
20
25
63
01/09/00
01/12/00
01/03/01
01/06/01
dod
Figura 8 – Ajuste do modelo central pelo MLG.
01/09/01
01/12/01
64
4. Discussão
O estudo comparativo via simulação indicou que há diferença significativa na
estimativa do efeito do PM10 sobre o número de internações hospitalares por problemas
respiratórios entre idosos (desfecho), controlando-se os fatores de confusão e a tendência e
a sazonalidade da série de desfecho a partir do emprego de métodos paramétricos ou nãoparamétricos. O fato de os dois métodos produzirem as mesmas conclusões em 90% das
simulações realizadas demonstrou que os modelos ajustados estimaram o efeito do PM10
adequadamente.
Na aplicação ilustrativa, os modelos em comparação forneceram resultados similares
no que tange as estatísticas de qualidade do ajuste e ao diagnóstico dos resíduos.
Conseqüentemente não foi possível apontar um dos métodos (paramétrico ou não
paramétrico) como o mais adequado para o controle da tendência e sazonalidade da série
de desfecho, e dos fatores de confusão no estudo da associação entre o PM10 e a
mortalidade por DAR entre idosos.
No que se refere às duas classes de modelos considerados (Modelos Lineares
Generalizados e Modelos Aditivos Generalizados) para a efetiva estimação do efeito do
PM10 sobre a saúde da população do Rio de Janeiro, também não foi encontrada diferença
significativa. O fato das duas classes de modelos convergirem para a mesma conclusão a
respeito do efeito da poluição atmosférica corroborou os resultados de Lima (2001), no
qual as duas classes de modelos mostraram achados similares para a série de mortalidade
fetal tardia (desfecho)
no período de 1991 a 1992, para a cidade de São Paulo,
considerando o efeito do NO2 (dióxido de nitrogênio).
No entanto, ressalta-se que no estudo comparativo entre os dois modelos, realizado
na cidade de São Paulo por Conceição (2001), os Modelos Aditivos Generalizados tiveram
maior poder de captar efeitos significativos de pequena magnitude, embora nesta ocasião a
poluição atmosférica não tenha sido significativamente associada à mortalidade no caso de
utilização de Modelos Lineares Generalizados.
Finalmente, a partir dos resultados dos dois estudos comparativos
realizados (via
simulação e ilustração), sugere-se que a escolha do método de ajuste das covariáveis do
modelo central deve se basear principalmente pelo diagnósticos dos resíduos e pela
flexibilidade da modelagem, além de considerar o princípio da parcimônia. Esta estratégia
visa controlar adequadamente toda a flutuação
e autocorrelação existente na série de
desfecho supostamente introduzida pelas covariáveis e/ou componentes do modelo central,
65
permitindo então, a inclusão de um termo linear referente à poluição atmosférica que
possibilite estimar o seu efeito sobre a saúde da população.
Adicionalmente, ressalta-se que a ilustração demonstrou claramente a importância do
controle dos potenciais fatores de confusão (condições meteorológicas e dos efeitos dos
dias da semana e feriados) e da tendência e sazonalidade
da série de mortalidade por
DAR. O efeito de curto prazo do PM10 em um modelo sem qualquer confundidor mostrouse 37,67% maior do que em um modelo controlado pelos fatores de confusão e pela
tendência e sazonalidade da série de mortalidade.
A respeito das evidências encontradas nesse trabalho ressalta-se que os resultados são
válidos essencialmente para o cenário simulado (consideravelmente simples), de maneira
que a simulação do preditor linear (η) de forma linear tenha favorecido o ajuste por MLG.
No entanto, se fosse simulado de forma não linear provavelmente o MAG se ajustaria
melhor, uma vez que a sua modelagem é mais flexível.
66
5. Referências Bibliográficas (ARTIGO)
Abercrombie G. F. December fog in London and the emergency bed service. Lancet, v.
1, p. 234-235, 1953.
Anderson H.R., Ponce dL., Bland J.M., Bower J.S., Strachan D.P. Air pollution and daily
mortality in London: 1987-92. BMJ, v.312, n. 7032, p.665-669,1996.
Braga AL., Conceicao G M , Pereira LA, Kishi HS, Pereira JC, Andrade MF et al. Air
pollution and pediatric respiratory hospital admissions in São Paulo, Brazil. J.
Environ Med, v.1, p. 95-102, 1999.
Braga, A. L., A. Zanobetti, and J. Schwartz. The effect of weather on respiratory and
cardiovascular deaths in 12 U.S. cities. Environ.Health Perspect. v. 110, n. 9, p. 859863, 2002.
Bremner et al. Short term associations betwe en outdoor air pollution and mortality in
London 1992-4. Occup Environ Med, v.56, p.237-244, 1999.
Burnett, R. T. et al. The association between ambient carbon monoxide levels and daily
mortality in Toronto, Canada. J. Air Waste Manag. Assoc. v. 48, n. 8, p. 689-700, 1998.
Cifuentes, L. A. et al. Effect of the Fine Fraction of Particulate Matter versus the
Coarse Mass and Other Pollutants on Daily Mortalility in Santiago, Chile. Journal of
the Air & Waste Management Association. v. 50, p. 1287-1298, 2000.
Conama. Resolução n. 003 (PRONAR). 28 de junho de 1990.
Conceição, G.M.S., Saldiva, P.H.N. e Singer, J.M. Modelos Lineares Generalizados e
Modelos Aditivos Generalizados para análise da associação entre poluição
atmosférica e marcadores de morbi-mortalidade: uma introdução baseada em dados
da cidade de São Paulo. Revista Brasileira de Epidemiologia, v. 4, n. 3, p.206–219, 2001.
67
Daumas, R.P. Poluição do ar e mortalidade em idosos no Município do Rio de Janeiro:
análise de série temporal. 2002. 205f. Dissertação de Mestrado, Rio de Janeiro: Instituto
de Medicina Social, Universidade do Estado do Rio de Janeiro.
Goldberg, M. S. et al. The association between daily mortality and ambient air particle
pollution in Montreal, Quebec. 2. Cause-specific mortality. Environ.Res. v. 86, n. 1, p.
26-36, 2001.
Gouveia N and Fletcher T. Respiratory diseases in children and outdoor air pollution
in Sao Paulo, Brazil: a time series analysis. Occup Environ Med, v. 57, n.7, p. 477-483,
2000.
Glasser, M., L. Greenburg, and F. Field. Mortality and morbidity during a period of
high levels of air pollution. New York, Nov. 23 to 25, 1966. Arch.Environ.Health, v.15,
n.6 , p. 684- 694, 1967.
Goldstein, I. F. Interaction of air pollution and weather in their effects on health.
HSMHA.Health Rep.,v. 87, n.1, p.50-55, 1972.
Goldstein, I. F., M. Goldstein, and L. Landovitz. A critique of "The relation of air
pollution to mortality. J.Occup.Med., v. 19, n.6 , p. 375- 376, 1977.
Goldstein, I. F. and L. E. Rausch. Time series analysis of morbidity data for assessment
of acute environmental health effects. Environ.Res., v.17, n.2 , p. 266-275, 1978.
Goldstein, I. F. et al. Methodological problems arising from the choice of an
independent variable in linear regression, with application to an air pollution
epidemiological study. Environ.Health Perspect., v. 32 , p. 311- 315, 1979.
Greenburg, L. et al. Air pollution, influenza, and mortality in New York City;
January-February 1963. Arch.Environ.Health v.15, n.4, p. 430- 438, 1967.
Harvey, A.C. The econometric analysis of time series models. Philip Allan, 1981.
68
Hastie T.; Tibshirani R. Generalized Additive Models. Chapman&Hall, 1990.
Hatzakis, A. et al. Short-term effects of air pollution on mortality in Athens.
Int.J.Epidemiol. v. 15, n.1, p. 73-81, 1986.
Hong, Y. C. et al. Effects of air pollutants on acute stroke mortality. Environ.Health
Perspect. v .110, n. 2, p. 187-191, 2002.
Katsouyanni, K. et al. Short-term effects of ambient sulphur dioxide and particulate
matter on mortality in 12 European cities: results from time series data from the
APHEA project. Air Pollution and Health: a European Approach. BMJ, v. 314, n.
7095, p. 1658-1663, 1997.
Katsouyanni, K. et al. Confounding and effect modification in the short-term effects of
ambient particles on total mortality: results from 29 European cities within the
APHEA2 project. Epidemiology, v. 12, n. 5, p. 521-531, 2001.
Lima L. P. Modelos Aditivos Generalizados: aplicação a um estudo epidemiológico
ambiental. 2001.115f. Dissertação de Mestrado, São Paulo: Instituto de Matemática e
Estatística, Universidade de São Paulo.
Loomis et al. Air Pollution and Infant Mortality in Mexico City. Epidemiology, v. 10, n.
2, p. 118-123, 1999.
Martin A.E.; Bradley D.M. Mortality, fog and atmospheric pollution. Mon Bull Minist
Health Lab Serv, v.19, p. 56-73, 1960.
MathSoft (1998). S-Plus User’s Guide. Version 2000. Seattle, Data Analysis Products
Division.
69
Mazumdar, S., H. Schimmel; I. T. Higgins. Relation of daily mortality to air pollution:
an analysis of 14 London winters, 1958/59-1971/72. Arch.Environ.Health, v. 37, n. 4, p.
213-20, 1982.
McCullagh , P.; Nelder, J. A. Generalized Linear Models. Chapman&Hall, 1989.
Ministry of Health. Mortality and morbidity during the London Fog of
December
1952. London: Her Majesty's Stationary Office, 1954. (Report No. 95 on public health and
medical subjects).
Ostro, B. A search for a threshold in the relationship of air pollution to mortality: a
reanalysis of data on London winters. Environ.Health Perspect., v. 58, p. 397- 399,
1984.
Poloniecki et al. Daily time series for cardiovascular hospital admissions and previous
day’s air pollution in London, UK. Occupational and Environmental Medicine,v. 54,
p.535-540, 1997.
Ponce de Leon , A. Searching for Associations Between Counts of Helth Events and
&&sterr. Zeitshrift Fu&&r Statistik , v. 25, p. 25-34, 1996.
Air Pollution. O
Ponce de Leon A.; Anderson H.R.; Bland JM, Strachan DP, Bower J. Effects of air
pollution on daily hospital admissions for respiratory disease in London between
1987-88 and 1991-92. J Epidemiol Community Health, v. 50, suppl. 1, p. 63-70, 1996.
Sáez M. et al. Métodos de séries temporales em los estúdios epidemiológicos sobre
Contaminación Atmosférica. Rev Esp Salud Pública, v. 73, p.133-143, 1999.
Saldiva et al. Association between air pollution and mortality due to respiratory
diseases in children in São Paulo, Brazil: a preliminary report. Environ Res, v. 65,
p.218-225, 1994.
70
Saldiva et al. Air Pollution and Mortality in Elderly People: A Time-Series Study in
São Paulo, Brazil. Archives of Environmental Health, v. 50, n. 2, p.159-163, 1995.
Schimmel, H. and Murawski, T. J. The relation of air pollution to mortality. J. Occup.
Med., v.18, p. 316-333, 1976.
Schwartz J; Marcus A. Mortality and air pollution in London: a time series analysis.
Am J Epidemiol, v.131, n. 1, p.185-194, 1990.
Schwartz J. Particulate air pollution and daily mortality: A synthesis. Public Health
Res, v. 64, p. 39-60, 1992.
Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res,
v. 64, n.1, p. 36-52, 1994.
Schwartz J. Air pollution and hospital admission for respiratory disease. Epidemioloy,
v. 7, n. 1, p. 20-8, 1995.
Schwartz J.; Spix G.; Toulomi G et al. Methodological issue in studies of air pollution
and daily counts of deaths or hospital admission. J Epidemiol Community Health,
v. 50, suppl. 1, p. 3-11, 1996.
Schwartz J. Assessing Confounding, Effect Modification, and Thresholds in the
Association between Ambient Particles and Daily Deaths. Environment Health, v. 108,
n. 6, p. 563-567, 2000.
Schwartz, J., F. Laden, and A. Zanobetti. The concentration-response relation between
PM(2.5) and daily deaths. Environ.Health Perspect., v. 110, n.10, p. 1025-1029, 2002.
Shumway, R. H., A. S. Azari, and Y. Pawitan. Modeling mortality fluctuations in Los
Angeles as functions of pollution and weather effects. Environ.Res.,v. 45, n.2, p. 224241,1988.
71
Spix, C. et al. Short-term effects of air pollution on hospital admissions of respiratory
diseases in Europe: a quantitative summary of APHEA study results. Air Pollution
and Health: a European Approach. Arch.Environ.Health, v. 53, n.1, p. 54-64, 1998.
Sterling, T. D. et al. Urban morbidity and air pollution. A first report.
Arch.Environ.Health, v.13, n.2, p.158- 170, 1966.
Sterling, T. D., S. V. Pollack, and J. J. Phair. Urban hospital morbidity and air
pollution. A second report. Arch.Environ.Health, v. 15, n.3 , p. 362- 374, 1967.
Sunyer, J. et al. Urban air pollution and emergency admissions for asthma in four
European cities: the APHEA Project. Thorax, v. 52, p.760-765, 1997.
Touloumi et al. Short-term Effects of Ambient Oxidant Exposure on Mortality: a
combined Analysis within the APHEA Project. American Journal of Epidemiology, v.
146, n. 2, p. 177-185, 1997.
Wichmann, H. E. et al. Health effects during a smog episode in West Germany in 1985.
Environ.Health Perspect., v. 79, p. 89-99, 1989.
Zanobetti et al. Airborne Particles Are a Risk Factor for Hospital Admissions for
Heart and Lung Disease. Environmental Healt Perspectives, v. 108, n. 11, p. 1071-1077,
2000.
Zanobetti et al. The Temporal Pattern of Mortality Responses to Air Pollution: A
Multicity Assessment of Mortalilty Displacement. Epidemiology, v. 13, n. 1, p. 87-93,
2001.
Zeger, S. L. A regression model for time series of counts. Biometrika, v. 75, n. 4,
p. 621-629, 1988.
Zmirou, D. et al. Time-series analysis of air pollution and cause-specific mortality.
Epidemiology, v. 9, n. 5, p. 495-503, 1998.
72
7. CONCLUSÕES
7.1. CONSIDERAÇÕES FINAIS
A comparação entre os métodos paramétricos e não paramétricos para o controle de
potenciais fatores de confusão em estudos do efeito da poluição atmosférica sobre um
determinado agravo à saúde, realizados nesse trabalho, apresentou resultados coerentes e
similares no que diz respeito à adequação das classes de modelos considerados (Modelos
Lineares Generalizados e Modelos Aditivos Generalizados).
É importante ressaltar que o estudo de simulação considerou apenas um cenário
relativamente simples utilizando dados empíricos para as covariáveis. Mesmo assim, o
resultado obtido pela simulação realizada nesta dissertação mostrou-se satisfatório, pois no
estudo empírico (ilustração) foi encontrado achado similar.
Finalmente, cabe ressaltar que o presente estudo encontrou efeito estatisticamente
significativo da poluição atmosférica sobre
cidade do Rio de Janeiro,
mortalidade por DAR entre os idosos na
fato que não havia sido evidenciado no estudo pioneiro de
análise de séries temporais epidemiológica sobre o tema realizado em Daumas (2002).
7.1. PROPOSTAS FUTURAS
Embora o estudo de simulação realizado tenha apresentado resultados coerentes,
deve-se considerar que seus resultados são restritos ao cenário proposto. Nesse sentido fazse necessário a realização de estudos suplementares que considerem outros possíveis
cenários no que se refere à evolução das covariáveis. Por exemplo, pode-se simular séries
temporais não estacionárias, com certa estrutura de autocorrelacão, multicolineares e com
possíveis perturbações aleatórias sobre os processos.
Do ponto de vista tanto da modelagem de séries temporais epidemiológicas sobre o
tema, quanto da estimação do efeito da poluição atmosférica, estudos futuros com dados da
cidade do Rio de Janeiro podem ser desenvolvidos visando:
1. Estimar o efeito da poluição do ar por PM10 sobre a mortalidade/morbidade por
doenças do aparelho respiratório para outros períodos mais recentes.
2. Estimar o efeito da poluição do ar por PM10 sobre a mortalidade/morbidade por
doenças do aparelho circulatório.
73
3. Realizar comparações entre Modelos Lineares Generalizados e Modelos Aditivos
Generalizados considerando outras distribuições de probabilidade em vez da
distribuição Poisson.
4. Empregar outras técnicas de diagnósticos para os ajustes e os resíduos na
avaliação dos resultados segundo as duas classes de modelos utilizados, como
gráfico de envelope, validação cruzada, entre outras técnicas.
5. Criar um protocolo de análise para uniformizar a estratégia de modelagem
utilizando Modelos Aditivos Generalizados.
6. Aplicar modelos alternativos para estimar a associação entre poluição atmosférica
e um determinado agravo à saúde, como modelos estruturais (modelo de espaço
de estados): Poisson-Gama e Binomial negativa-Beta .
7. Empregar modelos de análise espacial (modelo espaço-temporal).
8. Apresentar e discutir com maiores detalhes os modelos estatísticos de séries
temporais epidemiológicas e seus principais testes diagnósticos, buscando um
melhor aprimoramento dos epidemiologistas interessados no assunto.
74
8. REFERÊNCIAS BIBLIOGRÁFICAS ( INTRODUÇÃO E CONCLUSÕES )
Anderson H.R., Ponce dL., Bland J.M., Bower J.S., Strachan D.P. Air pollution and daily
mortality in London: 1987-92. BMJ, v.312, n. 7032, p.665-669,1996.
Andrade, E. L. Introdução à pesquisa operacional: métodos e técnicas para análise de
decisão. Rio de Janeiro: LTC, 1999.p.236-255.
Barton, R. F. Manual de Simulação e Jogo. Petrópolis: Vozes, 1973. p.173-201.
Costa, V. R. Poluição Atmosférica Mata. Revista Ciência Hoje, Agosto de 2002; vol. 28,
nº 163.
Díez F. B., Tenías J. M. e Pérez-Hoyos S. Efectos de La Contaminación Atmosférica
Sobre a Salud: Una Introducción. Rev Esp Salud Pública, v. 73, p.109-121, 1999.
Fernandes, C. A. C. Non-Gaussian Structural Time Series Models. 1990. 233f. Tese de
Doutorado, London: London School of Economics, University London.
Ferreira, A. B. H. Novo Aurélio Século XXI: O Dicionário da Língua Portuguesa. Rio
de Janeiro, Nova Fronteira, 1999.
Gouveia N. Air Pollution and Health effects in São Paulo, Brazil: A Time Series
Analysis. 1997. 238f. Tese de Doutorado, London: London School of Hygiene and
Tropical Medicine, University London.
Harvey, A.C. The econometric analysis of time series models. Philip Allan, 1981.
Hastie T.; Tibshirani R. Generalized Additive Models. Chapman&Hall, 1990.
Martin A.E.; Bradley D.M. Mortality, fog and atmospheric pollution. Mon Bull Minist
Health Lab Serv, v.19, p. 56-73, 1960.
75
Madov N.; Greco A.; Sampaio F.; Coutinho L. A Terra pede socorro. Revista Veja,
Agosto de 2002.
Mazumdar, S., H. Schimmel; I. T. Higgins. Relation of daily mortality to air pollution:
an analysis of 14 London winters, 1958/59-1971/72. Arch.Environ.Health, v. 37, n. 4, p.
213-20, 1982.
McCullagh , P.; Nelder, J. A. Generalized Linear Models. Chapman&Hall, 1989.
McCarroll, J.; W. Bradley. Excess mortality as an indicator of health effects of air
pollution. Am.J.Public Health Nations.Health. v. 56, n.11 p.1933-42, 1966.
Ministry of Health. Mortality and morbidity during the London Fog of
December
1952. London: Her Majesty's Stationary Office, 1954. (Report No. 95 on public health and
medical subjects).
Morettin, P. A.; Toloi, C. M. Previsão de Séries Temporais. São Paulo: Atual, 1987.
Morgan, B. J. T. Elements of Simulation. Chapman&Hall, 1995.
Ostro, B. A search for a threshold in the relationship of air pollution to mortality: a
reanalysis of data on London winters. Environ.Health Perspect, v. 58, p. 397-99, 1984.
Ponce de Leon , A. Searching for Associations Between Counts of Helth Events and
&&sterr. Zeitshrift Fu&&r Statistik , v. 25, p. 25-34, 1996.
Air Pollution. O
Schwartz J; Marcus A. Mortality and air pollution in London: a time series analysis.
Am J Epidemiol, v.131, n. 1, p.185-194, 1990.
Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res,
v. 64, n.1, p. 36-52, 1994.
76
Schwartz J.; Spix G.; Toulomi G et al. Methodological issue in studies of air pollution
and daily counts of deaths or hospital admission. J Epidemiol Community Health,
v. 50, suppl. 1, p. 3-11, 1996.
Wei, W. W. S. Time Series Analysis. Univariate and Multivariate Methods. AddisonWesley Publishing Company,1989.
Yaffe, C. D. Progress in state and local air pollution control under the Clean Air Act.
Am.Ind.Hyg.Assoc.J, v. 31, n. 4,p. 506-09, 1970.
Zeger, S. L. A regression model for time series of counts. Biometrika, v. 75, n. 4,
p. 621-629, 1988.
77
ANEXOS
78
ANEXO I - MÉTODO MONTE CARLO
Figura I - Adaptação do Fluxograma do método Monte Carlo apresentado em
Barton,1973, página 194.
Segmento de acontecimento único
para Simulação Monte Carlo Discreto
Calcule as probabilidades acumulativas de cada
acontecimento.
Identifique cada acontecimento à sua probabilidade
acumulada . O último é associado com o número 1, que
é a probabilidade acumulativa final dos dados
Designe n números aleatórios com pelo menos tantos
dígitos quanto os números da probabilidade
acumulada. O número aleatório deve vir de uma
distribuição uniforme(0,1).
Observe
a
probabilidade
acontecimento.
acumulada
do
O número aleatório é
Não
menor do que essa
probabilidade
Sim
Considere o acontecimento correspondente a esta
iteração. Registre o acontecimento na base de dados.
Fim
* Para a simulação de uma série temporal, o segmento de acontecimento único é a serie temporal de
entrada, o acontecimento representa cada observação da série temporal e o n é o número total de
observações da s érie temporal considerada.
79
ANEXO II - AS
SISTEMÁTICO
COVARIÁVEIS
QUE
COMPÕEM
O
COMPONENTE
Figura II – Séries temporais das covariáveis que compõem o componente sistemático.
(a)
Temperatura
0
100
200
300
400
12 14 16 18 20 22 24 26
30
20
0
10
Internações
40
(b)
500
0
100
200
(c)
400
500
300
400
500
60
0
60
65
20
40
75
PM10
80
80
85
90
100
(d)
70
Umidade
300
0
100
200
300
400
500
0
100
200
* (a) Série do número de internações hospitalares diárias por problemas respiratórios na cidade do Rio de
janeiro. (b) Série da temperatura mínima de dois dias antes (defasagem de ordem 2) . (c) Série da umidade
diária (média móvel entre o valor corrente e o valor de dois dias antes). (d) Série diária do material
particulado em suspensão (PM 10 ). A curva apresentada em (a) descreve a tendência e a sazonalidade da série
de internações.
80
ANEXO III – ANÁLISES DOS RESÍDUOS DO MODELO BASE PARA AS SÉRIES
DE INTERNAÇÕES HOSPITALARES SIMULADAS
Figura III – Função de autocorrelação parcial da série de resíduos do modelo central
ajustado através de modelo linear generalizado.
0.00
-0.10
-0.05
Partial ACF
0.05
0.10
Series : residuals(last.gam, "deviance")
0
5
10
15
20
25
30
Lag
Figura IV – Função de autocorrelação parcial da série de resíduos do modelo central
ajustado através de modelo aditivo generalizado.
0.00
-0.05
-0.10
Partial ACF
0.05
0.10
Series : residuals(last.gam, "deviance")
0
5
10
15
Lag
20
25
30
81
Figura V – Periodograma da série de resíduos do modelo central ajustado através de
modelo linear generalizado.
Periodogram
6.28
3.14
2.09
0
1
2
I(omega)
3
4
5
487
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Angular frequency (rads.) (top axis is period in days)
Figura VI – Periodograma da série de resíduos do modelo central ajustado através de
modelo aditivo generalizado.
Periodogram
6.28
3.14
2.09
0
1
2
I(omega)
3
4
5
487
0.0
0.5
1.0
1.5
2.0
2.5
Angular frequency (rads.) (top axis is period in days)
3.0
82
Figura VII – Quartis dos resíduos do modelo central ajustado através de modelo linear
generalizado versus os quartis da distribuição Normal.
1
0
-2
-1
Deviance residuals
2
3
Deviance Residuals Normal Q-Q Plot
-3
-2
-1
0
1
2
3
Standard Normal Quantiles
Figura VIII – Quartis dos resíduos do modelo central ajustado através de modelo aditivo
generalizado versus os quartis da distribuição Normal.
1
0
-1
-2
Deviance residuals
2
3
Deviance Residuals Normal Q-Q Plot
-3
-2
-1
0
1
Standard Normal Quantiles
2
3
83
Figura IX – Resíduos do modelo central ajustado através de modelo linear generalizado
2
0
-2
-4
resid(last.gam, "deviance")
4
versus o tempo. As linhas em vermelho na horizontal referem-se aos valores 3 e –3.
01/08/00
01/11/00
01/02/01
01/05/01
01/08/01
dod
Figura X – Resíduos do modelo central ajustado através de modelo aditivo generalizado
2
0
-2
-4
resid(last.gam, "deviance")
4
versus o tempo. As linhas em vermelho na horizontal referem-se aos valores 3 e –3.
01/08/00
01/11/00
01/02/01
01/05/01
dod
01/08/01
84
ANEXO IV – RESULTADO DO MODELO BASE PARA AS SÉRIES SIMULADAS
Tabela 1 – Coeficientes de regressão Poisson no ajuste por Modelo Linear
Generalizado (MLG).
Variável
Coeficiente
Erro Padrão
Intercepto
2,57248
3,41258 *
TEMPO
-0,00386
0,00044
TEMPO**2
0,00000
0,00000
wave(n, 245, 1095)$cosine
-0,05667
0,01840
TERÇA
-0,13417
0,04587
QUARTA
-0,02707
0,04435 *
QUINTA
-0,20346
0,04611
SEXTA
-0,10938
0,04519
SÁBADO
-0,58351
0,05207
DOMINGO
-0,73774
0,05541
FERIADO
-0,30225
0,07824
Wetm02
0,15855
0,05344
Wetm02**2
-0,00111
0,00036
Tempmin2
-0,80591
0,37360
Tempmin2**2
0,04513
0,01908
Tempmin2**3
-0,00084
0,00032
PM10
0,00191
0,00092
Critério de informação
Função Desvio
de Akaike
Fator de dispersão (φ
φ )
445,36
480,98
1,0
* p > 0,05 (Segunda-feira é a linha de base).
Wetm02 – média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes.
Tempmin2 – temperatura mínima de dois dias antes (defasagem de ordem 2).
85
Tabela 2 – Coeficientes de regressão Poisson no ajuste por Modelo Aditivo
Generalizado (MAG).
Erro
Variável
Coeficiente padrão
Valor t
Parte paramétrica
Intercepto
4,30129
0,26860
16,01
TERÇA
-0,14508
0,04690
-3,09
QUARTA
-0,03710
0,04550
-0,82 *
QUINTA
-0,21242
0,04725
-4,50
SEXTA
-0,11562
0,04632
-2,50
SÁBADO
-0,59126
0,05331
-11,09
DOMINGO
-0,74279
0,05686
-13,06
FERIADO
-0,30922
0,08030
-3,85
PM10
0,00212
0,00093
2,27
Nível descritivo (p) associado ao χ 2
Parte não paramétrica
s(TEMPO, 4)
0,005
s(Tempmin, 5)
0,000
s(Wetm02, 3)
0,003
Critério de
Fator de dispersão
informação de
Função Desvio
Akaike
(φ
φ )
448,85
493,62
1,0
* p > 0,05 (Segunda-feira é a linha de base).
Wetm02 – média móvel da umidade relativa do ar entre o valor corrente e o valor de dois dias antes.
Tempmin2 – temperatura mínima de dois dias antes (defasagem de ordem 2).
86
ANEXO V – RESULTADOS DAS SIMULAÇÕES
Tabela 3 – Resultados através de ajuste por modelos lineares generalizados.
Nº Sim
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
PM10
0,00191078
0,00337607
0,00387000
0,00329004
0,00406732
0,00325383
0,00116003
0,00447746
0,00246286
0,00330267
0,00223498
0,00339995
0,00220262
0,00238751
0,00338055
0,00422335
0,00350118
0,00205578
0,00329219
0,00366630
0,00232200
0,00374389
0,00352919
0,00278517
0,00391700
0,00268275
0,00267719
0,00407307
0,00249958
0,00324397
0,00277494
0,00163846
0,00292295
0,00321238
0,00241063
0,00339556
0,00251759
0,00297393
0,00257033
0,00296419
0,00244381
0,00158373
0,00123833
0,00367955
0,00184519
0,00212004
STD
T.valor
0,00092
2,08
0,00091
3,72
0,00092
4,20
0,00091
3,60
0,00090
4,50
0,00091
3,56
0,00091
1,27
0,00091
4,90
0,00090
2,72
0,00091
3,61
0,00091
2,45
0,00093
3,66
0,00092
2,40
0,00091
2,63
0,00090
3,75
0,00091
4,65
0,00092
3,82
0,00091
2,25
0,00092
3,58
0,00091
4,03
0,00091
2,55
0,00092
4,09
0,00091
3,90
0,00091
3,07
0,00090
4,33
0,00093
2,87
0,00091
2,94
0,00091
4,46
0,00091
2,73
0,00092
3,52
0,00092
3,03
0,00091
1,81
0,00091
3,23
0,00091
3,51
0,00092
2,61
0,00091
3,73
0,00092
2,74
0,00091
3,26
0,00092
2,78
0,00092
3,24
0,00092
2,66
0,00091
1,74
0,00090
1,38
0,00092
3,99
0,00092
2,02
0,00092
2,31
Deviance
445,36
461,50
465,03
454,07
419,74
449,15
467,58
451,83
418,04
406,17
411,54
428,86
442,11
467,41
470,98
451,26
383,28
384,33
478,45
436,73
399,94
456,60
451,79
497,75
424,17
403,19
401,34
382,42
477,96
423,41
413,67
409,00
462,23
405,58
418,70
405,80
407,16
402,53
431,34
428,34
422,20
404,61
471,79
424,43
427,37
386,09
CIA
480,98
497,87
502,12
490,28
452,92
484,68
504,80
487,53
451,60
438,55
444,00
462,70
476,49
504,74
507,49
486,44
414,09
414,89
515,85
470,84
431,77
492,20
487,26
536,85
458,48
435,05
433,03
412,07
515,41
456,48
446,24
440,87
498,55
436,69
451,57
437,58
438,84
434,12
466,38
462,63
455,59
436,73
508,04
457,70
461,24
416,54
IC 95%
0,00010798 0,00371359
0,00159508 0,00515706
0,00206421 0,00567578
0,00149688 0,00508319
0,00229523 0,00583942
0,00146284 0,00504481
-0,00062797 0,00294802
0,00268753 0,00626739
0,00068959 0,00423613
0,00151184 0,00509349
0,00044506 0,00402491
0,00158036 0,00521955
0,00040626 0,00399898
0,00060485 0,00417017
0,00161234 0,00514877
0,00244460 0,00600210
0,00170707 0,00529528
0,00026434 0,00384722
0,00148876 0,00509562
0,00188145 0,00545114
0,00053532 0,00410868
0,00194811 0,00553968
0,00175514 0,00530325
0,00100500 0,00456534
0,00214345 0,00569054
0,00085285 0,00451265
0,00089266 0,00446172
0,00228309 0,00586305
0,00070666 0,00429250
0,00143775 0,00505018
0,00098067 0,00456920
-0,00013801 0,00341492
0,00114792 0,00469797
0,00141960 0,00500516
0,00060194 0,00421933
0,00161079 0,00518033
0,00071456 0,00432063
0,00118466 0,00476319
0,00075769 0,00438296
0,00116924 0,00475914
0,00064384 0,00424378
-0,00020173 0,00336920
-0,00052405 0,00300071
0,00187353 0,00548557
0,00005088 0,00363950
0,00032268 0,00391739
SIG SIT
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
0
1
1
1
1
1
1
1
87
Nº Sim
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
PM10
0,00168745
0,00300374
0,00319405
0,00404059
0,00409189
0,00337868
0,00379600
0,00196550
0,00373183
0,00247515
0,00160242
0,00373496
0,00343945
0,00320162
0,00465140
0,00146367
0,00308324
0,00390908
0,00229896
0,00137598
0,00321926
0,00257509
0,00259176
0,00250382
0,00399356
0,00267995
0,00360633
0,00343237
0,00391746
0,00090154
0,00277043
0,00297568
0,00340196
0,00214854
0,00451064
0,00414011
0,00297546
0,00345660
0,00208337
0,00185292
0,00285124
0,00183927
0,00187681
0,00376130
0,00267234
0,00282197
0,00307421
0,00239119
0,00439566
STD
T.valor
0,00092
1,83
0,00090
3,32
0,00091
3,50
0,00092
4,41
0,00092
4,44
0,00092
3,67
0,00092
4,11
0,00092
2,14
0,00092
4,07
0,00092
2,70
0,00092
1,75
0,00091
4,10
0,00091
3,77
0,00091
3,53
0,00091
5,11
0,00091
1,60
0,00093
3,33
0,00091
4,28
0,00091
2,53
0,00091
1,51
0,00093
3,47
0,00093
2,77
0,00091
2,86
0,00091
2,74
0,00092
4,36
0,00092
2,93
0,00092
3,94
0,00092
3,74
0,00091
4,30
0,00092
0,98
0,00091
3,04
0,00091
3,26
0,00093
3,67
0,00092
2,34
0,00092
4,92
0,00091
4,54
0,00090
3,29
0,00093
3,73
0,00091
2,28
0,00092
2,02
0,00092
3,11
0,00090
2,03
0,00092
2,05
0,00093
4,05
0,00090
2,97
0,00091
3,09
0,00091
3,37
0,00093
2,58
0,00091
4,84
Deviance
465,65
423,03
406,22
429,44
418,01
437,57
470,37
413,25
479,89
413,33
429,60
419,13
454,36
386,65
417,32
460,06
419,76
447,11
440,26
393,09
443,95
417,21
414,22
377,34
408,52
377,96
415,92
526,47
441,23
395,88
470,62
436,73
445,55
406,60
423,79
398,33
406,90
459,95
374,23
397,47
418,87
405,28
402,40
436,91
434,62
438,06
408,96
405,26
453,47
CIA
502,67
455,84
438,42
463,85
451,52
471,49
507,69
445,52
518,09
446,58
463,80
452,66
491,15
417,24
450,73
496,78
452,54
482,45
474,89
424,42
478,74
449,75
447,20
406,93
441,02
408,73
448,69
567,61
475,61
427,89
507,38
470,82
479,85
437,88
457,11
429,60
438,66
495,88
403,34
428,41
451,59
436,44
434,50
471,40
469,23
472,61
441,62
437,27
489,67
IC 95%
-0,00011728 0,00349217
0,00123021 0,00477727
0,00140308 0,00498503
0,00224299 0,00583820
0,00228717 0,00589661
0,00157665 0,00518072
0,00198644 0,00560556
0,00016727 0,00376373
0,00193277 0,00553088
0,00067541 0,00427490
-0,00019133 0,00339617
0,00195070 0,00551921
0,00165308 0,00522583
0,00142229 0,00498095
0,00286773 0,00643508
-0,00032384 0,00325118
0,00126833 0,00489816
0,00211986 0,00569830
0,00052017 0,00407775
-0,00040503 0,00315700
0,00139870 0,00503982
0,00075191 0,00439827
0,00081496 0,00436856
0,00071070 0,00429693
0,00219912 0,00578801
0,00088575 0,00447415
0,00181025 0,00540242
0,00163431 0,00523043
0,00213131 0,00570361
-0,00089972 0,00270280
0,00098476 0,00455609
0,00118479 0,00476656
0,00158643 0,00521749
0,00035182 0,00394526
0,00271406 0,00630723
0,00235301 0,00592722
0,00120301 0,00474791
0,00164221 0,00527098
0,00029147 0,00387527
0,00005700 0,00364884
0,00105589 0,00464659
0,00006568 0,00361286
0,00008305 0,00367057
0,00194152 0,00558109
0,00091049 0,00443418
0,00103010 0,00461385
0,00128700 0,00486142
0,00057439 0,00420799
0,00261723 0,00617409
SIG SIT
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
88
Nº Sim
96
97
98
99
100
PM10 –
STD –
PM10
0,00398660
0,00265786
0,00406838
0,00314994
0,00327406
STD
T.valor
0,00091
4,38
0,00090
2,94
0,00092
4,44
0,00092
3,43
0,00092
3,57
Deviance
392,69
406,55
478,31
412,72
394,75
CIA
423,55
438,17
515,46
445,31
425,58
IC 95%
0,00220251 0,00577068
0,00088717 0,00442855
0,00227405 0,00586271
0,00134802 0,00495185
0,00147667 0,00507145
estimativa do efeito do PM10.
erro padrão.
T.valor –
valor do teste t associado ao efeito do PM10 .
CIA – Critério de Informação de Akaike.
IC 95% – Intervalo de confiança a 95%.
SIG – Indica 1 quando o parâmetro é estatisticamente significativo sob H0 : β=0.
SIT – Indica 1 quando o valor de referência da simulação está contido no IC.
SIG SIT
1
1
1
1
1
1
1
1
1
1
89
Tabela 4 – Resultados através de ajuste por modelos aditivos generalizados.
Nº Sim
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
PM10
0,00216225
0,00360273
0,00416676
0,00341361
0,00441152
0,00326214
0,00115450
0,00452281
0,00248798
0,00337738
0,00239471
0,00345472
0,00201290
0,00238645
0,00349360
0,00454704
0,00380023
0,00230411
0,00321348
0,00387467
0,00246967
0,00397599
0,00365236
0,00279030
0,00387191
0,00276634
0,00269173
0,00431188
0,00245984
0,00315366
0,00279631
0,00160813
0,00281553
0,00306224
0,00257316
0,00344947
0,00257899
0,00358582
0,00316673
0,00312236
0,00263601
0,00223340
0,00125746
0,00387940
0,00220673
0,00203031
STD
0,00094
0,00093
0,00095
0,00094
0,00089
0,00094
0,00094
0,00092
0,00089
0,00089
0,00088
0,00092
0,00092
0,00095
0,00094
0,00091
0,00086
0,00085
0,00096
0,00090
0,00089
0,00093
0,00093
0,00097
0,00090
0,00089
0,00088
0,00086
0,00094
0,00090
0,00089
0,00087
0,00094
0,00086
0,00092
0,00087
0,00088
0,00087
0,00093
0,00093
0,00090
0,00088
0,00092
0,00090
0,00091
0,00087
T.valor
2,30
3,88
4,37
3,63
4,94
3,48
1,23
4,89
2,78
3,81
2,72
3,76
2,19
2,52
3,73
5,01
4,40
2,73
3,36
4,29
2,77
4,29
3,94
2,88
4,30
3,12
3,07
4,99
2,60
3,52
3,14
1,86
3,00
3,55
2,80
3,99
2,93
4,11
3,39
3,38
2,92
2,54
1,37
4,31
2,42
2,34
Deviance
448,85
458,42
460,66
452,04
423,50
456,11
459,92
448,57
419,04
405,62
406,02
426,10
444,81
468,81
477,93
442,56
380,90
370,92
475,27
433,70
412,19
453,12
459,09
499,29
421,31
395,94
402,50
395,00
468,05
416,66
411,97
403,64
464,69
399,20
430,48
399,54
405,37
399,94
435,20
436,93
420,20
402,12
469,05
419,61
429,39
387,60
CIA
493,62
503,35
506,65
497,16
465,31
501,03
505,60
492,66
460,97
445,92
445,88
467,96
487,78
515,52
524,17
485,50
419,01
407,72
521,60
475,96
453,13
497,25
504,00
548,24
463,83
434,76
442,10
433,30
513,81
457,23
452,52
442,83
510,56
437,35
472,87
438,48
444,79
439,07
478,91
480,56
461,75
442,01
513,90
460,58
471,81
425,64
IC 95%
0,00032313 0,00400137
0,00178074 0,00542472
0,00229759 0,00603593
0,00157256 0,00525467
0,00265960 0,00616344
0,00142605 0,00509822
-0,00069069 0,00299969
0,00271006 0,00633556
0,00073513 0,00424082
0,00163859 0,00511617
0,00067050 0,00411892
0,00165598 0,00525346
0,00021522 0,00381058
0,00052699 0,00424592
0,00165666 0,00533054
0,00276680 0,00632728
0,00210910 0,00549135
0,00064686 0,00396135
0,00134111 0,00508585
0,00210465 0,00564469
0,00072034 0,00421900
0,00215816 0,00579383
0,00183639 0,00546834
0,00089177 0,00468883
0,00210698 0,00563684
0,00102749 0,00450518
0,00097441 0,00440905
0,00261772 0,00600604
0,00060878 0,00431089
0,00139657 0,00491075
0,00104981 0,00454281
-0,00009011 0,00330637
0,00097664 0,00465442
0,00137185 0,00475263
0,00077040 0,00437592
0,00175310 0,00514584
0,00085215 0,00430583
0,00187633 0,00529532
0,00133632 0,00499714
0,00130927 0,00493544
0,00086460 0,00440743
0,00050933 0,00395748
-0,00054421 0,00305913
0,00211524 0,00564355
0,00042191 0,00399156
0,00033285 0,00372777
SIG SIT
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
90
Nº Sim
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
PM10
0,00193858
0,00300194
0,00318978
0,00406354
0,00442076
0,00333704
0,00389280
0,00194541
0,00369613
0,00263157
0,00211533
0,00333219
0,00348864
0,00332111
0,00473525
0,00157384
0,00341638
0,00408298
0,00238371
0,00140533
0,00321762
0,00287094
0,00271538
0,00272155
0,00379296
0,00293413
0,00395948
0,00381660
0,00436942
0,00103229
0,00258541
0,00307543
0,00349085
0,00199160
0,00458380
0,00423997
0,00326522
0,00351439
0,00229473
0,00200110
0,00339499
0,00216608
0,00217614
0,00355361
0,00253338
0,00276674
0,00311592
0,00287480
0,00487969
STD
0,00096
0,00088
0,00088
0,00091
0,00090
0,00091
0,00096
0,00089
0,00096
0,00092
0,00090
0,00089
0,00095
0,00085
0,00090
0,00094
0,00091
0,00092
0,00090
0,00086
0,00094
0,00091
0,00088
0,00085
0,00089
0,00087
0,00090
0,00100
0,00090
0,00089
0,00094
0,00090
0,00092
0,00087
0,00091
0,00087
0,00087
0,00095
0,00085
0,00087
0,00089
0,00086
0,00088
0,00092
0,00091
0,00092
0,00088
0,00089
0,00093
T.valor
2,02
3,40
3,62
4,44
4,90
3,67
4,07
2,18
3,86
2,86
2,35
3,73
3,67
3,90
5,28
1,68
3,77
4,44
2,64
1,62
3,44
3,15
3,08
3,18
4,28
3,38
4,41
3,80
4,83
1,16
2,76
3,40
3,79
2,29
5,04
4,86
3,76
3,71
2,71
2,30
3,80
2,53
2,47
3,86
2,79
3,02
3,52
3,21
5,27
Deviance
475,45
421,63
402,98
426,66
412,96
432,97
467,74
414,28
469,05
427,12
419,93
411,62
458,98
383,60
417,88
455,79
421,72
441,92
431,05
391,32
443,55
420,27
410,32
380,84
403,59
378,08
417,75
527,05
435,30
397,47
465,67
432,02
442,36
401,62
428,41
400,64
405,79
459,41
376,95
399,44
417,09
401,06
399,42
429,70
437,12
438,46
405,28
407,81
449,52
CIA
522,29
462,51
442,88
469,30
454,27
474,90
514,02
454,73
515,66
470,00
461,65
452,80
505,61
421,48
459,48
501,22
462,76
485,62
473,39
430,23
486,96
461,24
450,93
418,16
443,62
416,54
458,75
578,38
477,60
437,46
511,00
474,24
484,94
440,42
470,64
439,91
445,34
504,14
413,63
438,13
457,89
439,46
439,16
472,04
480,75
481,49
445,69
447,75
494,24
IC 95%
0,00005450 0,00382267
0,00126978 0,00473410
0,00146373 0,00491583
0,00227164 0,00585544
0,00265071 0,00619081
0,00155601 0,00511807
0,00201651 0,00576909
0,00019746 0,00369337
0,00182136 0,00557090
0,00082988 0,00443326
0,00035246 0,00387819
0,00158321 0,00508116
0,00162492 0,00535236
0,00165022 0,00499199
0,00297907 0,00649143
-0,00026196 0,00340964
0,00163932 0,00519344
0,00227915 0,00588680
0,00061592 0,00415149
-0,00028980 0,00310046
0,00138302 0,00505222
0,00108681 0,00465507
0,00098490 0,00444586
0,00104666 0,00439644
0,00205634 0,00552958
0,00123510 0,00463315
0,00220086 0,00571811
0,00185055 0,00578264
0,00259813 0,00614071
-0,00070590 0,00277048
0,00075017 0,00442064
0,00130266 0,00484820
0,00168442 0,00529729
0,00028563 0,00369758
0,00280126 0,00636634
0,00252908 0,00595087
0,00156174 0,00496870
0,00165872 0,00537005
0,00063557 0,00395389
0,00029847 0,00370373
0,00164432 0,00514566
0,00048908 0,00384309
0,00045216 0,00390011
0,00174751 0,00535970
0,00075640 0,00431036
0,00096957 0,00456392
0,00138200 0,00484984
0,00112140 0,00462820
0,00306321 0,00669618
SIG SIT
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
91
Nº Sim
96
97
98
99
100
PM10 –
STD –
PM10
0,00423519
0,00305043
0,00418479
0,00343746
0,00349251
STD
0,00086
0,00085
0,00095
0,00090
0,00087
T.valor
4,92
3,57
4,42
3,83
4,02
Deviance
390,01
397,84
474,64
413,11
397,36
CIA
428,37
436,35
520,71
453,98
435,98
IC 95%
0,00254966 0,00592072
0,00137586 0,00472499
0,00232717 0,00604242
0,00167936 0,00519557
0,00178861 0,00519640
estimativa do efeito do PM10.
erro padrão.
T.valor –
valor do teste t associado ao efeito do PM10 .
CIA – Critério de Informação de Akaike.
IC 95% – Intervalo de confiança a 95%.
SIG – Indica 1 quando o parâmetro é estatisticamente significativo sob H0 : β=0.
SIT – Indica 1 quando o valor de referência da simulação está contido no IC.
SIG SIT
1
1
1
1
1
1
1
1
1
1
92
ANEXO VI – IMPLEMENTAÇÃO DA SIMULAÇÃO E DA COMPARAÇÃO
ENTRE AS CLASSES DE MODELOS.
##########################################################################
# Simulação do número de internações hospitalares segundo o cenário considerado #
#
para as covariáveis que compõem o componente sistemático
#
#
- Hugo Simas #
##########################################################################
n<-487
# número de observações: T
N<-100 # número de realizações da simulação
###################################################################
#
Criação dos gráficos para análise dos resíduos:
#
#
Periodograma, PACF, QQPLOT, Ajustado X Tempo e Resíduos X Tempo #
###################################################################
Analise<-function()
{
source( "C:\\Hugo\\Analise\\ResPlot.SSC" )
}
################################################################
# Ajuste da sazonalidade através de polinômio harmônico: seno/co-seno #
#
- Washington #
################################################################
wave<-function(n,k,N)
{
fk<-k/N
wk<-2*pi*fk
s<-numeric(n)
c<-numeric(n)
for (t in 1:n)
{
s[t]<-sin(wk*t)
c[t]<-cos(wk*t)
}
wave<-as.data.frame(cbind(sine=s,cosine=c))
}
###############################
### Procedimento de simulação
###
###############################
simula<-function(N,n,mi)
{
sim<-matrix(0,n,N)
for(j in 1:N)
for (i in 1:n)
sim[i,j]<-rpois(1,mi[i])
simula<-as.data.frame(sim)
}
93
########################################################
# Determinação dos parâmetros do componente sistemático
#
# e geração da série do valor esperado do número diário
#
#
de internações hospitalares
#
########################################################
attach(dados)
ajuste.glm<-glm(ITRESP65~ TEMPO+TEMPO^2
+ wave(n,245,1095)$cosine
+ TUE+WED+THU+FRI+SAT+SUN
+ FERIADO
+ Wetm02+ Wetm02^2
+ Tempmin+Tempmin^2+Tempmin^3
+ Pm10
, family=quasi(link=log,variance="mu"), data=dados, na.action=na.omit,
control=list(epsilon=.0001, maxit=50, trace=T))
sum.hss<-summary(ajuste.glm)
# Sumário da estimação dos parâmetros do modelo
t<-data.frame(sum.hss[["coeff"]])
# Obtenção dos valores dos coeficientes do modelo:t$Value[]
PHI<-round(sum.hss$deviance/sum.hss$df[2],2)
# Cálculo do fator de dispersão
attach(dados)
const<-t$Value[1]
tend<-(t$Value[2]*TEMPO)+(t$Value[3]*TEMPO^2)
saz<-t$Value[4]*wave(n,245,1095)$cosine
semana<-(t$Value[5]*TUE)+(t$Value[6]*WED)+(t$Value[7]*THU)+(t$Value[8]*FRI)+(t$Value[9]*SAT)+(t$Value[10]*SUN)
feriado<-t$Value[11]*FERIADO
umidade<-(t$Value[12]* Wetm02)+(t$Value[13]* Wetm02^2)
temperatura<-(t$Value[14]*Tempmin)+(t$Value[15]*Tempmin^2)+(t$Value[16]*Tempmin^3)
poluente<- t$Value[17]*dados$Pm10
soma<-numeric(n)
for (k in 1:n)
soma[k]<-sum(const,tend[k],saz[k],semana[k],feriado[k],umidade[k],temperatura[k],poluente[k],na.rm=T)
ln.mi<-soma
mi<-exp(ln.mi)
# geração do nº esperado de internações hospitalares
### Simulação das 100 séries do desfecho ###
y1<-data.frame(simula(N,n,mi))
###################################################
# Ajustes dos modelos para as Simulações: MLG
#
###################################################
# Inicialização de variáveis #
PM10<-numeric(N)
STD<-numeric(N)
T.valor<-numeric(N)
Deviance<-numeric(N)
CIA<-numeric(N)
LI<-numeric(N)
LS<-numeric(N)
SIG<-numeric(N)
SIT<-numeric(N)
94
PM<-0.00285088
attach(dados)
for (i in 1:N)
{
last.gam<-glm(y1[,i]~ TEMPO+TEMPO^2
+ wave(n,245,1095)$cosine
+ TUE+WED+THU+FRI+SAT+SUN+FERIADO
+ Wetm02+ Wetm02^2
+ Tempmin+Tempmin^2+Tempmin^3
+ Pm10
, family=poisson, data=dados, na.action=na.omit
, control=list(epsilon=.0001, maxit=50, trace=T))
# Sumário da estimação dos parâmetros do modelo
sum.glm<-summary(last.gam)
est<-data.frame(sum.glm[["coef"]])
Analise()
# Aproximação para o Critério de Informação de Akaike
pres2<-(residuals(last.gam,type="pearson"))^2
Dhat<-sum(pres2)/last.gam$df.residual
# Cálculo do AIC
CIA[i]<-last.gam$deviance+2*Dhat*(length(last.gam$residual)-last.gam$df.residual)
PM10[i]<-est$Value[17]
# Estimação do parâmetro de interesse: efeito do poluente
STD[i]<-est$Std..Error[17]
# Erro Padrão
T.valor[i]<-est$t.value[17]
# T-valor
Deviance[i]<-sum.glm$deviance
# Cálculo da deviance do modelo
LI[i]<-PM10[i]-(1.96*STD[i])
# Limite inferior do IC para o parâmetro de interesse
LS[i]<-PM10[i]+(1.96*STD[i])
# Limite superior do IC para o parâmetro de interesse
Teste<-Mod(T.valor[i])
if ( Teste>=1.96 ) SIG[i]<-1
else SIG[i]<-0
if ( (PM>=LI[i])&&(PM<=LS[i]) )
{
SIT[i]<-1
}
else SIT[i]<-0
rm(pres2,Dhat)
rm(est)
}
Betas1<-data.frame(PM10,STD,T.valor,Deviance,CIA,LI,LS,SIG,SIT)
95
####################################
### Análise geral dos resultados ###
####################################
attach(Betas1)
int.conf(N,Betas1) # construção dos IC 95% para os 100 ajustes
###################################################
# Ajustes dos modelos para as Simulações: MAG
#
###################################################
# Inicialização de variáveis #
PM10<-numeric(N)
STD<-numeric(N)
T.valor<-numeric(N)
Deviance<-numeric(N)
CIA<-numeric(N)
LI<-numeric(N)
LS<-numeric(N)
SIG<-numeric(N)
SIT<-numeric(N)
PM<-0.00285088
attach(dados)
for (i in 1:N)
{
last.gam<-gam(y1[,i]~ s(TEMPO,4)
+ TUE+WED+THU+FRI+SAT+SUN+FERIADO
+ s(Wetm02,3)
+ s(Tempmin,5)
+ Pm10
, family=poisson, data=dados, na.action=na.omit)
# Sumário da estimação dos parâmetros do modelo
sum.gam<-summary.lm(last.gam,correlation=F)
est<-sum.gam$coefficients
sum.gam2<-summary(last.gam)
Analise()
# Aproximação para o Critério de Informação de Akaike
pres2<-(residuals(last.gam,type="pearson"))^2
Dhat<-sum(pres2)/last.gam$df.residual
96
# Cálculo do AIC
CIA[i]<-last.gam$deviance+2*Dhat*(length(last.gam$residual)-last.gam$df.residual)
PM10[i]<-est[12,1]
# Estimação do parâmetro de interesse: efeito do poluente
STD[i]<-est[12,2]
# Erro Padrão
T.valor[i]<-est[12,3]
# T-valor
Deviance[i]<-sum.gam2$deviance
# Cálculo da deviance do modelo
LI[i]<-PM10[i]-(1.96*STD[i])
# Limite inferior do IC para o parâmetro de interesse
LS[i]<-PM10[i]+(1.96*STD[i])
# Limite superior do IC para o parâmetro de interesse
Teste<-Mod(T.valor[i])
if ( Teste>=1.96 ) SIG[i]<-1
else SIG[i]<-0
if ( (PM>=LI[i])&&(PM<=LS[i]) )
{
SIT[i]<-1
}
else SIT[i]<-0
rm(pres2,Dhat)
rm(est)
}
Betas2<-data.frame(PM10,STD,T.valor,Deviance,CIA,LI,LS,SIG,SIT)
# Resultados pelo Modelo GAM
attach(Betas2)
int.conf (N,Betas2)
# construção dos IC 95% para os 100 ajustes
################################################
### Comparação das estimativas do
modelos
###
################################################
comp<-data.frame(Betas1$PM10,Betas2$PM10)
boxplot(comp)
abline(h=PM)
97
ANEXO VII – ANÁLISE DESCRITIVA DAS VARIÁVEIS DA ILUSTRAÇÃO
Figura XI – Histograma distribuição dos óbitos por doença do aparelho respiratório entre
idosos no Rio de Janeiro no período em estudo.
0
20
40
60
80
100
Mortalidade por Doença do Aparelho Respiratório em indivíduos acima dos 65 anos
5
10
15
20
25
Figura XII – Séries das covariáveis em análise (temperatura, umidade e PM10 ). Dados
Temperatura
1618 20 22 24 26
diários 2000-2001.
01/09/00
01/12/00
01/03/01
01/06/01
01/09/01
01/12/01
01/06/01
01/09/01
01/12/01
01/06/01
01/09/01
01/12/01
Umidade
65 70 75 80 85 90
Data
01/09/00
01/12/00
01/03/01
100 140
60
20
PM10
Data
01/09/00
01/12/00
01/03/01
Data
98
Figura XIII – Matriz de correlação das variáveis em análise.Dados diários 2000-2001.
MDAR65
26.86
tmpmin2
14.9
wetm02
150.5
PM10
20
3
27
64.1105
92.6136
OBS: MDAR65 é a variável associada à mortalidade por DAR entre indivíduos com 65 anos de idade ou
mais. (Gráfico realizado no Stata 7)
99
ANEXO VIII – ANÁLISE DOS RESÍDUOS DO AJUSTE POR MODELO LINEAR
GENERALIZADO
Figura XIV – Função de autocorrelação parcial da série de resíduos do modelo central.
0.00
-0.05
-0.10
Partial ACF
0.05
Series : residuals(last.gam, "deviance")
0
5
10
15
20
25
30
Lag
MDAR65 ~ TEMPO + TEMPO^2 + TEMPO^3 + wave(n, 3.27, 1095)$cosine +
wave(n, 3.27, 1095)$sine + wave(n, 3.27, 180)
cosine + wave(n, 2.66, 1095)$cosine + TUE + WED
Figura XV – Periodograma da série de resíduos do modelo central.
Periodogram
6.28
3.14
2.09
0
2
I(omega)
4
6
487
0.0
0.5
1.0
1.5
2.0
2.5
Angular frequency (rads.) (top axis is period in days)
THU + FRI + SAT + SUN + fer.pos + fer.neg +
3.0
100
Figura XVI –
Quartis dos resíduos do modelo central versus os quartis da distribuição
Normal.
0
-1
-3
-2
Deviance residuals
1
2
3
Deviance Residuals Normal Q-Q Plot
-3
-2
-1
0
1
2
3
Standard Normal Quantiles
Figura XVII – Resíduos do modelo central versus o tempo. As linhas em vermelho na
0
-2
-4
resid(last.gam, "deviance")
2
4
horizontal referem-se aos valores 3 e –3.
01/09/00
01/12/00
01/03/01
01/06/01
dod
01/09/01
01/12/01
101
ANEXO IX – ANÁLISE DOS RESÍDUOS DO AJUSTE POR MODELO ADITIVO
GENERALIZADO
Figura XVIII – Função de autocorrelação parcial da série de resíduos do modelo central.
0.00
-0.10
-0.05
Partial ACF
0.05
Series : residuals(last.gam, "deviance")
0
5
10
15
20
25
30
Lag
MDAR65 ~ s(TEMPO, 6) + TUE + WED + THU + FRI + SAT + SUN +
fer.pos + fer.neg + s(tmpmin2, 7) + s
wetm02, 5)Mon Mar 10 19:14:05 200
Figura XIX – Periodograma da série de resíduos do modelo central.
Periodogram
6.28
3.14
2.09
3
2
1
0
I(omega)
4
5
6
487
0.0
0.5
1.0
1.5
2.0
2.5
Angular frequency (rads.) (top axis is period in days)
3.0
102
Figura XX –
Quartis dos resíduos do modelo central versus os quartis da distribuição
Normal.
0
-1
-3
-2
Deviance residuals
1
2
Deviance Residuals Normal Q-Q Plot
-3
-2
-1
0
1
2
3
Standard Normal Quantiles
Figura XXI – Resíduos do modelo central versus o tempo. As linhas em vermelho na
0
-2
-4
resid(last.gam, "deviance")
2
4
horizontal referem-se aos valores 3 e –3.
01/09/00
01/12/00
01/03/01
01/06/01
dod
01/09/01
01/12/01
103
ANEXO X – ANÁLISE DESCRITIVA DOS RESÍDUOS DOS MODELOS
AJUSTADOS
Tabela 5 – Estatísticas do resíduo do modelo.
Medidas descritivas
Mínimo
Percentil 25
Percentil 50
Percentil 75
Média
Máximo
Classe de Modelos
MLG
-3,107
-0,757
-0,033
0,651
-0,053
3,092
MAG
-2,794
-0,760
-0,041
0,626
-0,057
2,618
-3
-2
-1
0
1
2
3
Figura XXII – Diagrama de caixa dos resíduos do modelo central.
MLG
MAG
104
ANEXO XI – RESULTADOS DOS AJUSTES
15
5
10
(last.gam$y)
20
25
Figura XXIII – Ajustado através de modelo linear generalizado.
01/09/00
01/12/00
01/03/01
01/06/01
01/09/01
01/12/01
dod
15
10
5
(last.gam$y)
20
25
Figura XXIV – Ajustado através de modelo aditivo generalizado.
01/09/00
01/12/00
01/03/01
01/06/01
dod
01/09/01
01/12/01
105
ANEXO XII - CORRELAÇÃO DAS COVARIÁVEIS DO CENÁRIO SIMULADO.
Tabela 6 – Matriz dos coeficientes de correlação de Pearson
para as covariáveis em análise.
tmpmin2
wetm02
PM
*
tmpmin2
1.0000
-0.0597*
-0.1247*
wetm02
PM10
1.0000
-0.1089*
1.0000
p > 0,05
tmpmin2 – temperatura mínima de dois dias antes.
wetm02 – média móvel da umidade relativa do ar entre os valores
correntes e de dois dias antes.
106
ANEXO XIII - TÉCNICAS PARA O CONTROLE DE FATORES DE CONFUSÃO
O spline cúbico (Cubic splines / Cubic smoothing splines) refere-se a um método de
regressão não paramétrico devido ao fato de não supor uma forma funcional específica na
relação entre uma variável dependente (Y) e a explicativa (X). O interesse principal é
buscar uma melhor estimativa para os valores de variável resposta que são sumarizados na
relação entre Y e X, enquanto os parâmetros que descrevem a equação do spline cúbico
não são de interesse.
De forma geral o método consiste em dividir a variável em intervalos (“janelas”)
predefinidos e ajustar um polinômio, em geral cúbico, para cada intervalo com restrição de
que os polinômios se juntam a partir de nós, de forma suave (esta condição é garantida via
a 2ª derivada da função suave).
A estimação do spline cúbico (suavizador linear) se baseia em: entre todas funções
f(x) que possui segunda derivada, busca-se a função fˆ ( x ) que minimizar a soma dos
quadrado dos resíduos penalizados, dado pela equação:
∑ [y
n
i =1
− f ( x i ) ] + λ ∫ [ f ′′( x ) ] dx
2
i
b
2
a
Onde λ é o parâmetro de suavização (parâmetro fixo) e [a,b] é o intervalo arbitrário
que contém os valores da variável de suavização x.
O primeiro termo da equação refere-se a soma dos quadrados dos resíduos enquanto
o segundo termo é uma penalização à curva de suavização (medida de suavização), de
forma que:
ü O parâmetro de suavização tem o mesmo sentido do span em uma regressão
local (Loess): determinar uma proporção de pontos que farão parte da
vizinhança (janela) para a construção da função suavizadora. Portanto, existe
uma evidente relação entre o tamanho da janela a ser utilizada nos cálculos
dos valores suavizados para cada ponto em particular e o valor do parâmetro
suavizador λ, isto é: regula o tamanho da janela.
ü Quanto maior o valor do parâmetro de suavização, maior é o tamanho da
janela de ajuste e mais suave é a função suavizadora. Quanto menor o seu
107
valor, menos suave será a curva de suavização: a curva é mais sinuosa (pode
ocorrer uma superestimação).
ü Para λ→∞,
fˆ ( x ) do termo de penalidade é selecionado de forma que
f ′′( x ) = 0 para todo o intervalo dos dados. A solução é obtida pela reta de
mínimos quadrados (equivale uma regressão local com uma vizinhança de
tamanho infinito).
ü Para λ→0, o termo de penalidade perde a sua importância e a solução tende a
uma função de interpolação (similar a uma regressão local com span=1/n).
Nota-se que o a curva suavizadora via o ajuste por splines cúbicos depende da
escolha do parâmetro de suavização, o que não é uma tarefa simples. Alguns métodos para
a avaliação da escolha do parâmetro (ou escolha do tamanho da janela) são sugeridos em
Hastie (1989) e aplicados na em investigações a respeito do impacto da poluição
atmosférica na saúde coletiva: inspeção gráfica, critério de informação de Akaike, crossvalidation, trade-off, etc.
Entre as funções paramétricas, uma das técnicas utilizada para de controle dos fatores
de confusão é um ajuste via polinômio harmônico, ou seja, uma combinação linear de
senos e co-senos com coeficientes constantes, da forma:
p

2πn
2πn 
f (t ) = ∑ α n cos
t + β n sen
t
p
p 
n =1 
Onde f (t ) tem período p , t é o instante do tempo (t=1,2,..., T) e, α n e β n são os
coeficientes.
Nos estudos epidemiológicos de séries temporais, o ajuste das covariáveis relativas
ao efeito de calendário é realizado apenas por técnicas paramétricas, pois estas são
variáveis indicadoras (dummys) no modelo.
Download

1Antes do texto - Instituto de Medicina Social