Simpósio de Geoestatística Aplicada em Ciências Agrárias
14 e 15 de mai o de 2009
Botucatu-SP
GEOMEDICINA - CASOS DE CÂNCER DE FÍGADO NOS MUNICÍPIOS DO ESTADO
DO PARANÁ
Gledson Luiz Picharski¹, Paulo Justiniano Ribeiro Junior ², Silvia Emiko Shimakura³,
Edicleia Furlanetto4
¹Graduando em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR,
[email protected]
²PhD em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected]
³Doutora em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected]
4
Graduanda em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected]
Resumo – Em geomedicina procura-se investigar relações entre estruturas da geologia e doenças
humanas. No presente trabalho buscou-se delinear metodologias estatísticas para investigar a associação
de teores de elementos químicos medidos em amostras coletadas em bacias do Estado do Paraná com
óbitos de indivíduos com diagnóstico de câncer de fígado. Modelos estatísticos apropriados para explorar
estas relações podem considerar a espacialidade das informações. Em particular, utilizaram-se modelos
lineares generalizados (GLM) e modelos aditivos generalizados (GAM), em que o número de casos da
neoplasia é modelado pelos com os teores dos elementos químicos. A modelagem exige a compatibilidade
das observações pontuais dos elementos químicos com os dados agregados por município de contagem do
número de óbitos. Para isto são utilizados métodos de modelagem e predição geoestatística dos elementos
químicos em uma escala apropriada. As análises permitiram identificar elementos associados a mortes por
câncer de fígado identificando a forma adequada para modelagem do efeito.
Palavras chave: neoplasias, geoestatística.
GEOMEDICINE - CASES OF LIVER CANCER IN THE MUNICIPALITIES OF PARANÁ STATE
Abstract – Geomedicine seeks to investigate the relationship between geological structures and human
diseases. In the present study sought to delineate statistical methodologies to investigate the association of
levels of chemical elements measured in samples collected in basins of the State of Paraná, with deaths of
people diagnosed with liver cancer. Statistical models are appropriate for exploring these relationships, can
be considered the spatial information. In particular, it was used generalized linear models (GLM) and
generalized additive models (GAM), which is modeled the number of cases of cancer with the levels of
chemical elements. The modeling requires the compatibility of specific observations of the chemical
elements with data aggregated by county of the number of deaths. Methods are used for this modeling and
geostatistical prediction of the chemical elements in an appropriate scale. The analysis identified factors
associated with deaths of liver cancer by identifying the appropriate model for the effect.
Keywords: cancer, geostatistics.
Introdução
Este trabalho tem por objetivo apresentar a proposta metodológica com aplicação à análise de dados no
contexto de Geomedicina em que se busca estudar associação entre informações geológicas com as
ocorrências de doenças.
Sendo as doenças tipicamente registradas como contagens, sejam de número de casos ou óbitos, é
intuitivo pensar no uso da distribuição de Poisson para a variável resposta. Os teores de elementos
químicos, sendo variáveis explicativas, podem ou não mostrar associação com os casos, de acordo com o
identificado pela composição geral do modelo ou possíveis transformações nestas covariáveis. Assim, fazse o uso de modelos lineares generalizados (GLM) e de modelos aditivos generalizados (GAM) para
modelar taxas de mortalidades padronizadas por municípios do Paraná pela medida de diversos elementos
químicos tomadas em bacias hidrográficas do estado. Em um processo exploratório, para validação e
entendimento das covariáveis e predição de teores de exposição por município, é feita a análise
geoestatística utilizando métodos usuais na área como variogramas, estimação por máxima
ISBN: 978-85-98187-19-8
1
Simpósio de Geoestatística Aplicada em Ciências Agrárias
14 e 15 de mai o de 2009
Botucatu-SP
verossimilhança e predição espacial em uma malha de krigagem, sendo estes, um conjunto de ferramentas
que se mostraram adequadas à descrição espacial dos elementos de interesse.
Material e Métodos
As medidas de elementos químicos foram fornecidas por um estudo detalhado com medições realizadas
pela MINEROPAR em 698 pontos do Estado do Paraná. Para verificar e entender a influência dos teores
de elementos químicos sobre o óbito causado pelo câncer de fígado busca-se primeiramente estudar as
covariáveis. Foram utilizadas medidas de teores nas águas da quantidade de Nitrato, Nitrito, Teor de
Acidez, Zinco, Bromo, Sódio, Ferro, Alumínio, Fosfato, Magnésio, Manganês, Cálcio, Condutibilidade, entre
outros. Para cada elemento foi conduzida uma análise geoestatística com os parâmetros estimados pela
maximização da função de verossimilhança do modelo adotado. Com uma malha de predição obtida por
krigagem se constrói uma grade que descreve de forma suavizada o padrão espacial de cada elemento
sobre a região de estudo.
Os dados sobre óbitos de indivíduos com câncer de fígado nos municípios do Paraná no ano de 2004
foram obtidos do DATASUS. Para que se tenha em cada município um valor representativo de cada um dos
teores de elementos químicos, utiliza-se novamente a krigagem com predições nos centróides dos
municípios. Duas classes de modelos são utilizadas para descrever os números de óbitos, o GAM e o GLM.
A diferença entre eles está basicamente em que o GAM pode possuir um componente de suavização em
cada uma das cováriaveis. Os modelos são resumidos pelas equações:
Y ~ Poisson
GLM : g(θ( = β0 + ∑ βi X i
e
GAM : g(θ( = β0 + ∑ S i (X i )
Para dados agregados em número de casos por município tem-se que Yi =
∑Y
ij
~ P(E i θi ) , e θ i é
a razão de mortalidade padronizada (SMR).
Com isso, ainda de forma exploratória, ajustaram-se inicialmente modelos para cada elemento químico
individualmente, a fim de estudar a relação marginal de cada um com a variável de interesse. Num passo
posterior os diversos elementos são colocados conjuntamente no modelo, podendo-se utilizar um GLM com
transformações das covariáveis sugeridas pelos ajustes dos GAM's e podendo-se ainda conduzir uma
seleção de variáveis.
Pode-se usar do georeferenciamento das informações para empregar um modelo espacial, ou ao menos
fazer alguma consideração quanto a dispersão espacial dos dados. Assim, no GAM, pode-se acrescentar
um componente espacial por funções suavizadoras (splines) das coordenadas como covariáveis adicionais
o que permite avaliar a relevância da espacialidade dos dados para a análise. Uma outra forma de verificar
a importância do componente espacial para o modelo, é usar o variograma de resíduos dos modelos ou o
ajuste de um modelo espacial explícito.
Para a aplicação de tais métodos, utilizou-se o ambiente R de análises estatísticas e os pacotes sp;
para representar a estrutura dos dados de área e de pontos; geoR para análises geoestatísticas; splancs
para verificar a colocação dos pontos dentro de cada município; e mgcv para ajuste do modelo GAM.
Resultados e discussão
Nas análises geoestatísticas verificou-se inicialmente a dispersão dos dados no espaço. Como
demonstrado na página virtual do projeto (PICHARSKI, 2009), usou-se um gráfico padrão (Figura 1) dos
pontos dispersos na região, um gráfico dos valores pelas coordenadas e um histograma em conjunto com
um gráfico do perfil de verossimilhança do parâmetro da transformação boxcox (Figura 2). O variograma
com parâmetros estimados por máxima verossimilhança pode ser visto na Figura 3 e na Figura 4 a
suavização por krigagem do elemento químico. Análises semelhantes são efetuadas para cada elemento.
ISBN: 978-85-98187-19-8
2
Simpósio de Geoestatística Aplicada em Ciências Agrárias
14 e 15 de mai o de 2009
Botucatu-SP
Figura 1. Dispersão do Teor de Potássio.
Figura 3. Variograma do teor de Potássio.
Figura 2. Transformação BoxCox.
Figura 4. Mapa suavizado do Teor de Potássio.
Após a avaliação das relações entre a variável resposta com cada covariável, e análise geoestatística de
cada um dos teores de elementos químicos, construiu um modelo com as transformações adequadas.
Vários modelos seriam possíveis, mas os ajustes individuais fornecem uma boa indicação a respeito das
transformações necessárias de cada covariável em um modelo composto por alguma combinação destas.
O uso dos splines foi útil para construção do modelo, mas ocasionou um excesso do número de
parâmetros. Ao ajustar o modelo seguinte com o uso do GAM e suavização em todas as variáveis
explicativas obteve-se 102 parâmetros, o que não é desejável no modelo final. As tabelas 1 e 2 mostras os
resultados do modelo ajustado.
obitos ~ offset( loge) + s( CA ) + s( log(PO 4 )) + s( log(MN)) + s( log(NA)) + s( log(RS))+ s( log(CL))
+ s( log(SO 4 )) + s( log(PH)) + s(longitude,latitude)
Tabela 1. Estimativas dos parâmetros de acordo com o modelo GAM
Intercepto
ISBN: 978-85-98187-19-8
Parâmetro
-0,28283
Erro padrão
0,09609
Valor z
-2,943
P-valor
0,00325 **
3
Simpósio de Geoestatística Aplicada em Ciências Agrárias
14 e 15 de mai o de 2009
Botucatu-SP
Tabela 2. Estimativas dos parâmetros de acordo com o modelo GAM
GL
s(sqrt(CA))
s(log(PO4))
s(log(MN))
s(log(NA.))
s(log(SR))
s(log(CL))
s(log(SO4))
s(log(PH))
s(LONGITUDE,LA
TITUDE)
8,686
8,300
6,089
6,307
7,956
6,605
6,870
1,847
28,999
Resíduo estimado
8,686
8,300
6,089
6,307
7,956
6,605
6,870
1,847
28,999
Qui-quadrado
28,638
22,465
12,940
11,505
36,316
28,783
11,168
0,999
104,926
p-valor
0,000601***
0,004972 **
0,046211 *
0,086128 .
0,0000148***
0,000114 ***
0,124418
0,568182
1,57e-10 ***
significância: 0 ‘***’, 0.001’**’, 0.01’*’, 0.05’.’
Percebendo que as covariáveis transformadas apresentam comportamento aproximadamente linear
substituiu-se então todas as suavizações por transformações adequadas em um GLM conforme mostrado a
seguir, reduzindo drasticamente o número de parâmetros do modelo. Os resultados do ajuste são
mostrados na Tabela 3.
Tabela 3. Estimativas dos parâmetros de acordo com o modelo GLM
Intercepto
sqrt(CA)
log(PO4)
log(MN)
log(NA.)
log(SR)
log(CL)
log(SO4)
log(PH)
Graus de Liberdade
estimado
-107,7147
-0,5003
1,1470
-22,2330
-2,3944
1,2413
0,4277
0,3940
16,8772
Resíduo
estimado
55,7410
0,6107
0,3521
15,1567
0,8306
0,6201
0,2912
0,2516
6,5028
Qui-quadrado
-1,932
-0,819
3,257
-1,467
-2,883
2,002
1,469
1,566
2,595
p-valor
0,05331 .
0,41265
0,00112 **
0,14241
0,00394 **
0,04531 *
0,14186
0,11732
0,00945**
significância: 0 ‘***’, 0.001’**’, 0.01’*’, 0.05’.’
Conclusão
A modelagem utilizada combinando métodos geoestatísticos, GLM e GAM, permitiu estudar relações e
variações de taxas padronizadas de óbitos por câncer de fígado. A dispersão espacial da doença remete ao
uso desta informação para melhor estimar o modelo. Verificou-se que o componente espacial foi
significativo no fenômeno em estudo. O componente espacial demonstra a existência de fatores que
influenciam nas taxas de óbito não capturados apenas pelas covariáveis utilizadas nos modelos.
As diversas técnicas estatísticas contribuiram para o entendimento de diversos fenômenos, em especial,
pode-se perceber neste estudo, a influência dos elementos químicos nos óbitos por câncer de fígado nos
municípios do Paraná. O uso de cada técnica vem apoiado numa série de propriedades. Dentre os modelos
estudados neste trabalho, observou-se que o GLM, sem as suavizações nas covariáveis e com componente
espacial, apresentou melhor resultado, indicando que óbitos por câncer de fígado podem associados aos
teores dos elementos químicos estudados no modelo possívelmente com uma variação residual
espacialmente estruturada a ser relacionadas a outros fatores.
ISBN: 978-85-98187-19-8
4
Simpósio de Geoestatística Aplicada em Ciências Agrárias
14 e 15 de mai o de 2009
Botucatu-SP
Agradecimentos
Agradecemos a equipe do Geomedicina do Instituto de Pesquisa Pele Pequeno Príncipe pelas
discussões e fornecimento dos dados, em especial Professor Bonald Cavalcante de Figueiredo, Humberto
Ibãnez e Otavio Augusto Boni Licht.
Referências
DIGGLE, P.J. & Ribeiro Jr, P. J. Model Based Geostatistics, Springer, 2007.
DOBSON, A. J. An Introduction to generalized linear models. 3.ed. CRC Press, 2008.
ROWLINGSON, B.; DIGGLE, P. Adapted, packaged for R by Roger Bivand, pcp functions by Giovanni
Petris and goodness of fit by Stephen Eglen (2008). splancs: Spatial and Space-Time Point Pattern Analysis.
R package version 2.01-24,http://www.maths.lancs.ac.uk/~rowlings/Splancs/
RIBEIRO Jr, P. J.; DIGGLE, P. geoR:a package for geostatistical analysis, R News1(2):15-18.June,
2001.
PEBESMA, E.J., BIVAND, R.S. 2005. Classes and methods for spatial data in R. R News 5 (2).
PICHARSKI, G. L. Análise Geoestatística de Elementos Químicos Coletados em Águas Superficiais.
Disponível em: <http:www.leg.ufpr.br/~gledson/geoquim>. Acesso em : 30/03/2009.
SCHABENBERGER, O.; GOTWAY. C. A. Statistical Methods for Spatial Data Analysis. Chapman & Hall,
2005.
WOOD, S.N. Stable and efficient multiple smoothing parameter estimation for generalized additive
models.Journal of the American Statistical Association. 99:673-686, 2004.
ISBN: 978-85-98187-19-8
5
Download

casos de câncer de fígado nos municípios do estado do paraná