Simpósio de Geoestatística Aplicada em Ciências Agrárias 14 e 15 de mai o de 2009 Botucatu-SP GEOMEDICINA - CASOS DE CÂNCER DE FÍGADO NOS MUNICÍPIOS DO ESTADO DO PARANÁ Gledson Luiz Picharski¹, Paulo Justiniano Ribeiro Junior ², Silvia Emiko Shimakura³, Edicleia Furlanetto4 ¹Graduando em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected] ²PhD em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected] ³Doutora em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected] 4 Graduanda em Estatística, UFPR/LEG, Centro Politécnico, Jd das Américas, Curitiba-PR, [email protected] Resumo – Em geomedicina procura-se investigar relações entre estruturas da geologia e doenças humanas. No presente trabalho buscou-se delinear metodologias estatísticas para investigar a associação de teores de elementos químicos medidos em amostras coletadas em bacias do Estado do Paraná com óbitos de indivíduos com diagnóstico de câncer de fígado. Modelos estatísticos apropriados para explorar estas relações podem considerar a espacialidade das informações. Em particular, utilizaram-se modelos lineares generalizados (GLM) e modelos aditivos generalizados (GAM), em que o número de casos da neoplasia é modelado pelos com os teores dos elementos químicos. A modelagem exige a compatibilidade das observações pontuais dos elementos químicos com os dados agregados por município de contagem do número de óbitos. Para isto são utilizados métodos de modelagem e predição geoestatística dos elementos químicos em uma escala apropriada. As análises permitiram identificar elementos associados a mortes por câncer de fígado identificando a forma adequada para modelagem do efeito. Palavras chave: neoplasias, geoestatística. GEOMEDICINE - CASES OF LIVER CANCER IN THE MUNICIPALITIES OF PARANÁ STATE Abstract – Geomedicine seeks to investigate the relationship between geological structures and human diseases. In the present study sought to delineate statistical methodologies to investigate the association of levels of chemical elements measured in samples collected in basins of the State of Paraná, with deaths of people diagnosed with liver cancer. Statistical models are appropriate for exploring these relationships, can be considered the spatial information. In particular, it was used generalized linear models (GLM) and generalized additive models (GAM), which is modeled the number of cases of cancer with the levels of chemical elements. The modeling requires the compatibility of specific observations of the chemical elements with data aggregated by county of the number of deaths. Methods are used for this modeling and geostatistical prediction of the chemical elements in an appropriate scale. The analysis identified factors associated with deaths of liver cancer by identifying the appropriate model for the effect. Keywords: cancer, geostatistics. Introdução Este trabalho tem por objetivo apresentar a proposta metodológica com aplicação à análise de dados no contexto de Geomedicina em que se busca estudar associação entre informações geológicas com as ocorrências de doenças. Sendo as doenças tipicamente registradas como contagens, sejam de número de casos ou óbitos, é intuitivo pensar no uso da distribuição de Poisson para a variável resposta. Os teores de elementos químicos, sendo variáveis explicativas, podem ou não mostrar associação com os casos, de acordo com o identificado pela composição geral do modelo ou possíveis transformações nestas covariáveis. Assim, fazse o uso de modelos lineares generalizados (GLM) e de modelos aditivos generalizados (GAM) para modelar taxas de mortalidades padronizadas por municípios do Paraná pela medida de diversos elementos químicos tomadas em bacias hidrográficas do estado. Em um processo exploratório, para validação e entendimento das covariáveis e predição de teores de exposição por município, é feita a análise geoestatística utilizando métodos usuais na área como variogramas, estimação por máxima ISBN: 978-85-98187-19-8 1 Simpósio de Geoestatística Aplicada em Ciências Agrárias 14 e 15 de mai o de 2009 Botucatu-SP verossimilhança e predição espacial em uma malha de krigagem, sendo estes, um conjunto de ferramentas que se mostraram adequadas à descrição espacial dos elementos de interesse. Material e Métodos As medidas de elementos químicos foram fornecidas por um estudo detalhado com medições realizadas pela MINEROPAR em 698 pontos do Estado do Paraná. Para verificar e entender a influência dos teores de elementos químicos sobre o óbito causado pelo câncer de fígado busca-se primeiramente estudar as covariáveis. Foram utilizadas medidas de teores nas águas da quantidade de Nitrato, Nitrito, Teor de Acidez, Zinco, Bromo, Sódio, Ferro, Alumínio, Fosfato, Magnésio, Manganês, Cálcio, Condutibilidade, entre outros. Para cada elemento foi conduzida uma análise geoestatística com os parâmetros estimados pela maximização da função de verossimilhança do modelo adotado. Com uma malha de predição obtida por krigagem se constrói uma grade que descreve de forma suavizada o padrão espacial de cada elemento sobre a região de estudo. Os dados sobre óbitos de indivíduos com câncer de fígado nos municípios do Paraná no ano de 2004 foram obtidos do DATASUS. Para que se tenha em cada município um valor representativo de cada um dos teores de elementos químicos, utiliza-se novamente a krigagem com predições nos centróides dos municípios. Duas classes de modelos são utilizadas para descrever os números de óbitos, o GAM e o GLM. A diferença entre eles está basicamente em que o GAM pode possuir um componente de suavização em cada uma das cováriaveis. Os modelos são resumidos pelas equações: Y ~ Poisson GLM : g(θ( = β0 + ∑ βi X i e GAM : g(θ( = β0 + ∑ S i (X i ) Para dados agregados em número de casos por município tem-se que Yi = ∑Y ij ~ P(E i θi ) , e θ i é a razão de mortalidade padronizada (SMR). Com isso, ainda de forma exploratória, ajustaram-se inicialmente modelos para cada elemento químico individualmente, a fim de estudar a relação marginal de cada um com a variável de interesse. Num passo posterior os diversos elementos são colocados conjuntamente no modelo, podendo-se utilizar um GLM com transformações das covariáveis sugeridas pelos ajustes dos GAM's e podendo-se ainda conduzir uma seleção de variáveis. Pode-se usar do georeferenciamento das informações para empregar um modelo espacial, ou ao menos fazer alguma consideração quanto a dispersão espacial dos dados. Assim, no GAM, pode-se acrescentar um componente espacial por funções suavizadoras (splines) das coordenadas como covariáveis adicionais o que permite avaliar a relevância da espacialidade dos dados para a análise. Uma outra forma de verificar a importância do componente espacial para o modelo, é usar o variograma de resíduos dos modelos ou o ajuste de um modelo espacial explícito. Para a aplicação de tais métodos, utilizou-se o ambiente R de análises estatísticas e os pacotes sp; para representar a estrutura dos dados de área e de pontos; geoR para análises geoestatísticas; splancs para verificar a colocação dos pontos dentro de cada município; e mgcv para ajuste do modelo GAM. Resultados e discussão Nas análises geoestatísticas verificou-se inicialmente a dispersão dos dados no espaço. Como demonstrado na página virtual do projeto (PICHARSKI, 2009), usou-se um gráfico padrão (Figura 1) dos pontos dispersos na região, um gráfico dos valores pelas coordenadas e um histograma em conjunto com um gráfico do perfil de verossimilhança do parâmetro da transformação boxcox (Figura 2). O variograma com parâmetros estimados por máxima verossimilhança pode ser visto na Figura 3 e na Figura 4 a suavização por krigagem do elemento químico. Análises semelhantes são efetuadas para cada elemento. ISBN: 978-85-98187-19-8 2 Simpósio de Geoestatística Aplicada em Ciências Agrárias 14 e 15 de mai o de 2009 Botucatu-SP Figura 1. Dispersão do Teor de Potássio. Figura 3. Variograma do teor de Potássio. Figura 2. Transformação BoxCox. Figura 4. Mapa suavizado do Teor de Potássio. Após a avaliação das relações entre a variável resposta com cada covariável, e análise geoestatística de cada um dos teores de elementos químicos, construiu um modelo com as transformações adequadas. Vários modelos seriam possíveis, mas os ajustes individuais fornecem uma boa indicação a respeito das transformações necessárias de cada covariável em um modelo composto por alguma combinação destas. O uso dos splines foi útil para construção do modelo, mas ocasionou um excesso do número de parâmetros. Ao ajustar o modelo seguinte com o uso do GAM e suavização em todas as variáveis explicativas obteve-se 102 parâmetros, o que não é desejável no modelo final. As tabelas 1 e 2 mostras os resultados do modelo ajustado. obitos ~ offset( loge) + s( CA ) + s( log(PO 4 )) + s( log(MN)) + s( log(NA)) + s( log(RS))+ s( log(CL)) + s( log(SO 4 )) + s( log(PH)) + s(longitude,latitude) Tabela 1. Estimativas dos parâmetros de acordo com o modelo GAM Intercepto ISBN: 978-85-98187-19-8 Parâmetro -0,28283 Erro padrão 0,09609 Valor z -2,943 P-valor 0,00325 ** 3 Simpósio de Geoestatística Aplicada em Ciências Agrárias 14 e 15 de mai o de 2009 Botucatu-SP Tabela 2. Estimativas dos parâmetros de acordo com o modelo GAM GL s(sqrt(CA)) s(log(PO4)) s(log(MN)) s(log(NA.)) s(log(SR)) s(log(CL)) s(log(SO4)) s(log(PH)) s(LONGITUDE,LA TITUDE) 8,686 8,300 6,089 6,307 7,956 6,605 6,870 1,847 28,999 Resíduo estimado 8,686 8,300 6,089 6,307 7,956 6,605 6,870 1,847 28,999 Qui-quadrado 28,638 22,465 12,940 11,505 36,316 28,783 11,168 0,999 104,926 p-valor 0,000601*** 0,004972 ** 0,046211 * 0,086128 . 0,0000148*** 0,000114 *** 0,124418 0,568182 1,57e-10 *** significância: 0 ‘***’, 0.001’**’, 0.01’*’, 0.05’.’ Percebendo que as covariáveis transformadas apresentam comportamento aproximadamente linear substituiu-se então todas as suavizações por transformações adequadas em um GLM conforme mostrado a seguir, reduzindo drasticamente o número de parâmetros do modelo. Os resultados do ajuste são mostrados na Tabela 3. Tabela 3. Estimativas dos parâmetros de acordo com o modelo GLM Intercepto sqrt(CA) log(PO4) log(MN) log(NA.) log(SR) log(CL) log(SO4) log(PH) Graus de Liberdade estimado -107,7147 -0,5003 1,1470 -22,2330 -2,3944 1,2413 0,4277 0,3940 16,8772 Resíduo estimado 55,7410 0,6107 0,3521 15,1567 0,8306 0,6201 0,2912 0,2516 6,5028 Qui-quadrado -1,932 -0,819 3,257 -1,467 -2,883 2,002 1,469 1,566 2,595 p-valor 0,05331 . 0,41265 0,00112 ** 0,14241 0,00394 ** 0,04531 * 0,14186 0,11732 0,00945** significância: 0 ‘***’, 0.001’**’, 0.01’*’, 0.05’.’ Conclusão A modelagem utilizada combinando métodos geoestatísticos, GLM e GAM, permitiu estudar relações e variações de taxas padronizadas de óbitos por câncer de fígado. A dispersão espacial da doença remete ao uso desta informação para melhor estimar o modelo. Verificou-se que o componente espacial foi significativo no fenômeno em estudo. O componente espacial demonstra a existência de fatores que influenciam nas taxas de óbito não capturados apenas pelas covariáveis utilizadas nos modelos. As diversas técnicas estatísticas contribuiram para o entendimento de diversos fenômenos, em especial, pode-se perceber neste estudo, a influência dos elementos químicos nos óbitos por câncer de fígado nos municípios do Paraná. O uso de cada técnica vem apoiado numa série de propriedades. Dentre os modelos estudados neste trabalho, observou-se que o GLM, sem as suavizações nas covariáveis e com componente espacial, apresentou melhor resultado, indicando que óbitos por câncer de fígado podem associados aos teores dos elementos químicos estudados no modelo possívelmente com uma variação residual espacialmente estruturada a ser relacionadas a outros fatores. ISBN: 978-85-98187-19-8 4 Simpósio de Geoestatística Aplicada em Ciências Agrárias 14 e 15 de mai o de 2009 Botucatu-SP Agradecimentos Agradecemos a equipe do Geomedicina do Instituto de Pesquisa Pele Pequeno Príncipe pelas discussões e fornecimento dos dados, em especial Professor Bonald Cavalcante de Figueiredo, Humberto Ibãnez e Otavio Augusto Boni Licht. Referências DIGGLE, P.J. & Ribeiro Jr, P. J. Model Based Geostatistics, Springer, 2007. DOBSON, A. J. An Introduction to generalized linear models. 3.ed. CRC Press, 2008. ROWLINGSON, B.; DIGGLE, P. Adapted, packaged for R by Roger Bivand, pcp functions by Giovanni Petris and goodness of fit by Stephen Eglen (2008). splancs: Spatial and Space-Time Point Pattern Analysis. R package version 2.01-24,http://www.maths.lancs.ac.uk/~rowlings/Splancs/ RIBEIRO Jr, P. J.; DIGGLE, P. geoR:a package for geostatistical analysis, R News1(2):15-18.June, 2001. PEBESMA, E.J., BIVAND, R.S. 2005. Classes and methods for spatial data in R. R News 5 (2). PICHARSKI, G. L. Análise Geoestatística de Elementos Químicos Coletados em Águas Superficiais. Disponível em: <http:www.leg.ufpr.br/~gledson/geoquim>. Acesso em : 30/03/2009. SCHABENBERGER, O.; GOTWAY. C. A. Statistical Methods for Spatial Data Analysis. Chapman & Hall, 2005. WOOD, S.N. Stable and efficient multiple smoothing parameter estimation for generalized additive models.Journal of the American Statistical Association. 99:673-686, 2004. ISBN: 978-85-98187-19-8 5