No 276 DISSERTAÇÃO DE MESTRADO ANÁLISE ESTATÍSTICA DE DADOS RADIOECOLOÓGICOS DISCREPANTES USANDO O MÉTODO MONTE CARLO BOOTSTRAP AUTOR: ARYKERNE NASCIMENTO CASADO DA SILVA RECIFE – PERNAMBUCO – BRASIL AGOSTO – 2013 ANÁLISE ESTATÍSTICA DE DADOS RADIOECOLÓGICOS DISCREPANTES USANDO O MÉTODO MONTE CARLO BOOTSTRAP ARYKERNE NASCIMENTO CASADO DA SILVA ANÁLISE ESTATÍSTICA DE DADOS RADIOECOLÓGICOS DISCREPANTES USANDO O MÉTODO MONTE CARLO BOOTSTRAP Dissertação submetida ao Programa de Pós-Graduação em Tecnologias Energéticas e Nucleares para obtenção do título de Mestre em Ciências. Área de Concentração: Dosimetria e Instrumentação. Orientador: Prof. Dr. Romilton dos Santos Amaral (DEN/UFPE) Coorientador: Prof. Dr. José Wilson Vieira (IFPE, EPP/UPE, DEN/UFPE) Recife - PE Agosto - 2013 Catalogação na fonte Bibliotecário Carlos Moura, CRB-4 / 1502 S586a Silva, Arykerne Nascimento Casado da. Análise estatística de dados radioecológicos discrepantes usando o método Monte Carlo bootstrap. / Arykerne Nascimento Casado da Silva. - Recife: O Autor, 2013. 66 folhas, il., figs.,tabs. Orientador: Prof. Dr. Romilton dos Santos Amaral. Co-orientador: Prof. Dr. José Wilson Vieira. Dissertação (Mestrado) – Universidade Federal de Pernambuco. CTG. Programa de Pós-Graduação em Tecnologias Energéticas e Nucleares, 2013. Inclui Referências e Apêndice. 1. Estatística univariada. 2. Reamostragem. 3. Radioecologia. 4. Simulação. I. Amaral, Romilton dos Santos Dedico este trabalho à Lília, Arthur, Laís, Ledice (in memorian) e Nilson (in memorian). AGRADECIMENTOS Àqueles que me fazem sobreviver até hoje: Lília, mulher, companheira, cúmplice, amiga e esposa para sempre; Arthur, filho amado, me faz lembrar que posso ser eterno e Laís, filha amada, mostra como eu deveria pensar aos dezoito anos. Àqueles que me fizeram chegar até aqui: Ledice, mãe dedicada, indicou o caminho e descansa na paz. Nilson, pai saudoso, partiu muito cedo para seu descanso na paz. Àqueles que me permitiram chegar até aqui: ao Prof. Dr. Romilton dos Santos Amaral pela minha aceitação como orientando, pelas disciplinas ministradas, pelas sugestões no trabalho de pesquisa e por abrir as portas do Grupo de Estudos em Radioecologia; ao Prof. Dr. Cleomácio Miguel da Silva por colocar em poucas palavras o que era necessário fazer; ao Prof. Dr. José Wilson Vieira pelas críticas, sugestões, correções, participação na banca examinadora do primeiro seminário de dissertação, ajuda e tempo dispensados; ao Prof. Dr. José Araújo dos Santos Júnior pelas críticas, sugestões, participações nas bancas examinadoras dos seminários e de defesa da dissertação, além da ajuda dispensada sempre; ao Prof. Dr. André Fellipe Vieira da Cunha pela disciplina ministrada, participações nas bancas examinadoras dos seminários, além das sugestões e críticas; ao Dr. Dário Costa Primo pelas sugestões, críticas e participações nas bancas examinadoras do segundo seminário e de defesa da dissertação e ao Prof. Dr. Fernando Roberto de Andrade Lima pela participação na banca examinadora da dissertação. Ao Departamento de Energia Nuclear e ao Programa de Pós-Graduação em Tecnologias Energéticas e Nucleares da Universidade Federal de Pernambuco, na figura dos seus docentes, técnico-administrativos e discentes, por permitirem o retorno de um eterno aprendiz. “Viver! E não ter a vergonha De ser feliz Cantar e cantar e cantar A beleza de ser Um eterno aprendiz...” Gonzaguinha RESUMO O método de reamostragem bootstrap vem sendo estudado e utilizado desde 1979. Em Radioecologia existem dificuldades operacionais na obtenção de amostras de campo, levando o pesquisador algumas vezes a trabalhar com um número insuficiente de dados. Além disso, é frequente o surgimento de valores discrepantes nos dados amostrais. Como consequência, a análise estatística das amostras pode requerer a utilização de métodos analíticos paramétricos. O método bootstrap é executado utilizando o poder de processamento dos microcomputadores atuais. As reamostras são obtidas pelo método Monte Carlo através de um sorteio aleatório dos dados reais fornecidos, considerando que eles sejam independentes. Este trabalho foi desenvolvido com o objetivo de aplicar o método bootstrap na análise estatística de dados radioecológicos e auxiliar o pesquisador na obtenção dos estimadores mais adequados para os parâmetros populacionais. O método utiliza o aplicativo R, uma ferramenta interativa poderosa para cálculos estatísticos. A ferramenta permite também programação orientada a objetos através de interpretação. Os dados utilizados para os cálculos foram 14 concentrações do 226Ra na palma forrageira (Opuntia spp) que apresentaram variações entre 1.495 a 25.000 mBq.kg-1 na matéria seca, com média aritmética simples de 5.965,86 ± 5.903,05 mB.kg-1. A aplicação do método de reamostragem bootstrap com 1.000 iterações, através do algoritmo desenvolvido, obteve um valor médio de 6.012,85 ± 1.597,83 mBq.kg-1. Este, mais representativo que o do conjunto amostral, pois não sofreu influência dos valores discrepantes. Foi possível concluir então que o método bootstrap tem aplicação válida para a análise estatística univariada de dados radioecológicos. Palavras-chaves: estatística univariada; reamostragem; radioecologia; simulação. ABSTRACT The bootstrap resampling method has been studied and used since 1979. There are, in Radioecology, operational difficulties in obtaining samples, leading the researcher sometimes work with insufficient data. Moreover, it is often the appearance of outliers in the sample data. As a consequence, the statistical analysis of samples may require the use of parametric analytical methods. The bootstrap method is performed using the processing power of current computers. The pseudo samples are obtained by Monte Carlo method through a randomly of the actual data provided considering that they are independent. The present work was developed aiming to apply the bootstrap method in statistical radioecological data analysis and to assist the researcher in obtaining the most appropriate estimators for the population parameters. The method uses the software R, a power interactive tool for statistical calculations. The tool also allows object-oriented programming through interpretation. The data used were 14 concentrations of 226Ra in forage palm (Opuntia spp) and they showed variations between 1,495 to 25,000 mBq.kg-1 in dry matter, with simple arithmetic average 5,965.86 ± 5,903.05 mBq.kg-1. The application of the bootstrap resampling procedure with 1,000 iterations through the developed algorithm obtained an average value of 6,0129.61 ± 1,597.83 mBq.kg-1. This, more representative of the whole sample, because it was not influenced by the outliers. It was possible to conclude then that the bootstrap method has application valid for univariate statistical analysis of radioecological data. Keywords: univariate statistic; resampling; radioecology, simulation. LISTA DE ILUSTRAÇÕES Página Figura 1 - Diagramas com as representações parciais das três séries radioativas naturais. ........................ 14 Figura 2 - Esquema de decaimento alfa do Ra-226..................................................................................... 16 Figura 3 - Distribuição assimétrica à direita com a representação da mediana e da média aritmética simples......................................................................................................................................................... 20 Figura 4 - Gráficos de quatro distribuições lognormais com média aritmética simples igual a zero e diferentes desvios padrões. .......................................................................................................................... 21 Figura 5 – Diagrama de blocos para implementar o método Monte Carlo Bootstrap. ................................ 28 Figura 6 – Esquema representativo da função boot para estimar uma estatística. ...................................... 31 Figura 7 - Região dos municípios de Pedra e Venturosa na qual estão localizadas as fazendas que apresentam anomalias radioativas em seus terrenos. .................................................................................. 36 Figura 8 - Representação do diagrama de caixas para análise da atividade específica do 226 Ra em palma forrageira (Opuntia spp). .................................................................................................................. 43 Figura 9 - Gráfico de densidade de probabilidade das amostras de 226 Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. .................................................................................... 44 Figura 10 - Diagrama de caixa das 100 reamostras bootstrap do 226 Ra em palma forrageira (Opuntia spp). ............................................................................................................................................................. 47 Figura 11 - Diagrama de caixa das 1000 reamostras bootstrap do 226 Ra em palma forrageira (Opuntia spp). ............................................................................................................................................................. 47 Figura 12 - Diagrama de caixa das 10000 reamostras bootstrap do 226Ra em palma forrageira (Opuntia spp). ............................................................................................................................................................. 48 Figura 13 - Diagrama de caixa das 10000 reamostras bootstrap do 226Ra em palma forrageira (Opuntia spp). ............................................................................................................................................................. 48 Figura 14 - Gráficos de densidade de probabilidade das reamostras do 226 Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. ..................................................................... 49 Figura 15 - Gráfico de densidade de probabilidade das 1000 reamostras do 226 Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. ..................................................................... 50 Figura 16 - Gráfico de densidade de probabilidade das 1000 reamostras do 226 Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. ..................................................................... 51 Figura 17 - Gráfico de densidade de probabilidade das 1000 reamostras do 226 Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. ..................................................................... 52 LISTA DE TABELAS Página Tabela 1 - Alguns dos contaminantes radioativos naturais estudados pelos radioecologistas. ................... 15 Tabela 2 - Alguns dos contaminantes radioativos artificiais estudados pelos radioecologistas. ................. 17 Tabela 3 - Concentração de 226Ra nas amostras de palma das fazendas F1 a F9. ....................................... 35 Tabela 4 - Concentração de 226Ra nas amostras de palma das fazendas controles. ..................................... 36 Tabela 5 - Resultados da análise estatística das concentrações do 226Ra utilizando as funções da estatística clássica no aplicativo R. ............................................................................................................. 41 Tabela 6 - Resultados do teste de valor anômalo para os dados amostrais utilizando a média aritmética simples e o desvio padrão da amostra. ........................................................................................................ 42 Tabela 7 - Resultados das simulações bootstrap para 14 amostras de 226Ra em palma forrageira (Opuntia spp). ............................................................................................................................................. 46 LISTA DE ABREVIATURAS E SIGLAS ABN Artefatos Bélicos Nucleares BSD Berkeley Software Distribution CCN Ciclo do Combustível Nuclear CNEN Comissão Nacional de Energia Nuclear CRAN Comprehensive R Archive Network CRCN Centro Regional de Ciências Nucleares do Nordeste DEN Departamento de Energia Nuclear IPA Instituto Agronômico de Pernambuco IRD Instituto de Radioproteção e Dosimetria LPG Licença Pública Geral MS Matéria Seca PDF Portable Document Format NATCOS Cosmogênico Natural NATDEC Decaimento Natural NATPRI Decaimento Primordial NUCLEBRAS Empresas Nucleares Brasileiras S/A PNI Programa Nacional de Intercomparação PROTEN Programa de Pós-Graduação em Tecnologias Energéticas e Nucleares RAE Grupos de Estudos em Radioecologia RF Radiofármacos UFPE Universidade Federal de Pernambuco SUMÁRIO Página 1. INTRODUÇÃO .................................................................................................................................. 10 2. REVISÃO DE LITERATURA ........................................................................................................... 13 2.1 Distribuição dos radionuclídeos naturais e artificiais na crosta terrestre ....................................... 13 2.2 Análise estatística dos dados radioecológicos ............................................................................... 19 2.3 O método de reamostragem bootstrap na análise estatística dos radionuclídeos naturais. ............ 22 2.3.1 O algoritmo bootstrap ............................................................................................................... 27 2.3.2 O número de iterações do método bootstrap............................................................................. 28 2.4 Aplicativo computacional R........................................................................................................... 29 2.4.1 O pacote boot ............................................................................................................................ 30 2.4.2 O gerador de números aleatórios do aplicativo R ..................................................................... 32 3. MATERIAL E MÉTODOS ................................................................................................................ 34 3.1 Dados utilizados na pesquisa ......................................................................................................... 34 3.2 Desenvolvimento do algoritmo computacional para a simulação bootstrap .................................. 37 3.3 Procedimentos para a análise estatística dos dados........................................................................ 37 3.3.1 Análise estatística das concentrações do 226Ra utilizando a inferência clássica no algoritmo desenvolvido no RStudio .......................................................................................................... 38 3.3.2 Análise estatística das concentrações do 226Ra utilizando o método bootstrap no algoritmo desenvolvido no RStudio .......................................................................................................... 39 4. RESULTADOS E DISCUSSÃO ........................................................................................................ 41 4.1 Resultados da análise estatística das concentrações do 226Ra utilizando as funções da estatística clássica no aplicativo R............................................................................................................. 41 4.2 Resultados da análise estatística das concentrações do 226Ra utilizando o método bootstrap no aplicativo R. .............................................................................................................................. 45 5. CONCLUSÕES .................................................................................................................................. 53 6. PERSPECTIVAS ................................................................................................................................ 54 REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................................................... 55 APÊNDICE A - Código desenvolvido como script com o nome Projeto Bootstrap ............................... 60 10 1. INTRODUÇÃO O ser humano, através da pesquisa científica, busca o desenvolvimento do conhecimento de forma objetiva e estruturada, avançando na procura de soluções para os seus problemas. O pesquisador, para desenvolver a pesquisa, precisa de aprofundamento nos estudos, observação e análise de experimentos que geram conjuntos de dados, estes muitas vezes insuficientes para uma análise estatística confiável. Uma investigação científica, só pode ser levada a bom termo, através do método científico, que considere os valores experimentais estudados, no âmbito de amostra, representativos da população. É através da inferência estatística que generalizações e conclusões sobre as características de uma população podem ser obtidas, partindo do princípio de que uma amostra pode ser uma representação adequada dessa população. Por esse motivo, surgem os estimadores de medidas de tendência central e de medidas de dispersão, que são utilizados para analisar a representatividade desses dados em relação ao conjunto universo (WILCOX, 2009). Em Radioecologia, área de estudo que engloba elementos da Química, da Física e da Biologia, e que tem como objetivo avaliar os efeitos das radiações ionizantes sobre as populações e sobre os ecossistemas, as pesquisas científicas dependem basicamente da obtenção de amostras de campo e de uma análise estatística segura sobre os dados obtidos (WHICKER; SCHULTZ, 1982). Os radioecologistas utilizam também, além das amostras de campo, o poder de processamento dos computadores para simular dados de radioisótopos naturais e artificiais (CHERNICK, 2007). Através de estudos radioecológicos, pesquisadores do Grupo de Estudos em Radioecologia (RAE) do Programa de Pós-Graduação em Tecnologias Energéticas e Nucleares (PROTEN) do Departamento de Energia Nuclear (DEN) da Universidade Federal de Pernambuco (UFPE) e do Centro Regional de Ciências Nucleares do Nordeste (CRCN) da Comissão Nacional de Energia Nuclear (CNEN) analisaram a presença de mineralizações de urânio e tório, precursores dos isótopos 226 Ra e 228 Ra respectivamente, nos solos de fazendas produtoras de leite dos municípios de Pedra e Venturosa, localizadas na microrregião do Vale do Ipanema na mesorregião Agreste do estado de Pernambuco, região Nordeste do Brasil. Surgiu então a necessidade de se estabelecer um estudo completo do comportamento radioecológico dessa área, avaliando os dados obtidos de amostras de solos e rochas da região, 11 objetivando verificar a exposição da população da região às radiações ionizantes desses radioisótopos (SANTOS JÚNIOR, 2009; SILVA, 2006). Estudos anteriores sobre a presença dos radioisótopos naturais em diversas regiões da Terra mostram que a distribuição destes em locais considerados anômalos apresenta uma alta assimetria decorrente do efeito de valores discrepantes (SILVA, 2006; SINGH et al., 1997; OTT, 1994). Na interpretação dos resultados experimentais radioecológicos, na classificação, no estudo da similaridade/dissimilaridade, na proveniência das amostras e na tecnologia de produção são utilizados diversos métodos estatísticos multivariados, como os métodos de agrupamento e o de análise fatorial. Contudo, para que seja viável a utilização dessas técnicas estatísticas, faz-se necessário que o conjunto amostral não possua valores discrepantes e que não existam intervalos com lacunas de valores. Além disso, os fenômenos radioativos são governados por eventos probabilísticos que fogem totalmente ao controle do pesquisador, já que são fenômenos naturais. A dependência desses fatores, que não podem ser controlados no momento de definir a amostragem dos dados radioecológicos, e o surgimento de quantitativos que variam desde valores de fundo até números considerados muito elevados, tornam o uso da análise estatística multivariada inadequada para a determinação de um valor médio representativo dos dados, e esse é um dos principais objetivos do tratamento estatístico dos valores amostrais (SILVA et al., 2012; 2011; SILVA, 2006). Quando os valores experimentais se apresentam coesos em relação a uma medida de tendência central, não significa que esta seja adequada para representar a população. É suficiente que entre os dados amostrais obtidos apareça um valor discrepante para exigir do pesquisador a aplicação de métodos que ou despreze esse valor, ou repita a amostragem, ou ainda a verifique e corrija o processo de obtenção e tratamento das amostras. O desafio do radioecologogista é encontrar, para suas amostras, uma medida de tendência central que apresente um menor valor possível de dispersão, sem perda de informações. A partir desse valor é possível estimar o erro padrão e, consequentemente, intervalos de confiança. (SILVA et al., 2012; CHERNICK, 2007; UPTON; COOK, 2000; WHICKER; SCHULTZ, 1982). A coleta de material para estudos radioecológicos, imprescindível para a pesquisa, se caracteriza pela dificuldade operacional, pelo alto custo financeiro e ainda por demandar longos períodos. Essas características fazem com que a repetição da coleta para obtenção de novas amostras se torne um problema para o pesquisador e sua equipe. Dessa forma, o radioecologista depara-se constantemente com a difícil tarefa de fazer uma análise estatística em seu conjunto de dados no qual o número de amostras é insuficiente (SILVA et al., 2012, 2011, 2007). 12 A utilização de simulação através do uso intensivo de computadores, em conjunto com o método de reamostragem bootstrap, evita que o pesquisador da área de Radioecologia fique limitado às soluções analíticas paramétricas a partir de uma distribuição amostral pequena e, precise extrapolar os resultados obtidos para realizar uma análise estatística segura e confiável. As técnicas de simulação, inclusive o método bootstrap, contornam o problema de obtenção de novas amostras quando a população não está mais disponível nas condições em que a pesquisa foi iniciada (SILVA et al., 2012, 2011, 2007). Em diversas situações os dados experimentais obtidos a partir de amostragens aleatórias se adequam bem ao perfil da distribuição normal, o que permite grande facilidade no desenvolvimento de toda inferência estatística da pesquisa. Em situações mais gerais, o cálculo dos intervalos de confiança para a média aritmética simples é imediato (WILCOX, 2009). Uma das tarefas do pesquisador é verificar se os dados, discretos ou contínuos, obtidos de seus experimentos seguem um determinado tipo de distribuição de probabilidade (SILVA, 2006). A utilização do poder de processamento de um microcomputador, utilizando o método bootstrap, permitiu a realização de simulações, com diferentes valores de iterações, para produção de pseudoamostras de concentrações de 226 Ra em palma forrageira (Opuntia spp), partindo de uma pequena amostra experimental com quatorze valores de concentração. Foram obtidas estimativas representativas da população subjacente estudada, sem necessidade de suposições sobre a distribuição de probabilidade da população, intervenção humana nos cálculos, descarte de valores anômalos e utilização de métodos analíticos. Dessa forma, a determinação de um estimador para um parâmetro de interesse e a avaliação da acurácia desse estimador através do erro padrão, além do cálculo do intervalo de confiança para o parâmetro, puderam ser estudados. Avaliando o contexto descrito acima, o objetivo do presente trabalho foi aplicar o método bootstrap, através de um algoritmo computacional desenvolvido no aplicativo R, na análise estatística de dados radioecológicos com valores discrepantes presentes, considerando o caso em que as observações são amostras, de uma única variável, selecionadas ao acaso, independentes e provenientes de uma população desconhecida. Para tanto, foram utilizados os valores de concentrações de 226Ra na palma forrageira (Opuntia spp), vegetal cultivado em uma área anômala situada no agreste do estado de Pernambuco, nos municípios de Pedra e Venturosa, e, frequentemente, utilizada na alimentação do gado leiteiro dessas regiões. 13 2. REVISÃO DE LITERATURA 2.1 Distribuição dos radionuclídeos naturais e artificiais na crosta terrestre A radiação ionizante pode ser produzida naturalmente ou ser proveniente de alguma atividade antropogênica, porém seus efeitos sobre os organismos vivos são os mesmos. A Terra é continuamente submetida à radiação cósmica proveniente do sistema solar e de outros sistemas planetários. Além disso, existe a radiação da própria crosta terrestre definida como primordial e proveniente dos elementos químicos radioativos presentes (COLGAN et al., 2008). Os radionuclídeos primordiais, que incluem isótopos do urânio, tório, potássio e rubídio, surgiram no período de formação da Terra e estão distribuídos de forma heterogênea na crosta terrestre. O urânio é de fundamental importância nos estudos e pesquisas sobre radioatividade ambiental. Ele está presente naturalmente em rochas e solos, e na crosta terrestre é encontrado em concentrações médias de 3 mg.kg-1. Porém, em rochas ricas em fosfato, a concentração do minério de urânio pode alcançar valores de até 40.000 mg.kg-1. Os principais isótopos do urânio são o natureza e o 238 234 U, com 99,3% de ocorrência natural; o 235 U, com 0,7% de ocorrência na U com apenas 0,005% de ocorrência no meio ambiente. O 238 U inicia a série radioativa natural do urânio, uma sequência de decaimentos radioativos sucessivos de vários elementos químicos diferentes e que se encerra com a formação do isótopo estável do 206Pb. O 235 U inicia a série radioativa dos actinídeos que termina com a formação do isótopo estável do 207 Pb (SHAW, 2007; CEMBER, 1996). O tório, outro elemento de grande importância em Radioecologia, é mais abundante na natureza do que o urânio, sendo que a sua concentração média no solo pode chegar a valores entre 6 e 9 mg.kg-1 (SHAW, 2007; CEMBER, 1996; SCHULZ, 1965). O isótopo 232 Th é o radionuclídeo inicial da série radioativa natural do tório que termina com a formação do isótopo estável 208 Pb (SHAW, 2007; CEMBER, 1996). Em rochas, a concentração de 232 Th varia de 1,6 a 20 mg.kg-1, com uma média crostal de 10,7 mg.kg-1, atingindo concentrações cinco vezes superiores às do urânio (SANTOS JÚNIOR, 2009). Observam-se, através da Figura 1, três diagramas parciais com as séries radioativas naturais de acordo com Cember (1996), Santos Júnior (2009) e Okuno e Yushimura (2010). Como consequência do decaimento natural dos isótopos das três séries radioativas, são produzidos elementos radioativos filhos de grande importância nos estudos sobre radioecologia como o 226 Ra, 228 Ra, 222 Rn e 210 Pb (SHAW, 2007). Segundo Amaral et al. (2005) 14 aproximadamente 70% de toda radioatividade que incide sobre a população é proveniente de fontes inatas das três séries radioativas naturais. De acordo com Shaw (2007), uma das principais características de um radionuclídeo em termos radioecológicos é o seu tempo de meia vida, período necessário para que uma quantidade de um radionuclídeo perca metade da sua atividade radioativa (OKUNO; YOSHIMURA, 2010; L’ANNUNZIATA, 2003). Sendo assim, é razoável considerar que quanto maior a meia vida do radioisótopo, mais tempo permanecerá nos sistemas bióticos e abióticos, aumentando o impacto nos ecossistemas. O 238U tem tempo de meia vida de 4,47 x 109 anos e emite partículas alfa com energias de 4,20 MeV 79% das vezes e 4,15 MeV em 21% das emissões (FIRESTONE et al., 1996 apud SANTOS JÚNIOR, 2009). Além disso, produz radionuclídeos filhos como o 226 Ra que apresenta alto risco de provocar danos ao sangue humano (SILVA, 2006). Figura 1 - Diagramas com as representações parciais das três séries radioativas naturais. Série do urânio-238 238 234 U 214 234m Th 214 Pb 234 Pa 214 Bi 210 Po 230 U 210 Pb 226 Th 210 Bi 222 Ra 218 Po Rn 215 Po Po 212 Rn 206 Po Pb Série do urânio-235 235 231 U 211 231 Th 211 Pb 227 Pa 207 Bi 207 Tl 227 Ac Th 223 Ra 229 Ra 220 Rn 216 Pb Série do tório-232 232 228 Th 212 Bi 228 Ra 208 Tl 228 Ac 208 Th 224 Pb Pb Fonte: Okuno; Yushimura (2010), Santos Júnior (2009), Cember (1996). Os radionuclídeos 40K, 238 U e 232Th, além de vários dos seus produtos radioativos filhos, emitem radiação gama, tornando-se a principal fonte de exposição externa natural desse tipo de radiação para os organismos vivos, inclusive o ser humano (SANTOS JÚNIOR, 2009). Shaw 15 (2007) afirma que o impacto ambiental de um isótopo radioativo é função das vias ambientais e processos do qual ele toma parte, pois é através desses processos que pode ocorrer uma menor ou maior exposição, interna ou externa, dos organismos à radiação. Através dessa perspectiva é possível considerar a importância dos radionuclídeos naturais de meia vida “curta” nos sistemas bióticos, pois em um curto período metade de toda a sua emissão radioativa afetará o meio. Observam-se, através da Tabela 1, alguns dos elementos radioativos naturais de interesse para os radioecologistas, com o tempo de meia vida em anos e sua respectiva origem. Tabela 1 - Alguns dos contaminantes radioativos naturais estudados pelos radioecologistas. Radioisótopo Tempo de meia vida (anos) Origem ³H 12,33 NatCos, CCN, ABN, RF Pb 22,30 NatDec Rn 1,048 x 10-2 NatDec 210 222 226 Ra 1.600 NatDec 228 Ra 5,8 anos NatDec 230 Th 7,538 x 104 NatDec 232 Th 1,405 x 1010 NatPri 4,468 x 109 NatPri, CCN 238 U Natdec – decaimento natural, Natpri – radionuclídeo primordial, Natcos – natural cosmogênico, CCN – ciclo do combustível nuclear, ABN - artefatos bélicos nucleares e RF – radiofármacos. Fonte: SHAW( 2007). O 226 Ra é um metal alcalino terroso e um dos produtos do decaimento natural do 238 U. Através do seu esquema de decaimento, ilustrado na Figura 2, são exibidas as duas possibilidades de emissão de partícula alfa para o radionuclídeo. O rádio entra no corpo humano através da ingestão de alimentos e água, incorporando-se ao sistema ósseo. Esse radioisótopo e seus produtos de decaimento são responsáveis pela maior fração da dose interna recebida pelo homem, devido às fontes naturais. Quando ingeridos ou inalados, seus produtos de decaimento oferecem alto potencial de risco à saúde dos seres humanos, podendo induzir o surgimento de câncer (EISENBUD; GESELL, 1997 apud SILVA, 2006). As transformações radioativas ou decaimentos radioativos acontecem sempre através dos seguintes processos: emissão de partículas alfa, emissão isobárica (beta positiva, beta negativa e captura eletrônica) e emissão isomérica (raios gama e conversão interna). Todos esses processos são fenômenos probabilísticos, pois não é possível determinar o momento exato em 16 que a emissão radioativa ocorre O fenômeno ocorre independentemente da origem do radionuclídeo, se natural ou antropogênico. (CEMBER, 1996). Figura 2 - Esquema de decaimento alfa do Ra-226. 226 88Ra 226 4,784 MeV 4 Ra → 222 86Rn + 2He 88 5,5% 94,5% Eα = 4,601 MeV Eα = 4,784 MeV Estado excitado do 222Rn. Eγ = 0,183 Mev 222 86Rn Fonte: OKUNO; YOSHIMURA (2010). Diferentes radionuclídeos apresentam diferentes taxas de decaimento radioativo, esses valores são definidos como atividade do elemento. No Sistema Internacional (SI) a unidade da grandeza atividade é o número de decaimentos por segundo, definida como Bequerel. O número de decomposição por segundo dividido pela massa ou pelo volume do material radioativo é definido como atividade específica, uma importante característica que relaciona a radioatividade do radionuclídeo com a massa ou volume da amostra (CEMBER, 1996). A área de interesse da Radioecologia não se limita ao estudo dos radionuclídeos naturais. Os radioisótopos artificiais, provenientes de atividades antropogênicas, surgiram como resultado das pesquisas voltadas para o desenvolvimento bélico. Em 16 de julho de 1945, ocorreu o primeiro teste de detonação de um artefato atômico no deserto do Novo México nos Estados Unidos. Foi iniciado então, o período da história denominado de “Era Nuclear”. Seguiu-se um período de testes nucleares que, como consequência, lançou no ambiente atmosférico, substâncias radioativas artificiais provenientes da fissão do urânio, ocorrendo, também a ativação de muitos elementos estáveis tanto no ar quanto no solo (SHAW, 2007). As áreas de testes nucleares utilizadas entre as décadas de 50 e 70 do século XX foram selecionadas em locais remotos, contudo existem registros da presença de radionuclídeos antropogênicos, provenientes dessas experiências, a milhares de quilômetros das respectivas explosões (GONZALES; ANDERER, 1989; SHAW, 2007). 17 Existem cerca de 70 radionuclídeos diferentes originados de fontes naturais (EISENBUD; GESELL, 1997 apud SANTOS JÚNIOR, 2009). Os outros são gerados de atividades antropogênicas que vão desde produtos da fissão do urânio, como processo de captura de nêutrons, como o 137 Cs e 90Sr, até produtos do 239 Pu proveniente do processo de ativação do 238 U (GONZALES; ANDERER, 1989). Na Tabela 2 estão listados alguns dos contaminantes radioativos artificiais de interesse para os radioecologistas. Da mesma forma que para os radioisótopos naturais, o tempo de meia vida e a atividade específica são grandezas que permitem determinar o impacto dos radionuclídeos artificiais nos ecossistemas. Tabela 2 - Alguns dos contaminantes radioativos artificiais estudados pelos radioecologistas. Radioisótopo 90 Sr Tempo de meia vida (anos) 28,79 Origem CCN, ABN 99m 6,891 x 10-4 RF 99 2,111 x 105 CCN, ABN Tc Tc 129 7 I 1,57 x 10 CCN, ABN, RF 131 I 2,197 x 10-2 CCN, ABN 137 Cs 239 Pu 241 Am 30,07 2,411 x 104 432,20 CCN, ABN CCN, ABN CCN, ABN CCN – ciclo do combustível nuclear; ABN – artefato bélico nuclear; RF - radiofármaco. Fonte: SHAW (2007) As séries do urânio e do tório, naturalmente presentes nas rochas e no solo, representam, para grande parte da população, a principal fonte de exposição radiológica interna devido à ingestão de água e alimentos contaminados naturalmente por meio de transferência do meio abiótico para o meio biótico. As áreas onde ocorrem acúmulos desses radionuclídeos naturais são definidas como anômalas (SHAW, 2007). Regiões que apresentam rochas e solos com concentrações média de urânio natural da ordem de 2,8 a 3,0 mg.kg-1 são classificadas como não anômalas, pois esse é o valor médio de concentração desse radionuclídeo na crosta terrestre (AIETA et al., 1987; TAYLOR, D.; TAYLOR, S., 1997). Os municípios de Pedra e Venturosa, no Agreste do estado de Pernambuco, região nordeste do Brasil, apresentam valores de concentração máxima de U3O8 e de ThO2 de 22.000 18 mg.kg-1 e 100 mg.kg-1, respectivamente. Valores considerados anômalos (COSTA et al., 1977). Os estudos de regiões habitadas e com elevada radioatividade natural são de grande importância já que oferecem oportunidades de observação e avaliação dos possíveis efeitos biológicos da radiação natural no homem e no meio. Silva (2006), por exemplo, determinou as concentrações de 226 Ra e 228 Ra na dieta de bovinos de fazendas produtoras de leite na região economicamente identificada como “bacia leiteira” do estado de Pernambuco, no nordeste do Brasil. Esse estudo surgiu do interesse pelas altas concentrações de urânio e tório naturais no solo e nas rochas dessa região. O 238U, 235U e o 232 Th produzem no final das suas respectivas séries de decaimento natural isótopos estáveis do chumbo. Santos Júnior (2009) realizou um estudo radiométrico sobre a concentração do 226 Ra, 232 Th e 40 238 U, K em uma área com mineralizações anômalas de urânio, com o objetivo de identificar níveis elevados de radioatividade natural e estimar a exposição da população. Alcoforado (2011) estudou a influência de ocorrência de urânio e tório nos níveis de chumbo estável no leite e derivados também na região leiteira do estado de Pernambuco. Os estudos sobre a radioatividade ambiental permitem a análise do aproveitamento tecnológico do próprio fenômeno. É possível utilizar dados radiométricos como parâmetros auxiliares na identificação dos tipos de solos. Análises bioquímicas e físico-químicas e a verificação dos valores radiométricos das razões K/U e K/ThO de amostras de solos permitem a sua identificação mineralógica. Isso é possível porque os níveis radioativos das rochas podem ser correlacionados com sua idade e forma de ocorrência (NASCIMENTO et al., 2004). O método de quantificação da erosão de solos através do 137Cs, um radioisótopo artificial proveniente do ciclo do combustível nuclear ou de explosões de artefatos bélicos nucleares, pode ser utilizado para determinar a perda de áreas produtivas para produção agrícola. O processo já está bem difundido em países do hemisfério norte e começa a ser utilizado em alguns estados do sudeste brasileiro (ANTUNES, 2010). A importância do conhecimento sobre os radioisótopos pode ser avaliada através da frequência dos estudos existentes sobre: o comportamento dos radionuclídeos nos sistemas solo/planta, a radiometria nos ecossistemas florestais tropicais e subtropicais, a radioecologia dos ecossistemas árticos, a ocorrência de radionuclídeos naturais a partir de fontes industriais e a proteção do meio ambiente em relação à exposição à radiação ionizante (SHAW, 2007). 19 2.2 Análise estatística dos dados radioecológicos O decaimento radioativo é um fenômeno aleatório. Logo qualquer medição baseada em um radionuclídeo está sujeita a flutuações estatísticas. Estas geram incertezas em todos os procedimentos experimentais radioativos e normalmente podem ser fontes de imprecisão ou erro (KNOLL, 2000). A análise dos fenômenos radioativos naturais e dos dados obtidos a partir deles mostra que existem semelhanças e variabilidades extremas, impossibilitando a aplicação da estatística multivariada (SILVA, 2006). O pesquisador fica restrito à obtenção de medidas de tendência central e de dispersão através da análise de uma única variável estatística para caracterizar os dados experimentais (KNOLL, 2000). Portanto, a utilização de modelos de probabilidade univariada tem grande importância na análise e interpretação dos dados que são utilizados na monitorização do meio ambiente. Para uma determinada variável radiológica ambiental, como a concentração de um radionuclídeo no solo, sua característica probabilística faz com que o início de uma análise seja o exame da distribuição das medições da concentração em um dado local, de forma que o histograma de frequência das concentrações permite uma visão da ocorrência dessa variável (OTT, 1976). A utilização da média aritmética como melhor representação de um conjunto de dados provenientes de amostras radioecológicas, principalmente de regiões anômalas como as dos municípios de Pedra e Venturosa, é imprópria devido aos valores discrepantes encontrados (SILVA, 2006). Os estatísticos justificam a utilização da mediana como um valor mais apropriado para representar o conjunto de dados já que essa medida não sofre a influência dos valores extremos. Outra técnica sugerida é a utilização da média geométrica dos logaritmos dos valores amostrais, que reduz a influência dos valores discrepantes (WILCOX, 2009). O grande problema da aplicação da mediana ou da média geométrica dos valores transformados em logaritmos ao conjunto de dados amostrais radioecológicos é que este tende a uma distribuição de probabilidade assimétrica em decorrência da presença de discrepâncias, consequência da elevada dispersão dos dados experimentais obtidos. Sendo assim, os valores dessas duas medidas de tendência central se apresentam sempre menores que a média aritmética simples, não convergindo então para um valor procurado mais representativo do conjunto de dados amostrais (SILVA, 2006). O gráfico de uma distribuição assimétrica à direita está representado na Figura 3 no qual a média aritmética simples e a mediana diferem bastante. Outro fator importante que limita a utilização da mediana e da média geométrica dos logaritmos na obtenção de um valor procurado de medida central para o conjunto de dados 20 radioecológicos é o fato de que os valores dessas estatísticas excluem ou discriminam os valores extremos (WILCOX, 2009). Essa característica gera perda de informações durante a análise estatística dos dados (SILVA et al., 2007). Figura 3 - Distribuição assimétrica à direita com a representação da mediana e da média aritmética simples. Mediana Média Fonte: WILCOX (2009) O fato dos dados radioecológicos apresentarem uma distribuição de probabilidade assimétrica faz com que empiricamente a distribuição lognormal se adeque bem para representá-los estatisticamente. A lei do efeito proporcional, teoricamente, parece ser uma justificativa razoável para utilização da distribuição lognormal para um modelo de dispersão dos radionuclídeos no meio ambiente. Assim, uma variável aleatória qualquer deve, em qualquer momento de sua alteração, ter seu valor atual como uma proporção aleatória do valor anterior. A demonstração matemática da lei é complexa, porém já foi demonstrado que a distribuição assintótica dessa variável tem comportamento lognormal, justificando a sua utilização para dados ambientais. Mesmo assim, é o empirismo que tem determinado a utilização da distribuição lognormal como uma das primeiras opções na representação estatística dos dados ambientais (BLACKWOOD, 1992). Eberhardt e Gilbert (1980) observaram que a distribuição de frequência de dados de elementos transurânicos era sempre fortemente assimétrica, sugerindo o uso da transformação 21 logarítmica desses dados antes de realizar qualquer análise estatística. Para Dennis e Patil (1988) a distribuição lognormal é a forma ideal de descrever dados de estudos ecológicos e de radionuclídeos no meio ambiente. As características que permitem essa afirmação são: intervalo positivo, assimetria à direita, uma longa calda à direita e a existência de expressões para o cálculo das estimativas dos parâmetros estatísticos. Observam-se na Figura 4 quatro gráficos de distribuições lognormais sobrepostos, com valores de média aritmética simples igual a zero, porém com diferentes desvios padrões. A função de densidade de probabilidade que define a curva da distribuição lognormal está representada na Equação 1. Figura 4 - Gráficos de quatro distribuições lognormais com média aritmética simples igual a zero e diferentes desvios padrões. Fonte: BLACKWOOD (1992) ( ) ( √ ( ) ) (1) 22 2.3 O método de reamostragem bootstrap na análise estatística dos radionuclídeos naturais. Problemas de otimização e integração surgem frequentemente na inferência estatística. Na realidade, a impossibilidade de calcular analiticamente estimadores associados a um determinado paradigma como, por exemplo, o de máxima verossimilhança, ou da estatística bayesiana, ou ainda do método dos momentos, faz com que soluções através de simulações numéricas geralmente sejam procuradas qualquer que seja a inferência estatística desejada (ROBERT; CASELLA, 2010). Soluções numéricas, através de simulação, para análise de dados da área de radioecologia, exigem a geração de números aleatórios para criar distribuições que possam ser usadas no cálculo das quantidades desejadas. A possibilidade de gerar grande quantidade de valores para variáveis aleatórias, de acordo com uma dada distribuição, permite a obtenção de resultados assintóticos da inferência clássica, confirmados através da aplicação da Lei dos Grandes Números e do Teorema do Limite Central (ROBERT; CASELLA, 2010). O termo bootstrap está relacionado a uma situação romanesca de solução quase impossível, mas que de forma inverossímil foi resolvida. A interpretação estatística do termo é passar a ideia de que em situações de alta complexidade, talvez seja possível encontrar soluções simples que aparentemente pareceriam impossíveis de serem executadas. Em Estatística, situações difíceis podem levar o pesquisador a se confrontar com problemas de soluções analíticas complexas (SILVA et al.; 2011). Chernick (2007) afirma que bootstrap é o método de reamostragem para realizar inferência estatística em situações analíticas complexas e Cohen e Cohen (2008) afirmam que o método bootstrap deve ser utilizado quando não se conhece a distribuição subjacente aos dados e quando o número de amostras é pequeno. A necessidade de fazer uma inferência em amostras pequenas, principalmente quando a população não está disponível para obtenção de novas amostras, é uma situação complicada para qualquer pesquisador. Para essa situação alguns resultados analíticos já foram obtidos através da expansão de Edgeworth, porém a complexidade do método gera grande dificuldade para o pesquisador (HALL, 1992). Com o uso sistematizado de ferramentas computacionais, outra solução para esse caso é obtida substituindo-se a resolução analítica pelo poder de processamento dos computadores através do método de reamostragem bootstrap proposto por Bradley Efron em 1979 (DAVISON; HINKLEY, 1997). A utilização do método bootstrap exige a produção de pseudoamostras utilizando o processo de escolha aleatória de números inteiros, conhecido como método Monte Carlo. 23 Dimov (2008) afirma que o método Monte Carlo funciona como um conjunto de métodos de aproximação de solução de problemas de matemática computacional utilizando o processo de sortear números inteiros. O método sempre produz uma aproximação da solução. Logo, a qualidade do processo de aproximação do valor real depende da taxa de convergência do algoritmo utilizado e que pode ser controlada pela função de erro do método. Algoritmos baseados nesse método calculam estimativas estatísticas através de amostragem aleatória de uma variável estudada. A inferência estatística tem como objetivo estabelecer as propriedades de uma população a partir da análise de dados amostrais aleatórios provenientes da própria população. É possível afirmar que a inferência estatística procura estimar características da distribuição de probabilidade da população através de uma amostra aleatória. O método bootstrap é um procedimento de reamostragem computacional desenvolvido de forma a fornecer uma medida de uma inferência estatística mais segura, como a média aritmética, a mediana, a moda, a variância, o desvio padrão e o intervalo de confiança, utilizando uma amostra de tamanho finito baseada na distribuição empírica dos dados (LUCIO, et al., 2006). Uma situação de grande dificuldade para o pesquisador da área de radioecologia é o surgimento de valores discrepantes de atividade nas amostras de solo e rocha contendo radionuclídeos naturais. Isso pode ocorrer devido a três importantes fatores: anomalias naturais do terreno, erros na obtenção e no tratamento das amostras, ou ainda erros no cálculo das respectivas incertezas (SILVA, 2006). Vários métodos, como o da limitação dos pesos estatísticos relativos, o bayesiano modificado e o de Chechev-Egorov, já foram propostos com o objetivo de obter um valor de medida de tendência central mais apropriada para um conjunto de dados discrepantes, porém todos levam em consideração que esses dados são decorrentes de erros nos cálculos dos desvios, e não alteram e nem recalculam o valor de medida de tendência central, apenas modificam os valores das incertezas através da aplicação de fatores apropriados (HELENE; VANIN, 2002). Helene e Vanin (2002) aplicaram os métodos citados no parágrafo anterior, além do bootstrap, em medições dos tempos de meia-vida e incertezas obtidos experimentalmente com valores discrepantes e observaram que todos apresentaram resultados considerados coerentes e aceitáveis quando aplicados ao conjunto completo de dados experimentais. Contudo, quando aplicado o teste de auto consistência de Rajput e MacMahon (1992), que consiste em analisar em separado dois subconjuntos dos dados amostrais e calcular a média dos resultados obtidos, nos métodos utilizados, apenas o bootstrap apresentou valores consistentes. Demonstrou-se 24 então que quando aplicados ao conjunto completo de estimativas iniciais já calculadas, todos os métodos apresentaram resultados confiáveis, porém se aplicados a subconjuntos de dados, apenas o bootstrap mostrou-se consistente. A utilização do método bootstrap na análise de dados discrepantes apresentou as seguintes características: redução real de dados, estabilidade diante dos dados discrepantes e obtenção de informações a partir dos dados anômalos sem nenhum pressuposto em relação à distribuição de probabilidade (HELENE; VANIN, 2002). No caso da análise estatística de dados radioecológicos, as situações difíceis, de que trata o termo bootstrap, encontram-se ainda relacionadas com a distribuição dos valores de concentrações de radionuclídeos naturais existentes no meio ambiente, pois essa distribuição em locais tipicamente anômalos possui elevada assimetria à direita quando plotados em um sistema de eixos ortogonais, fazendo com que a curva de densidade de probabilidade tenha uma longa calda convergindo para o eixo horizontal positivo. A calda a direita pode ainda apresentar picos devido a valores discrepantes existentes (SINGH et al., 1997). É possível que o pesquisador utilize as melhores técnicas de amostragem, com extremo cuidado na obtenção, no tratamento e na análise das amostras. Porém, as amostras podem fornecer um conjunto de dados no qual a concentração dos contaminantes, aferida através das atividades dos radionuclídeos, varia desde valores de fundo até valores considerados anômalos (SILVA, 2007). O método bootstrap, quando aplicado na reamostragem dos dados originais obtidos, fornece uma média aritmética resistente às flutuações causadas pelos efeitos dos valores anômalos. Neste caso, a reamostragem é utilizada para diminuir a assimetria, acomodando os valores de tal maneira, que a discrepância em torno da média aritmética simples passa a ser a menor possível (EFRON; TIBSHIRANI, 1993). Existem vários métodos de reamostragem que calculam estimativas a partir de repetidas amostras utilizando o conjunto de dados amostrais originais. Alguns dos mais discutidos são os testes de permutação ou aleatorização, validação cruzada, jackknife e bootstrap. Os dois últimos, jackknife e o boostrap, têm características muito semelhantes e são muito estudados e aplicados. Ambos podem ser utilizados para reduzir a tendência dos estimadores e construir intervalos de confiança para parâmetros como, por exemplo, a média aritmética simples. Os dois métodos tomam a informação da amostra e a reproduz de forma a chegar a distribuições amostrais de interesse. Eles não exigem nenhuma suposição sobre a distribuição estatística para a população subjacente, por isso são definidos como não paramétricos. A diferença entre o jackknife, apresentado por Quenouille (1956), e o bootstrap, introduzido por Efron (1982), é que o primeiro faz n estimativas de um parâmetro sempre excluindo um número de observações 25 a cada rodada de simulação, enquanto que no bootstrap um número B de amostras de tamanho n, com reposição, é gerado a partir do conjunto de observações iniciais (SINGH et al., 1997). Vários esquemas diferentes de bootstrap têm sido propostos e, muitos deles, apresentam bom desempenho em uma ampla variedade de situações. O método pode ser implementado tanto na estatística não-paramétrica quanto na paramétrica, dependendo apenas do conhecimento do problema. No caso não-paramétrico, reamostra-se os dados com reposição, de acordo com uma distribuição empírica estimada, tendo em vista que, no geral, não se conhece a distribuição subjacente aos dados. No caso paramétrico, quando se tem informação suficiente sobre a forma da distribuição dos dados, a amostra bootstrap é formada realizando-se a amostragem diretamente nessa distribuição com os parâmetros desconhecidos substituídos por estimativas paramétricas (SILVA, 2006). O processo de reamostragem consiste em gerar conjuntos de dados a partir da amostra original. Esses são aleatoriamente retirados e utilizados na formação de cada amostra bootstrap. Dessa forma, todo resultado depende diretamente da amostra original. A distribuição da estatística de interesse aplicada aos valores desse tipo de amostragem, condicional aos dados observados, é definida como a distribuição bootstrap dessa estatística (EFRON, 1982). Operacionalmente, o procedimento bootstrap não-paramétrico consiste na reamostragem de mesmo tamanho, com reposição dos dados da amostra original e cálculo da estatística de interesse para cada reamostra (MURTEIRA, 1990). Efron e Tibshirani (1993) apresentaram as ideias básicas do método bootstrap, no âmbito da inferência clássica da estatística, como se segue. Com X = (x1, x2, ... , xn) sendo uma amostra aleatória obtida a partir de uma população com função de distribuição F desconhecida, seja ̂ (x1, x2, ... , xn) um estimador do parâmetro ( ) que, como se indica, depende naturalmente de F. Seja ̂ a função de distribuição empírica discreta associada à amostra obtida, tal que a cada valor observado xi, onde i = (1, 2, ..., n), recebe probabilidade de ocorrência (massa probabilística) . Então, o valor de ̂ é calculado pela Equação 2, onde ̂ ( ) ( ) é o estimador não-paramétrico de máxima verossimilhança de F e ( ̂ (n) ( )= [∑ni=1 I i ) é a função identidade. ] n Uma amostra bootstrap é uma amostra X* = ( (2) ) de tamanho n obtida de forma aleatória e uniforme, com reposição, a partir da amostra original X = (x1, x2, ..., xn), também designada população bootstrap. Cada valor da amostra original pode não aparecer ou aparecer várias vezes na amostra bootstrap. Por exemplo, 26 . A notação com asterisco indica que x* não é um novo conjunto de dados reais x, mas sim uma versão reamostrada de x. A amostra bootstrap consiste dos correspondentes membros de x, onde: 1= i1 , 2= i 2, n= in . O conjunto ( ) representa a i- ésima amostra de tamanho n dos dados originais do conjunto X = (x1, x2, ..., xn). No método bootstrap, a média amostral calculada é denominada por ̅ i e calculada pela Equação 3. A cada procedimento de reamostragem do conjunto original X = (x1, x2, ..., xn), correspondem estimadores, nesse caso as médias amostrais ̅ ̅ ̅ . Assim, o estimador bootstrap da média da população é a média aritmética ̅ B, calculada através da Equação 4, dos n estimadores ̅ i . Então, da distribuição ̂ ( ) ( ) obtêm-se B amostras bootstrap de mesmo tamanho n da amostra original, como apresentada na sequência representada pela Equação 5. ̅ ∑ ̅ ∑ ̅ (3) ̅ (4) [ ] [ ] . . . (5) [ ] Dessa forma, o estimador do desvio padrão da população é calculado pela Equação 6. B 1 ŝ B = √ ∑ ̅i ̅ B B1 2 (6) i=1 Especificamente, ̅ pode ser substituído pelo estimador ̂ , para cada procedimento de reamostragem. A média ̅ pode também ser substituída por ̂ , que é a média aritmética dos n 27 estimadores bootstrap. A diferença ̂ ̂ é o estimador do enviesamento de ̂ . Desse modo, o estimador do erro padrão de ̂ é calculado pela Equação 7. ̂ √ ( ) ∑( ̂ ̂ ) (7) A grande vantagem do método bootstrap é que ele pode ser aplicado à praticamente qualquer estatística ̂ , não se limitando apenas à média ̂ ̅. Isso é muito importante, uma vez que para algumas estatísticas ou não existem fórmulas analíticas ou, quando existem, são complexas e aproximadas para a estimativa dos seus respectivos erros padrões. A reamostragem bootstrap tenta realizar o que seria desejável realizar na prática: repetir os procedimentos experimentais (HELENE; VANIN, 2002). 2.3.1 O algoritmo bootstrap A técnica de reamostragem bootstrap utiliza o algoritmo Monte Carlo, onde um dispositivo gerador de números aleatórios uniforme seleciona inteiros (1, 2, 3, ... , n) e os relaciona com as posições dos elementos do conjunto original X = (x1, x2, ..., xn) (EFRON, 1982). Na prática, constrói-se a distribuição bootstrap ̂ por Monte Carlo com um número de repetições B suficientemente grande. Um indicador do tamanho adequado de B, independente do custo computacional, é a qualidade da convergência da estimativa do parâmetro para a estimativa natural do parâmetro ̂ ( ) ( ), sendo a construção do algoritmo geralmente simples. Sua convergência está garantida pela Lei dos Grandes Números, pois, os valores ( ) nada mais são do que uma amostra de variáveis aleatórias independentes e uniformemente distribuídas com distribuição condicional ̂ . Assim, quando B tende a infinito, o estimador ̂ aproxima-se do parâmetro (EFRON; TIBSHIRANI, 1993). A construção do seguinte algoritmo foi sugerido por Silva (2006) utilizando o método Monte Carlo para estimar os parâmetros estatísticos na análise de dados por bootstrap: (1) Da amostra experimental, sorteia-se, utilizando um gerador de números aleatórios uniforme, os n valores com reposição para formar as amostras bootstrap de mesmo tamanho da original. 28 (2) Computa-se a estatística desejada ̂ em cada procedimento de reamostragem. (3) Repete-se os passos (1) e (2) um número B de vezes, obtendo-se, dessa maneira, B valores de ̂ . (4) Serão obtidas as B estimativas para formar a distribuição ̂ . (5) Determina-se o estimador ̂ da distribuição ̂ . O valor de ̂ pode ser o valor da média aritmética simples ou outra estatística desejada. O procedimento de simulação pode ser realizado utilizando um aplicativo computacional com um gerador de números aleatórios confiável, geralmente implementado nas linguagens de programação mais comuns. A Figura 5 mostra o diagrama de blocos para construir a distribuição bootstrap pelo algoritmo Monte Carlo. Figura 5 – Diagrama de blocos para implementar o método Monte Carlo Bootstrap. Amostra original X*1 X *2 Sorteio aleatório com reposição Amostra bootstrap ̂ ( ) Determinar θ Gerar ̂ ( ) Determinar θ ̂ Determinar θ distribuição ̂ X*B ̂ ( ) Determinar θ Fonte: SILVA (2011) 2.3.2 O número de iterações do método bootstrap O número de iterações B define a quantidade de amostras bootstap que serão geradas e permite verificar a qualidade da estimativa do parâmetro desejado. Em vários estudos esse número foi definido de acordo com estudos experimentais de simulação. Em outras situações, pesquisadores formalizaram expressões teóricas utilizando expansão de Edgeworth, redução de 29 variância, aproximações lineares e variáveis antitéticas. Porém, qualquer microcomputador atual permite de forma simples e sem um grande custo computacional, a rápida execução de 100.000 ou mais repetições, facilitando a eficiência da simulação e, consequentemente, a definição do número de iterações adequado para o cálculo do parâmetro pretendido (CHERNICK, 2007). 2.4 Aplicativo computacional R O aplicativo R é um ambiente estatístico computacional de uso livre disponível na rede Internet (BATES et al., 2012). Caracteriza-se por envolver um sistema planejado, completo, dinâmico e coerente, com disponibilidade de armazenar, manipular e representar graficamente dados, além de permitir a realização de cálculos simples até aqueles de alta complexidade. O programa também possui uma linguagem orientada a objetos que permite desenvolver soluções automatizadas para problemas estatísticos. A execução de programas em R é realizada através de um interpretador, ou seja, após a digitação de uma ou mais linhas de comando e o pressionamento da tecla de entrada do comando do computador, as instruções são imediatamente interpretadas e os comandos são executados. O aplicativo foi desenvolvido em versões para funcionamento nos computadores que utilizam os sistemas operacionais Linux, Windows® ou MacIntosh®. O objetivo principal do aplicativo R é desenvolver soluções para problemas de estatística aplicada e de estudos científicos. Por esse motivo, o usuário encontrará as técnicas da estatística clássica e também os modernos avanços desenvolvidos através de pesquisas mais recentes (COHEN, Y.; COHEN J., 2008). O fato de ser um aplicativo livre faz com que qualquer usuário possa utilizar, modificar, desenvolver e submeter novas implementações, que são chamadas de “pacotes”, ao comitê técnico mantenedor. Este é formado por um corpo técnico-científico da Fundação R, organização sem interesse econômico e mantida por centenas de pesquisadores e instituições de desenvolvimento e pesquisa. O comitê avalia as submissões e as disponibiliza através da rede Internet (WILCOX, 2009; BATES et al., 2012). O aplicativo R não é uma ferramenta comercial de utilização intuitiva, porém já existe um vasto material de apoio tanto para o uso das ferramentas estatísticas, como para a linguagem de programação. O programa é fornecido com uma interface voltada para a digitação através de linhas de comando, o que faz com que o usuário iniciante tenha uma dificuldade maior no 30 processo de aprendizagem, necessitando de mais tempo para se tornar hábil no programa (DALGAARD, 2002). O R pode ser considerado um dos melhores programas existentes na área de estatística. O programa é distribuído de forma livre, apresenta todos os métodos da estatística clássica, além dos métodos considerados mais atuais e modernos. Uma das principais características que determinam a qualidade do programa em termos da pesquisa científica é a existência de uma equipe acadêmica, trabalhando em diversas universidades e centros de pesquisas, procurando desenvolver e adicionar constantemente novas técnicas através de rotinas computacionais, chamadas de “pacotes”, ao sistema (WILCOX, 2009; BATES et al., 2012). 2.4.1 O pacote boot O pacote boot é formado por um conjunto de funções computacionais desenvolvidas por Angelo Canty, professor da Universidade McMaster em Ontário, Canadá, e publicado por Davison e Hinckley (1997) e, posteriormente, adaptado ao aplicativo R por Bryan Ripley, professor de Estatística Aplicada da Universidade de Oxford, Inglaterra. A versão mais recente do código foi disponibilizada em 16 de janeiro de 2012, depende dos pacotes stats e graphics, e funciona na versão 2.14.0 ou superior do aplicativo R. O aplicativo e o pacote boot estão disponíveis no sítio do Comprehensive R Archive Network (CRAN – Rede Abrangente de Arquivos R) sob licença Berkeley Software Distribution (BSD – Distribuição de Programas Berkeley) que permite basicamente o uso e a cópia sem limitações (McKUSICK, 1999). A principal função do pacote boot recebeu este mesmo nome e utiliza o método bootstrap não paramétrico ou paramétrico para gerar uma estimativa estatística dos valores amostrais informados. Para o bootstrap não paramétrico é possível realizar a reamostragem através dos métodos: bootstrap ordinário, bootstrap balanceado, reamostragem antitética e permutação. A Equação 8 exemplifica a forma de utilizar a função de maneira simples e padrão, onde data é um vetor contendo os dados fornecidos e que serão reamostrados, statistic é uma função que ao ser aplicada ao vetor data retorna um vetor com a amostra bootstrap, R é o número de amostras bootstrap desejadas, as reticências representam argumentos opcionais adicionais da função (DAVISON; HINKLEY, 1997). boot (data, statistic, R, ) (8) 31 A Figura 6, adaptada de Efron e Tibshirani (1993), resume o funcionamento da função boot. O processo começa com a produção de um grande número de amostras bootstrap independentes definido na função pelo argumento R. Figura 6 – Esquema representativo da função boot para estimar uma estatística. θ̂1 *1 X θ̂2 θ̂B X*2 X*B Estatística calculada a partir das amostras bootstrap. Amostras bootstrap cada uma com n elementos. ... X = (X1, X2, ... , XN) Conjunto dos dados amostrais. Fonte: EFRON; TIBSHIRANI, 1993. As amostras bootstrap têm o mesmo número de elementos do conjunto X dos dados medidos. A quantidade B de amostras geradas, que corresponde ao número de iterações do método Monte Carlo (CHERNICK, 2007) e ao argumento R, pode ser testada empiricamente para cada estatística estudada. Efron e Tibshirani (1986) sugerem que números típicos para a estimativa do erro padrão da média aritmética simples devem ser definidos entre 50 e 200. Após a geração das amostras, a Figura 6 mostra que para cada uma delas a função boot calcula a estatística ̂ desejada gerando uma distribuição de valores normalmente denominada de distribuição bootstrap (EFRON; TIBSHIRANI, 1986). Os valores resultantes obtidos formam, no aplicativo R, um objeto em forma de lista. Este é um conjunto que pode conter vários objetos diferentes como vetores e matrizes. O único item obtido dessa lista, quando a função é utilizada na sua forma mais simples, é a distribuição bootstrap, ou seja, um número B de uma estatística representada pelo argumento “statistic” de 32 cada reamostra bootstrap. Pela Lei dos Grandes Números e pelo Teorema do Limite Central quanto maior o número de reamostras bootstrap, mais próximo fica o valor do parâmetro desejado da população bootstrap, limitado pelos erros sistemáticos que surgem na geração das pseudoamostras (EFRON; TIBSHIRANI, 1993, 1986; EFRON, 1982). 2.4.2 O gerador de números aleatórios do aplicativo R A geração de amostras bootstrap é realizada pela escolha aleatória com repetição de n números inteiros com probabilidade . Essa ação é executada por um gerador de números aleatórios programado no microprocessador do equipamento utilizado. Porém, máquinas geram sequências que se repetem, ou seja, são sequências previsíveis que são denominadas de sequências de números pseudoaleatórios. Considerando essa informação, é possível afirmar que no nível computacional uma sequência de números é aceita como aleatória, se o algoritmo gerador for distinto e não relacionado com o algoritmo que utilizará os números produzidos (PRESS, et al., 1992). Define-se números aleatórios como aqueles que estão dentro de um intervalo real, normalmente entre 0 e 1, não são previsíveis e formam uma sequência cuja função de densidade de probabilidade é constante (PARK; MILLER, 1988). Os principais programas de computador para a área científica como o R, o S-Plus, o SAS e o MatLab apresentam funções que produzem números randômicos. Essas funções produzem os números através de um algoritmo gerador que utilizam métodos matemáticos computacionais. O aplicativo R permite a geração de sequências de números aleatórios através da função “runif” que tem a sintaxe apresentado na Equação 9, onde n é o número de elementos da sequência, min é a função que determina o valor mínimo da sequência e max é a função que determina o valor máximo da sequência (COHEN, Y.; COHEN, J., 2008). runif(n, min, max) (9) Para gerar a sequência, a função utiliza um valor “semente”, um valor inteiro positivo para iniciar o gerador de números aleatórios, que pode ser controlado através do comando set.seed (definir semente). O valor do argumento semente é um número inteiro e sempre alterado automaticamente pelo próprio R quando uma nova sequência é gerada, fazendo com que o usuário não precise se preocupar com a definição desse argumento (CHAMBERS, 2008). 33 A função boot, a principal função do pacote de mesmo nome, utiliza o mesmo gerador de números randômicos da função “runif”. O aplicativo R utiliza para gerar os números aleatórios o algoritmo “mersene twister” que foi desenvolvido por Matsumoto e Nishimura (1988). Uma das principais características desse algoritmo é o seu período, tempo em que ocorre a repetição de uma sequência já gerada, da ordem de 219.937- 1, além de uma precisão de 32 bits e uma equidistribuição 623-dimensional, e que faz o algoritmo ser considerado um dos mais rápidos e confiáveis (PARK; MILLER, 1988). 34 3. MATERIAL E MÉTODOS 3.1 Dados utilizados na pesquisa O grupo de pesquisa RAE do PROTEN do Departamento de Energia Nuclear da UFPE tem como área de estudo principal as atividades dos radionuclídeos naturais de regiões anômalas no meio ambiente. Dissertações, teses e trabalhos científicos já foram publicados e os dados amostrais obtidos são normalmente atividades específicas de radionuclídeos, em unidades de mBq.kg-1 ou pCi.L-1, provenientes de diversos tipos de materiais bióticos e abióticos, como: leite, água, solo, rocha, vegetais e alimentos produzidos através de manufatura ou indústria (queijo e leite, por exemplo). Esses dados estão disponíveis em meio digital, normalmente em arquivos no formato de texto ou no formato de planilha eletrônica nos microcomputadores do grupo de pesquisa, ou ainda em tabelas incluídas nas teses, dissertações e em periódicos nacionais e internacionais. Os dados utilizados neste trabalho, mostrados na Tabela 3, foram obtidos do estudo experimental de Silva (2007), em que 14 (catorze) amostras de palma forrageira (Opuntia spp) foram coletadas de 09 (nove) fazendas produtoras de leite localizadas nos municípios de Pedra e Venturosa. As amostras foram analisadas quanto a atividade específica do radionuclídeo 226 Ra em mBq.kg-1. A área mostrada na Figura 7 já vem sendo objeto de estudos radiométricos desde 1970 por apresentar anomalias de urânio e tório. As fazendas foram identificadas por códigos de F1 a F9. A fazenda F7 foi a área onde a extinta empresa estatal Nuclear Brasileira S/A (NUCLEBRAS) realizou os primeiros estudos sobre a viabilidade de explorar economicamente o minério de urânio encontrado. Análises realizadas em amostras de rochas dessa fazenda encontraram concentrações máximas de U3O8 e de ThO2 de 22.000 mg.kg-1 e 100 mg.kg-1 respectivamente. (COSTA et al., 1976, 1977). A seleção das áreas de coleta seguiu o critério da proximidade das fazendas em relação às ocorrências de urânio. As coletas foram realizadas no mês de junho de 2002 (período chuvoso), dezembro de 2003 (período seco) e maio de 2004 (período chuvoso). Em cada local de amostragem foram coletados 5 kg de palma forrageira diretamente no cocho dos bovinos das fazendas escolhidas e armazenados em sacos plásticos. Os dados obtidos foram provenientes da determinação da atividade específica de -1 em mBq.kg no material coletado através do método de emanação de 226 Ra 222 Rn. Na data das análises o Laboratório de Monitoração Ambiental do DEN-UFPE fazia parte do Programa 35 Nacional de Intercomparação do Instituto de Radioproteção e Dosimetria (PNI/IRD), que tem como um dos objetivos padronizar, manter e disseminar as grandezas do sistema internacional referentes às medidas das radiações ionizantes (IRD, 2012; SILVA, 2007). Tabela 3 - Concentração de 226Ra nas amostras de palma das fazendas F1 a F9. Fazenda Ano 226 Ra da Coleta (mBq.kg-1 na MS)* F1 2002 1.985 F1 2003 1.990 F2 2004 9.300 F3 2003 5.992 F3 2004 2.150 F4 2003 1.495 F5 2003 4.500 F5 2004 5.350 F6 2003 5.060 F6 2004 6.800 2004 5.400 F7 (a 30 m da ocorrência) 2004 5.500 F7 (no centro da ocorrência) 2004 25.000 F9 2004 3.000 F7 (fornecida às vacas) *MS = matéria seca. Fonte: SILVA (2006). Duas estações experimentais do Instituto Agronômico de Pernambuco (IPA), localizadas nos municípios de Arcoverde e São Bento do Uma, distantes 40 e 85 km respectivamente das principais ocorrências de urânio e tório, serviram como locais de controle. As fazendas controles foram identificadas como F10 e F11. A Tabela 4 exibe as concentrações do 226Ra das amostras obtidas nas fazendas controles. Esses valores de controle não foram utilizados na pesquisa devido aos valores excessivamente altos. O fato foi explicado pela adubação da área com fertilizantes fosfatados que contêm chumbo, radônio, polônio e outros materiais radioativos. 36 Figura 7 - Região dos municípios de Pedra e Venturosa na qual estão localizadas as fazendas que apresentam anomalias radioativas em seus terrenos. Região Nordeste do Brasil Fonte: SILVA (2006) Tabela 4 - Concentração de 226Ra nas amostras de palma das fazendas controles. Fazenda Ano da Coleta 226 Ra (mBq.kg-1 na MS)* F10 2002 5.990 F10 2003 6.900 F10 2004 9.900 F11 2002 7.990 F11 2003 1.995 *MS = matéria seca. Fonte: SILVA (2006) 37 3.2 Desenvolvimento do algoritmo computacional para a simulação bootstrap O aplicativo R oferece um ambiente de desenvolvimento computacional integrado com uma interface no formato de console que funciona de forma interativa com o usuário. Essa interface não é intuitiva e nem dispõe de recursos visuais. Para obter melhor produtividade na utilização dos recursos de desenvolvimento do algoritmo, foi utilizada a interface gráfica RStudio desenvolvida para facilitar tanto a entrada de dados através de um console, como a criação de linhas de código na linguagem de programação R. O RStudio é um aplicativo desenvolvido por empresa de mesmo nome e disponibilizado de forma gratuita sob Licença Pública Geral (LPG). O projeto LPG desenvolve e divulga a ideia de colaboração na criação de programas de computador no qual a única exigência é que todo aplicativo sob licença LPG possa ser modificado e distribuído gerando uma nova ferramenta sob licença LPG, ou seja, deverá ser um programa de computador de uso livre para qualquer usuário (McKUSICK, 1999). Foi utilizada a versão RStudio 0.97.48-2012 para o sistema operacional Microsoft Windows®. A instalação do aplicativo requer o programa R na versão 2.11.1 ou superior. O sistema operacional utilizado foi o Microsoft Windows® 7 Profissional de 64 bits com o complemento de correções Service Pack 1. Para realizar a análise estatística através do método bootstrap utilizando a ferramenta R, através do RStudio, foi necessário criar pequenos roteiros computacionais, com várias linhas de código, que quando executados a partir do R ou do RStudio, faz a simulação de reamostragem bootstrap, os cálculos estatísticos desejados, a criação de gráficos e a gravação dos resultados obtidos. Esses roteiros computacionais são denominados de scripts de programação e neste trabalho foi desenvolvido um script para o cálculo da estatística clássica e para o cálculo da estatística utilizando o método bootstrap. O script foi gravado com o nome de “Projeto Bootstrap” e todas as vezes que foi executado realizou as atividades programadas que foram solicitadas. O código é mostrado no Apêndice A. 3.3 Procedimentos para a análise estatística dos dados O R tem dois modos básicos de trabalho: o interativo e o programável. O modo interativo utiliza as funções em linhas de comando. As funções são distribuídas em códigos chamados de pacotes que podem ser obtidos livremente pela internet. O modo programável utiliza conceitos 38 de programação orientada a objetos para o desenvolvimento de scripts e aplicativos (CHAMBERS, 2008). O script “Projeto Bootstrap” utiliza os dados experimentais de campo, obtidos por Silva (2007), para realizar a análise estatística desejada. Neste trabalho, o autor utilizou uma única variável aleatória na formação do conjunto de dados amostrais independentes e provenientes de uma população desconhecida. Porém, é possível substituir esses dados por qualquer outro conjunto amostral com as mesmas características, ou seja, uma única variável amostral aleatória, proveniente de uma população desconhecida de concentrações de radionuclídeos naturais ou artificiais de um sistema biótico ou abiótico. 3.3.1 Análise estatística das concentrações do 226 Ra utilizando a inferência clássica no algoritmo desenvolvido no RStudio Inicialmente, a atividade específica do 226 Ra, obtida da análise das amostras de palma forrageira (Opuntia spp) de uma região caracterizada por apresentar anomalias de mineralizações de urânio, foi tratada com as funções da inferência estatística clássica no aplicativo R através do ambiente integrado de desenvolvimento RStudio. Os pacotes base, stats e graphics, todos na versão 2.15.0, apresentam os principais recursos da inferência clássica utilizados nessa etapa. Os 14 valores de concentração do 226 Ra obtidos por Silva (2007) foram digitados como um vetor de valores no script “Projeto Bootstrap” com o nome de dados (Apêndice A). A partir do vetor dados foram calculadas as seguintes estatísticas: valor mínimo, primeiro quartil, mediana, média aritmética simples, terceiro quartil e valor máximo, todas utilizando a função “summary” do pacote base na versão 2.15.0. Utilizando funções específicas do pacote base para cada estatística ou através de fórmulas desenvolvidas no script foram calculados também o desvio padrão para a média aritmética simples, o desvio interquartílico e a amplitude. A presença de valores atípicos no conjunto de dados amostrais foi verificada através de dois métodos já consolidados na estatística descritiva. O primeiro utiliza a média aritmética simples ̅ , e o desvio padrão da amostra S através da Equação 6. Nesse método, qualquer valor maior ou igual a 2 será considerado um valor discrepante (WILCOX, 2009) . | ̅ | 2 (6) 39 O segundo método é definido como diagrama de cai a ou “bo plot” e utiliza os valores do primeiro e terceiro quartis. De acordo com esse método, um valor do conjunto amostral é considerado anômalo se uma das duas Equações 7 for verdadeira, onde X é um valor amostral, q1 é o primeiro quartil e q3 é o terceiro quartil. X < q1 – 1,5(q3-q1) (7) X > q3 + 1,5(q3-q1) O método diagrama de caixa permite ainda uma visualização em forma de gráfico destacando os valores dos quartis, da mediana e dos valores discrepantes (WILCOX, 2009). Um histograma com as frequências das concentrações foi criado e sobreposto com o gráfico da distribuição normal para que a forma dos dados amostrais pudesse ser exibida. Os dados numéricos foram gravados em um arquivo no formato de texto com o nome de “Rádio226 – Estatística Clássica.txt” e os gráficos foram gravados em um arquivo no formato de “portable document format” ou pdf não editável com o nome “Gráfico Rádio-226 – Estatística Clássica.pdf”. As funções dos pacotes utilizados têm suas sintaxes e argumentos definidos no sistema de ajuda interno do aplicativo R (BATES et al., 2012). Como não existem funções prontas no aplicativo R para o cálculo da amplitude e do desvio interquartílico, essas estimativas foram calculadas através das equações disponibilizadas na literatura da estatística clássica e documentadas no próprio código (WILCOX, 2009; BLACKWOOD, 1992). 3.3.2 Análise estatística das concentrações do 226 Ra utilizando o método bootstrap no algoritmo desenvolvido no RStudio O script “Projeto Bootstrap”, desenvolvido para este trabalho, utilizou o pacote boot e as funções boot e boot.ci desse pacote. A primeira é utilizada para calcular qualquer estimativa estatística desejada pelo método bootstrap; a seguinte, para o cálculo de intervalos de confiança baseado na população de amostras geradas pela função boot. Evidentemente, o intervalo de confiança para a média aritmética simples, só foi calculado após o cálculo da própria média. Os dados amostrais, o número de reamostras e a estimativa estatística a ser reamostrada foram digitados diretamente no código do programa. As estimativas estatísticas calculadas a partir das amostras geradas foram a média aritmética simples, o desvio padrão e o intervalo de 40 confiança. Para o cálculo da média aritmética simples foi utilizada a função “mean” do pacote base do aplicativo R. O número de amostras bootstrap geradas foi definido, de acordo com sugestões de Efron e Tibshirani (1986), para um valor inicial de 100 até um limite máximo de 100.000, com incremento multiplicativo de 10, ou seja, o número de reamostras foi formado pelos elementos do vetor (100, 1.000, 10.000, 100.000). Dessa forma, a primeira simulação gerou 100 amostras bootstrap, a segunda gerou 1.000, a terceira 10.000 e a última 100.000. Após a geração das reamostras, as estimativas média aritmética simples, desvio padrão, intervalos de confiança, primeiro quartil, mediana, terceiro quartil, intervalo interquartílico, valor mínimo, valor máximo e amplitude foram calculadas. 41 4. RESULTADOS E DISCUSSÃO 4.1 Resultados da análise estatística das concentrações do 226Ra utilizando as funções da estatística clássica no aplicativo R Os resultados, obtidos a partir dos dados experimentais registrados na Tabela 3, foram gravados em um relatório e armazenado em forma de arquivo de texto com o nome “Ra-226 Estatística Clássica.txt” e estão representados na Tabela 5. O arquivo ocupa apenas 1 kb (quilobyte) de espaço em disco e fica armazenado no diretório de instalação do programa R. Os três primeiros valores calculados: valor mínimo, valor máximo e amplitude apresentam uma visão inicial da extensão e dispersão dos dados das amostras analisadas em termos estatísticos. São valores iniciais e que podem ser facilmente calculados. Apesar de não apresentarem papel fundamental nas conclusões estatísticas obtidas, o elevado valor da amplitude permitiu inferir a necessidade de verificar a existência de valores discrepantes no conjunto. Tabela 5 - Resultados da análise estatística das concentrações do 226Ra utilizando as funções da estatística clássica no aplicativo R. Estatísticas calculadas Estatística clássica para atividade específica do 226Ra (mBq.kg-1 na MS)* Valor mínimo 1.495,00 Valor máximo 25.000,00 Amplitude 23.505,00 Média aritmética simples 5.965,86 Desvio padrão 5.903,05 Primeiro quartil 2.362,50 Mediana 5.205,00 Terceiro quartil 5.869,00 Desvio interquartílico 3.506,50 *MS = matéria seca A rotina do programa utilizou os métodos de verificação de valores anômalos ou discrepantes através do método clássico, baseado na média aritmética simples e no desvio padrão da amostra, e também, no método do gráfico de cai a ou “bo plot”, baseado nos quartis 42 inferior e superior. Os valores obtidos para o primeiro método estão relacionados na Tabela 6 e apenas o valor 25.000 mBq.Kg-1, da fazenda F7, foi calculado como discrepante ou anômalo em relação ao restante dos dados. É possível observar também que o valor 9.300 mBq.Kg-1, da fazenda F6, na Tabela 6, apesar de não ser indicado como discrepante, é um número consideravelmente alto quando comparado com os outros dados amostrais. Esse método apresentou problemas de mascarar prováveis valores anômalos, pois dependeu da média aritmética simples e do desvio padrão da amostra, ambos fortemente influenciados no cálculo por valores amostrais limítrofes. Tabela 6 - Resultados do teste de valor anômalo para os dados amostrais utilizando a média aritmética simples e o desvio padrão da amostra. Fazenda Atividade específica (mBq.kg-1) Cálculo | ̅ | Resultado 2 F4 1.495 0,76 Não discrepante F1 1.985 0,67 Não discrepante F1 1.990 0,67 Não discrepante F3 2.150 0,64 Não discrepante F9 3.000 0,50 Não discrepante F5 4.500 0,25 Não discrepante F6 5.060 0,15 Não discrepante F5 5.350 0,10 Não discrepante F7 5.400 0,09 Não discrepante F7 5.500 0,08 Não discrepante F3 5.992 0,004 Não discrepante F6 6.800 0,14 Não discrepante F6 9.300 0,56 Não discrepante F7 25.000 3,22 Discrepante A utilização do segundo método através da Equação 7 mostrou que o valor abaixo do qual todos os valores seriam discrepantes foi -2.897,25 mBq.kg-1, valor desconsiderado devido a própria radioatividade natural existente na crosta terrestre, ou seja, não existe radioatividade negativa. Já valores amostrais maiores que 11.128,75 mBq.kg-1 foram considerados 43 discrepantes. Nesse caso, novamente apenas o valor 25.000 mBq.kg-1, da fazenda F7, na Tabela 6, foi considerado uma discrepância em relação ao restante dos dados. O método “bo plot” ainda produziu o relatório em forma de gráfico exibido na Figura 8, gravado no formato pdf (portable document format) com o nome de “boxplot_classico.pdf” no qual ficou destacado o valor encontrado como discrepante. Os resultados obtidos através desse último método são mais representativos do espalhamento dos dados, pois os cálculos dependem apenas dos quartis inferior e superior, não sendo influenciados pelos valores extremos do conjunto amostral. Atividade específica em mBq.kg-1 Figura 8 - Representação do diagrama de caixas para análise da atividade específica do 226Ra em palma forrageira (Opuntia spp). Valor anômalo Maior não anômalo Terceiro quartil Menor não anômalo Mediana Primeiro quartil O método “bo plot” permitiu uma visão mais clara do espalhamento dos dados amostrais em relação a uma medida de tendência central do conjunto. O máximo valor não anômalo da amostra foi 9.300 mBq.kg-1, na Tabela 6, porém desse valor até 11.128,75 mBq.kg-1 foi calculado um intervalo não considerado anômalo e não representado na amostra. Esse é um grande intervalo vazio que foi calculado pelo método “bo plot”. Após esse intervalo foi que ocorreu o único valor discrepante. O histograma de frequência apresentado na Figura 9, também produzido pelo “script” Projeto Bootstrap apresentou o intervalo de 10.000 mBq.kg-1 a 20.000 mBq.kg-1 como um grande intervalo vazio da amostra original, o que confirmou uma grande dispersão de dados. 44 Através do gráfico da figura 9 ficou demonstrado ainda que não é adequado considerar a distribuição normal como uma representação dos dados radioecológicos obtidos. Os valores do histograma que representam os valores radioecológicos não se adequaram a curva normal, ficando muito acima dos valores da curva. Além disso, não existiu simetria no histograma e um grande intervalo vazio apareceu entre 10.000,00 mBq.kg-1 e 20.000,00 mB.kg-1. Figura 9 - Gráfico de densidade de probabilidade das amostras de 226 Ra em palma forrageira (Opuntia spp) sobreposto pela curva da Função densidade de probabilidade distribuição normal. O valor da média aritmética simples e do desvio padrão apresentados na Tabela 5 sofreram influência do valor máximo do conjunto de dados amostrais devido à presença de valores discrepantes na amostra. O valor do desvio padrão calculado e colocado na Tabela 5 foi de 5.903,05 mBq.kg-1, um valor muito alto e que demonstrou novamente uma grande dispersão dos dados. 45 A utilização da média aritmética simples como valor mais representativo dos dados amostrais é uma tendência mundial (ARANGO, 2005 apud SANTOS JÚNIOR, 2009) e se adequa bem quando o conjunto de dados se aproxima da distribuição de probabilidade normal. Porém, em amostras provenientes de regiões com anomalias radioativas a distribuição normal não é adequada. O programa plotou a densidade de probabilidade para a amostra e sobrepôs a curva de distribuição normal construída com os valores da média aritmética simples e do desvio padrão da amostra. O resultado, apresentado na Figura 9, demonstrou que a distribuição normal não é uma opção válida para representar a distribuição estudada. Os cálculos realizados para a estatística clássica foram executados sempre no início do script “Projeto Bootstrap”, utilizando operadores e funções do aplicativo R e os resultados obtidos não estão relacionados ao método bootstrap utilizado para simular, a partir das 14 amostras iniciais, as pseudoamostras. 4.2 Resultados da análise estatística das concentrações do 226 Ra utilizando o método bootstrap no aplicativo R. Para as simulações bootstrap, os resultados obtidos estão na Tabela 7 e mostram que a média aritmética simples obtida não variou de forma relevante em relação à média aritmética clássica exibida na Tabela 5. Porém, é possível observar que os desvios calculados através do método bootstrap foram bem menores que o calculado através do método clássico. A Tabela 7 apresenta também os resultados para os intervalos de confiança bootstrap com 90% e 95% de probabilidade. Para 100 reamostras o valor da média aritmética simples foi de 6.200,49 +/- 1.359,49, ou seja, o valor calculado está no intervalo de 4.841 a 7.559,98. Então, para as 100 amostras a média aritmética simples ficou dentro dos intervalos de confiança bootstrap de 90% e 95%. Para 1.000 reamostras o valor da média aritmética e seu desvio padrão ficaram no intervalo de 4.415,02 a 7.610,68. Novamente o intervalo está dentro dos intervalos de confiança bootstrap nos dois níveis de probabilidade. Para 10.000 reamostras o (mBq.kg ) intervalo da média aritmética com seus respectivos desvios foi de 4.425,46 a 7.456,13, -1 demonstrando mais uma vez a inserção nos intervalos de confiança bootstrap calculados. Finalmente, para 100.000 reamostras, o resultado para média aritmética simples foi de 4.440,63 a 7.480,35, dentro, com as probabilidades de 90 e 95%, dos intervalos de confiança calculados pelo método bootstrap. 46 Tabela 7 - Resultados das simulações bootstrap para 14 amostras de 226Ra em palma forrageira (Opuntia spp). 100 1.000 10.000 100.000 Média aritmética simples 6.200,49 6.012,85 5.940,96 5.960,49 Desvio padrão 1.359,49 1.597,83 1.515,17 1.519,86 Nº de reamostras Intervalo de confiança 90% (3.495; 7.698) (3.291; 8.547) (3.499, 8.483) (3.471; 8.471) Intervalo de confiança 95% (3.067; 8.396) (2.787; 9051) (3.021; 8.960) (2.992; 8.950) Valor mínimo 3.476 2.591 2.240 2.280 Valor máximo 10.064 12.271 13.486 14.573 Amplitude 6.588 9.680 11.246 12.293 Primeiro quartil 5.226 4.794 4.769 4.778 Mediana (segundo quartil) 6.067 5.834 5775 5.801 Terceiro quartil 7.222 7.067 6.878 6.909 Desvio interquartílico 1.996 2.273 2.109 2.131 Através do valor calculado da amplitude foi possível perceber que com o aumento do número de reamostras, nas simulações executadas, o espalhamento dos dados aumenta, pois esse valor é calculado utilizando o valor máximo e o valor mínimo. Porém, o desvio interquartílico e a mediana permanecem com valores muito próximos em relação às quatro simulações executadas, mesmo com o aumento dos valores de reamostras, demonstrando que essas estatísticas são imunes aos valores limítrofes gerados nas pseudoamostras. O método bootstrap não eliminou os valores discrepantes ou anômalos, eles continuaram a surgir, como mostram os diagramas de caixa da Figura 10 para 100 reamostras, da Figura 11 para 1.000 reamostras, da Figura 12 para 10.000 reamostras, da Figura 13 para 100.000 reamostras. Dessa forma, considerou-se que mesmo existindo valores anômalos ou discrepantes que influenciaram no cálculo da média aritmética simples, o processo de simulação manteve as características dos dados iniciais, de maneira que informações sobre as anomalias radioecológicas não foram perdidas. Essas perdas seriam automáticas se fossem utilizadas técnicas estatísticas que desprezassem os valores anômalos calculados no cálculo da média aritmética simples ou se fosse utilizada a mediana como medida de tendência central. 47 Atividade específica de Ra226 em mBq.kg-1 Figura 10 - Diagrama de caixa das 100 reamostras bootstrap do 226Ra em palma forrageira (Opuntia spp). Atividade específica de Ra226 em mBq.kg-1 Figura 11 - Diagrama de caixa das 1000 reamostras bootstrap do 226 Ra em palma forrageira (Opuntia spp). 48 Atividade específica de Ra226 em mBq.kg-1 Figura 12 - Diagrama de caixa das 10000 reamostras bootstrap do 226 Ra em palma forrageira (Opuntia spp). Atividade específica de Ra226 em mBq.kg-1 Figura 13 - Diagrama de caixa das 10000 reamostras bootstrap do 226 Ra em palma forrageira (Opuntia spp). 49 As reamostras obtidas por simulação através do método bootstrap demonstraram ainda que os valores tendem para a distribuição normal. As Figura 14, 12. 13 e 14 exibem, respectivamente, os gráficos de densidade de probabilidade das 100, 1.000, 10.000 e 100.000 reamostras bootstrap sobrepostos pela curva da distribuição normal. Os resultados demonstram a tendência à normalidade das distribuições bootstrap obtidas. Figura 14 - Gráficos de densidade de probabilidade das reamostras do 226Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. Dessa forma é possível considerar que todas as simulações fizeram com que as medidas de tendência central se aproximassem e se tornassem mais representativas das amostras geradas. 50 Figura 15 - Gráfico de densidade de probabilidade das 1000 reamostras do 226Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. Foi observado também que não ocorreram espaços descontinuados no eixo horizontal dos gráficos, o que demonstrou que o método bootstrap simula a obtenção de amostras dentro do intervalo das amostras originais sem resultar em ausência de valores. Apesar de ser utilizado apenas para a situação particular de uma amostra de 14 valores de atividade específica em mBq.kg-1 do radionuclídeo 226 Ra e gerando 100, 1.000, 10.000 e 100.000 reamostras; o “script” Projeto Bootstrap pode ser modificado para outro radionuclídeo, para um número diferente de amostras e qualquer valor de reamostras. 51 Figura 16 - Gráfico de densidade de probabilidade das 1000 reamostras do 226Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. Inicialmente, a simplicidade de uso do método bootstrap parece gerar dados sem fundamento. Porém, o que o método faz é calcular as médias aritméticas simples das reamostras de tamanho n, gerando uma população que é utilizada para estimar uma medida de tendência central amostral. Essa população é originada de uma amostra, também de tamanho n, dos dados reais obtidos da pesquisa de campo da população que se deseja estudar. 52 Figura 17 - Gráfico de densidade de probabilidade das 1000 reamostras do 226Ra em palma forrageira (Opuntia spp) sobreposto pela curva da distribuição normal. 53 5. CONCLUSÕES Os resultados obtidos para este trabalho demonstram que para a situação de não normalidade de uma variável aleatória obtida da pesquisa radioecológica, situação considerada muito particular em termos estatísticos, o método bootstrap fornece: Uma média aritmética simples mais adequada que a obtida dos dados reais e que pode ser utilizada como uma medida de tendência central mais representativa para um conjunto de valores amostrais de dados radioecológicos provenientes de regiões anômalas devido à redução na dispersão dos valores; Uma distribuição de reamostras em que não existem grandes lacunas vazias entre os valores obtidos e que tende a distribuição normal. Além disso, os valores obtidos mostram que os valores discrepantes ou anômalos permanecem na distribuição resultante, mas não tem grande impacto no cálculo da média aritmética simples e, dessa forma, não ocorre perda de informações radioecológicas; Intervalos de confiança que garantem que a média da população bootstrap está no mesmo intervalo da média da amostra bootstrap; A possibilidade de realizar inferência em pequenas amostras, apesar de não substituir a obtenção de novas amostras. A utilização do método bootstrap sem a utilização do “script” Projeto Boostrap, desenvolvido para este trabalho, produziria os mesmos resultados, porém demandaria um grande esforço na execução dos cálculos, provocando um período longo de espera e grande probabilidade de geração de erros operacionais devido à participação humana nos cálculos. O “script” Projeto Bootstrap também permitiu armazenar todos os resultados em arquivos do tipo texto ou pdf, ocupando pouco espaço em disco e de fácil consulta em computadores com sistema operacional Windows. 54 6. PERSPECTIVAS O Projeto Bootstrap e a utilização do método bootstrap para inferência de dados radioecológicos discrepantes podem ainda ser aprofundados de forma que as seguintes sugestões de estudos são colocadas: Expandir a utilização do método bootstrap para análise de duas ou mais variáveis randômicas provenientes de dados radioecológicos; Utilizar o método para execução de testes de hipóteses; Desenvolver o “script” Projeto Bootstrap com uma interface gráfica amigável e que possa ser utilizado como um aplicativo completo de código aberto em qualquer microcomputador que funcione com o sistema operacional Windows®; 55 REFERÊNCIAS BIBLIOGRÁFICAS AIETA, E. M.; SINGLEY, J. E.; TRUSSEL, A. R.; THORBJARNARSON, K. W.; McGUIRE, M. J. Radionuclides in drinking water: an overview. Research and Technology, Denver, v. 79, n. 4, p. 144-152, 1987. ALCOFORADO, E. S. Influência de ocorrência de urânio nos níveis de chumbo estável no leite e derivados produzidos no agreste de Pernambuco. 2011. 66p. Dissertação (Mestrado em Tecnologias Energéticas e Nucleares), Departamento de Energia Nuclear, Universidade Federal de Pernambuco, Recife, 2011. AMARAL, R. S.; VASCONCELOS, W. E.; BORGES, E; SILVEIRA, S. V.; MAZZILLI, B. P. Intake of uranium and radium-226 due to food crops consumption in the phosphate region of Pernambuco – Brazil. Journal of Environmental Radioactivity, v. 82, n. 3, p. 383-393, 2005. ANTUNES, P. D.; SAMPAIO, E. V. S. B.; FERREIRA Jr.; A. L. G.; GALINDO, I. C. L.; SALCEDO, I. H. Distribuição de 137Cs em três solos representativos do estado de Pernambuco. Revista Brasileira de Ciência do Solo, v. 34, n. 3, p. 935-943, 2010. ARANGO, H. G. Bioestatística: teórica e computacional. Rio de Janeiro: GEN, 2 ed., 2005, 423 p. BATES, D.; CHAMBERS, J.; DALGAARD, P.; FALCON, S.; GENTLEMAN, R.; HORNICK, K.; IACUS, S.; IHAKA, R.; LEISCH, F.; LIGGES, U.; LUMLEY, T.; MAECHLER, M.; MURDOCH, D.; MURRELL, P.; PLUMMER, M.; RIPLEY, B.; SARKAR, D.; LANG, D. T.; TIERNEY, L.; URBANECK, S. The Comprehensive R Archive Network CRAN. Disponível em: <http://cran.r-project.org>. Acesso em: 11 mai. 2012, 18:32:00. BLACKWOOD, L. G. The lognormal distribution, environmental data and radiological monitoring. Environmental Monitoring and Assessment, v. 21, n. 3, p. 193-210, 1992. CEMBER, H. Introduction to Health Physics. New York: McGraw Hill Professional, 1996. 733 p. CHAMBERS, J. Software for data analysis: programming with R. Springer. New York: Science+Business Media, LLC, 2008. 514 p. CHERNICK, M. R. Bootstrap Methods: a guide for practitioners and researchers. 2nd ed. Newtown: Wiley-Intercience, 2007. 388 p. 56 COHEN, Y.; COHEN, J. Y. Statistics and Data with R: an applied approach through examples. 1st ed. Chichester: John Wiley & Sons Ltd, 2008. 603 p. COLGAN, P. A.; ORGANO, C.; HONE, C.; FENTON, D. Radiation doses received by the Irish population. RPII 08/01. Dublin: Radiological Protection Institute of Ireland, 2008. COSTA, A. C.; PEDROSA, I. L.; MENDES, V. A. Projeto Agreste de Pernambuco. Convênio DNPM/CPRM. 1976. COSTA, A. C.; PEDROSA, I. L.; MENDES, V. A. Projeto Agreste de Pernambuco. Convênio DNPM/CPRM. Relatório Final, v. 1, 1977. DALGAARD, P. Introductory Statistics with R. New York: Springer, 2002. 284 p. DAVISON, A. C.; HINKLEY, D. V. Bootstrap methods and their application. Cambridge: Cambridge University Press, 1997. 592 p. DENNIS, B.; PATIL, G. P. Application in Ecology. In: CROW, E. L.; SHIMIZU, K. Lognormal distributions: theory and applications. New York: Marcel Dekker, Inc., 1988. chapter 12. DIMOV, I. T. Monte Carlo methods for applied scientists. 1st ed. Singapore: World Scientific Publishing Co. Pte. Ltd., 2008. 308 p. EBERHARDT, L. L.; GILBERT, R. O. Statistics and sampling in transuranic studies. In: HANSON, W. C. (Ed). Transuranic elements in the environment. DOE/TIC-22800 NTIS, 1980. p. 173-186. EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. 1st ed. Boca Raton: Chapman & Hall/CRC, 1993. 449 p. EFRON, B.; TIBSHIRANI, R. The bootstrap method for standard errors, confidence intervals, and other measures of statistical accuracy. Statistical Science, v. 1, n. 1, p. 1-35, 1986. EFRON, B. The jackknife, the bootstrap and other resampling plans. Bristol: J.W. Arrowsmith Ltd, 1982. 92 p. EISENBUD, M.; GESELL, T. Environmental radioactivity: from natural, industrial, and 57 military sources. New York: Academic Press, 1997. 656 p. FIRESTONE, R.B.; SHIRLEY, V.S.; CHU, S.Y.F.; BAGLIN, C. M. ZIPKIN, J. Table of isotopes. U.S.: Wiley-Interscience. Versão 1.0, CD ROM, 1996, 14.193 p. GONZALES, A.; ANDERER, J. Radiation versus radiation: nuclear energy in perspective. Instrumentation Atomic Energy Agency Bulletin, Viena, v. 31, n. 2, p. 21-31, 1989. HALL, P. The bootstrap and Edgeworth expansion. New York: Springer-Verlag, 1992. 352p. HELENE, O.; VANIN, V. R. Analysis of discrepant data using a bootstrap procedure. Nuclear Instruments and Methods in Physics Research A, v. 481, n. 1-3, p. 626-631, 2002. INSTITUTO DE RADIOPROTEÇÃO E DOSIMETRIA - IRD. Radioproteção. Disponível em: http://www.ird.gov.br/index.php?option=com_content&view=article&id=122&Itemid=1. Acesso em: 20 ago. 2012, 22:40:00. KNOLL, G. F. Radiation detection and measurement. 3rd ed. New York: John Wiley & Sons, Incorporation, 2000. 413p L’ANNUNZIATA, M. . Handbook of radioactivity analysis. 2nd ed. San Diego: Academic Press, 2003. 1240p. LUCIO, P. S.; LEANDRO, I. V.; DE PAULA, T. P. Bootstrap aplicado à avaliação de incertezas estatísticas no prognóstico de quantis extremos de precipitação. In: CONGRESSO BRASILEIRO DE METEOROLOGIA, 14, 2006, Florianópolis. MATSUMOTO, M.; NISHIMURA, T. Mersenne Twister: a 623-dimensionally equidistributed uniform pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation, v. 8, n. 1, p.:3-30, 1998. McKUSICK, M. K. Open sources: voices from the open source revolution. 1st ed. O’Reilly, 1999. 280 p. MURTEIRA, B. J. F. Probabilidades e estatística. 2. ed. Lisboa: McGraw-Hill, 1990. 547 p. 58 NASCIMENTO, C. T. C.; PIRES, A. C. B.; MORAES, R. A. V. Reconhecimento de solos por meio de resistividade elétrica e radiação gama. Revista Brasileira de Geociências, v. 34, n. 3, p. 383-392, 2004. OKUNO, E.; YOSHIMURA, E. Física das radiações. São Paulo: Oficina de Textos, 2010. 296 p. OTT, W. R. Environmental statistics and data analysis. Florida: Lewis Publishers, 1994. OTT, W. R.; MAGE, D. T. A general purpose univariate probability model for environmental data analysis. Computers and Operations Research. v. 3, p. 209-216. Pergamon Press, 1976. PARK, S. K.; MILLER, K. W. Random number generators: good ones are hard to find. Communications of the ACM, v. 31, n. 10, p. 1192-1201, 1988. PRESS, W. H.; TEUKOLSKY, S. A.; VETTERLING, W. T.; FLANNERY, B. P. Numerical recipes in Fortran: the art of scientific computing. Cambridge University Press, Cambridge, 1992. 994p. QUENOUILLE, M. Notes on bias estimation. Biometrika, v. 43, n. 3/4, p. 353-360, 1956. RAJPUT, M. U.; MACMAHON, T. D. Convergence of techniques for the evaluation of discrepant data. Nuclear Instruments and Methods. A 312, 289, 1992. ROBERT, C. P.; CASELLA, G. Introducing Monte Carlo methods with R. New York: Springer, 2010. 297 p. SANTOS JÚNIOR, J. A. Avaliação radiométrica do U-238, Ra-226, Th-232 e K-40 em uma área anômala do Agreste de Pernambuco. 2009. 216f. Tese (Doutorado em Tecnologias Energéticas e Nucleares), Departamento de Energia Nuclear, Universidade Federal de Pernambuco, Recife, 2009. SANTOS JÚNIOR, J. A.; CARDOSO, J. J. R. F.; SILVA, C. M.; SILVEIRA, S. V.; AMARAL, R. S. Determination of radionuclides in environment using gamma-spectrometry. Journal of Radioanalytical and Nuclear Chemistry, v. 269, n. 2, p 451-455, 2006. SHAW, G (Org). Radioactivity in the terrestrial environment. 1st ed. Oxford: Elsevier Ltd., 2007. 300 p. 59 SCHULZ, R. K. Soil chemistry of radionuclides. Health Physics. v. 11, n. 12, p. 1317-1324, 1965. SILVA, C. M.; AMARAL, R. S.; VIEIRA, J. W.; SILVA, A. N. C.; SANTOS JÚNIOR, J. A.S.; ALCOFORADO, E. S. Estimativa de intervalo de confiança para tempo de sobrevida usando desigualdade de Chebyshev via método bootstrap. Scientia Plena, v. 8, n. 4, p. 12-23, 2012. SILVA, C. M.; AMARAL, R. S.; VIEIRA, J. W.; SILVA, A. N. C.; SANTOS JÚNIOR, J. A.S.; ALCOFORADO, E. S. Modelagem de tempo de sobrevida via método bootstrap. Scientia Plena, v. 7, n. 10, p. 14-25, 2011. SILVA, C. M.; AMARAL, A. J.; AMARAL, R. S.; SANTOS JÚNIOR, J. A.; VIEIRA, J. W. Application of bootstrap method for evaluating discrepant levels of radium-226 in forage palm (Opuntia spp). Revista Brasileira de Biometria, São Paulo, v. 25, n. 3, p. 109-114, 2007. SILVA, C. M. Ra-226 e Ra-228 na dieta de bovinos leiteiros do agreste semiárido de Pernambuco e avaliação de risco decorrente do consumo de leite por uma população potencialmente exposta. 2006. 152f. Tese (Doutorado em Tecnologias Energéticas e Nucleares), Departamento de Energia Nuclear, Universidade Federal de Pernambuco, Recife, 2006. SINGH, A. K., SINGH, A., ENGELHARDT, M. The lognormal distribution in environmental applications. Technology Support Center Issue, EPA/600/R-97/006. 1997. TAYLOR, D. M.; TAYLOR, S. K. Environmental uranium and human health. Reviews on Environmental Health, v. 12, n. 3, p. 147-158, 1997. UPTON, G.; COOK, I. Introducing statistics. 2nd ed. Oxford: Oxford University Press, 2009. 349 p. WHICKER, F. W.; SCHULTZ, V. Radioecology: nuclear energy and the environment. 1st ed. Boca Raton: CRC Press Inc., 1982. 440 p. WILCOX, R. R. Basic statistics: understanding conventional methods and modern insights. Oxford: Oxford University Press, 2009. 341 p. 60 APÊNDICE A - Código desenvolvido como script com o nome Projeto Bootstrap As linhas abaixo correspondem ao código de programação desenvolvido na interface gráfica RStudio utilizando os recursos do programa estatístico R para gerar as amostras bootstrap a partir dos dados amostrais originais. Se o código for copiado para o um arquivo novo do RStudio e executado gera os dados discutidos neste trabalho. #Dados do Ra-226 em Palma Forrageira utilizando Monte Carlo-Bootstrap #Utilizando o pacote boot #Concentração de Ra-226 em palma forrageira #A linha abaixo define o números de dígitos no R incluindo as casas decimais e carrega os pacotes. options(digits=6) require(boot) require(graphics) require(stats) #####################função e dados################################## #Função que define a estatística ser calculada - no caso média aritmética media_dados <- function(x,i){ mean(x[i]) } #Vetor com os dados da palma forrageira dados <- c(1985,1990,9300,5992,2150,1495, 4500,5350,5060,6800,5400,5500,25000,3000) ###################estatística clássica ############################# #calculando valor mínimo, valor máximo, amplitude, média aritmética simples, #variância, desvio padrão, mediana, primeiro e último quartil, #desvio interquartílico e média geométrica dos logaritmos dos valores amostrais estatistica_classica <- summary(dados, digits=6) amplitude <- max(dados)- min(dados) #Cálculo da variância 61 variancia_classica <-var(dados) erro_padrao_classico <- sd(dados) num_dados <-length(dados) #Desvio interquartilico #primeiro quartil quartil1 <- quantile(dados, probs=0.25) #terceiro quartil quartil3 <- quantile(dados, probs=0.75) desvio_quartil <- quartil3-quartil1 #histograma histograma_classico <- hist(dados, main = " ", xlab = "Atividade específica do Ra-226", ylab="Nº de amostras", cex.axis=0.9, cex.lab=0.9 ) #Cálculo dos valores discrepantes #Método 1 valor_discrepante <- abs(((dados)-mean(dados))/sd(dados)) #Método 2 vd1 <- quartil1 - 1.5*(quartil3-quartil1) vd2 <- quartil3 - 1.5*(quartil3-quartil1) ########################## bootstrap da média ######################## #Utilização da função boot(data, statistic, R) existem outros argumentos #data = dados, statistic = media_dados, R é o número de reamostras. options(digits=6) resultado_boot <- boot(dados,media_dados,R=100000) ##Sumário do bootstrap resumo_boot <- summary(resultado_boot$t) 62 resumo_boot2 <- sapply(resultado_boot$t, mean, na.rm=TRUE) #valor_min <- min(resultado_boot$t) #valor_max ################ bootstrap - intervalo de confiança da média ######### #utilizaçao da função boot.ci(boot.out, conf=0.95, type="all") #é necessário calcular o bootstrap da estatística desejada primeiro #resultado_boot é o objeto da classe boot com os valores do cálculo bootstrap #conf são os intervalos de confiança desejados #type é o tipo de intervalo de confiança requerido options(digits=6) intervalo_boot <- boot.ci(resultado_boot, conf=c(0.90,0.95), type=c("norm", "basic", "perc")) ###################boxplot do bootstrap ########################### grafico_box <- boxplot(resultado_boot$t,ylab ="Atividade específica do Ra-226", cex.axis=0.9, cex.lab=0.9, varwidth=TRUE) ##################Resultados em arquivos########################### ################Em txt ###################################### #Salva o resultado no arquivo Ra-226 Estatística Clássica sink("c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/R-226 Estatistica Classica.txt") print(estatistica_classica) print(amplitude) print(variancia_classica) print(erro_padrao_classico) options(digits=3) print(media_logs) options(digits=7) print(desvio_quartil) 63 print("Valor discrepante") print(vd1);print(vd2) print("Valor discrepante"); print(dados<vd1) print("Valor discrepante"); print(dados>vd2) sink() #Salva o resultado no arquivo Ra-226 - 100000_1 amostras bootstrap sink("c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/Ra-226 - 100000 amostras bootstrap.txt") #Imprime a média dos dados originais, o viés entre a população #e o bootstrap e o desvio padrão do print(resultado_boot) #Imprime a média aritmética simples do bootstrap print(mean(resultado_boot$t)) #Imprime a população bootstrap print(resultado_boot$t) #Imprime o intervalo de confiança com probabilidade de 90 e #95% com normal, básico e percentil print(intervalo_boot) #Imprime um sumário print("Resumo usando summary") print(resumo_boot) print("Resumo usando sapply") print(resumo_boot2) #Imprime a variância dos dados originais, o viés entre a população # e o bootstrap e o desvio padrão do bootstrap #print(resultado_variancia) #print(var(resultado_variancia$t)) #print(resultado_variancia$t) sink() 64 ############## histograma_classico_relativo<-hist(dados, freq= FALSE, main = " ", xlab = "Atividade específica do Ra-226", ylab="Densidade", cex.axis=0.9, cex.lab=0.9 ) curve(dnorm(x, mean=5965.86, sd=5903.05), add=TRUE) densidade <- density(dados, main=" ", xlab = "Atividade específica do Ra-226", ylab="Densidade") plot(densidade, add=TRUE) #print(x) ################Em gráficos pdf #################################### #Histograma da estatística clássica - em pdf pdf(file="c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/histograma_classico.pdf") histograma_classico<-hist(dados, main = " ", xlab = "Atividade específica do Ra-226", ylab="Nº de amostras", cex.axis=0.9, cex.lab=0.9) dev.off() #Histograma da estatística clássica - em pdf - frequência relativa pdf(file="c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/histograma_classico_relativo.pdf") histograma_classico_relativo<-hist(dados, freq= FALSE, main = " ", xlab = "Atividade específica do Ra-226", ylab="Densidade", cex.axis=0.9, 65 cex.lab=0.9 ) curve(dnorm(x, mean=5965.86, sd=5903.05), add=TRUE) #curve(dnorm(x,mean=2,sd=sqrt(4)),col=2,lty=2,lwd=2,add=TRUE) #hist(rnorm(500,mean=2,sd=sqrt(4)),freq=FALSE) dev.off() #histograma da população bootstrap #Está funcionando pdf(file="c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/histograma_media_100000.pdf") histograma_media_100000 <- hist(resultado_boot$t, main = " ", xlab = "Atividade específica do Ra-226", ylab="Nº de amostras", cex.axis=0.6, cex.lab=0.6 ) dev.off() #boxplot da população bootstrap pdf(file="c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/boxplot_boot100000.pdf") boxplot_boot100000 <- boxplot(resultado_boot$t,ylab ="Atividade específica das do Ra-226", xlab = "100.000 reamostras", font.axis = "Times New Roman", font.main = "Times New Roman", font.lab = "Times New Roman", cex.axis=0.9, cex.lab=0.9, varwidth=TRUE) dev.off() #Densidade de probabilidade do histograma e a curva normal pdf(file="c:/Ary/Meeeuuuu/Mestrado/Dissertacao/Defesa/Resultados no R/histograma_boot_relativo100000.pdf") histograma_boot_relativo100000<-hist(resultado_boot$t, freq= FALSE, main = " ", 66 xlab = "Atividade específica de 100.000 reamostras do Ra-226", ylab="Densidade", cex.axis=0.6, cex.lab=0.6 ) curve(dnorm(x, mean=mean(resultado_boot$t), sd=apply(resultado_boot$t, 2, sd)),add=TRUE) dev.off()