GEOESTATÍSTICA APLICADA A RECURSOS NATURAIS PCF -560 JOSÉ MARCIO DE MELLO [email protected] LAVRAS #2014 – 2# 1. INTRODUÇÃO A - Geoestatística e suas interfaces na Engenharia Florestal Técnicas estatísticas são aplicadas em todos os ramos da ciência. (Teste F, teste de média, regressão, análise de agrupamento, Modelagem, etc...) BIOMETRIA “Modelagem” SOLOS “Anava” INVENTÁRIO FLORESTAL HIDROLOGIA ESTATÍSTICA “CLÁSSICA” – MODELAGEM E TESTES DE COMPARAÇÃO SENSORIAMENTO REMOTO MANEJO FLORESTAL ECOLOGIA SILVICULTURA “Anava – modelagem” “Modelagem/análise multivariada” “ ISTO EVIDENCIA A IMPORTÂNCIA DA ESTATÍSTICA NA FORMAÇÃO DOS PROFISSIONAIS”. Os métodos de análises empregados na estatística clássica, assumem que as observações ocorrem de forma independente. Os métodos clássicos geram uma medida de posição (µ) e uma medida de dispersão (σ2). Na clássica os métodos discerne somente o tamanho da variabilidade. Segundo Reichardt (1985) “A estatística clássica e a geoestatística, que é um ramo da estatística espacial, se complementam”. Neste sentido é que teremos que perceber a interface e possibilidades de novas alternativas que explore a relação espacial entre as observações (distâncias entre os pontos observados). BIOMETRIA “Estudo de variabailidade espacial de variáveis” VIVEIROS “casa de vegetação (L1; C3;xi)” INVENTÁRIO FLORESTAL “Georeferenciamento” RECUPERAÇÃO DE ÁREAS DEGRADADAS “Variabilidade de solos” GEOESTATÍSTICA TECNOLIGIA DA MADEIRA SENSORIAMENTO REMOTO “Continuidade espacial da DB ao longo do fuste” ECOLOGIA MELHORAMENTO “Análise de progêneses” “Estudo da distribuição espacial das espécies” FOCO DO CURSO: “Apresentar noções gerais de geoestatística, a fim de que possamos ter outras alternativas de análises”. TRABALHO 01 - Leitura de 4 artigos relacionados de geoestatística com floresta, com solo, com hidrologia e com ecologia (ou áreas afins). - Para cada artigo fazer uma resenha de 1 página digitada, destacando os pontos importantes da metodologia geoestatística utilizada e os principais resultados. Além da resenha o artigo completo em digital ou impresso. DATA: PRÓXIMA PRIMEIRA TERÇA FEIRA... B – MOTIVAÇÃO PARA USO DA GEOESTATÍSTICA Trabalho de Borgelt et al 1994 VTR (Variable rate technology) – tecnologia de aplicação com taxas variáveis de calcário; [ Mapeamento da área com base no pH] Distribuição de uma malha irregular de pontos amostrais na área para subdivisão com base no pH (5 sub-áreas); I II III IV Como e qual a quantidade de calcário distribuir na área? V Síntese dos resultados: - quantidade de calcário aplicado considerando as sub-áreas mapeamento (43,4 ton/ha); - quantidade de calcário aplicado a partir da informação média (40 ton/ha); OBS.: a) quantidade de calcário com base na média foi menor; b) no entanto 12% da área recebeu excesso de calcário [ aumento de custo]; c) 37% recebeu menos do que o necessário [redução da produção]; CONCLUSÃO: Gastou-se mais do que o necessário e produziu menos. Se tivesse corrigido adequadamente produziria mais. É um despertar para a agricultura de precisão... 7381000 7380000 7379000 240 260 280 300 7378000 Latitude - “MAPA DE KRIGAGEM DOS VALORES DE pH para a área”. 7382000 7383000 7384000 - “USANDO VALOR MÉDIO DE pH”. 761000 762000 763000 764000 Longitude 765000 766000 767000 Determinar o Teor de Argila no Solo 1 2 3 D D – domínio área a ser avaliada - Será que uma única amostra caracteriza adequadamente o teor de argila neste domínio? - Coleta de diversas amostras nas 3 transeções { média/variância}; OBS.: A média , como resposta, pode não ser uma boa medida, principalmente se a variância for alto. - Análise dos dados por transeções (1, 2 e 3). % Argila Posição - Pelo gráfico exposto, será que a média é explicativa para os 3 comportamentos do teor de argila em função da posição? - Para 1 e 2 a média expressa bem o teor de argila (%). Na transeção 3 a posição influenciou no teor de argila (%), e portanto esta deve ser considerada no cálculo da variância. C - BREVE HISTÓRICO SOBRE GEOESTATÍSTICA a) - Smith (1910) - Montgomery (1913) - Waynich e Sharp (1919) Utilizavam a média e o desvio padrão para caracterizar fenômenos na área de solos – QUESTIONAMENTOS SOBRE OS MÉTODOS???? - “USANDO VALOR MÉDIO DE pH”. D - Mercer & Hall (1911) “Experimento em branco em campos de milho na Inglaterra”. Montaram um experimento com diversas parcelas pequenas em campo de milho para estudar a variação entre estas parcelas. Observaram que a variância diminui com o aumento da parcela. Outro aspecto observado é que houve diferença entre os tratamentos (??). σ2 “Tendência de estabilização da variância”. Tamanho A ideia de estabilização da σ2 é “um primeiro indicativo de geo”. Verificaram que havia uma forte correlação entre as parcelas adjacentes nos campos de milho. (INTUIÇÃO DE DEPENDÊNCIA ESPACIAL). Eles sugeriram comparar o desvio padrão da diferença entre unidades vizinhas ( BASE DO SEMIVARIOGRAMA) Percebendo estas questões e não tendo recurso computacional adequado, as ideias dos pesquisadores estatísticos começaram a fluir.... Fisher (1925) – Livro “Statistical Method for Reserch Workerks” Snedecor (1937) – “Statistical Method” “ Esta duas obras nortearam os princípios e fundamentos da estatística experimental (distribuição normal dos erros, independência entre as observações e aleatorização)”. A PRINCIPAL HIPÓTESE DESSA ESTATÍSTICA É QUE AS VARIAÇÕES NUMA DADA CARACTERÍSTICA DE UM LOCAL PARA OUTRO SÃO ALEATÓRIAS, OU SEJA, NADA INFLUENCIA A σ2 DOS DADOS. E - Daniel G. Krige (1951) – Começa a história da geoestatística Concluiu que (µ) e (σ2) eram insuficientes para explicar o que acontecia com as estimativas de ouro nas jazidas da África do Sul. Quando era explorado a jazida, os valores de média e variância gerados pela amostra eram viesados. Krige e Sichel – desenvolveram uma estatística diferenciada e apropriada para estimar o cálculo da reserva. “Introduziu o conceito de média móvel para evitar a superestimação sistemática da reserva”. - Na situação (a) é como se tivesse um bloco de minério. Até a metade do bloco, o valor médio é alto e as amostras variam ao redor do mesmo. A outra metade o valor médio cai. Mesmo com os valores variando ao redor do mesmo. Mostra que não há um continuidade (clássico) no bloco. O teor varia espacialmente... 1962/1963 – Matheron com os dados de Krige desenvolveu a Teoria das Variáveis Regionalizadas. “Modelagem Matemática para variáveis que ocorrem de forma contínua e que a variação de um local para outro tem influência da distância”. F - Contextualização da Estatística Clássica com a Geoestatística Estatística Clássica X Estatística Espacial – não veja esta comparação como competição entre 2 metodologias. As duas tem as suas respectivas vantagens. Temos que tirar o que de bom cada uma tem. Procedimentos estatísticos tradicionais modelam os dados a partir do pressuposto de que os mesmos são independentes. Esta independência esta associada aos erros. y( xi ) ( xi ) i D A D O S • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • µ POSIÇÃO y( xi) ( xi) S( xi) i i D A D O S • • • • • • • • • • • • • • • • • • • • • • µ • • • • • POSIÇÃO - SIMULANDO DADOS COM DEPENDÊNCIA ESPACIAL - sim=grf(500,grid=“reg”,cov.pars=c(1,0.25)) - image(sim) - sim2=grf(500,grid=“reg”,cov.pars=c(1,0.75)) - Image(sim2) 0.0 0.0 0.2 0.2 0.4 0.4 Y Coord Y Coord 0.6 0.6 0.8 0.8 1.0 1.0 - sim3=grf(500,grid=“reg”,cov.pars=c(1,0.25),nugget=0.5) - Image(sim3) 0.0 0.2 0.4 0.6 X Coord 0.8 1.0 0.0 0.2 0.4 0.6 X Coord 0.8 1.0 EXEMPLO: Clássica X Espacial A – Clássica: Gera intervalo de confiança (IC) – isto mostra com um determinado nível de confiança no qual o valor esperado num determinado ponto não amostrado na floresta. ( IC x erro) Poderia ter mapa colorido caso fizesse o censo em cada unidade amostral da população estatística (N). 0.0 0.2 0.4 Y Coord 0.6 0.8 1.0 - SIMULANDO - sim=grf(500,grid=“reg”,cov.pars=c(1,0),nugget=1) - Image(sim) 0.0 0.2 0.4 0.6 X Coord 0.8 1.0 De ante mão, por quê não conseguimos obter uma mapa variando de cor conforme a produtividade da área? A média e a variância da média não levam em consideração a correlação entre as parcelas. São estatísticas constante para toda a área... B – Espacial, neste caso consegue-se um mapa de produtividade variando ao longo da área, pois a correlação é levada em consideração na estimativa de qualquer ponto dentro da área. Isto é conhecido sem fazer o censo na área. = (Fe’-1Fe)-1 * Fe’-1 y VAR() = (Fe’-1Fe)-1 APLICAÇÃO DO CÁLCULO DA MÉDIA E DA VARIÂNCIA ESPACIAL MAIS A FRENTE NO CURSO... 2. OS PRIMEIROS PASSOS COM O R O R é uma linguagem e ambiente para computação estatística e gráfica. Robert Gentleman e Ross Ihaka (1996). A principal vantagem do uso do R é ser gratuito e o usuário sabe o que ele está fazendo. a) Instalando o R - www.r-project.org O R é formado por um conjunto pacotes (funções criadas por alguém que as disponibilizou de forma gratuita no R). >library(NOME DO PACOTE) #O R carrega o pacote de seu interesse#. b) Usando o R Clique duplo no ícone do R. O R é uma linguagem interativa que funciona através de linhas de comando. A linha de comando é sinalizada com “>” quando o R está pronto para receber um comando. >sqrt (9 #Veja o que acontece!!!!# >sqrt(9) <enter> c) Criando objetos no R >x=2 >x=5 #Observe o que aconteceu... # Qual foi a diferença? dados<-c(20,21.2,50.5,60,102) >length(dados) >mode(dados) >rm(a) >ls() 3. ESTATÍSTICA DESCRITIVA – uso do R A - Conceito de população - Alvo - Estatística - COORDENADAS DO CONTORNO DA ÁREA - COORDENADAS DE PARCELAS B - Amostra É um conjunto representativo da população estatística. Os dados para se trabalhar com geoestatística vem de informações da amostra. Quando se trabalha com amostragem sistemática, ela possibilita “enxergar” melhor a estrutura de continuidade espacial da característica avaliada. A observação da continuidade espacial, às vezes, é uma questão de escala. Se os pontos de observação estão distantes, pode-se concluir que a variável não é contínua. É preciso amostrar numa escala menor (TESSELA) para poder visualizar a magnitude desta continuidade espacial. [ Amostrar na pequena escala. Lá pode ter continuidade e a gente não enxergar]... Uso R (Parte 1) 1. Abrir o arquivo “dados_1.xls” e criar o arquivo “dados1.txt”; 2. Gerar um objeto (dados) data.frame com o arquivo “dados1.txt”; dados=read.table("dados1.txt",header=T,dec=",") 4. Apresentar a função sample do R; 5. Criar 3 objetos utilizando a função sample; a10=sample(dados$VCC,10,replace=F) a50=sample(dados$VCC,50,replace=F) a100=sample(dados$VCC,100,replace=F) Observe que foram geradas 3 amostras de tamanhos diferentes (10; 50; 100). C - Medidas de posição As medidas de posição são: média; mediana e moda. - FAZENDO NO R x=seq(10,220) fx1=dnorm(x,80,20) plot(x,fx1,ype=“l”) fx2=dnorm(x,100,20) lines(fx2) Fx3=dnor(x,120,80) lines(fx3) f ( x) 1 exp (x )2 2 2 * 2 * * 2 1 Uso R (Parte 2) 6. Calcular a média e mediana para cada uma das amostras (a10; a50; a100); mean(a10) median(a10) mean(a50) median(a50) mean(a100) median(a100) 7. Gerar o histograma de frequência para cada uma das amostras; par(mfrow=c(1,3)) hist(a10,col="red",main="Média 1",label=T) hist(a50,col="blue",main="Média 2",label=T) hist(a100,col="orange",main="Média 3",label=T) Observe o conceito do Teorema Central do Limite. D - Medidas de dispersão As principais medidas de dispersão são: Variância; Desvio padrão; CV e erro padrão. - FAZENDO NO R x=seq(1,100) fx1=dnorm(x,50,5) plot(x,fx1,type=“l”) fx2=dnorm(x,50,10) lines(fx2) Fx3=dnorm(x,50,15) lines(fx3) abline(v=50) Uso R PARTE 3 1. Gerar aleatoriamente as seguintes intensidades amostrais: a20; a40; a60; a80; a100 e a120. 2. Para cada grupo encontrar a média, a variância, o desvio padrão, o CV e o erro padrão da média. MEDIA=c(mean(a20),mean(a40),mean(a60),mean(a80),mean(a100),mean(a120)) RESULTADO=matrix(c(MEDIA,VARIANCIA,SD,CV),ncol=4) colnames(RESULTADO)=c("MÉDIA","VARIÂNCIA","SD","CV") 3. Relacionar a intensidade amostral (x) com o coeficiente de variação (CV). X=c(20,40,60,80,100,120) plot(X,CV)