09/10/2014 Geoestatística Aplicada em Ciências Agrárias: WebTreinamento. Professor Paulo M. Barbosa Landim 1 2 Na jogada de um dado, o resultado ser 1, 2, 3, 4, 5 ou 6 tem a mesma probabilidade de ocorrer: processo aleatório e não tendencioso. Várias jogadas e vários dados : pode-se calcular a probabilidade Modelagem dos fenômenos naturais Modelos determinísticos Modelos probabilísticos E na Natureza? Como prever a ocorrência de um evento? •Modelos probabilísticos e a Estatística 3 4 1 09/10/2014 Modelagem espacial de fenômenos naturais 5 Variáveis “A” e “B” 6 Adicionar as coordenadas XY 7 8 2 09/10/2014 Distribuição espacial dos valores é diferente A importância do georreferenciamento 9 10 Estatística espacial e interpolação de valores Estratégia para a amostragem: Valores são coletados (amostra) para estimar o comportamento espacial do fenomeno em estudo (população) •características da area a ser amostrada •planejamento a ser adotado para determinar a seleção de amostras em termos de localização e densidade Interpolação: procedimento matemático de ajuste de uma função à pontos não amostrados, baseando-se em valores obtidos em pontos amostrados. •procedimento a ser utilizado para o cálculo da estimativa e sua interpretação. Produto final: Mapas (Modelo digital) 11 12 3 09/10/2014 Usando informações pontuais conhecidas, como estimar um valor em local não amostrado? 13 14 Mapeamento de solos Amostragem para o teor de um painel Amostragem baseada na estatística Amostragem baseada na estatística espacial Os resultados são sempre incertos. Essa incerteza não é uma propriedade intrínsica do fenômeno. • Reflete apenas o grau de desconhecimento do observador. • • • • 15 ● ● ● 16 4 09/10/2014 Diversos métodos de estimativa para modelagem de superfícies por meio de redes regulares Questões Quantas amostras devem ser utilizadas? Até que distâncias devem ser consideradas as amostras? Aquela eventualmente colocada no centro da área a ser mapeada terá um peso maior que as demais? Se as amostras formarem grupos qual a influência desses agrupamentos? Como evitar que os resultados sejam sub ou super estimado? A relação espacial, em termos geométricos, entre as amostras estimadoras e a área a ser estimad, tem importância? A técnica de estimativa pode ser usada para qualquer tipo de solo. Por exemplo, autóctone ou transportado? 17 Fornecidos “n” valores conhecidos, regularmente distribuídos ou não, Z1, Z2,..., Zn, O valor Z* a ser interpolado para qualquer nó da rede será igual a Z* = ΣpiZi Diferença entre métodos: maneira como os Zi são escolhidos e os respectivos pesos “pi” são calculados e aplicados durante o processo de reticulação. 18 Uma divisão simples entre os métodos pode ser em modelos determinísticos e modelos estocásticos. Algorítmos para interpolação Os modelos determinísticos têm por base critérios puramente geométricos em que as distâncias são euclidianas e não fornecem medidas de incerteza como, por exemplo, o conhecido método do inverso do quadrado da distância (IQD). inverso do quadrado da distância curvatura mínima vizinho natural regressão polinomial krigagem 19 Nos modelos estocásticos, os valores coletados são interpretados como provenientes de processos aleatórios e são capazes de quantificar a incerteza associada ao estimador. Os modelos geoestatísticos pertencem à essa categoria. 20 5 09/10/2014 Metodologia Geoestatística •Análise estrutural: variograma •Estimativa de valores: •Metodos lineares: krigagem ordinária •Metodos não lineares: krigagem indicativa 21 22 Origens da Geoestatística Kolmogorov, Weiner, Matern, Gandin (início até meados de 1900) Fisher (1935): variabilidade entre diferenças no rendimentos de culturas pode ser explicada, em grande parte, pelas propriedades ambientais e físicas do solo da área em estudo, as quais possuem grande dependência espacial. No espaço ocorrem infinitos valores de uma variável aleatória. Por amostragem obtem-se diversos resultados únicos dessa mesma variável casual. Amostra deve ser representativa. Krige (1951) e De Wijs (1952-1953) “Geoestatística”: localização geográfica e a dependência espacial. Matheron (1962,1963) Teoria das variáveis regionalizadas 23 24 6 09/10/2014 Variável aleatória e função aleatória Função aleatória Cada ponto no espaço não apresenta um único valor, mas uma distribuição de probabilidades de ocorrência de valores No ponto x a propriedade Z(x) é uma variável aleatória com média m, variância s2 e uma função de distribuição acumulada. No espaço existem infinitos pontos xi, i = 1,2, ..., Z(xi), com suas próprias funções de distribuição O conjunto de variáveis aleatórias constituem uma função aleatória, ou processo aleatório, ou processo estocástico O conjunto de valores reais de Z que inclui a realização da função aleatória é conhecido como variável regionalizada 25 26 A Teoria das Variáveis Regionalizadas tem por objetivo o estudo e a representação estrutural das V.R. para a resolução de problemas de estimativa, a partir de dados experimentais medidos sobre suportes que não abrangem totalmente tais domínios Variável regionalizada (V.R.) Duplo aspecto “contraditório”: Característica “aleatória”: irregularidade e variação imprevisível de um ponto para outro Característica “estrutural”: ligações existentes entre os pontos no espaço, motivadas pela gênese do fenômeno natural. (Problema clássico da inferência estatística quando se pretende estudar uma população por meio de amostragem) É impossível prever com exatidão o teor de um poluente na pluma de contaminação (aspecto aleatório), mas é provável que se encontre um alto teor de um poluente perto de outro alto teor (aspecto estrutural). A Teoria das Variáveis Regionalizadas tornou possível a Geoestatística 27 O melhor estimador para uma V.R. deve levar em consideração as respectivas posições relativas e, portanto, a característica estrutural Estimativas são sempre afetadas por erros e é necessária a avaliação da precisão da estimativa 28 7 09/10/2014 GEOESTATÍSTICA E INTERPOLAÇÃO DE VALORES Exemplos de VR: • VARIÁVEIS REGIONALIZADAS Variáveis físicas dos solos Variáveis químicas dos solos Altitude de cotas topográficas Porosidade e permeabilidade de solos Transmissividade hidráulica Concentração de elementos-traço no solo Densidade vegetal em florestas Distribuição espacial de pragas •A localização geográfica é parte integral de qualquer variável. •Os valores das variáveis não são independentes e identicamente distribuidos. •Ocorre dependência espacial entre os valores •Consequência: “erro” da estimativa 29 30 Momentos considerados na função aleatória em Geoestatística: média e variância Aplicações da geoestatística Lavra e prospecção mineira Agricultura de precisão Análise espacial de crimes Cartografia Climatologia Ecologia da paisagem Engenharia Florestal Epidemiologia Geologia ambiental Geologia do petróleo Geotecnia Hidrogeologia Pedologia: mapeamento de solos Softwares para Confecção de Mapas ou Sistemas de Informações Georreferenciadas (Exemplo: SPRING) 31 Momento de primeira ordem: Média = E{Z(x)} = m(x) Momentos de segunda ordem: Variância (Covariância) Correlação Variograma 32 8 09/10/2014 â = â − − = = = Variograma − − − Variância das diferenças entre dois valores em pontos separados por h. Os pares de valores referem-se à mesma variável, obtidos em função da localização espacial, ou seja, em locais com distâncias múltiplas “h(lag)”, 33 Mede a variabilidade espacial em função da distância 34 Variograma: valores de “γ”, na ordenada, e “h”, na abcissa. Variograma relações espaciais são mostradas quando a função γ(h) é colocada em gráfico contra h para originar o variograma experimental γ(h) distribui-se de 0, quando h=0, até um valor igual a variância das observações para um alto valor de h a distância, segundo a qual γ(h) atinge um patamar (soleira/sill), igual a variância dos dados, é chamada de alcance (range). γ(h) = variância [C(0)] – covariância [C(h)] 35 Mesma direção θ e distâncias multiplas de h: γ* para h, 2h, 3h, ... 36 9 09/10/2014 A interpretação do variograma permite obter parâmetros que descrevem o comportamento espacial das variáveis regionalizadas. O variograma substitui a distância euclidiana “h” pela distância “γ(h)”, atributo específico do local em estudo. A distância dada pelo variograma mede o grau médio de similaridade entre um valor não amostrado e um valor conhecido vizinho. O variograma é utilizado para calcular os valores de variância, para uma dada distância, os quais são necessários para a organização do sistema de equações da krigagem. h≤a: campo estruturado h>a: campo aleatório 37 38 Modelagem Modelos de variogramas As funções matemáticas dos modelos devem permitir que a matriz de covariâncias, neles baseada, possa ser invertida, para fornecer os “pesos” para a interpolação por krigagem. Desse modo, somente certos modelos podem ser usados. 39 40 10 09/10/2014 Modelo Esférico 41 Modelo Exponencial 42 Modelo Potência Modelo Gaussiano 43 44 11 09/10/2014 Modelo Efeito Pepita Puro Todo o processo de inferência espacial tem início com a coleta de uma amostra composta por n pontos de dados e é esperado que essa amostra seja representativa do fenômeno em estudo, em termos da distribuição e variabilidade espaciais. Krigagem é o processo geoestatístico de estimativa de valores de variáveis distribuídas no espaço, e/ou no tempo, a partir de valores adjacentes enquanto considerados como interdependentes pela análise variográfica. S Variograma Este modelo representa um fenômeno completamente aleatório, no qual não ha correlação espacial Krigagem (Krigeage/Kriging) Distancia 45 46 Necessidade de um sistema de equações normais em matriz, na qual são usados os parâmetros variográficos para a obtenção dos pesos a serem utilizados para o cálculo do valor do ponto a ser estimado/interpolado Único meio disponível para verificar a existência ou não de continuidade espacial é, se houver, por meio da análise variográfica que determinará os parâmetros que caracterizam o comportamento regionalizado Quando um variograma é adequadamente elaborado, a estimativa por krigagem resultante é reconhecida como sendo a melhor e não tendenciosa estimativa linear Utiliza distâncias ponderadas e estimativa por médias móveis, pelo qual os pesos adequados são obtidos a partir de um variograma, representativo da média das diferenças ao quadrado dos valores de Z(xi) distribuídos a intervalos de distâncias especificados (lags h) 47 48 O sistema de krigagem necessário para a determinação dos ponderadores associados a cada um dos pontos estimadores baseia-se na ideia que quanto maior a covariância entre uma amostra xi, i=1, 2, ..., n, e o local que está sendo estimado, x0, mais essa amostra deve contribuir para a estimativa. 12 09/10/2014 •Existe associado a esse estimador um erro, ε=Z(x0)-Z*KO(x0); uma maneira simples seria representá-lo pela variância da estimativa: σ2=Var[Z*KO(x0)-Z(x0)]2 Cálculo dos ponderadores λi •A variância não pode ser obtida porque não se conhece o valor real que se esta estimando e, portanto, também não se sabe qual o erro associado •A solução é transformar a expressão em termos de quantidades que possam ser calculadas: O valor estimado por krigagem Z*(xi) é uma combinação linear de n Variáveis Regionalizadas. O valor estimado é não enviesado E[Z(x)] = m Var[Z(x)-Z(x+h)]2 = 2γ(h) Variância dos erros: = desvios ao quadrado em relação ao erro médio = média de [(Z(x0) – Z*(x0)]2. A variância da estimativa é minimizada Para estimar tal medida utilizar o variograma, em que são medidas as diferenças de valores ao quadrado. 49 50 Variância dos erros: = desvios ao quadrado em relação ao erro médio = média de [(Z(x0) – Z*(x0)]2. Krigagem Para estimar tal medida utilizar o variograma, em que são medidas as diferenças de valores ao quadrado. Estimação por uma combinação linear ponderada Num variograma, previamente calculado, dada uma distância h entre os pontos, pode-se estimar a variância simplesmente lendo o valor no eixo dos γ´s O valor estimado é não enviesado O erro cometido deve ter uma esperança zero γ(xi,xj): variância entre os pontos estimadores γ(xi,x0): variância entre o ponto estimador i e o Procura pela máxima precisão 51 52 ponto a ser estimado 13 09/10/2014 Krigagem ordinária para a estimativa de um ponto x0 É introduzido o multiplicador de Lagrange (µ) porque os pesos λ devem somar 1 Representa o balanço entre como os valores estimadores se relacionam com o valor a ser estimado e como se relacionam entre si. A variância da krigagem é homoscedástica Independe dos valores dos pontos usados para obter o estimador Z*(x0) Mede apenas a configuração espacial dos dados 53 [λ] = [A]-1 [B] Cálculo da variância(desvio padrão) associada(o) ao valor obtido por estimativa krigada 54 Exemplo: espessura de camada de carvão (Yamamoto & Landim, 2013) γ * ( 0,5 )= 1 2*8 [ (1,4 − 1,3 ) γ * ( 1,0 55 56 )= 1 2 * 18 + (1,3 − 1,5 ) + (1,2 − 1,23 ) + (2,09 − 1,6 ) + (1,6 − 1,4 ) + (1,4 − 1,41) + 2 2 ] (1,41 − 1,38)2 + (1,38 − 1,04 )2 [ (0,8 − 0,72 ) 2 2 2 2 2 = 0,028 + (1,19 − 0,94 ) + (0,94 − 0,96 ) + (0,96 − 1,05 ) + (1,02 − 1,2 ) + 2 2 2 2 (1,2 − 1,1)2 + (1,1 − 1,18 )2 + (1,55 − 1,57 )2 + (1,57 − 1,3 )2 + (1,18 − 1,4 )2 + (1,4 − 1,5 )2 + (1,85 − 1,2 )2 + (1,23 − 1,3 )2 + (1,62 − 2,09 )2 + (2,09 − 1,4 )2 + (1,6 − 1,41)2 + (1,4 − 1,38 )2 + (1,41 − 1,04 )2 ] = 0,043 14 09/10/2014 Distância 0,5 1,0 1,5 2,0 2,5 3,0 3,5 Leste-Oeste Np γ (h ) 0,028 8 0,043 18 0,051 12 0,047 12 0,158 6 0,015 5 0,104 4 Norte-Sul Np γ (h ) 0,028 11 0,097 15 0,069 13 0,147 7 0,216 9 0,133 3 0,178 3 Modelo esférico/ Co:0; C1:0.105; a: 1.94 57 58 Estimativa dos valores no reticulado Mapa com valores interpolados por krigagem ordinária e respetivos desvios padrão da krigagem 100 100 90 80 80 70 60 60 50 40 40 30 20 20 10 0 0 0 20 40 60 80 100 100 100 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 20 10 10 0 0 0 59 0 10 20 30 40 50 60 70 80 90 100 60 15 09/10/2014 61 62 Modelo esférico/ Co:0; C1:0.105; a: 1.94 [λ ] = [γxi, xi]−1[λxi, X ] 63 64 16 09/10/2014 KRIGAGEM INDICADORA KRIGAGEM INDICATIVA (Krigagem da Indicatriz) 65 Variável indicativa No processo básico da krigagem, a estimativa é feita para determinar um valor médio em um local não amostrado. Pode-se, porém, fazer estimativas baseadas em valores que se situam acima ou abaixo de um determinado nível de corte (cutoff). Este procedimento, estabelecido para vários níveis de corte de uma distribuição acumulada, conduz a uma estimativa de vários valores dessa distribuição em um determinado local, cuja função poderá ser ajustada. Variável indicativa: variável binária com apenas duas possibilidades 0 ou 1 Os 0’s e 1’s podem ser usados para designar duas diferentes classes: 0 = folhelho e 1= arenito 0= impermeável e 1= permeável 0= minério e 1= rejeito Podem ser usadas para separar uma variável continua em duas categorias: 0: Pb≤10ppm e 1: Pb> 10ppm 17 09/10/2014 Estimativa da distribuição de probabilidades pela “krigagem indicativa” Transformar os dados originais em indicadores, isto é, transformar os valores que estão acima de um determinado nível de corte em zero (0) e os que estão abaixo em um (1): 1 se v j ≤ v c ij (v c ) = 0 se v j > v c 1 se v j > v c ij (v c ) = 0 se v j ≤ v c Neste tipo de transformação, os maiores valores estimados indicarão maior probabilidade de ocorrência de valores acima do nível de corte e os menores valores estimados indicarão menor probabilidade de ocorrência de valores acima do nível de corte. Neste tipo de transformação, os menores valores estimados indicarão maior probabilidade de ocorrência de valores acima do nível de corte e os maiores valores estimados indicarão menor probabilidade de ocorrência de valores acima do nível de corte. Calculo dos variogramas experimentais indicativos para determinados níveis de corte e modelagem variográfica Krigagem ordinária pontual nos valores transformados, fornece a probabilidade de vi < vc Variogramas indicativos podem ser estimados pela função: h = passo (lag) básico vC = nível de corte N = número de pares 18 09/10/2014 Escolha dos níveis de corte Conhecimento “a priori” ou distribuição de probabilidades acumuladas Objetivos: procura de valores acima do nível de corte, como na determinação de teores anômalos de um determinado bem mineral procura de valores abaixo do nível de corte, como em análise ambiental para a determinação de níveis de poluição abaixo de um certo teor. A Krigagem indicativa com múltiplos níveis de corte é aplicada para encontrar a função de distribuição acumulada de cada ponto a ser estimado. Nesse caso alem de estimar o valor, é também calculado um intervalo de confiança e a correspondente probabilidade de exceder ou não um certo valor. A média ponderada das variáveis indicativas é uma estimativa da probabilidade acumulada N Pr ob(Z( x ) ≤ v c ) = ∑λ jI( x j ) j=1 O estimador fornecido pela krigagem suaviza os resultados. Avaliação dos valores médios das variáveis que definem um recurso natural: krigagem ordinária. E para características extremas? Para valores acima, ou abaixo, de valores de corte? A relação entre um recurso natural e o seu entorno. Uma pluma de um poluente não significa que a “nãopluma” adjacente esteja completamente limpa daquele contaminante. Funções de distribuição de probabilidades locais estimadas para fornecer mapas de riscos O estimador é não-enviesado em relação à média da lei de distribuição da variável Z(x), mas não em relação à lei de distribuição de probabilidades de Z(x). A krigagem de Z(x) é um estimador ótimo em relação à media, mas não em relação à variância. Relação intrínseca entre o fenômeno de suavização e o erro associado ao processo de estimação: a variância dos valores reais é maior que a variância dos valores estimados. À medida que aumenta a quantidade de informação para estimar a mesma área, o erro tende a ser menor, e, por conseqüência, menos acentuado o efeito de suavização. 19 09/10/2014 Erros de classificação: Uma das mais importantes conseqüências do efeito de suavização: enviesamento dos valores extremos, com subestimação dos valores acima da média e sobreestimação dos valores abaixo da média. Exemplo: numa área com solo potencialmente contaminado pretende-se avaliar qual a porção a ser limpa e qual a que não esta contaminada e que, conseqüentemente, não deve ser removida ou recuperada I. Classificar como segura uma localização contaminada II. Classificar como contaminada uma localização segura Uma localização é classificada como segura quando a respectiva estimativa calculada se encontra abaixo do limite máximo permitido (zc) para o contaminante de interesse. Essa localização não estara sujeita a nenhum tratamento ou remediação. Caso contrário, a localização será classificada como contaminada e estará sujeita a tratamento. Erro tipo I (risco α(x) ou falso positivo) ocorre quando a estimativa em uma localização segura u (Prob Z(x)≤zc) é superestimada (Z*(x)>zc); seu valor fica acima do limite máximo permitido α(u)=Prob{Z(x)≤zc|Z*(x)>zc,(n)} =F(x;zc|(n)), para todas as localizações x tal que a estimativa Z*(x)>zc. Erro tipo II (risco β(x) ou falso negativo) ocorre quando uma localização contaminada u (ProbZ(x) >zc é subestimada (Z*(x)≤zc); seu valor fica abaixo do limite máximo permitido β(x)=Prob{Z(x)>zc|Z*(x)≤zc,(n)} =1-F(x;zc|(n)), para todas as localizações x tal que a estimativa Z*(x)≤zc. (Myers, 1997:463) 20 09/10/2014 Exemplo: Bacia Delaware/Novo México/EUA Poços para produção de petróleo: produtivos e improdutivos (Hohn, 1999) "X" "Y" "Z" 27 42 0 29 42 0 30 42 0 44 42 0 36 43 0 39 43 0 48 43 0 41 44 0 42 44 0 48 44 0 41 17 1 20 20 1 20 21 1 21 21 1 35 21 1 32 33 1 33 33 1 34 33 1 36 33 1 41 33 1 1: poço produtivo 0: poço improdutivo 21 09/10/2014 Pontos de coleta na bacia hidrográfica do Rio Araquá. Metodologia geoestatística aplicada em Ciências Agrárias Talita Tanaka Fernandes, T. T. (2014). Krigagem Indicativa para elaboração de mapas probabilísticos em Agricultura de Precisão. Dissertação (Mestrado em Biometria) - Instituto de Biociências/UNESP, Botucatu, . SILVA, R. F. B. (2011). Planejamento do uso do solo em uma Bacia Hidrográfica para conservação dos Recursos Hídricos. Dissertação (Mestrado em Agronomia/Irrigação e Drenagem) – Faculdade de Ciências Agronômicas/UNESP, Botucatu,.. 8 6 85 Sph;20.000;40.000;3700 Fósforo: macronutriente importante devido a sua participação na formação de componentes presentes no núcleo das células vegetais Potássio: essencial para as fases de crescimento vegetativo e reprodutivo da cana de açúcar. Saturação por bases: indica o estado de ocupação das cargas da capacidade de troca catiônica total, ou seja, do total de cargas negativas existentes no solo e qual proporção ocupada pelos cátions úteis. 87 Sph;11.000;18.000;4000 88 22 09/10/2014 Areia Krigagem ordinária 89 Argila Krigagem ordinária 90 Krigagem indicativa Empresa Brasileira de Pesquisa Agropecuária – Embrapa (2013) Areia: se <= 700, valor 0; se >700, valor 1, Argila: se <=350, valor 0; se >350, valor 1, Fósforo: se <=16, valor 0; se >16, valor 1, Potássio: se <=3,1, valor 0; se >3,1, valor 1, Saturação por Bases: se <=60, valor 0; se >60, valor 1. 91 92 23 09/10/2014 Regressão polinomial: análise de tendência 0 0 1 Grau 0 2 Grau Y 3 Grau Y Y VARIÁVEL 2 Dados com tendência X X X LINHA Z Efeito pepita puro CURVA DE 3 GRAU Z Z VARIÁVEL 3 ??? X X X PLANO Y 93 0 PARABOLA PARABOLOIDE Y 0 SUPERFÍCIE DE 3 GRAU Y 94 Ajustando uma superfície de tendência de 1º grau Regressão polinomial Mapas de tendência: Argila(a) e Areia(c) Mapas de resíduos: Argila(b) e Areia (d). Dados interpolados Dados originais 95 96 24 09/10/2014 Mapas de probabilidades de ocorrência Krigagem Indicativa: locais com menor concentração de areia e, por consequência, maior teor em argila ocorrem maiores probabilidades de presença de Fósforo (a), Potássio (b) e Saturação por bases (c). 97 98 Muito obrigado pela atenção! 99 25