1 • Considerações iniciais • Motivação: Informação espacial gerada em ambiente de Sistemas de Informação Geográfica devem ser acompanhada de medidas sobre a qualidade da informação. Isto serve de apoio para tomada de decisões sobre produtos gerados no SIG. • Dado espacial é representado por objetos ou campos. Dado espacial possui representação geométrica e atributos (em geral não geométricos). •Atributos de campos podem ser qualitativos (categóricos) ou quantitativos (contínuo). • Foco: Medida de incerteza em atributos de campos 2 • Medida de incerteza global e local em atributos (campos) • Medida global: índice único que descreve de uma forma global a incerteza sobre o atributo. • Medidas globais são, em geral, obtidas a partir de um conjunto de amostras do atributo (amostragem teste). • Exemplo de medidas globais: erro absoluto e erro médio quadrático para atributos contínuos e; índice PCC e estatística kappa para atributos categóricos. • Desvantagem: necessidade da amostragem teste e não informam sobre distribuição da incerteza. • Medida local: medida de incerteza para cada elemento 3 (ponto) do campo. • Objetivos deste trabalho • Apresentar ferramentas (geoestatísticas) para obtenção de campos de incerteza para campos espaciais. Os campos podem conter atributos quantitativos ou qualitativos. • Apresentar metodologias de propagação de incerteza em modelagem espacial sobre campos espaciais. • Restrições do trabalho • Não considera medida global de incerteza • Se limita à análise de incertezas nos atributos, e não na geometria, dos dados espaciais. 4 • Geoestatística, Variável Aleatória (VA) e distribuição de uma VA • A Geoestatística fornece uma coleção de ferramentas estatísticas e determinísticas que são utilizadas para entendimento e modelagem da variabilidade espacial. • Atributo z de um dado espacial, em posições não amostradas, é considerado como Variável Aleatória Z(u). • função de distribuição acumulada condicionada, fdac, F • de uma VA contínua é denotada por: F(u;z|(n)) = Prob{Z(u) z|(n)} • de uma VA categórica é denotada por: F(u;z|(n)) = Prob{Z(u) = z|(n)} 5 • Definição de função aleatória e estacionariedade • Uma Função Aleatória, FA, FZ(u) é um conjunto de VAs definidas sobre uma área de interesse A. (Caso multivariado) FZ(u) = { Z(u), u A} • Função de densidade acumulada multivariada: Uma função aleatória é caracterizada pelo conjunto de todas suas kvariadas fda’s para qualquer número K e qualquer escolha de K posições uk, k = 1,…,K. Para atributos contínuos tem-se: F(u1,…,uK;z1,…,zK) = Prob {Z(u1) z1,…, Z(uK) zK} • Estacionariedade: FZ(u) é estacionária dentro de uma região de estudo A se a sua fda é invariante em relação a translação, por vetor l, das K coordenadas dos vetores uk F(u1,…,uK;z1,…,zK) = F(u1+l,…,uK+l;z1,…,zK) 6 • Consequências da estacionariedade F(u;z) = F(z) , u A E{Z(u)}= E{Z(u+h)}= E{Z} C(u,u+h) = E{Z(u).Z(u+h)} – [E{Z(u)}]2 = C(h) • Medidas de continuidade, ou variabilidade, espacial da VA Z • Variografia e Covariância 2(h) = Var{ Z(u+h) – Z(u)} (h) = C(0) – C(h) u onde: C(0) = 2{Z(u)} • A partir de um conjunto de amostras 1 1 C ( h) z . z z i j k N (h) ( i ,j ) / hij h n k 1 n 2 2 1 zi z j 2(h) N (h)( i ,j ) / hij h 7 Modelos Teóricos para ajuste do Semivariograma Experimental (Eduardo C.G.Camargo) Modelos Transitivos EXPONENCIAL 0 , | h| 0 (h) | h| 3 ,| h| 0 + 1 exp C C o 1 a ESFÉRICO 0 , | h|= 0 3 | h| 1 | h| 3 (h) C C , 0 | h| a o 1 2 a 2 a C C , | h| a o 1 GAUSSIANO 0 , | h| 0 (h) | h| 2 C o + C1 1 exp a ,| h| 0 Modelos Aninhados e Anisotropia (Otimizações) 8 • Krigeagem é uma “coleção de técnicas de regressão linear generalizadas para minimizar uma variância de estimação a partir de um modelo de covariância definido a priori”, Journel, 1996. • A krigeagem estima um valor não amostrado a partir de um conjunto de valores vizinhos z(u), = 1,...,n. Considerando-se um modelo de FA estacionária com média e covariância C(h), o estimador linear para Krigeagem Simples (SK) é definido por: n z*SK (u) (u) z(u ) 1 (u) 1 1 • Krigeagem ordinária não depende do valor da média n n 1 ( u) 1 n z*SK (u) (u) z(u ) 1 9 ESTIMADOR DE KRIGEAGEM (Eduardo C.G.Camargo) • Segundo Journel (1988): : n = C11 C21 : C n1 1 K.k => K k C12 .........C1n 1 C22 .........C2n 1 : : : C n2 .........C nn 1 1 ......... 1 0 1 C 10 C 20 : C n0 1 • Os elementos das matrizes de covariâncias são calculados da seguinte forma (Journel, 1988): Cij C0 C1 (h) • Substituindo os valores de Cij nas matrizes encontram-se os pesos 1, 2, ..., e n. n i Z xi • Estimador de Krigeagem (Journel, 1988): Z* xo i1 2 (C0 C1) T k • Variância de Krigeagem (Journel, 1988): ko 10 • Variância de krigeagem como medida de incerteza n n n (u) C (0) i j Cij 2 i Ciu 2 i 1 j1 i 1 • C(0) é a variância das amostras. Quão errático é o atributo. • Cij é a covariância entre as amostras i e j. Considera aglomerados. Amostras próximas aumentam a variância final. • Ciu é a covariância entre a amostra i e a posição u do ponto a ser estimado. Considera a proximidade entre a amostra i e a posição u. Amostras próximas de u diminuem a variância final (sinal -). Importante: Variâncias de krigeagem, sendo independentes dos dados, fornecem uma comparação entre diferentes configurações geométricas de dados (Deutsch and Journel, 1998) 11 • A medida de variância de uma função aleatória deve ser obtida diretamente de sua fdac multivariada. • O estimador de krigeagem possibilita a determinação da fdac multivariada de uma FA por 2 métodos distintos: o método multigaussiano e o método de krigeagem indicatriz. • Método Multigaussiano (paramétrico): Para modelos de FA FZ(u) gaussianos multivariados, a estimativa de krigeagem simples e a sua variância determinam os parâmetros média e a variância da fdac Gaussiana. Este resultado é a base para os algoritmos de krigeagem e simulação multigaussianas. z 1 ( z )2 / 2 2 F( z ) P( Z z ) dz e 2 12 • Quando uma FA pode ser considerada gaussiana multivariada? 1. Teorema do limite central: Se Z(u) é gerado por uma soma de um número n de fontes independentes, com distribuições espacial similares, então a sua distribuição espacial pode ser aproximada por uma modelo de FA gaussiana multivariada. n Z u Y u Gaussiano 1 2. Uma FA Z(u), u A, é normal multivariada se e somente se: • Todos os subconjuntos da FA, por ex.{Z(u), uBA}, são também normal multivariados; • Todas as combinações Y das VA’s que compõem Z(u) são normalmente distribuídas (univariada/e), ou seja: n Y w Z u , n , w ,desde que u A 1 • Correlação igual a 0 implica em, não somente que duas VA’s são não correlacionadas, mas independência completa. • Todas as distribuições condicionais de qualquer subconjunto da FA Z(u), dada realizações de qualquer outro subconjunto, são normais multivariadas. 13 Método da krigeagem indicatriz (não paramétrico) • Transformação indicatriz Para VA contínua 1, I (u; z ) 0, se Z (u) z se Z (u) z Para VA categórica 1, I (u; z ) 0, se Z (u) z se Z (u) z A krigeagem de uma VA indicatriz I(u;z) fornece uma estimativa que é também a melhor estimativa mínima quadrática da esperança condicional de I(u;z). A esperança condicional de I(u;z) é igual a fdac de Z(u) como mostrado abaixo: EI u; z ) | (n) 1 ProbI (u; z ) 1 | (n) 0 ProbI (u; z ) 0 | (n) 1 ProbI (u; z ) 1 | (n) F (u; z | (n)) 14 • Pelo método da krigeagem indicatriz obtêm-se: • Para VA categórica Valores de probabilidade de cada classe. • Para VA contínua Valores de probabilidade acumulada em valores predefinidos da VA (“cutoffs”). Neste caso é necessário estimar-se a fdac em valores diferentes dos cutoffs. • O valor esperado e a variância de uma VA contínua são definidos como: EZ z f z dz VarZ E Z E Z 2 2 z E Z f z dz • Uma aproximação numérica para o valor esperado da fdac para K “cutoffs” é dado por (Journel, 1998): zu * E K 1 z dFu; z | n z'k F u; z k | n F u; z k1 | n k 1 15 • Como fdac modela a incerteza E sobre os valores estimados ? • Para VA categórica: conhecido as probabilidades pj de k classes • Por máxima probabilidade de pertencer a uma categoria. Eu 1 Maxkj1 p j u • Por entropia de Shannon: medida de confusão E u pj u.ln pj u k j1 • Outras medidas ??? ( e fuzzy com pesos para as classes) • Para VA continua • A variância ou o desvio padrão é a medida de incerteza. • Intervalos de confiança: 1 = 68%; 2 = 95% ... ProbZ (u) z* (u) 2(u) 0.95 • Outras medidas ????? 16 • Variáveis contínuas 911.0 687.0 Figuras: Distribuição de amostras e interpolação por vizinho mais próximo. 17 • Variáveis contínuas 907.5 688.6 909.9 687.3 Figuras: Interpolação por média dos vizinhos por quadrante e por krigeagem ordinária. 18 • Variáveis contínuas 909.9 23.0 687.3 2.97 51.3 2.5 Figuras: Mapas de média (esquerda) e desvio padrão calculados a partir da variância de krigeagem ordinária e da fdac determinada pela krigeagem indicatriz 19 • Variáveis categóricas Arenoso Médio Argiloso Argiloso Muito Argiloso Figuras:Distribuição de um conjunto de amostras de textura de solo. Mapa com interpolação por vizinho mais próximo. Mapa classificado por máxima probabilidade (krigeagem indicatriz). 20 • Variáveis categóricas 0.71 1.38 0.0 0.0 Arenoso Médio Argiloso Argiloso Muito Argiloso Figuras: Mapas de classe mais provável (esquerda) e de incerteza a partir das probabilidades definidas pela krigeagem indicatriz: por máxima probabilidade e por entropia de Shannon 21 • Variáveis categóricas 0.71 Arenoso Médio Argiloso Argiloso Muito Argiloso 0.0 Figuras: Mapas de classe mais provável e de incerteza a partir das probabilidades definidas pela krigeagem indicatriz: por máxima probabilidade e por variância da krigeagem 22 • Variáveis categóricas Arenoso Médio Argiloso Argiloso Muito Argiloso Figuras: Mapas de incerteza a partir das probabilidades definidas pela krigeagem indicatriz usando-se 4, 8 e 16 vizinhos mais próximos. 23 • Variáveis categóricas 0.71 0.73 0.71 0.0 0.0 0.03 Figuras: Mapas de incerteza a partir das probabilidades definidas pela krigeagem indicatriz usando-se 4, 8 e 16 vizinhos mais próximos. 24 • Variáveis categóricas - Classificação e incerteza fuzzy = p(A)*.8 + p(B)*.6 + p(C)*.4 + p(D)*.2 = sqrt((p(A)*.82 + p(B)*.62 + p(C)*.42 + p(D)*.22)- 2) .8 0.23 .7 .6 .5 .4 .3 Figura: Mapa de médias fuzzy usando krigeagem indicatriz, com 4 amostras vizinhas, e valores fuzzy predefinidos 0.0 Figura: Mapa de desvio padrão fuzzy usando krigeagem indicatriz com 4 amostras vizinhas 25 • Simulação Estocástica • A simulação estocástica é o processo de construir realizações conjuntas alternativas, igualmente prováveis, das VA’s que compõem um modelo de uma função aleatória. • As realizações {z(l)(u), u a uma região A e l = 1,2...,L}, representam L imagens possíveis da distribuição espacial dos valores do atributo z(u) sobre a área A. • Cada imagem estocástica reflete as propriedades impostas no modelo da função aleatória Z(u), em geral o modelo de covariância (inferido a partir da covariância das amostras), e o condicionamento às amostras (simulação condicional). • Um conjunto de imagens estocásticas condicionadas permite a representação da incerteza sobre a distribuição espacial do atributo. 26 • Krigeagem x Simulação Estocástica • Ambos baseiam-se no modelo conjunto de FA definido pelo estudo da variabilidade espacial do atributo (variografia). Também estão condicionados as amostras (estimadores exatos) • A krigeagem cria uma realização em que a acurácia local, mínima variância de estimação, é o mais importante. Isto gera uma superfície suavizada, mascarando a variabilidade do dado. • A simulação estocástica fornece representações globais alternativas z(l)(u), onde prevalece a representação de padrões de continuidade espacial. • O resultado da média de um conjunto grande (>100) de imagens estocásticas é a realização de krigeagem do atributo. 27 • O método de simulação sequencial • Considerando-se a distribuição conjunta de N VAs Zi condicionadas aos n dados originais, |(n): F(N) (z1,...,zN|(n))=Prob{Z1 zi,i=1,...,N|(n)} • Obtenha um valor z (l) a partir da fdac univariada de Z condicionada aos n dados originais: Prob{Z1 z1|(n)}. Atualize o conjunto de dados originais (n) para: (n+1)=(n) {Z = z (l)}; 1 1 1 1 • Obtenha um valor z (l) a partir da fdac univariada de Z condicionada aos (n+1) dados: Prob{Z2 z2|(n+1)}. Atualize o conjunto de dados originais (n+1) para: (n+2)=(n+1) {Z = z (l)}; 2 2 2 2 • Sequencialmente considere todas a N VAs Zi’s. • Repita a sequência acima para novas realizações l’s 28 • Simulação sequencial de variável categórica Arenoso Médio Argiloso Argiloso Muito Argiloso Figura: Exemplos de realizações da função aleatória definida para representar a variação anisotrópica de textura do solo da região de Canchim. 29 • Como modelar incerteza E a partir das realizações ? • VA categórica: calculando-se as probabilidades, pj, das k classes pela frequência da classe j em u (paradigma frequencista). • Por máxima probabilidade de pertencer a uma categoria. Eu 1 Maxkj1 p j u • Por entropia de Shannon: medida de confusão E u pj u.ln pj u k j1 • Outras medidas ??? ( e fuzzy com pesos para as classes) • VA continua: calculando-se a média e variância em u • A variância ou o desvio padrão é a medida de incerteza. • Intervalos de confiança: 1 = 68%; 2 = 95% ... ProbZ (u) z* (u) 2(u) 0.95 • Outras medidas ????? 30 • Simulação sequencial de variável categórica 0.71 1.37 0.0 0.0 Arenoso Médio Argiloso Argiloso Muito Argiloso Figura:Mapas de classes de textura, de incerteza por máxima probabilidade e de incerteza pela entropia de Shannon gerados por simulação sequencial considerando comportamento anisotrópico da textura de solo 31 • Simulação sequencial de variável contínua 892.0 695.6 902.5 47.9 691.1 1.98 Figura:Imagens em nível de cinza referentes aos dados de altimetria da área de Canchim: (a) médias interpoladas por krigeagem indicatriz; (c) médias obtidas por simulação estocástica sequencial e; (d) desvios padrão das médias obtidas por simulação estocástica sequencial 32 • Propagação de incerteza • Classe de operações: local (operações pontuais ou de vizinhança) Z1 Z1 Z2 Z2 Z3 Z3 Y Y Figura: Operações locais pontuais e de vizinhança em modelagem espacial (baseado em Heuvelink, 1998). 33 Formulação do problema: Y(u) = g(Z1(u),...,Zn(u)) para n entradas • Considerações • Os atributos dos campos fontes (z1,...,zn) não são exatos zi(u)= zim(u)+ (u) onde zim(u) é o valor médio do atributo na posição espacial u e (u) é uma componente de erro aleatório com média zero. • Os atributos dos campos Zi’s podem ser independentes ou apresentar dependência entre eles. • A função g é uma relação aritmética quando a natureza dos dados dos mapas fontes for quantitativa. • A função g é uma relação lógica quando a natureza dos dados dos mapas fontes for qualitativa. • A função g pode ser uma composição de relações lógicas e aritméticas para aplicações complexas envolvendo atributos quantitativos e qualitativos. 34 • 4 técnicas de propagação de propagação de erro (Heuvelink, 1998) 1. Método de Taylor de primeira ordem A expansão da série de Taylor de primeira ordem, em torno do vetor de médias ,..., , das n variáveis de entrada é dada por: Z Z1 Zn Y g(Z) g Z g Z i Zi i 1 zi n Z resíduo • A partir dessa expansão e desconsiderando-se o resíduo, obtêm-se as seguintes aproximações para média e variância da VA Y: E Y g Y 2 Y g . i 1 j 1 zi n n Z g z Z j Z Zi ij Zj 35 • Considerações sobre o método de primeira ordem de Taylor • Aplicável somente à operações com atributos qualitativos. •A média de Y é função dos valores médios das entradas, ou seja, os desvios padrões das entradas não afetam a saída. • A variância da saída depende da correlações, dos desvios padrões das entradas. Ela depende também de derivadas parciais no vetor de média das entradas. Isto significa que esse método só é aplicável para funções g continuamente diferenciáveis. • Quando as variáveis de entrada são independentes o coeficiente de correlação ijé igual a 0 para i j e igual a 1 para i=j. Neste caso a formulação da variância é simplificada para: g z 2 Y 2 n 2 i 1 i Z Zi 36 • Método de Taylor de primeira ordem • Exemplo: Numa regressão linear do tipo: Y = 1Z1 + 2Z2 se: • 12 = 1, Z1 e Z2 estão 100% correlacionados, o desvio padrão do mapa derivado Y é exatamente igual a soma dos desvios padrões dos mapas fontes, ou seja, y = (12z12 + 22z22 + 2 12z1z2 12)1/2 = 1z1 + 2z2 ; • 12 = 0, Z1 e Z2 são não correlacionados, e o desvio padrão do mapa derivado é dado por y = (12z12 + 12z22)1/2 ; • 12 < 0, Z1 e Z2 são negativamente correlacionados. Neste caso o desvio padrão de Y pode vir a ser menor do que no caso em que as entradas são independentes. 37 2. Método de Taylor de segunda ordem • Extensão do método de primeira ordem, com inclusão do termo de segunda ordem na série de Taylor. Y g(Z) g Z g Z i Zi i 1 zi n 2 1 n n g Z i Z j z z Zi Zj 2 i 1 j1 j i Z Z resíduo • Neste caso a aproximação da média de Y é dada por: 1 g E Y g 2 n Y Z 2 n i 1 j1 zi z j zi zj zi zj • Importante: Média da saída pode diferir do valor de g aplicado às médias de entrada. 38 • A aproximação para a variância de Y é dada por: g g z z g g E z z z z z z 2 Y n n n k 1 l 1 n Z k Zk Z l Zl kl 2 n k 1 i 1 j 1 k k i i j j Zk Zl ij k Z i 1 n n n n E zi i z j j z k k zl l ij Z Z kl i j 4 i 1 j 1 k 1 l 1 Z j Zk Zl 2 g zi z j z Z 2 k g zl Z • Estimativa da variância requer cálculo do 1o, 2o, 3o e 4o momentos e derivadas parciais de primeira e segunda ordens. • Comparação com método de 1a ordem: • Aproximação próxima de z é melhor, porém longe de z pode ser pior. Portanto variância pode ser pior. • Método de 2a ordem é melhor que o de 1a quando g quadrática. 39 3. Método de Rosenblueth • Equivalente ao método de Taylor de primeira ordem. • Deve ser usado quando g não é continuamente diferenciável em z • A média de Y é estimada pela relação: Y 2m E Y rk g d k , k 1 onded k d k ,...,d m e d i i i ou d i i i m1 m ij k ij 1 i 1 j i 1 ij k 1 quando d i i i e d j j j 1 rk m 2 ij k 1 quando d i i i e d j j j ij k 1 quando d i i i e d j j j ij k 1 quando d i i i e d j j j 40 • A variância de Y é dada por: 2 Y 2 m 2 rk g d k rl g d k l k 1 l 1 2m • Quando m=1: Y 2 Y 1 g z g z 2 1 2 g z g z 4 • Comparado com o método de Taylor de 1a ordem este método usa uma aproximação suavizada da primeira derivada parcial em z. 41 4. Método de Monte Carlo • Computa Y repetidamente com valores zi de entrada que são amostrados aleatoriamente de sua distribuição conjunta. • O método consiste dos seguintes passos: • Para cada posição espacial u • Repita n vezes: • Gere um conjunto de realizações zi, i=1,...,m. • Calcule e armazene o valor de y=g(z1,...zm). • Calcule as estatísticas, e 2, das n saídas yi de Y em u 1 n Y u n yi u e i 1 1 n yi u u Y u n 1 Y i 1 2 42 • Exemplo de aplicação do Método de Monte Carlo • Cálculo de declividade sobre uma grade regular Z i-1,j+1 Z i,j+1 Z i+1,j+1 Z i-1,j Z i,j Z i-1,j Z i-1,j-1 Z i,j-1 Z i+1,j-1 [Z/X]i,j = [( Zi+1,j+1 + 2*Zi+1,j + Zi+1,j-1 ) – ( Zi-1,j+1 + 2*Zi-1,j + Zi-1,j-1 )]/8*X [Z/Y]i,j = [( Zi+1,j+1 + 2*Zi,j+1 + Zi-1,j+1 ) – ( Zi+1,j+1 + 2*Zi,j-1 + Zi-1,j-1 )]/8*Y D = arctg {[( Z/ X )2+( Z/ Y )2]1/2} 43 • Mapa de declividade, com incerteza, pelo Método de Monte Carlo 15.65 9.88 1.1 .59 Figura: Mapas de declividade (à esquerda), incerteza (desvio padrão) da declividade (no meio), e declividade fatiada, obtidos a partir das realizações do mapa de altimetrias da 44 região de Canchim • ADAM - Uma ferramenta de software para propagação de erro (Heuvelink, 1998) • Para propagação de erro em modelagem espacial quantitativa • Usa uma linguagem de descrição do modelo (MDL) como interface com o usuário. • Funciona como um compilador que converte o problema de propagação do usuário em operações padrões de SIGs. • Auxilia o usuário na seleção da técnica de propagação de erro mais apropriada. Porém o usuário tem o direito de escolha final. • Usa diferenciador simbólico para métodos de Taylor. • O compilador gera uma sequência de operações de GIS que podem ser otimizadas a posteriori. 45 Conclusões: • Apresentou-se opções para cálculo de incertezas para FA contínuas e categóricas. • As ferramentas de geoestatistica (krigeagem e simulação) permitem o cálculo de mapas de incerteza. Porem exigem mais interação com o usuário. O usuário deve definir o modelo de continuidade espacial da variável (variografia) • Pesquisar novas formas de identificação da incerteza. • Como integrar esses conceitos a um SIG? Considerando-se fatores de conceituação, implementação e facilidade de uso? 46 Referencias básicas Burrough, P. A., 1986. Principles of Geographical Information Systems for Land Resources Assessment. Clarendon Press – Oxford – London. Burrough, P. A.; McDonnell, R. A.,1998. Principles of Geographical Information Systems. Oxford University Press, Inc, New York, USA. Bussab, W. O.; Morettin, P. A.. 1987. Estatística Básica. Atual Editora Ltda, Sao Paulo, Brasil. Deutsch, C. V.; Journel, A. G., 1998. Geostatistical Software Library and User’s Guide. Oxford University Press, New York, USA. Heuvelink, G. B. M., 1998. Error Propagation in Environmental Modelling with GIS. Taylor and Francis Inc, Bristol, USA. Isaaks, E. H.; Srivastava, R. M., 1989. An Introduction to Applied Geostatistics. Oxford University Press, Inc, New York, USA. 47