Análise de Dados de Área Parte 3 - Análise Exploratória Análise Exploratória • Definição – Conjunto de ferramentas estatísticas gráficas e descritivas direcionado ao descobrimento de padrões em dados. • ESDA (Exploratory Spatial Data Analysis). “Coleção de técnicas para descrever e visualizar distribuições espaciais, identificar situações atípicas, descobrir padrões de associação espacial, clusters e sugerir regimes espaciais ou formas de heterogeneidade espacial” (Anselin). Técnicas de Análise Exploratória • Indicadores Globais de Autocorrelação – suposição: estacionariedade (função da “distância”). – Ex: variograma, correlograma, etc. • Indicadores Locais de Associação Espacial – Ressaltam as situações atípicas (“outliers” ). – Ex: Mapa de LISA, gráfico de espalhamento de Moran. • Indicadores multivariados da associação espacial – generalização do variograma em múltiplas dimensões Proximidade espacial • Na geoestatística: distância euclidiana. • Principal diferença para objetos áreas, é na formalização da proximidade espacial! – Qual distância de São José à Jacareí? • 10 mim, 15 km ou “são colados” . • Depende! Exemplos de medidas • proporção da fronteira pelo perímetro. L2 w14 = L1 + L 2 + L 3 + L 4 - wij wji - “média ponderada!” Exemplos de medidas • distância linear entre centróides dos obejtos. w14 = 0 para d > limiar w14 = 1 para d limiar • inverso da distância linear. w14 = 1 d Exemplos de medidas • Existência de fronteira comum. w14 = 1 w24 = 0 P1 faz fronteira com P4 P2 não tem fronteira com P4 Matriz de Proximidade w11 w21 W= w31 w41 w12 w13 w14 w22 w23 w24 w32 w33 w34 w42 w43 w44 wij : “distância” do objeto i ao objeto j. Matriz de Proximidade Espacial • Conteúdo – Matriz (n x n) W , cujos elementos wij representa uma medida de proximidade entre Oi e Oj C B A E D • Critérios:- A B C D E wij =1, se Oi toca Oj A 0 1 0 1 0 wij = 1, se dist(Oi, Oj) < h B 1 0 1 1 1 C 0 1 0 0 1 D 1 1 0 0 1 E 0 1 1 1 0 wij = lij/li, onde lij é o tamanho da fronteira entre Oi e Oj e li é o perímetro de Oi Média Espacial Móvel • O Método de Média Espacial Móvel é uma técnica que explora o valor médio mi do atributo na região de estudo (primeira ordem). n • Seu estimador é definido como: W yi ij mˆ i = j =1 n W ij j =1 onde: Wij é a matriz de proximidade. yi é o valor do atributo em cada área. n é o número de polígonos (áreas). i = 1, 2, ..., n Média Espacial Móvel mˆ i = Wij yi j =1 n W i = 1, 2, ..., n ij j =1 19,66 1 3 1 16 , 00 4 = 1 16,00 4 0 14 , 66 Antes A n 1 1 20 0 3 3 1 1 1 15 4 4 4 1 1 1 24 4 4 4 1 1 1 5 3 3 3 B 20 C 24 19,66 15 D A C 5 16,0 Depois B 16,0 D 14,66 mˆ A = (20x1/3) + (15x1/3) + (24x1/3) + (5x0) = 19,66 mˆ B = (20x1/4) + (15x1/4) + (24x1/4) + (5x1/4) = 16,0 mˆC = (20x1/4) + (15x1/4) + (24x1/4) + (5x1/4) = 16,0 mˆ D = (20x0) + (15x1/3) + (24x1/3) + (5x1/3) = 14,66 Média Espacial Móvel Efeito de suavização Agrupamento estatístico Média Espacial Móvel Média Espacial Móvel Regiões onde existe disparidade entre o valor do atributo e o valor da média local indicam pontos de transição entre regimes espaciais. Atributo Média local Indicadores Globais de Autocorrelação Espacial • Explorar a dependência espacial • Autocorrelação espacial. – Mede o quanto o valor observado de um atributo numa região é independente dos valores desta mesma variável nas localizações vizinhas. • Indicadores Globais – Moran, Geary, Variograma • Indicadores Locais – Local Moran, Local Geary Variabilidade Espacial: Variograma • Passo1: Transformar mapas poligonais em amostras Variabilidade Espacial: Variograma • Passo2 : Medir a Variância no Espaço • Para cada par Z(x) e Z(x+h), separados por um vetor distância h, medimos a variância entre eles • • h • • • • • h • • • h Vetor distância h a • • h Variograma para Dados de Área • Gerar Centróides a partir de Áreas • Modelar o Variograma • Interpolar uma Superfície (se desejar) VARIOGRAMAS DO I.C.V. DIC D CODIO D VIDA ICV ICV = 1 = 0 VARIOGRAMAS DO I.D.H. Forma genérica dos índices • forma genérica: global local n Gi = wij aij j n n i j G = wij aij onde: wij : medida de proximidade entre objetos i e j aij :expressão que representa a associação entre os atributos do objeto i com os demais objetos de sua vizinhança. Forma genérica dos índices n n n i j G = wij aij Gi = wij aij j Quando aij é da forma: (x - x )(x i j -x ) (x - x ) 2 i j x j ou (xi + x j ) zi z j Moran (covariância) (z - z ) 2 i Geary (variância) j ( z j ou zi + z j ) G ou G* (média móvel) Indice Global de Moran w ( y - y )(y n I= n n n wij i =1 j =1 n ij i j - y) i =1 j =1 n 2 ( ) y y i i =1 onde: – n corresponde ao número de áreas, – yi é o valor do atributo considerado na área i, – y representa o valor médio do atributo na região de estudo, – wij são os pesos atribuídos conforme a conexão entre as áreas i e j. Indicadores Globais Moran w ( y - y )(y n I= n n n wij i =1 j =1 n ij i j - y) i =1 j =1 n 2 ( ) y y i i =1 • Qual o significado do índice global de Moran ( I)? • Como interpretar a equação acima ? • Qual sua siginificância ou validade estatística ? Como avaliar ? Índice Globais de Moran w ( y - y )(y n I= n n n wij i =1 j =1 n ij i j - y) i =1 j =1 n 2 ( ) y y i i =1 • É análogo ao coeficiente de correlação convencional, porque têm em seu numerador um termo que é produto de momento. • Como um coeficiente de correlação, os valores de I também variam de -1 a +1, quantificando o grau de autocorrelação espacial existente. -1 autocorrelação espacial negativa ou inversa. 0 significa aleatoriedade +1 significa autocorrelação espacial positiva ou direta. Indicadores Globais de Autocorrelação Espacial • Consideremos o exemplo que segue: A B 20 C 24 15 D 5 20 + 15 + 24 + 5 Média y = =16 4 Matriz de Proximidade A B C D A 0 1 1 0 B 1 0 1 1 C 1 1 0 1 D 0 1 1 0 n Variância 2 = 2 ( ) y y i i =1 n 2 2 2 2 ( 20 - 16) + (15 - 16) + (24 - 16) + (5 - 16) = = 50,5 Desvio Padrão = 2 = 50,5 = 7,1063 4 Indicadores Globais de Autocorrelação Espacial w ( y - y )(y n I= ij n n n i j n - y) I= i =1 j =1 n n 2 ( ) y y i wij i =1 j =1 • A equação de n w i =1 j =1 n i =1 i =1 ij zi zi z j 2 I pode ser simplificada [N(m=0 e 2=1)] e alteramos W, de forma que a soma dos elementos de cada linha seja igual a 1. A B C D A B C D ( yi - y ) z= i A 0 1 1 0 A B 1 0 1 1 B 1/3 0 1/3 1/3 C 1 1 0 1 C 1/3 1/3 0 1/3 D 0 1 1 0 D 0 1/2 1/2 0 0 1/2 1/2 0 Indicadores Globais de Autocorrelação Espacial A A 20 C A B D D 5 I= 0 1 3 1 3 0 n w ij i =1 j =1 n zi i =1 n n w ij i =1 j =1 D 0 1/2 1/2 0 y = 16,0 C 1/3 1/3 0 1/3 wij n C B 1/3 0 1/3 1/3 15 24 B zi = zi z j 2 n n 0 1/2 1/2 0 zi zj * = zA = 0,5628 zB = -0,1407 zC = 1,1257 zD = -1,5479 Mij 1 0,3167 - 0,0792 0,6335 - 0,8711 0 - 0,0396 0,3167 0 0 2 1 1 - 0,0792 0,0197 - 0,1583 0,2177 - 0,0264 0 - 0,0527 0,0725 0 3 3 * = 1 1 0,6335 - 0,1583 1,2672 - 1,7424 0,2111 - 0,0527 0 0 - 0,5808 3 3 1 1 0 - 0,8711 0,2177 - 1,7424 2,3959 - 0,00 0,1088 - 0,8712 0 2 2 1 2 zi z j = M ij = - 0,9143 i =1 j =1 = 7,1063 ( yi - y ) n z i i =1 2 =4 I= - 0,9143 = - 0,288 4 Significância do Índice de Moran Avaliação da siginificância do índice de Moran (I). Para estimar a significância de I, será preciso associar a este uma distribuição estatística, para tanto, duas abordagens são possíveis: • Teste de pseudo-significância (experimento aleatório). • Distribuição aproximada (hipótese da normalidade). Indicadores Globais de Autocorrelação Espacial • A validade estatística do índice de Moran (I) sob o extremo Distribuição simulada extremo teste de pseudo-significância. • Se o índice I efetivamente medido corresponder a um “extremo” da distribuição simulada, então trata-se de evento com significância estatística. I de Moran: Validade Estatística • Para um número suficiente de sub-regiões o índice I tem uma distribuição amostral que é aproximadamente normal, dada por: 1 E( I ) = (n - 1) Índice Moran Normalizado n 2 (n - 1) S1 - n(n - 1) S2 - 2 So2 2 = (n + 1)( n - 1)2 So2 onde: n = número de regiões, So = wij para i j IN = I - E (I ) Normal Padrão S1 = (wij + wij ) para i j 2 S2 = ( wij + wij ) para i j 95% 2 -1,96 0 1,96 Mapeando a Violência: Dados de Área Fonte: Carvalho, M. S., 1998. FIOCRUZ - RJ Minas Gerais Espírito Santo São Paulo LEGENDA Capitais classes (n de municípios) N O S 0 100 Km. 200 L Rio de Janeiro 0,95 a 1,906 (28) 1,906 a 2,862 (209) 2,862 a 3,818 (460) 3,818 a 4,774 (223) 4,774 a 5,73 (64) 0 óbitos (448) Indicadores Globais de Autocorrelação Espacial 0 RJ 100 200 300 400 500 600 SP 0.6 auto-correlação 0.4 0.2 0.0 -0.2 MG ES 0.6 0.4 0.2 0.0 -0.2 0 100 200 300 400 500 600 distância Fonte: Carvalho, M. S., 1998. FIOCRUZ - RJ Diagrama de Espalhamento de Moran Este diagrama relata espacialmente o relacionamento entre os valores do vetor de desvios Z (zi - z ) e os valores das médias locais WZ, indicando diferentes regimes espaciais presentes nos dados. Z t WZ I= t ZZ Nesta formulação, I equivale ao coeficiente de regressão linear, ou seja a inclinação da reta de regressão. WZ Q4 Q1 Reta de regressão de WZ em Z I é equivalente a tg a a 0 Q2 Q3 0 z Diagrama de Espalhamento de Moran Q1 (val. [+], médias [+]) e Q2 (val. [-], médias [-]) Indicam pontos de associação espacial positiva, no sentido que uma localização possui vizinhos com valores semelhantes. WZ Q4 Q1 a 0 Q2 Q3 (val. [+], médias [-]) e Q4 (val. [-], médias [+]) Indicam pontos de associação espacial negativa, no sentido que uma localização possui vizinhos com valores distintos. Q3 0 z Nota:- os pontos localizados em Q3 e Q4 podem ser vistos como extremos, tanto por estar afastados da reta de regressão linear, como por indicar regiões que não seguem o mesmo processo de dependência espacial das demais observações. Estes pontos marcam regiões de transição entre regimes espaciais distintos. Autocorrelação Espacial O Diagrama de Espalhamento de Moran pode ser apresentado na forma de um mapa coroplético bidimensional, no qual cada polígono é apresentado indicando-se seu quadrante no diagrama de espalhamento. São Paulo WZ Q4 = LH Q1= HH a 0 Q2= LL Atributo considerado percentagem de idosos Q3 = HL 0 z Indicadores Locais de Associação Espacial (LISA) • Como vimos anteriormente o estimador de autocorrelação espacial, Moran (I), fornece um valor único como medida da associação espacial. • Por outro lado, muitas vezes é necessário examinar padrões numa escala maior. • Neste caso, é preciso utilizar indicadores locais de associação espacial que possam ser associados a diferentes localizações de uma variável distribuída espacialmente. • A utilização destes indicadores em conjunto com os indicadores globais, refinam nosso conhecimento sobre o processos que dão origem a dependência espacial. Introdução • Índices locais (LISA): – Permitem avaliar diferentes regimes espaciais existentes na área de estudo. – Medem a associação espacial entre uma observação i e sua vizinhança. – Requisitos (Anselin) • A soma dos índices locais deve ser proporcional ao índice global. • Indicar a significância da associação espacial para cada observação. Indicadores Locais de Associação Espacial (LISA) • Os indicadores locais de associação espacial, produzem um valor específico para cada objeto. • Isto acarreta a identificação de: – “Clusters”: objetos com valores de atributos semelhantes, – “Outliers”: objetos anómalos, – A presença de mais de um regime espacial. • Tem que atender a dois objetivos: – Permitir a identificação de padrões de associação espacial significativos; – Ser uma decomposição do índice global de associação espacial. Índice local de Moran • Formulação: n n I Ii I= i I i i n n w Ii = ij j =1 zi z j n z j =1 n 2 j zi wzi Ii = m2 Indicadores Locais de Associação Espacial (LISA) • Indicadores locais Ii de Moran (Anselin, 1996) • Indicadores locais Gi e Gi * (Getis e Ord, 1992) • O indicador local de Moran Ii é assim definido: ( yi - y ) wij ( y j - y ) n Ii = j =1 Ii > 0 “clusters” de valores similares (altos ou baixos). n 2 ( ) y y i i =1 localização n Ii < 0 “clusters” de valores distintos (Ex: uma com valores altos rodeada por uma vizinhança de valores baixos). n I i = zi wij z j j =1 o indicador reduz-se a: • Normalizando as variáveis Indicadores Locais de Associação Espacial (LISA) • De forma similiar aos indicadores globais, a significância do índice local de Moran (Ii) deve ser avaliado, utilizando hipótese de normalidade ou simulação de distribuição por permutação aleatória nos valores dos atributos (Anselin, 1995). • Uma vez determinada a significância estatística de Moran (Ii) é muito útil gerar um mapa indicando as regiões que apresentam correlação local significativamente diferente do resto dos dados. • Este mapa é denominado por Anselin (1995) de “LISA MAP”. • Na geração do LISA MAP, os índices locais Ii são classificados como: – não significantes Indicadores Locais de Associação Espacial (LISA) • Os indicadores locais Gi e Gi * (Getis e Ord, 1992): n Gi ( d ) = w (d ) x ij j =1 i n x i =1 n , j i j G (d ) = * i w (d ) x ij j =1 i n x i =1 , j i j onde: – wij valor na matriz de proximidade para região i com a região j em função da distância. – xi e xj são os valores dos atributos considerados nas áreas i e j. – d é distância entre pontos – n o número de áreas (polígonos) • NOTA: a estatística Gi, inclui no numerador a soma de todos os valores de Indicadores Locais de Associação Espacial (LISA) • Os indicadores locais Gi e Gi * (Getis e Ord, 1992): n Gi ( d ) = w (d ) x ij j =1 i =1 • i n x n , j i j Gi* (d ) = w (d ) x ij j =1 i n x i =1 , j i j onde: – wij valor na matriz de proximidade para região i com a região j em função da distância. – xi e xj são os valores dos atributos considerados nas áreas i e j. – d é distância entre pontos – n o número de áreas (polígonos) Indicadores Locais de Autocorrelação Espacial não signif. 95% sign. 99% sign. • “Bolsões” de exclusão/inclusão social em São Paulo Indicadores Locais de Associação Espacial (LISA) • Uma outra forma de análise é através do mapa denominado “Moran Map” (Anselin, 1999). Neste caso, os índices locais Ii são associados ao diagra-ma de espalhamento de Moran. Nota: este resultado apresenta somente as regiões para os quais os valores de Ii ,foram considerados significantes (com intervalo >95%). % Idosos não significantes Q1 [HH] Q2 [LL]