Análise de Dados de Área
Parte 3 - Análise
Exploratória
Análise Exploratória
• Definição
– Conjunto de ferramentas estatísticas gráficas e descritivas
direcionado ao descobrimento de padrões em dados.
• ESDA (Exploratory Spatial Data Analysis).
“Coleção de técnicas para descrever e visualizar distribuições
espaciais, identificar situações atípicas, descobrir padrões de
associação espacial, clusters e sugerir regimes espaciais ou
formas de heterogeneidade espacial” (Anselin).
Técnicas de Análise Exploratória
• Indicadores Globais de Autocorrelação
– suposição: estacionariedade (função da “distância”).
– Ex: variograma, correlograma, etc.
• Indicadores Locais de Associação Espacial
– Ressaltam as situações atípicas (“outliers” ).
– Ex: Mapa de LISA, gráfico de espalhamento de Moran.
• Indicadores multivariados da associação espacial
– generalização do variograma em múltiplas dimensões
Proximidade espacial
• Na geoestatística: distância euclidiana.
• Principal diferença para objetos áreas, é na
formalização da proximidade espacial!
– Qual distância de São José à Jacareí?
• 10 mim, 15 km ou “são colados” .
• Depende!
Exemplos de medidas
• proporção da fronteira pelo perímetro.
L2
w14 =
L1 + L 2 + L 3 + L 4
- wij  wji
- “média ponderada!”
Exemplos de medidas
• distância linear entre centróides dos obejtos.
w14 = 0
para d > limiar
w14 = 1
para d  limiar
• inverso da distância linear.
w14 = 1
d
Exemplos de medidas
• Existência de fronteira comum.
w14 = 1
w24 = 0
P1 faz fronteira com P4
P2 não tem fronteira com P4
Matriz de Proximidade
w11

w21
W= 
w31

w41
w12 w13 w14

w22 w23 w24
w32 w33 w34

w42 w43 w44
wij : “distância” do objeto i ao objeto j.
Matriz de Proximidade Espacial
• Conteúdo
– Matriz (n x n) W , cujos
elementos wij representa uma
medida de proximidade entre
Oi e Oj
C
B
A
E
D
• Critérios:-
A
B
C
D
E
wij =1, se Oi toca Oj
A
0
1
0
1
0
wij = 1, se dist(Oi, Oj) < h
B
1
0
1
1
1
C
0
1
0
0
1
D
1
1
0
0
1
E
0
1
1
1
0
wij = lij/li, onde lij é o tamanho da
fronteira entre Oi e Oj e li é o
perímetro de Oi
Média Espacial Móvel
• O Método de Média Espacial Móvel é uma técnica que
explora o valor médio mi do atributo na região de estudo
(primeira ordem).
n
• Seu estimador é definido como:
W
yi
ij
mˆ i =
j =1
n
W
ij
j =1
onde:
 Wij é a matriz de proximidade.
 yi é o valor do atributo em cada área.
 n é o número de polígonos (áreas).
i = 1, 2, ..., n
Média Espacial Móvel
mˆ i =
Wij yi
j =1
n
W
i = 1, 2, ..., n
ij
j =1
19,66  1

 3

 

 

 1
16
,
00

 

 4

=

 1
16,00 

 4

 

 

 0
14
,
66



 

Antes
A
n
1 1
 20
0 


3 3






1 1 1 15 


4 4 4 





1 1 1
  24
4 4 4 





1 1 1 

5




3 3 3 
B
20
C
24
19,66
15
D
A
C
5
16,0
Depois
B
16,0
D
14,66
mˆ A = (20x1/3) + (15x1/3) + (24x1/3) + (5x0) = 19,66
mˆ B = (20x1/4) + (15x1/4) + (24x1/4) + (5x1/4) = 16,0
mˆC = (20x1/4) + (15x1/4) + (24x1/4) + (5x1/4) = 16,0
mˆ D = (20x0) + (15x1/3) + (24x1/3) + (5x1/3) = 14,66
Média Espacial Móvel
Efeito de
suavização
Agrupamento estatístico
Média Espacial Móvel
Média Espacial Móvel
Regiões onde existe disparidade entre o valor
do atributo e o valor da média local indicam
pontos de transição entre regimes espaciais.
Atributo
Média local
Indicadores Globais de Autocorrelação
Espacial
• Explorar a dependência espacial
• Autocorrelação espacial.
– Mede o quanto o valor observado de um atributo numa
região é independente dos valores desta mesma variável
nas localizações vizinhas.
• Indicadores Globais
– Moran, Geary, Variograma
• Indicadores Locais
– Local Moran, Local Geary
Variabilidade Espacial: Variograma
• Passo1: Transformar mapas poligonais em
amostras
Variabilidade Espacial: Variograma
• Passo2 : Medir a
Variância no Espaço
• Para cada par Z(x) e
Z(x+h), separados por
um vetor distância h,
medimos a variância
entre eles
•
•
h
•
•
•
•
•
h
•
•
•
h
Vetor distância h
a
•
•
h
Variograma para Dados de Área
• Gerar Centróides a partir de Áreas
• Modelar o Variograma
•
Interpolar uma Superfície (se desejar)
VARIOGRAMAS DO I.C.V.
DIC D CODIO D VIDA
ICV
ICV
= 1
= 0
VARIOGRAMAS DO I.D.H.
Forma genérica dos índices
• forma genérica:
global
local
n
Gi = wij aij
j
n
n
i
j
G =   wij aij
onde:
wij
: medida de proximidade entre objetos i e j
aij :expressão que representa a associação
entre os atributos do objeto i com
os demais objetos de sua vizinhança.
Forma genérica dos índices
n
n
n
i
j
G =   wij aij
Gi = wij aij
j
Quando aij é da forma:
(x - x )(x
i
j
-x
)
(x - x )
2
i
j
x j ou (xi + x j )
zi z j
Moran (covariância)
(z - z )
2
i
Geary (variância)
j
(
z j ou zi + z j
)
G ou G*
(média móvel)
Indice Global de Moran
 w ( y - y )(y
n
I=
n
n
n
 wij
i =1 j =1
n
ij
i
j
- y)
i =1 j =1
n
2
(
)
y
y
 i
i =1
onde:
– n corresponde ao número de áreas,
– yi é o valor do atributo considerado na área i,
– y representa o valor médio do atributo na região de estudo,
– wij são os pesos atribuídos conforme a conexão entre as áreas i e
j.
Indicadores Globais Moran
 w ( y - y )(y
n
I=
n
n
n
 wij
i =1 j =1
n
ij
i
j
- y)
i =1 j =1
n
2
(
)
y
y
 i
i =1
• Qual o significado do índice global de Moran (
I)?
• Como interpretar a equação acima ?
• Qual sua siginificância ou validade estatística ? Como
avaliar ?
Índice Globais de Moran
 w ( y - y )(y
n
I=
n
n
n
 wij
i =1 j =1
n
ij
i
j
- y)
i =1 j =1
n
2
(
)
y
y
 i
i =1
• É análogo ao coeficiente de correlação convencional, porque
têm em seu numerador um termo que é produto de momento.
• Como um coeficiente de correlação, os valores de I também
variam de -1 a +1, quantificando o grau de autocorrelação
espacial existente.
-1 autocorrelação espacial negativa ou inversa.
 0 significa aleatoriedade
+1 significa autocorrelação espacial positiva ou direta.
Indicadores Globais de Autocorrelação
Espacial
• Consideremos o exemplo que segue:
A
B
20
C
24
15
D
5
20 + 15 + 24 + 5
Média y =
=16
4
Matriz de Proximidade
A
B
C
D
A
0
1
1
0
B
1
0
1
1
C
1
1
0
1
D
0
1
1
0
n
Variância  2 =
2
(
)
y
y
 i
i =1
n
2
2
2
2
(
20 - 16) + (15 - 16) + (24 - 16) + (5 - 16)
=
= 50,5
Desvio Padrão  =  2 = 50,5 = 7,1063
4
Indicadores Globais de Autocorrelação
Espacial
 w ( y - y )(y
n
I=
ij
n
n
n
i
j
n
- y)
I=
i =1 j =1
n
n
2
(
)
y
y
 i
 wij
i =1 j =1
• A equação de
n
 w
i =1 j =1
n

i =1
i =1
ij
zi
zi z j
2
I pode ser simplificada [N(m=0 e 2=1)] e
alteramos W, de forma que a soma dos elementos de cada linha
seja igual a 1.
A B C D
A B C D
(
yi - y )
z=
i

A
0
1
1
0
A
B
1
0
1
1
B 1/3 0 1/3 1/3
C
1
1
0
1
C 1/3 1/3 0 1/3
D
0
1
1
0
D
0 1/2 1/2 0
0 1/2 1/2 0
Indicadores Globais de Autocorrelação
Espacial
A
A
20
C
A
B
D
D
5
I=

0

1
3
1

3

0

n
 w
ij
i =1 j =1
n

zi
i =1
n
n
 w
ij
i =1 j =1
D
0 1/2 1/2 0
y = 16,0
C 1/3 1/3 0 1/3
wij
n
C
B 1/3 0 1/3 1/3
15
24
B
zi =
zi z j
2
n
n
0 1/2 1/2 0
zi zj
*
=

zA = 0,5628
zB = -0,1407
zC = 1,1257
zD = -1,5479
Mij
1
0,3167 - 0,0792 0,6335 - 0,8711  0 - 0,0396 0,3167 0


0 




2
 
 

1 1   - 0,0792 0,0197 - 0,1583 0,2177   - 0,0264 0 - 0,0527 0,0725
0
 

3 3 
*
=



1
1
  0,6335 - 0,1583 1,2672 - 1,7424   0,2111 - 0,0527
0
0 - 0,5808 
3
3 
 

 
 

1 1
0   - 0,8711 0,2177 - 1,7424


2,3959   - 0,00 0,1088 - 0,8712
0 
2 2
 
1
2
zi z j =  M ij = - 0,9143
i =1 j =1
 = 7,1063
( yi - y )
n
z
i
i =1
2
=4
I=
- 0,9143
= - 0,288
4
Significância do Índice de Moran
Avaliação da siginificância do índice de Moran
(I).
Para estimar a significância de I, será preciso associar a
este uma distribuição estatística, para tanto, duas
abordagens são possíveis:
• Teste de pseudo-significância (experimento aleatório).
• Distribuição aproximada (hipótese da normalidade).
Indicadores Globais de Autocorrelação
Espacial
• A validade estatística do índice de Moran (I) sob o
extremo
Distribuição
simulada
extremo
teste de pseudo-significância.
• Se o índice I efetivamente medido corresponder a um
“extremo” da distribuição simulada, então trata-se
de evento com significância estatística.
I de Moran: Validade Estatística
• Para um número suficiente de sub-regiões o índice I tem uma
distribuição amostral que é aproximadamente normal, dada por:
1
E( I ) =
(n - 1)
Índice Moran Normalizado
n 2 (n - 1) S1 - n(n - 1) S2 - 2 So2
2
 =
(n + 1)( n - 1)2 So2
onde:
n = número de regiões,
So =  wij para i  j
IN =
I - E (I )
Normal Padrão
S1 =  (wij + wij ) para i  j
2
S2 =  (  wij +  wij ) para i  j
95%
2
-1,96
0
1,96

Mapeando a Violência: Dados de Área
Fonte: Carvalho, M. S., 1998.
FIOCRUZ - RJ
Minas Gerais
Espírito
Santo
São Paulo
LEGENDA
Capitais
classes (n de municípios)
N
O
S
0
100
Km.
200
L
Rio de Janeiro
0,95
a
1,906
(28)
1,906
a
2,862
(209)
2,862
a
3,818
(460)
3,818
a
4,774
(223)
4,774
a
5,73
(64)
0
óbitos
(448)
Indicadores Globais de Autocorrelação
Espacial
0
RJ
100
200
300
400
500
600
SP
0.6
auto-correlação
0.4
0.2
0.0
-0.2
MG
ES
0.6
0.4
0.2
0.0
-0.2
0
100
200
300
400
500
600
distância
Fonte: Carvalho, M. S., 1998.
FIOCRUZ - RJ
Diagrama de Espalhamento de Moran
Este diagrama relata espacialmente o relacionamento entre os valores do vetor de
desvios Z (zi - z ) e os valores das médias locais WZ, indicando diferentes regimes
espaciais presentes nos dados.
Z t WZ
I= t
ZZ
Nesta formulação, I equivale ao
coeficiente de regressão linear, ou
seja a inclinação da reta de regressão.
WZ
Q4
Q1
Reta de regressão de WZ em Z
I é equivalente a tg a
a
0
Q2
Q3
0
z
Diagrama de Espalhamento de Moran
Q1 (val. [+], médias [+]) e Q2 (val. [-], médias [-])
Indicam pontos de associação espacial positiva, no
sentido que uma localização possui vizinhos com
valores semelhantes.
WZ
Q4
Q1
a
0
Q2
Q3 (val. [+], médias [-]) e Q4 (val. [-], médias [+])
Indicam pontos de associação espacial negativa, no
sentido que uma localização possui vizinhos com
valores distintos.
Q3
0
z
Nota:- os pontos localizados em Q3 e Q4 podem ser vistos
como extremos, tanto por estar afastados da reta de regressão linear, como por indicar regiões que não seguem o mesmo processo de dependência espacial das demais observações. Estes pontos marcam regiões de transição entre regimes espaciais distintos.
Autocorrelação Espacial
O Diagrama de Espalhamento de Moran pode ser apresentado na forma de um mapa
coroplético bidimensional, no qual cada polígono é apresentado indicando-se seu
quadrante no diagrama de espalhamento.
São Paulo
WZ
Q4 = LH
Q1= HH
a
0
Q2= LL
Atributo considerado
percentagem de idosos
Q3 = HL
0
z
Indicadores Locais de Associação
Espacial (LISA)
• Como vimos anteriormente o estimador de autocorrelação
espacial, Moran (I), fornece um valor único como medida
da associação espacial.
• Por outro lado, muitas vezes é necessário examinar padrões
numa escala maior.
• Neste caso, é preciso utilizar indicadores locais de
associação espacial que possam ser associados a diferentes
localizações de uma variável distribuída espacialmente.
• A utilização destes indicadores em conjunto com os
indicadores globais, refinam nosso conhecimento sobre o
processos que dão origem a dependência espacial.
Introdução
• Índices locais (LISA):
– Permitem avaliar diferentes regimes espaciais
existentes na área de estudo.
– Medem a associação espacial entre uma observação i e
sua vizinhança.
– Requisitos (Anselin)
• A soma dos índices locais deve ser proporcional ao índice
global.
• Indicar a significância da associação espacial para cada
observação.
Indicadores Locais de Associação
Espacial (LISA)
• Os indicadores locais de associação espacial, produzem um
valor específico para cada objeto.
• Isto acarreta a identificação de:
– “Clusters”: objetos com valores de atributos semelhantes,
– “Outliers”: objetos anómalos,
– A presença de mais de um regime espacial.
• Tem que atender a dois objetivos:
– Permitir a identificação de padrões de associação espacial
significativos;
– Ser uma decomposição do índice global de associação
espacial.
Índice local de Moran
• Formulação:
n
n
I   Ii
I=
i
I
i
i
n
n
w
Ii =
ij
j =1
zi z j
n
z
j =1
n
2
j
zi wzi
Ii =
m2
Indicadores Locais de Associação
Espacial (LISA)
• Indicadores locais Ii de Moran (Anselin, 1996)
• Indicadores locais Gi e Gi * (Getis e Ord, 1992)
• O indicador local de Moran Ii é assim definido:
( yi - y )  wij ( y j - y )
n
Ii =
j =1
Ii > 0 “clusters” de valores similares (altos ou baixos).
n
2
(
)
y
y
 i
i =1
localização
n
Ii < 0 “clusters” de valores distintos (Ex: uma
com valores altos rodeada por uma vizinhança de
valores
baixos).
n
I i = zi  wij z j
j =1 o indicador reduz-se a:
• Normalizando as variáveis
Indicadores Locais de Associação
Espacial (LISA)
• De forma similiar aos indicadores globais, a significância do
índice local de Moran (Ii) deve ser avaliado, utilizando hipótese de
normalidade ou simulação de distribuição por permutação
aleatória nos valores dos atributos (Anselin, 1995).
• Uma vez determinada a significância estatística de Moran (Ii) é
muito útil gerar um mapa indicando as regiões que apresentam
correlação local significativamente diferente do resto dos dados.
• Este mapa é denominado por Anselin (1995) de “LISA MAP”.
• Na geração do LISA MAP, os índices locais Ii são classificados
como:
– não significantes
Indicadores Locais de Associação
Espacial (LISA)
• Os indicadores locais Gi e Gi * (Getis e Ord, 1992):
n
Gi ( d ) =
 w (d ) x
ij
j =1
i
n
x
i =1
n
, j i
j
G (d ) =
*
i
 w (d ) x
ij
j =1
i
n
x
i =1
, j i
j
onde:
– wij valor na matriz de proximidade para região i com a região j em função da
distância.
– xi e xj são os valores dos atributos considerados nas áreas i e j.
– d é distância entre pontos
– n o número de áreas (polígonos)
•
NOTA: a estatística Gi, inclui no numerador a soma de todos os valores de
Indicadores Locais de Associação
Espacial (LISA)
• Os indicadores locais Gi e Gi * (Getis e Ord, 1992):
n
Gi ( d ) =
 w (d ) x
ij
j =1
i =1
•
i
n
x
n
, j i
j
Gi* (d ) =
 w (d ) x
ij
j =1
i
n
x
i =1
, j i
j
onde:
– wij valor na matriz de proximidade para região i com a região
j em função da distância.
– xi e xj são os valores dos atributos considerados nas áreas i e j.
– d é distância entre pontos
– n o número de áreas (polígonos)
Indicadores Locais de Autocorrelação
Espacial
não signif.
95% sign.
99% sign.
•
“Bolsões” de exclusão/inclusão social em São Paulo
Indicadores Locais de Associação
Espacial (LISA)
• Uma outra forma de análise é através do mapa denominado
“Moran Map” (Anselin, 1999). Neste caso, os índices locais Ii são
associados ao diagra-ma de espalhamento de Moran.
Nota: este resultado apresenta somente as
regiões para os quais os valores de Ii ,foram
considerados significantes (com intervalo >95%).
% Idosos
não significantes
Q1 [HH]
Q2 [LL]
Download

Indicadores Locais de Associação Espacial (LISA)