CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS
GEOGRÁFICOS QUANTITATIVOS
NOTAS DE AULA
PROFA. MÔNICA M. S. DECANINI
2003
DPTO DE CARTOGRAFIA – FCT
UNESP
PRESIDENTE PRUDENTE
CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS
GEOGRÁFICOS QUANTITATIVOS
Æ Um problema central para cartógrafos e geógra fos é o grande volume de dados para
mapear.
Æ Há a necessidade de se fazer algum tipo de generalização e
simplificação, portanto, o cartógrafo tem que resolver a questão da
classificação dos dados .
Æ Os dados devem ser classificados (taxonomias ou formas de ordenação dos dados)
para reduzir um grande número de indivíduos para um número menor de grupos
visando facilitar a descrição e ilustração dos dados .
Æ Para isso necessita definir as classes a serem utilizadas;
Æ A Classificação facilita a interpretação da realidade que é extremamente
complexa;
Æ Embora possa causar a perda de detalhes, torna a interpretação mais
significativa e eficaz. TEM MAIOR PODER INTERPRETATIVO.
POR QUÊ ?
Æ A classificação é necessária devido a impraticabilidade de
simbolizar e mapear cada indivíduo;
Æ Quando há uma variação muito pequena entre símbolos, pelas leis
da percepção visual, a diferenciação é quase imperceptível,
particularmente quando os símbolos são colocados no contexto do
mapa, distanciados um dos outros:
LIMITE DA PERCEPÇÃO DA COR => 8 CORES
Æ A classificação é um método que tem como propósito específico auxiliar
na descoberta de relações espaciais.
Æ O objetivo é agrupar os valores individuais de tal maneira que revele
padrões espaciais que sirva aos propósitos temáticos dos usuários.
Æ A classificação pode ser numérica ou quantitativa
INFORMAÇÃO QUANTITATIVA => MAPA COROPLÉTICO
Æ Para o mapeamento quantitativo há um conjunto de métodos para
estabelecer intervalos de classes.
MÉTODOS DE CLASSIFICAÇÃO DE DADOS GEOGRÁFICOS QUANTITATIVOS –
MAPA COROPLÉTICO
•
Os métodos de classificação de dados geográficos quantitativos são a melhor
forma de planejar os intervalos de classes para os mapas coropléticos .
•
É preciso considerar também que o sistema de intervalo de classes inclua um
intervalo de dados sem classes sobrepostas, e refletir algumas divisões lógicas dos
dados de modo a retratar o propósito do mapa.
•
Se possível tem de haver relação matemática – lógica entre as classes
(estatísticas). Alguns métodos comumente usados são:
1.
Intervalos iguais (constante)
2.
Quantis
3.
Quebras Naturais:
•
Otimização de Jenks- método analítico;
4.
Desvio padrão (constante)
5.
Média Aninhada (Calcula-se a Média e dividi-se em 2 classes => acima e
abaixo da média, sucessivamente para cada uma delas faz -se o mesmo
=> 4 classes e depois =>8 classes)
SELEÇÃO DE INTERVALOS DE CLASSES (REGRAS)
•
As Classes não podem se sobrepor:
0 – 20
18 – 30
28 – 40
Errado
Obs: Os limites das classes devem ser bem definidos
Nunc a uma observação pode entrar em duas classes diferentes
•
•
Os intervalos selecionados devem cobrir todos os dados, do mais baixo até
o mais alto.
§ Nenhum valor deve começar com o valor que é igual ao maior valor da
classe precedente. Exemplo:
00 – 05
05 – 10
10 – 15
00 – 04
05 – 09
10 – 14
00.0 – 4.9
05.0 – 9.9
10.0 – 14.9
00 – < 5
Errado
Certo
Certo
Certo
05 – < 10
10 – < 20
Há um limite quanto ao número de classes a serem representados no mapa
coroplético. O olho humano consegue distinguir um número limitado de tons
de cinza entre o branco e preto na escala cinza – acromática e de corescromática (cerca de oito cores ou tons de cinza).
DEFINIÇÃO DO NÚMERO DE CLASSES: MÉTODO DE STURGES
•
Um método estatístico bastante utilizado para a definição do número de
classes em uma série é o método de Sturges, que propõe a aplicação da seguinte
fórmula:
k=1 + 3.33logN
Onde,
k corresponde ao número de classes
N corresponde ao número de elementos da
mapeamento excluem-se os valores repetidos
série,
da qual, para fins de
•
Se N ≤ 80 => Utilize k=1 + 3.33logN ou
•
Se N > 80 => Utilize k=1 + 3.33logN
N
Uma vez definido o número de classes, aplica-se o método de intervalo iguais e demais
métodos . O Desvio Padrão é simétrico (de ±1s a ± 3s ).
1. MÉTODO DE INTERVALOS IGUAIS (CONSTANTE)
•
Esse método atribui intervalos iguais para cada classe.
•
O procedimento para obter o intervalo de classe é:
1. Calcular a amplitude dos dados (R):
R = H– L
Onde, H é o valor mais alto e L o mais baixo da série de observações .
2. Obter o valor do intervalo de classe (h):
h = R/k
Onde, k número de classes
3. Para obter os limites de classe, calcula-se:
L + 1 .h = 1 o limite de classe => L – < L + 1.h
L + 2.h = 2 o limite de classe =>
L + 1.h – < L + 2.h
L + 3.h = 3 limite de classe =>
L + 2.h - < L + 3.h
L + 4.h = 4 o limite de classe =>
L + 3.h – < L + 4 .h
E assim, sucessivamente....
Vantagens e Desvantagens
•
Mapas que são classificados por este método, geralmente tem um senso intuitivo.
Sua legenda tende a aparecer ordenadamente e contínua (Figura 1).
1
68%
2
136%
204%
3
272%
4
340 %
Intervalo de Classes
68% – <136%
136% – < 204%
204% – <272%
272% – 340%
Figura 1 – intervalos de classe pelo método de Intervalos Iguais
•
Se as unidades de observação são iguais em tamanho e a distribuição numérica
é retangular, muitos mapas parecerão organizados. Infelizmente, muitos
histogramas não são retangulares.
•
É um método fácil de calcular;
•
O método de Intervalos Iguais não mostra detalhes e variações entre valores
mais baixos (todos concentrados em uma só c lasse), em uma série que contém
valores de amplitude grande;
•
No método de Intervalos Iguais, por considerar intervalos fixos, pode ocorrer
classe vazia, que apesar de existir na legenda não existe no cartograma;
•
O método de Intervalos Iguais pode dividir as observações, de uma forma não
correspondente a realidade, isto é, coloca uma quebra no
meio de um
agrupamento/cluster de um conjunto de valores (Figura 2).
Classe1
Classe 2
Classe 3
Figura 2 – Intervalos Iguais - Quebra no meio de um agrupamento/cluster
2. MÉTODO DO QUANTIL
•
O total do conjunto dos dados é subdividido em um número de classes, na qual
cada uma tem o mesmo número de observações.
•
Pode-se ter uma série de dados dividida em 4 classes (Quartil ou Desvio
Quartílico = 25% dos dados em cada classe) até 100 (Percentis ).
•
Se o conjunto dos dados tem, por exemplo, 20 valores e se quer trabalhar com
quatro (04) classes, as primeiras 5 observações totais dos valores serão
colocadas na primeira classe. O segundo grupo de 5 observações será colocado
na Segunda classe, e assim por diante.
OBS: Deve-se sempre ordenar os dados para criar as classes.
•
Para calcular o Quantil (com 4 classes é um Quartil)
Q = Número de observações / Número de classes
=>20/4 = 5 observações
•
Conforme exemplo acima se tem os seguintes intervalos de classes (inteiros):
1, 2, 3, 10, 20, 3 0, 40, 60, 76, 77, 80, 90.......
1 – 20
•
30 – 77
Quando o resultado obtido não é inteiro, como no exemplo abaixo, faz-se uma
aproximação (Slocum, 1999):
§
Coloca-se 13 observações na primeira classe e 14 na segunda
classe , de tal forma que se tenha o total de 27 observações
(aproximadamente 13.4 x 2)
Q = Número de observações / Número de classes
=>67/5 = 13.4 observações
•
Excluem-se as repetições, i.e., as observações repetidas não são contadas.
Observações:
•
Quando uma série apresenta disparidade de valores em alguns elementos,
recomenda-se trabalhar com a amplitude útil, evitando-se a amplitude total.
Reserva-se uma classe específica para os elementos díspares. Assim, o
mapeamento representará mais satisfatoriamente a distribuição espacial das
informações
•
O método dos Quantis pode dividir de uma forma não correspondente a realidade,
pois coloca uma quebra no meio de um agrupamento/cluster de um conjunto de
valores.
•
Diferente do Método de Intervalos Iguais, cria um vazio entre um intervalo e outro,
dando uma impressão de descontinuidade.
3.MÉTODO DO D ESVIO-PADRÃO (CONSTANTE)
•
Se o conjunto de dados se comporta como uma distribuição normal, os limites das
classes podem ser estabelecidos pelo uso do valor do seu desvio-padrão.
•
Os limites das classes são obtidos pelo:
1. cálculo da média e desvio-padrão da população n
2. determina-se os limites pela adição ou subtração do desvio padrão a média.
•
Normalmente não mais que seis classes são necessárias para levar
em conta a maioria dos valores na distribuição normal.
INTERVALOS
•
(
X
– 3σ ) – (
(
X
– 2σ) – (
(
X
– σ) –
X
– (
X
X
X
- 2σ)
– σ)
Classe1
Classe 2
X
Classe 3
+ σ)
Classe 4
(
X
+ σ) – (
(
X
+ 2σ) – (
X + 2σ )
X
+ 3σ )
Classe 5
Classe 6
Este método produz class es de intervalos constantes, porque o desvio-padrão é
imutável (simétrico).
•
Alguns problemas de simbolização surgem com este método (Dent, 1993), uma
vez que os limites das classes são organizados ao redor de um valor central, ao
invés de crescer a partir de um valor mais baixo, como usualmente é feito (Figura
3).
(a)
(b)
(c)
Figura 3 : Alternativas de simbolização de classes obtidas pelo método do desvio padrão.
Fonte: Dent, 1993
•
Em (a), no intervalo de classes a importância visual de –3 a +3 é contínua.
Contudo, devido à natureza bidirecional do desvio padrão, esse método de
simbolização parece ter pouco apelo intuitivo .
•
Em (b), maior importância é dada àqueles valores próximos da média, pois o valor
mais escuro está próximo da média (ESCURO=>CLARO)..
•
Em (c), maior importância é atribuída àqueles valores mais distantes da média
(CLARO=> ESCURO).
•
Portanto, deve-se adotar esquemas divergentes ou bipolares para se representar
dados de natureza bi-direcional, como no exemplo da Figura 4.
x
Figura 4: Esquema divergente de cor
•
O propósito do mapa ditará a escolha de um método de simbolização.
4. MÉTODO DA OTIMIZAÇÃO DE JENKS
•
Esse método forma grupos que são homogêneos internamente e assegura a
heterogeneidade entre classes (TABELA 1).
•
O procedimento de medida dessa técnica é chamado de Ajuste de Bondade ou
Mellhor Ajuste de Variância (GVF = Goodness of Variance Fit):
1. Calcule o n. de classes. Faça um histograma ou um diagrama de frequência
dos dados da série para agrupar as observações.
2. Compute a Média (
X ) do conjunto de dados e faz -se a soma dos Desvios
Quadráticos de cada observação (xi ) da série de dados.
SDAM = ∑ (xi- X )
2
Onde, SDAM é o Desvio Quadrático da média da série de observações
3. Desenvolva os limites de classe da primeira iteração. Considere cada valor
da série como uma classe, que é considerada a forma ideal. Calculam-se as
Médias de cada classe (Zc).
•
Calculam-se os Desvios Quadráticos de cada observação dentro da
classe (xi - Z c). Faz -se a somatória da somatória:
SDCM = ∑ ∑ (x i - Z c)2
Onde, SDCM é o Desvio Quadrático da Média das observações dentro da
classe
•
Na primeira iteração, a Média da classe é idêntica ao valor da classe,
portanto, o Desvio Quadrático da Média da classe (SDCM ) é ZERO.
4. Compute o Ajuste de Bondade (GVF)
GVF = (SDAM – SDCM) / SDAM
5. Observe que o valor de GVF para a primeira iteração é 1.0, pois o objetivo
da iteração é maximizar o valor de GVF.
•
Parte-se da situação ideal (não generalizada), pois obviamente em um
mapa coroplético não se tem uma observação para cada classe, o que
se pretende é agrupar as observações em classes, para poder
representar graficamente, de uma forma eficaz e legível (já que o olho
humano tem um limite na percepção das cores de no máximo 8 cores).
•
Portanto, na situação real, a solução de GVF deve ser menor que 1.0 ,
mas tendendo próximo a 1.0, ou seja, quanto mais próxima de 1.0,
melhor o resultado. Quando não há melhora nesse valor, pára-se a
iteração.
6. Repita os procedimentos acima até o valor de GVF não puder ser
maximizado, i.é., aproximar-se do Valor 1.0.
TABELA 1- MÉTODO DE CLASSIFICAÇÃO – OTIMIZAÇÃO DE JENKS
Fonte: Dent, 1993
REFERÊNCIAS BIBLIOGRÁFICAS
BOS, ES (1973) Cartographic Principles in Thematic Mapping. ITC, The Netherlands.
DENT , D.B. (1993) Cartography: Thematic Map Design . WCB, England.
SLOCUM, T A (1999) Thematic Cartography and Visualization. Prentice Hall, New Jersey.
RAMOS, C. da S. E SANCHEZ, M. C. (2000) Estudo Metodológico da Classificação de dados
para Cartografia Temática. Geografia 25(2):23-52.
Download

cartografia temática: métodos de classificação dos dados