CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS GEOGRÁFICOS QUANTITATIVOS NOTAS DE AULA PROFA. MÔNICA M. S. DECANINI 2003 DPTO DE CARTOGRAFIA – FCT UNESP PRESIDENTE PRUDENTE CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS GEOGRÁFICOS QUANTITATIVOS Æ Um problema central para cartógrafos e geógra fos é o grande volume de dados para mapear. Æ Há a necessidade de se fazer algum tipo de generalização e simplificação, portanto, o cartógrafo tem que resolver a questão da classificação dos dados . Æ Os dados devem ser classificados (taxonomias ou formas de ordenação dos dados) para reduzir um grande número de indivíduos para um número menor de grupos visando facilitar a descrição e ilustração dos dados . Æ Para isso necessita definir as classes a serem utilizadas; Æ A Classificação facilita a interpretação da realidade que é extremamente complexa; Æ Embora possa causar a perda de detalhes, torna a interpretação mais significativa e eficaz. TEM MAIOR PODER INTERPRETATIVO. POR QUÊ ? Æ A classificação é necessária devido a impraticabilidade de simbolizar e mapear cada indivíduo; Æ Quando há uma variação muito pequena entre símbolos, pelas leis da percepção visual, a diferenciação é quase imperceptível, particularmente quando os símbolos são colocados no contexto do mapa, distanciados um dos outros: LIMITE DA PERCEPÇÃO DA COR => 8 CORES Æ A classificação é um método que tem como propósito específico auxiliar na descoberta de relações espaciais. Æ O objetivo é agrupar os valores individuais de tal maneira que revele padrões espaciais que sirva aos propósitos temáticos dos usuários. Æ A classificação pode ser numérica ou quantitativa INFORMAÇÃO QUANTITATIVA => MAPA COROPLÉTICO Æ Para o mapeamento quantitativo há um conjunto de métodos para estabelecer intervalos de classes. MÉTODOS DE CLASSIFICAÇÃO DE DADOS GEOGRÁFICOS QUANTITATIVOS – MAPA COROPLÉTICO • Os métodos de classificação de dados geográficos quantitativos são a melhor forma de planejar os intervalos de classes para os mapas coropléticos . • É preciso considerar também que o sistema de intervalo de classes inclua um intervalo de dados sem classes sobrepostas, e refletir algumas divisões lógicas dos dados de modo a retratar o propósito do mapa. • Se possível tem de haver relação matemática – lógica entre as classes (estatísticas). Alguns métodos comumente usados são: 1. Intervalos iguais (constante) 2. Quantis 3. Quebras Naturais: • Otimização de Jenks- método analítico; 4. Desvio padrão (constante) 5. Média Aninhada (Calcula-se a Média e dividi-se em 2 classes => acima e abaixo da média, sucessivamente para cada uma delas faz -se o mesmo => 4 classes e depois =>8 classes) SELEÇÃO DE INTERVALOS DE CLASSES (REGRAS) • As Classes não podem se sobrepor: 0 – 20 18 – 30 28 – 40 Errado Obs: Os limites das classes devem ser bem definidos Nunc a uma observação pode entrar em duas classes diferentes • • Os intervalos selecionados devem cobrir todos os dados, do mais baixo até o mais alto. § Nenhum valor deve começar com o valor que é igual ao maior valor da classe precedente. Exemplo: 00 – 05 05 – 10 10 – 15 00 – 04 05 – 09 10 – 14 00.0 – 4.9 05.0 – 9.9 10.0 – 14.9 00 – < 5 Errado Certo Certo Certo 05 – < 10 10 – < 20 Há um limite quanto ao número de classes a serem representados no mapa coroplético. O olho humano consegue distinguir um número limitado de tons de cinza entre o branco e preto na escala cinza – acromática e de corescromática (cerca de oito cores ou tons de cinza). DEFINIÇÃO DO NÚMERO DE CLASSES: MÉTODO DE STURGES • Um método estatístico bastante utilizado para a definição do número de classes em uma série é o método de Sturges, que propõe a aplicação da seguinte fórmula: k=1 + 3.33logN Onde, k corresponde ao número de classes N corresponde ao número de elementos da mapeamento excluem-se os valores repetidos série, da qual, para fins de • Se N ≤ 80 => Utilize k=1 + 3.33logN ou • Se N > 80 => Utilize k=1 + 3.33logN N Uma vez definido o número de classes, aplica-se o método de intervalo iguais e demais métodos . O Desvio Padrão é simétrico (de ±1s a ± 3s ). 1. MÉTODO DE INTERVALOS IGUAIS (CONSTANTE) • Esse método atribui intervalos iguais para cada classe. • O procedimento para obter o intervalo de classe é: 1. Calcular a amplitude dos dados (R): R = H– L Onde, H é o valor mais alto e L o mais baixo da série de observações . 2. Obter o valor do intervalo de classe (h): h = R/k Onde, k número de classes 3. Para obter os limites de classe, calcula-se: L + 1 .h = 1 o limite de classe => L – < L + 1.h L + 2.h = 2 o limite de classe => L + 1.h – < L + 2.h L + 3.h = 3 limite de classe => L + 2.h - < L + 3.h L + 4.h = 4 o limite de classe => L + 3.h – < L + 4 .h E assim, sucessivamente.... Vantagens e Desvantagens • Mapas que são classificados por este método, geralmente tem um senso intuitivo. Sua legenda tende a aparecer ordenadamente e contínua (Figura 1). 1 68% 2 136% 204% 3 272% 4 340 % Intervalo de Classes 68% – <136% 136% – < 204% 204% – <272% 272% – 340% Figura 1 – intervalos de classe pelo método de Intervalos Iguais • Se as unidades de observação são iguais em tamanho e a distribuição numérica é retangular, muitos mapas parecerão organizados. Infelizmente, muitos histogramas não são retangulares. • É um método fácil de calcular; • O método de Intervalos Iguais não mostra detalhes e variações entre valores mais baixos (todos concentrados em uma só c lasse), em uma série que contém valores de amplitude grande; • No método de Intervalos Iguais, por considerar intervalos fixos, pode ocorrer classe vazia, que apesar de existir na legenda não existe no cartograma; • O método de Intervalos Iguais pode dividir as observações, de uma forma não correspondente a realidade, isto é, coloca uma quebra no meio de um agrupamento/cluster de um conjunto de valores (Figura 2). Classe1 Classe 2 Classe 3 Figura 2 – Intervalos Iguais - Quebra no meio de um agrupamento/cluster 2. MÉTODO DO QUANTIL • O total do conjunto dos dados é subdividido em um número de classes, na qual cada uma tem o mesmo número de observações. • Pode-se ter uma série de dados dividida em 4 classes (Quartil ou Desvio Quartílico = 25% dos dados em cada classe) até 100 (Percentis ). • Se o conjunto dos dados tem, por exemplo, 20 valores e se quer trabalhar com quatro (04) classes, as primeiras 5 observações totais dos valores serão colocadas na primeira classe. O segundo grupo de 5 observações será colocado na Segunda classe, e assim por diante. OBS: Deve-se sempre ordenar os dados para criar as classes. • Para calcular o Quantil (com 4 classes é um Quartil) Q = Número de observações / Número de classes =>20/4 = 5 observações • Conforme exemplo acima se tem os seguintes intervalos de classes (inteiros): 1, 2, 3, 10, 20, 3 0, 40, 60, 76, 77, 80, 90....... 1 – 20 • 30 – 77 Quando o resultado obtido não é inteiro, como no exemplo abaixo, faz-se uma aproximação (Slocum, 1999): § Coloca-se 13 observações na primeira classe e 14 na segunda classe , de tal forma que se tenha o total de 27 observações (aproximadamente 13.4 x 2) Q = Número de observações / Número de classes =>67/5 = 13.4 observações • Excluem-se as repetições, i.e., as observações repetidas não são contadas. Observações: • Quando uma série apresenta disparidade de valores em alguns elementos, recomenda-se trabalhar com a amplitude útil, evitando-se a amplitude total. Reserva-se uma classe específica para os elementos díspares. Assim, o mapeamento representará mais satisfatoriamente a distribuição espacial das informações • O método dos Quantis pode dividir de uma forma não correspondente a realidade, pois coloca uma quebra no meio de um agrupamento/cluster de um conjunto de valores. • Diferente do Método de Intervalos Iguais, cria um vazio entre um intervalo e outro, dando uma impressão de descontinuidade. 3.MÉTODO DO D ESVIO-PADRÃO (CONSTANTE) • Se o conjunto de dados se comporta como uma distribuição normal, os limites das classes podem ser estabelecidos pelo uso do valor do seu desvio-padrão. • Os limites das classes são obtidos pelo: 1. cálculo da média e desvio-padrão da população n 2. determina-se os limites pela adição ou subtração do desvio padrão a média. • Normalmente não mais que seis classes são necessárias para levar em conta a maioria dos valores na distribuição normal. INTERVALOS • ( X – 3σ ) – ( ( X – 2σ) – ( ( X – σ) – X – ( X X X - 2σ) – σ) Classe1 Classe 2 X Classe 3 + σ) Classe 4 ( X + σ) – ( ( X + 2σ) – ( X + 2σ ) X + 3σ ) Classe 5 Classe 6 Este método produz class es de intervalos constantes, porque o desvio-padrão é imutável (simétrico). • Alguns problemas de simbolização surgem com este método (Dent, 1993), uma vez que os limites das classes são organizados ao redor de um valor central, ao invés de crescer a partir de um valor mais baixo, como usualmente é feito (Figura 3). (a) (b) (c) Figura 3 : Alternativas de simbolização de classes obtidas pelo método do desvio padrão. Fonte: Dent, 1993 • Em (a), no intervalo de classes a importância visual de –3 a +3 é contínua. Contudo, devido à natureza bidirecional do desvio padrão, esse método de simbolização parece ter pouco apelo intuitivo . • Em (b), maior importância é dada àqueles valores próximos da média, pois o valor mais escuro está próximo da média (ESCURO=>CLARO).. • Em (c), maior importância é atribuída àqueles valores mais distantes da média (CLARO=> ESCURO). • Portanto, deve-se adotar esquemas divergentes ou bipolares para se representar dados de natureza bi-direcional, como no exemplo da Figura 4. x Figura 4: Esquema divergente de cor • O propósito do mapa ditará a escolha de um método de simbolização. 4. MÉTODO DA OTIMIZAÇÃO DE JENKS • Esse método forma grupos que são homogêneos internamente e assegura a heterogeneidade entre classes (TABELA 1). • O procedimento de medida dessa técnica é chamado de Ajuste de Bondade ou Mellhor Ajuste de Variância (GVF = Goodness of Variance Fit): 1. Calcule o n. de classes. Faça um histograma ou um diagrama de frequência dos dados da série para agrupar as observações. 2. Compute a Média ( X ) do conjunto de dados e faz -se a soma dos Desvios Quadráticos de cada observação (xi ) da série de dados. SDAM = ∑ (xi- X ) 2 Onde, SDAM é o Desvio Quadrático da média da série de observações 3. Desenvolva os limites de classe da primeira iteração. Considere cada valor da série como uma classe, que é considerada a forma ideal. Calculam-se as Médias de cada classe (Zc). • Calculam-se os Desvios Quadráticos de cada observação dentro da classe (xi - Z c). Faz -se a somatória da somatória: SDCM = ∑ ∑ (x i - Z c)2 Onde, SDCM é o Desvio Quadrático da Média das observações dentro da classe • Na primeira iteração, a Média da classe é idêntica ao valor da classe, portanto, o Desvio Quadrático da Média da classe (SDCM ) é ZERO. 4. Compute o Ajuste de Bondade (GVF) GVF = (SDAM – SDCM) / SDAM 5. Observe que o valor de GVF para a primeira iteração é 1.0, pois o objetivo da iteração é maximizar o valor de GVF. • Parte-se da situação ideal (não generalizada), pois obviamente em um mapa coroplético não se tem uma observação para cada classe, o que se pretende é agrupar as observações em classes, para poder representar graficamente, de uma forma eficaz e legível (já que o olho humano tem um limite na percepção das cores de no máximo 8 cores). • Portanto, na situação real, a solução de GVF deve ser menor que 1.0 , mas tendendo próximo a 1.0, ou seja, quanto mais próxima de 1.0, melhor o resultado. Quando não há melhora nesse valor, pára-se a iteração. 6. Repita os procedimentos acima até o valor de GVF não puder ser maximizado, i.é., aproximar-se do Valor 1.0. TABELA 1- MÉTODO DE CLASSIFICAÇÃO – OTIMIZAÇÃO DE JENKS Fonte: Dent, 1993 REFERÊNCIAS BIBLIOGRÁFICAS BOS, ES (1973) Cartographic Principles in Thematic Mapping. ITC, The Netherlands. DENT , D.B. (1993) Cartography: Thematic Map Design . WCB, England. SLOCUM, T A (1999) Thematic Cartography and Visualization. Prentice Hall, New Jersey. RAMOS, C. da S. E SANCHEZ, M. C. (2000) Estudo Metodológico da Classificação de dados para Cartografia Temática. Geografia 25(2):23-52.