Faculdade de Ciências da Universidade de Lisboa Departamento de Matemática FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO GEOGRÁFICA Q U A LI D A D E D O S DA DOS NUM S.I.G. António Ervideira – PEG Engenharia Geográfica e GeoInformática – SIG CONTEÚDOS 0 - INTRODUÇÃO 1 – ESPECIFICIDADE DOS DADOS GEOGRÁFICOS • DADOS GEOGRÁFICOS • DADOS NÃO-GEOGRÁFICOS • FONTES DE DADOS • CICLO DE VIDA DOS DADOS 2 – ELEMENTOS DE QUALIDADE DOS DADOS • COMPLETUDE • CONSISTÊNCIA • EXACTIDÃO POSICIONAL • EXACTIDÃO TEMÁTICA • EXACTIDÃO TEMPORAL 3 – TIPOLOGIA DOS ERROS • ERROS GROSSEIROS • ERROS SISTEMÁTICOS • ERROS RESIDUAIS OU ALEATÓRIOS • ORIGENS DOS ERROS 4 – AVALIAÇÃO DA QUALIDADE DOS DADOS • EXACTIDÃO POSICIONAL • EXACTIDÃO TEMÁTICA 5 – CONCLUSÃO 6 - BIBLIOGRAFIA António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 1 INTRODUÇÃO António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 2 1. ESPECIFICIDADE DOS DADOS GEOGRÁFICOS DADOS GEOGRÁFICOS Os Sistemas de Informação Geográfica (S.I.G.) possibilitam estudos impensáveis há apenas uma dezena de anos. Para proceder a estes estudos, todavia, coloca-se a necessidade de obter dados o mais rigorosamente possível. Um tipo de dados em especial, dados geográficos, contribui para a eficiência dos estudos. Antes de mais delongas parece-me oportuno referir as diferenças entre dados e informação e, mais concretamente, destrinçar entre as noções de dados, dados espaciais e dados geográficos. Apesar de os termos “informação” e “dados” serem usados como sinónimos não significam, de facto, a mesma coisa. “Dados” é aquilo que se obtém através da observação, da medição e por inferência. “Informação” é produzida pela análise, organização e tratamento de grandes quantidades de dados (Coates, 1998). Desta forma, o principal papel de um Sistema de Informação Geográfica é o de converter dados em informação, ou seja, tornar os dados úteis. Dados espaciais não são necessariamente dados geográficos, sendo estes últimos os que maior utilidade têm num S.I.G. Os dados espaciais são assim designados quando têm uma implantação num plano espacial, a duas dimensões normalmente, mas não estão sujeitos a uma localização no espaço geográfico terrestre. Isto é, os dados espaciais, ao contrário do que acontece com os dados geográficos, não obedecem a uma referência global (datum) nem estão sujeitos a um sistema de projecção (a sua extensão é muito pouca significativa para incorrer em grandes deformações). Os dados espaciais são sobretudo utilizados em projectos de arquitectura, industriais ou de engenharia de pequena envergadura (Sistemas do tipo CAD/CAM – Computer Assisted Design/Drafting/Manufacturing). Os dados geográficos são, portanto, um caso particular de dados espaciais os quais contêm informação espacial geo-referenciada. Na análise da qualidade de dados é, na maior parte dos casos, irrelevante a diferença entre dados espaciais e dados geográficos, no entanto, muitas situações há em que a qualidade dos dados faz toda a diferença se estes estiverem georeferenciados. Os dados geográficos podem assumir várias formas com se pode constatar na figura 1: Os pontos (também chamados, símbolos ou nós) podem ser utilizados para representar poços de petróleo, cabines, telefónicas, candeeiros, moinhos ou qualquer objecto cuja área de implantação não seja significativa à escala/resolução a que estamos a trabalhar. Trata-se de uma representação adimensional, id est, 0-D. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 3 As linhas, arcos ou vectores são usados para representar objectos com uma só dimensão (1-D), tal como nos casos de estradas, caminhos, rios, oleodutos, curvas de nível e outras isolinhas. Os polígonos ou áreas têm como finalidade a representação de fenómenos com uma certa continuidade espacial (2D). Isto acontece quando necessitamos de representar países, regiões administrativas, lagos, tipos de solo, cobertura vegetal ou a geologia. Na figura 1 está apresentada a forma de representar os dados espaciais quer no formato raster quer no formato vectorial. Para além destas formas Figura 1 – Dados espaciais. Fonte: Davis, 2001. simples de dados espaciais, aparecemnos conjugações de tipos de dados que incluem topologia associada, como o estabelecimento de nós e vértices ou, ainda, a conectividade entre linhas e/ou polígonos. DADOS NÃO-GEOGRÁFICOS Num S.I.G., com a intenção de complementar a informação espacial/geográfica podem estar representada informação não-geográfica, nomeadamente dados de atributos, dados temporais e metadados. Em geral, os dados de atributos registam a informação acerca dos dados espaciais ou objectos representados, tal como o material usado na construção de um gasoduto, o tipo de pluviómetro que mede a precipitação naquele local ou a percentagem de solo impermeável. Os dados temporais registam a informação acerca da variação de um parâmetro com o tempo. Exemplos de dados temporais são a variação da intensidade da precipitação num pluviómetro, a variação de um caudal de um rio ou de um gasoduto, ou a variação da evaporação numa dada área. Os metadados são o conjunto de informações acerca dos dados que estão representados. Os metadados podem incluir: • Dados acerca da identificação do objecto (título, região, data, proprietário, empresa, etc.); António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 4 • Qualidade dos dados (exactidão temática, precisão e exactidão espacial, consistência, fonte da informação, método de obtenção dos dados); • Organização espacial dos dados (formato vectorial ou raster, elementos de localização adicional – endereço postal, código postal, bairro fiscal – e organização dos objectos no conjunto de dados. • Referência geográfica (projecção cartográfica, sistemas de referência/quadrícula, datum, informação acerca do sistema de coordenadas - latitude/longitude, xyz); • Atributos (conteúdo da base de dados, tipo de objectos, descrição dos objectos, definições dos atributos da base de dados e sua organização, tipo e nome do sistema de base de dados); • Distribuição (como obter os dados, contactos, formatos disponíveis, preços e outras informações úteis). FONTES DE DADOS Parece-me um aspecto fundamental no desenvolvimento de um S.I.G. saber quais as fontes de dados disponíveis para implementar o projecto e, a partir daí, tentar perceber 1) como os dados são obtidos 2) inferir, pelo menos, sobre a sua qualidade. Dados obtidos: são os dados recolhidos directamente pelo trabalho de campo (Levantamento topográfico convencional, armazenados na memória da caderneta electrónica de um receptor de GPS). É a fonte de dados de maior confiança desde que se saiba concretamente a que se referem os dados e se tenha certo cuidado na verificação dos resultados obtidos. Um cuidado adicional é requerido na transcrição das anotações dos trabalhos de campo visto que os enganos são de vária ordem e muito frequentes. Dados Inferidos: são dados calculados a partir de outros dados. Um exemplo que podemos citar é o de um tipo de cultura num dado campo, o qual foi inferido através do valor de radiância (neste caso reflectância) numa imagem raster. Na utilização de dados inferidos é importante apercebermo-nos dos dados que estão na base da inferência efectuada bem como o modelo de inferência utilizado para, desse modo, concluirmos acerca da exactidão dos dados. Dados Importados: são dados convertidos desde uma fonte exterior ao projecto, a qual já tem no seu conteúdo a informação relevante para o projecto a desenvolver sem ser necessário inferências suplementares. Também aqui é necessário saber-se qual o processo de conversão ou importação de dados que foi efectuado e qual a manipulação a que os dados foram sujeitos para ficarmos com uma noção da confiança com que os dados nos chegaram. Os metadados assumem, António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 5 neste aspecto, um primordial significado para nos darem a informação auxiliar acerca do conjunto de dados. CICLO DE VIDA DOS DADOS No processo de criação de informação útil existem diversas etapas (figura 2) que consistem na REPRESENTAÇÃO OBTENÇÃO fase de aquisição, na recuperação ou reedição, na análise e apresentação dos dados. Podemos ANÁLISE REGISTO ainda dividir a fase de aquisição em cinco etapas sucessivas que vão desde a obtenção dos dados até ao armazenamento, passando pelo registo, transmissão e edição. Estas cinco primeiras etapas são RECUPERAÇÃO TRANSMISSÃO um requisito para que os dados fiquem disponíveis da a posterior utilização. Após a aquisição dos ARMAZENAMENTO dados existe a necessidade de os recuperar para EDIÇÃO processamento. Dados armazenados são de pouca Figura 2 – Ciclo de vida dos dados. (adaptado de Coates, 1998) utilidade se não forem passíveis de recuperação para reedição. O processo mais habitual de os reeditar é através de um sistema de gestão de bases de dados. Os S.I.G. são excelentes no que concerne a esta situação. Concluída a reedição dos dados, efectua-se a análise. A análise é a parte mais importante num processo de tomada de decisões. Logo, uma análise levada acabo com dados pouco fiáveis, pode resultar numa decisão errada. Os dados estão finalmente prontos a serem representados. As aplicações de representação dos dados espaciais e gráficos, geográficos em particular, facilitam enormemente a visualização dos fenómenos e a sua interpretação. Pode dar muito boas pistas para a etapa anterior (análise). Portanto, por vezes, é oportuno voltar atrás para se proceder a uma nova técnica de análise. Após a representação, a informação poderá servir de base para outro projecto que inclua no seu trabalho os dados já coligidos. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 6 2. ELEMENTOS DE QUALIDADE DOS DADOS O conceito de qualidade dos dados é normalmente abordado através dos seus elementos de qualidade. Os componentes da qualidade de dados desenvolvidos pela Comissão Técnica 211 da Associação Internacional de Normalização (ISO - International Standards Organization) são os seguintes: completude, consistência, exactidão posicional, exactidão temporal e exactidão temática. COMPLETUDE Existem duas maneiras de perspectivar a completude dos dados geográficos. Por um lado, há autores que defendem que a completude é o grau de solicitação com que os dados permitem esgotar todas as possibilidades de representação de um Universo de itens (Brassel, 1995 in Lo e Yeung, 1998), e dessa forma distinguem a completude espacial e a completude temática, por outro lado, outros autores que se referem à completude dos dados em relação à representação ou à falta de representação de um objecto da realidade (Matos, 2001), ou dito de outra forma, aos erros de comissão e de omissão. A completude espacial pode ser determinada visualizando a distribuição dos dados geograficamente e fazendo a verificação de que todos os objectos da realidade vêm representados. Neste sentido, a verficação da completude espacial é idêntica à verificação dos erros por omissão. A completude temática refere-se à cobertura de todas os conjuntos de temas relevantes para o projecto por um sistema de informação. Pela definição aqui apresentada, já se nota que a completude temática é muito difícil de avaliar, até porque os temas relevantes para um projecto, podem não o ser para outro. Os erros de comissão, por seu turno, são aqueles em que aparece um objecto representado sem que este tenha uma existência real. CONSISTÊNCIA A consistência lógica está relacionada com a existência de uma correcta topologia entre conjuntos de dados, de uma homogeneidade entre as áreas representados no sentido em que o tratamento exaustivo numas não subestime o de outras e ainda se permite ou não um correcto nível de generalização no caso de haver mudança de escala de análise. Para garantir uma boa consistência lógica há que verificar se as intersecções são intencionais ou acidentais, se uma linha é representada apenas uma vez ou duas vezes quando é contígua a uma outra de um António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 7 polígono adjacente, se as áreas formadas pelos polígonos estão fechadas, isto é, sem haver aberturas acidentais (gaps), se não existem sobre- nem sub-projecções (over e undershooting) como acontece normalmente em dados vectorizados antes da edição (figura 3). Figura 3 – Problemas surgidos após a vectorização (esquerda) e correcção dos mesmos após a edição (direita). Fonte: Davis, 2001. EXACTIDÃO POSICIONAL A exactidão posicional traduz a proximidade entre a posição em que um objecto ou elemento gráfico é representado na cartaobjecto e a posição de referência na carta de teste (Matos, 2001). O erro posicional mede-se, assim, pela diferença entre as coordenadas geográficas do objecto representado na carta e as coordenadas geográficas reais do objecto. Uma regra base para a exactidão posicional é a de considerar que os objectos não devem exceder um distanciamento de mais de 0.5 Figura 4 – Resolução efectiva para várias escala de um mapa. Fonte: Lo e Yeung, 2002. mm, grosso modo a espessura de uma linha, no mapa em relação à posição em que deviam estar representados. Este é, efectivamente, o grau de precisão com que um operador de digitalização consegue posicional o cursor au e é dado o nome de unidade cartográfica mínima. Desta forma, a António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 8 resolução efectiva do projecto deve ter em consideração a escala a que o projecto foi elaborado e não aquela em que é apresentado ou visualizado. Por exemplo, num projecto elaborado à escala 1:10 000, o erro não deve ser superior a 5 m uma vez que esta é a resolução efectiva àquela escala (figura 4). A Sociedade Americana de Fotogrametria e Detecção Remota (ASPRS) considera que uma raiz do erro médio quadrático na exactidão espacial planimétrica em 95% dos casos inferior a 2.5 m é tolerável para os projectos de cartografia à escala atrás referida como iremos ver mais à frente (figura 5). Por conseguinte, o projecto apresentado à escala de 1:10000 deve ser elaborado a uma escala maior, 1:2500 por exemplo, que já se enquadra na resolução efectiva de 1.25 m, dando uma certa margem de tolerância para que a raiz do erro médio quadrático seja inferior a 2.5 m. EXACTIDÃO TEMÁTICA A Exactidão temática está relacionada com a classificação de tipos de objectos independentemente da sua exactidão posicional ser correcta. Deste modo, quando dois objectos, que na realidade são da mesma classe, são identificados como pertencendo a classes diferentes, estamos a cometer um erro que faz diminuir a exactidão temática. Como exemplos poderemos apontar: um tanque assinalado no mapa, mas que na realidade que na realidade é um poço ou, numa imagem raster, um pomar que é classificado como sendo vinha. Evidentemente que há que ter em conta a dimensão do erro de classificação que é feito, visto que não assinalar um aeroporto (com uma área muito grande) não é o mesmo que assinalar incorrectamente um poço (muitas vezes com representação apenas pontual). Nestes casos, devese ponderar o erro pela área respectiva que o objecto ocupa no terreno para que o grau de exactidão do mapa seja mais correctamente determinado. Também é de salientar que, muitas vezes, o erro de classificação é apenas parcial, ocorre em apenas partes do objecto e não na sua totalidade acrescentando à determinação da exactidão temática ainda maior complexidade. EXACTIDÃO TEMPORAL A exactidão temporal, uma das medidas de qualidade de dados que a Associação Internacional de Cartografia (ICA) propôs, para além daquelas que destacámos anteriormente, tem a ver com a medida da qualidade dos dados no que diz respeito à representação do tempo (Guptill e Morrisson, 1995) num projecto cartográfico ou numa aplicação S.I.G. Podem, então, ser definidos dois tipos de exactidão temporal: 1) Global e 2) da Base de Dados. 1) O tempo Global refere-se ao momento exacto em que os fenómenos ocorreram. 2) O tempo da base de dados refere-se ao período em que os dados foram recolhidos. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 9 Quando medimos a exactidão temporal Global, esta é associada ás observações feitas ou à recolha de amostras em intervalos regulares de tempo. Logicamente que, quanto menor for o período de tempo entre as observações, mais de acordo os dados estarão em relação à realidade. Por exemplo, quando um fenómeno é medido duas vezes no mesmo dia (vazão de um rio, por exemplo) mas é feito um registo diário das observações um dos valores perderá todo o significado, senão os dois se for feita uma média. Todavia, se os registos forem feitos numa base horária já serão registados com valores diferentes e mais de acordo com a realidade, logo mais exactos. Numa base de dados, a exactidão temporal terá que ver com a actualidade (ou antiguidade) que os dados oferecem, ou seja, diz-nos há quanto tempo os dados foram recolhidos. Assim, quanto maior a actualização de uma base de dados maior a sua exactidão temporal já que maior será o grau de correspondência entre os dados e a realidade. Como se pode constatar pelo que foi explanado anteriormente, o grau de exactidão temporal da base de dados depende muito da aplicação que estivermos a considerar, da escala/resolução do trabalho que está a ser efectuado. Uma aplicação que envolva a rede europeia de aeroportos terá necessariamente uma desactualização muito menor que a rede viária de um município. Uma aplicação que envolva o tráfego aéreo dos aeroportos fica desactualizada em cada segundo que passa, enquanto que uma aplicação de monitorização do uso do solo sofrerá modificações mais a longo prazo. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 10 3. TIPOS DE ERROS Com o percurso que os dados fazem, desde que são obtidos até à publicação do projecto, existem várias etapas e cada uma delas pode contribuir para acumulação de erros, embora possa também inverter-se a tendência de propagação de dados errados se, no meio do projecto, se intercalarem verificações à qualidade de dados. Não obstante as verificações que se fizerem e os erros que se detectarem, permanecerão no projecto publicado ainda alguns enganos, os quais são tanto mais graves quanto menor for o grau de verificação no processo de elaboração do projecto cartográfico ou S.I.G. Thapa e Bossler (1992) dividem os erros cometidos num projecto cartográfico em três tipos: 1) Erros grosseiros; 2) Erros sistemáticos; 3) Erros aleatórios ou residuais. ERROS GROSSEIROS Os erros grosseiros são os meros enganos. Estes erros podem ser detectados com relativa facilidade por uma verificação de controlo. Os procedimentos através de normas standard contribuem para atenuar o número de erros na fase de colheita de dados. São, no entanto, muito difíceis de evitar. Só com um grande investimento de formação de pessoal se consegue evitar este tipo de erro. ERROS SISTEMÁTICOS Os erros sistemáticos ocorrem em resultado de uma grande variedade de factores, tais como os de leitura pelo operador, defeitos dos instrumentos ou materiais utilizados, ou ainda de alterações sensíveis das condições ambientais, como a temperatura e a humidade no local e na hora das observações. O efeito dos erros sistemático tende a ser cumulativo. Ignorando-se este tipo de erros, o impacto nos resultados pode ser significativo. Os erros sistemáticos não podem ser evitados recorrendo-se a repetição das medições. No caso de erros instrumentais deve-se recorrer à calibração cuidada e regular dos instrumentos e ter-se em conta a correcçaõ necessária nos cálculos. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 11 ERROS ALEATÓRIOS OU RESIDUAIS Os erros aleatórios ou residuais são os erros que ainda residem nos dados após serem efectuadas todas as correcções possíveis aos erros grosseiros e sistemáticos. Estes erros têm a ver com as próprias limitações do equipamento e da acuidade visual humana. Num grande conjunto de dados observados e medidos os erros aleatórios ou residuais terão um efeito muito pequeno nos resultados finais do projecto uma vez que a sua magnitude é muito pequena, raramente ocorrem erros muito grandes, os erros têm a tendência par ter uma distribuição normal e, desta forma, os erros por excesso compensam os erros por defeito. Os erros deste tipo podem ainda sofrer um tratamento baseado em métodos estatísticos – mínimos quadrados, por exemplo – para que se aproximem ainda mais do valor verdadeiro. FONTES DE ERROS Na impossibilidade de termos dados numa posição exacta ou com os atributos correctos, compete-nos tentar identificar as causas possíveis para o aparecimento dos erros na vã esperança de conseguir os eliminar por completo. Admitindo que o trabalho de recolha de dados é um processo extremamente complexo, resta-nos assumir que a presença de erros nos dados geográficos é um facto com o qual temos de lidar. A tomada de consciência das prováveis fontes de erros leva-nos, por um lado, a ter mais cuidado com os dados com que trabalhamos, por outro, a ter mais cuidado na recolha de dados que poderá ser objecto de processamento por outrem. Murray (2003) divide as origens de erros em três categorias: 1) Material de origem: a) registos e levantamentos de campo: incorrecções instrumentais, sensores dos satélites, câmaras fotográficas, GPS; b) documentos: processo cartográfico, escala; e c) alterações físicas: mudança das características dos objectos, aparecimento de novos objectos. 2) Processamento de Dados no S.I.G.: a) Codificação; b) Entrada de dados – equipamento e operador; c) Armazenamento; d) Manuseamento; e) Apresentação. 3) Métodos: António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 12 a) Amostragem; b) Design. O modelo de fontes de erros para os dados geográficos proposto por Vitek et al (1984) é semelhante. É, contudo, mais completo porque os classifica em erros inerentes e em erros operacionais. Consideram que os erros inerentes decorrem da própria natureza dos dados geográficos. Estes, sendo uma tentativa de representação do mundo real, devido à generalização – visto que a escala não é de 1:1 – serão sempre incompletos. O modelo que os dados geográficos constituem, uma vez sujeitos ao factor de escala, é essencialmente o resultado de um processo de selecção, generalização e simbologia. Não importa, portanto, o tipo de aparelhos disponíveis, continuaremos a ter dados inexactos devido à própria natureza dos dados geográficos. Por seu turno, os erros operacionais ocorrem principalmente devido ao manuseamento dos dados nas suas fases de recolha, gestão e utilização. Também há quem considere este tipo de erros como erros de processamento em virtude de ocorrerem por imperfeições (mecânicas e processuais) dos instrumentos e dos métodos empregues no processamento dos dados. Alguns exemplos deste tipo de erros incluem medições nos levantamentos topográficos, entrada de dados através do teclado dos aparelhos e do computador, interpretação de fotografia aérea, análise de imagens de satélite, digitalização manual, utilização de algoritmos desadequados na análise espacial. Tabela 1 – Adaptada de Vitek et al , 1984 MAPAS ORIGINAIS COMPILAÇÃO E AUTOMAÇÃO ANÁLISE E PROCESSAMENTO DE DADOS FONTES DE ERRO INERENTES Projecção Cartográfica Escala do mapa Generalização Revisão cartográfica Classificação/codificação Medições nos levantamentos Fotogrametria Análise de imagens de satélite Amostragem Envelhecimento dos mapas Digitalização Entrada de dados de atributos Conversão de formato Transformação de coordenadas Vectorização do raster Arredondamentos Análise de sobreposição Classificação e sobreposição Generalização e agregação Interpolação Algoritmos desadequados António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. X X X X X X X X X X X X X X X X X X X X OPERACIONAIS X X X X X X X X X X 13 Para além desta divisão em erros inerentes e operacionais, Vitek et al propõem ainda uma divisão dos erros em três classes (tabela 1): Mapas originais; 2) Compilação e automatização dos dados e 3) Processamento e análise. Não obstante a separação em erros inerentes e operacionais, como se pode ver pelos dados da tabela 1, os erros ocorrem essencialmente ao mesmo tempo por um lado, e por outro, os erros que se fizerem numa fase propagam-se para as outras fases de trabalho. Na cartografia convencional muitos dos erros são notórios. O cartógrafo aperceber-se-á do erro e corrigi-lo-á. No ambiente S.I.G. o processo de entrada de dados escapa mais ao operador. Assim sendo, o operador não está tão ciente das reais limitações que os dados têm e não se apercebe que pode estar perante dados de diferentes formatos, de origens diferentes, com níveis de exactidão posicional e temática diferentes, provenientes de escalas diferentes tudo isto integrado num único ambiente de S.I.G., o qual tem tendência para ocultar as potenciais situações problemáticas para o utilizador do sistema. Em consequência do que foi exposto, as aplicações S.I.G. que usarem dados de fontes muito díspares e de escalas muito diferentes estarão sujeitas a um maior nível de resultados incorrectos. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 14 4. AVALIAÇÃO DA QUALIDADE DOS DADOS Os factores mais críticos na avaliação da qualidade de dados num S.I.G. são os índices de exactidão posicional e os de exactidão temática. Ambos podem ser avaliados para um conjuntos de dados recorrendo-se a uma amostra a qual é confrontada com um conjunto de valores de referência, em princípio isentos de erros. Os valores de referência podem ser obtidos através de dados de uma representação a uma escala maior, pela verificação da realidade ou pelas verificações recorrendo ao sistema GPS. A comparação com dos dados finais com os dados em bruto e a evidência da consistência dos dados pode contribuir para avaliar a exactidão temática. AVALIAÇÃO DA EXACTIDÃO POSICIONAL A avaliação posicional tem duas componentes: a planimétrica e a altimétrica. Muitas vezes a avaliação da exactidão posicional resume-se à sua componente planimétrica. A avaliação é feita comparando a diferença das coordenadas (x, y) de um mapa digital com aquelas dos dados da realidade ou de referência. As discrepâncias entre os valores das coordenadas são contabilizadas para se chegar ao valor de exactidão global que é a Figura 5 – Raiz do erro médio quadrático (RMSE) proposto pela ASPRS. Fonte: Matos, 2001. Raiz do Erro Médio Quadrático (REMQ, RMSE sigla em inglês de Root Mean-Square Error) que, como o nome indica, é igual à raiz quadrada das diferenças médias elevadas ao quadrado. Estas diferenças são contabilizadas para os valores de x, de y e de z independentemente, constituindo, as duas primeiras, uma medida da exactidão posicional planimétrica, e a última uma medida da exactidão posicional altimétrica. Na avaliação planimétrica, se 95% dos resultados estiverem dentro dos parâmetros de qualidade estabelecidos (Figura 5) o valor global de exactidão posicional é aceitável. Por vezes, há que verificar, através de uma análise dos resíduos, se existe um padrão espacial no erro, de jeito a que este possa ser minimizado. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 15 AVALIAÇÃO DA EXACTIDÃO TEMÁTICA A avaliação da exactidão temática é semelhante à da posicional. Neste caso, o valor de exactidão também é obtido comparando os valores ou atributos da amostra com os do mundo real ou de um conjunto de referência de confiança obtido com um maior cuidado e, para o efeito de avaliação, actualizado. O conjunto de dados da amostra pode ser as células de uma imagem Raster, ou numa estrutura vectorial, pontos, linhas e polígonos amostrais. Existem diversas formas de apresentar os resultados. Se os valores a testar forem do tipo de escala ou intervalo (tipo de medida das variáveis estatísticas) pode-se utilizar uma análise estatística que nos dará o desvio-médio ou desvio-padrão entre os valores amostrais do projecto e os da realidade. Se os valores forem do tipo nominal ou ordinal podem-se classificar por categorias e, através de uma matriz de erro ou de uma matriz de confusão (figura 6), tentar avaliar a frequência com que os erros sucedem. No exemplo que apresento na tabela da figura 6, recorreu-se a 35 pontos amostrais dos quais 21 coincidiram a classificação da realidade. Podemos então concluir que o valor global de exactidão temática é de (20:35x100) 57.1%. Também se pode efectuar uma análise segundo o ponto de vista do Figura 6 – Matriz de confusão e cálculo dos índices de exactidão temática. Fonte: Lo e Yeung, 2002. produtor da cartografia e o do utilizador da cartografia para cada tipo de classe que estabelecemos (classes de uso do solo no exemplo da figura 6). A exactidão temática do produtor da cartografia é dada pela probabilidade de os valores da amostra terem sido bem classificados e constituírem erros de omissão para a classe particular à qual a amostra pertence. Na matriz de confusão a exactidão temática do ponto de vista do produtor é avaliada pelo valor das colunas em relação ao total da coluna. Do ponto de vista do utilizador utilizam-se os valores das linhas. Por exemplo, a exactidão temática com que o uso do solo do tipo árvores dispersas foi produzido é igual a (4:7x100) 57.1%, quer isto dizer que, dos sete pontos que tinham um uso do solo de árvores dispersas, só quatro foram marcados correctamente. Enquanto que, do ponto de vista do utilizador, há uma correcção de (4:8x100) 50%, ou seja, dos oito pontos da amostra que assinalavam um uso do solo de árvores dispersas, metade tinham, na realidade, outro uso do solo. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 16 Existem outros métodos analíticos de avaliar a exactidão temática de um projecto cartográfico ou S.I.G. como o Índice Kappa de Cohen (Murray, 2003) que, ao contrário do índice de exactidão geral, consegue controlar a tendência deste para sobrestimar os valores pelo facto de incorporar todos os valores da diagonal. O Índice Kappa de Cohen (κ) é calculado a partir do número de casos na diagonal da matriz de confusão valor ao qual se subtrai o número esperado de casos devido ao acaso. Tem-se em linha de conta ainda o número total de casos assinalados correctamente ao qual se diminui igualmente o número esperado de casos atribuído ao acaso. A relação entre os dois valores dá um resultado entre 0 e 1. Quanto mais próximo o valor estiver de 1 maior a exactidão temática. Outros índices foram entretanto propostos para avaliar a qualidade temática de um conjunto de dados que, no entanto, já constituem um requinte ao valor de IKC (Índice Kappa de Cohen) como é o caso do valor Tau (τ) que foi desenvolvido por Ma e Redmond (1995). Este índice vem minorar os efeitos do IKC que sobrestimava os valores que era devido ao acaso e subestimava, por conseguinte, a exactidão global. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 17 6. BIBLIOGRAFIA Coates, Andrew (1998) – “Data, the Foundations of GIS” in Hohl, Pat (1998) - GIS Data Conversion. Cap. 2, pp. 11-26, Albany, Nova Iorque, OnWord Press. Davis, Bruce (2001) – GIS: A Visual Approach, 2ª Edição, Albany, Nova Iorque, OnWord Press. Guptill, S.C. e Morrisson, J.L. (editores, 1995) – Elements of Spatial Data Quality, Oxford, Elsevier Science. Lo, Chor P. e Yeung, Albert K.W. (2002) – Concepts and Techniques of Geographic Information Systems, Upper Saddle River, Nova Jérsia, Prentice-Hall. Longley, Paul et altri (2201) – Geographic Information Systems and Science, Nova Iorque, Wiley. Matos, João de (2001) – Fundamentos de Informação Geográfica, 2ª Edição, Lisboa, Lidel. Ma, Z. e Redmond, R.L. (1995) – “Tau coefficients for accuracy assessment of classification of remote sensing data”, Photogrametric Engineering and Remote Sensing, Vol. 61, 4, pp. 435-439. Murray, Alan (2003) – Data Quality – Fundamentals of Geographic Information Systems Geography, Curso 607, Não publicado – disponível em PDF, Derby. Thapa, K. e Bossler, J. (1992) – “Accuracy of spatial data used in geographic information systems”, Photogrametric Engineering and Remote Sensing, Vol.58, 6, pp 835-841. Vitek, J.D., Walsh, S.J., Gregory, M.S. (1984) – “Accuracy in G.I.S.: an assessment of inherent and operational errors”, Proceedings, pp 296-302, PECORA IX Simposium. António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G. 18