Faculdade de Ciências da Universidade de Lisboa
Departamento de Matemática
FUNDAMENTOS DE SISTEMAS DE
INFORMAÇÃO GEOGRÁFICA
Q U A LI D A D E D O S
DA DOS
NUM S.I.G.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – SIG
CONTEÚDOS
0 - INTRODUÇÃO
1 – ESPECIFICIDADE DOS DADOS GEOGRÁFICOS
•
DADOS GEOGRÁFICOS
•
DADOS NÃO-GEOGRÁFICOS
•
FONTES DE DADOS
•
CICLO DE VIDA DOS DADOS
2 – ELEMENTOS DE QUALIDADE DOS DADOS
•
COMPLETUDE
•
CONSISTÊNCIA
•
EXACTIDÃO POSICIONAL
•
EXACTIDÃO TEMÁTICA
•
EXACTIDÃO TEMPORAL
3 – TIPOLOGIA DOS ERROS
•
ERROS GROSSEIROS
•
ERROS SISTEMÁTICOS
•
ERROS RESIDUAIS OU ALEATÓRIOS
•
ORIGENS DOS ERROS
4 – AVALIAÇÃO DA QUALIDADE DOS DADOS
•
EXACTIDÃO POSICIONAL
•
EXACTIDÃO TEMÁTICA
5 – CONCLUSÃO
6 - BIBLIOGRAFIA
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
1
INTRODUÇÃO
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
2
1. ESPECIFICIDADE DOS DADOS GEOGRÁFICOS
DADOS GEOGRÁFICOS
Os Sistemas de Informação Geográfica (S.I.G.) possibilitam estudos impensáveis há
apenas uma dezena de anos. Para proceder a estes estudos, todavia, coloca-se a necessidade de
obter dados o mais rigorosamente possível. Um tipo de dados em especial, dados geográficos,
contribui para a eficiência dos estudos. Antes de mais delongas parece-me oportuno referir as
diferenças entre dados e informação e, mais concretamente, destrinçar entre as noções de dados,
dados espaciais e dados geográficos.
Apesar de os termos “informação” e “dados” serem usados como sinónimos não
significam, de facto, a mesma coisa. “Dados” é aquilo que se obtém através da observação, da
medição e por inferência. “Informação” é produzida pela análise, organização e tratamento de
grandes quantidades de dados (Coates, 1998). Desta forma, o principal papel de um Sistema de
Informação Geográfica é o de converter dados em informação, ou seja, tornar os dados úteis.
Dados espaciais não são necessariamente dados geográficos, sendo estes últimos os que maior
utilidade têm num S.I.G. Os dados espaciais são assim designados quando têm uma implantação
num plano espacial, a duas dimensões normalmente, mas não estão sujeitos a uma localização no
espaço geográfico terrestre. Isto é, os dados espaciais, ao contrário do que acontece com os dados
geográficos, não obedecem a uma referência global (datum) nem estão sujeitos a um sistema de
projecção (a sua extensão é muito pouca significativa para incorrer em grandes deformações). Os
dados espaciais são sobretudo utilizados em projectos de arquitectura, industriais ou de
engenharia de pequena envergadura (Sistemas do tipo CAD/CAM – Computer Assisted
Design/Drafting/Manufacturing).
Os dados geográficos são, portanto, um caso particular de dados espaciais os quais
contêm informação espacial geo-referenciada. Na análise da qualidade de dados é, na maior parte
dos casos, irrelevante a diferença entre dados espaciais e dados geográficos, no entanto, muitas
situações há em que a qualidade dos dados faz toda a diferença se estes estiverem georeferenciados.
Os dados geográficos podem assumir várias formas com se pode constatar na figura 1:
Os pontos (também chamados, símbolos ou nós) podem ser utilizados para representar
poços de petróleo, cabines, telefónicas, candeeiros, moinhos ou qualquer objecto cuja área de
implantação não seja significativa à escala/resolução a que estamos a trabalhar. Trata-se de uma
representação adimensional, id est, 0-D.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
3
As linhas, arcos ou vectores são usados para representar objectos com uma só dimensão
(1-D), tal como nos casos de estradas, caminhos, rios, oleodutos, curvas de nível e outras
isolinhas.
Os polígonos ou áreas têm como
finalidade a representação de fenómenos
com uma certa continuidade espacial (2D). Isto acontece quando necessitamos
de
representar
países,
regiões
administrativas, lagos, tipos de solo,
cobertura vegetal ou a geologia.
Na figura 1 está apresentada a
forma de representar os dados espaciais
quer no formato raster quer no formato
vectorial. Para além destas formas
Figura 1 – Dados espaciais. Fonte: Davis, 2001.
simples de dados espaciais, aparecemnos conjugações de tipos de dados que incluem topologia associada, como o estabelecimento de
nós e vértices ou, ainda, a conectividade entre linhas e/ou polígonos.
DADOS NÃO-GEOGRÁFICOS
Num S.I.G., com a intenção de complementar a informação espacial/geográfica podem
estar representada informação não-geográfica, nomeadamente dados de atributos, dados
temporais e metadados.
Em geral, os dados de atributos registam a informação acerca dos dados espaciais ou
objectos representados, tal como o material usado na construção de um gasoduto, o tipo de
pluviómetro que mede a precipitação naquele local ou a percentagem de solo impermeável.
Os dados temporais registam a informação acerca da variação de um parâmetro com o
tempo. Exemplos de dados temporais são a variação da intensidade da precipitação num
pluviómetro, a variação de um caudal de um rio ou de um gasoduto, ou a variação da evaporação
numa dada área.
Os metadados são o conjunto de informações acerca dos dados que estão representados.
Os metadados podem incluir:
•
Dados acerca da identificação do objecto (título, região, data, proprietário,
empresa, etc.);
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
4
•
Qualidade dos dados (exactidão temática, precisão e exactidão espacial,
consistência, fonte da informação, método de obtenção dos dados);
•
Organização espacial dos dados (formato vectorial ou raster, elementos de
localização adicional – endereço postal, código postal, bairro fiscal – e
organização dos objectos no conjunto de dados.
•
Referência geográfica (projecção cartográfica, sistemas de referência/quadrícula,
datum, informação acerca do sistema de coordenadas - latitude/longitude, xyz);
•
Atributos (conteúdo da base de dados, tipo de objectos, descrição dos objectos,
definições dos atributos da base de dados e sua organização, tipo e nome do
sistema de base de dados);
•
Distribuição (como obter os dados, contactos, formatos disponíveis, preços e
outras informações úteis).
FONTES DE DADOS
Parece-me um aspecto fundamental no desenvolvimento de um S.I.G. saber quais as
fontes de dados disponíveis para implementar o projecto e, a partir daí, tentar perceber 1) como
os dados são obtidos 2) inferir, pelo menos, sobre a sua qualidade.
Dados obtidos: são os dados recolhidos directamente pelo trabalho de campo
(Levantamento topográfico convencional, armazenados na memória da caderneta electrónica de
um receptor de GPS). É a fonte de dados de maior confiança desde que se saiba concretamente a
que se referem os dados e se tenha certo cuidado na verificação dos resultados obtidos. Um
cuidado adicional é requerido na transcrição das anotações dos trabalhos de campo visto que os
enganos são de vária ordem e muito frequentes.
Dados Inferidos: são dados calculados a partir de outros dados. Um exemplo que
podemos citar é o de um tipo de cultura num dado campo, o qual foi inferido através do valor de
radiância (neste caso reflectância) numa imagem raster. Na utilização de dados inferidos é
importante apercebermo-nos dos dados que estão na base da inferência efectuada bem como o
modelo de inferência utilizado para, desse modo, concluirmos acerca da exactidão dos dados.
Dados Importados: são dados convertidos desde uma fonte exterior ao projecto, a qual já
tem no seu conteúdo a informação relevante para o projecto a desenvolver sem ser necessário
inferências suplementares. Também aqui é necessário saber-se qual o processo de conversão ou
importação de dados que foi efectuado e qual a manipulação a que os dados foram sujeitos para
ficarmos com uma noção da confiança com que os dados nos chegaram. Os metadados assumem,
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
5
neste aspecto, um primordial significado para nos darem a informação auxiliar acerca do
conjunto de dados.
CICLO DE VIDA DOS DADOS
No
processo
de
criação
de
informação útil existem diversas
etapas (figura 2) que consistem na
REPRESENTAÇÃO
OBTENÇÃO
fase de aquisição, na recuperação
ou
reedição,
na
análise
e
apresentação dos dados. Podemos
ANÁLISE
REGISTO
ainda dividir a fase de aquisição
em cinco etapas sucessivas que
vão desde a obtenção dos dados
até ao armazenamento, passando
pelo registo, transmissão e edição.
Estas cinco primeiras etapas são
RECUPERAÇÃO
TRANSMISSÃO
um requisito para que os dados
fiquem disponíveis da a posterior
utilização. Após a aquisição dos
ARMAZENAMENTO
dados existe a necessidade de os
recuperar
para
EDIÇÃO
processamento.
Dados armazenados são de pouca
Figura 2 – Ciclo de vida dos dados. (adaptado de Coates, 1998)
utilidade se não forem passíveis de
recuperação para reedição. O processo mais habitual de os reeditar é através de um sistema de
gestão de bases de dados. Os S.I.G. são excelentes no que concerne a esta situação. Concluída a
reedição dos dados, efectua-se a análise. A análise é a parte mais importante num processo de
tomada de decisões. Logo, uma análise levada acabo com dados pouco fiáveis, pode resultar
numa decisão errada. Os dados estão finalmente prontos a serem representados. As aplicações de
representação dos dados espaciais e gráficos, geográficos em particular, facilitam enormemente a
visualização dos fenómenos e a sua interpretação. Pode dar muito boas pistas para a etapa
anterior (análise). Portanto, por vezes, é oportuno voltar atrás para se proceder a uma nova
técnica de análise. Após a representação, a informação poderá servir de base para outro projecto
que inclua no seu trabalho os dados já coligidos.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
6
2. ELEMENTOS DE QUALIDADE DOS DADOS
O conceito de qualidade dos dados é normalmente abordado através dos seus elementos
de qualidade. Os componentes da qualidade de dados desenvolvidos pela Comissão Técnica 211
da Associação Internacional de Normalização (ISO - International Standards Organization) são
os seguintes: completude, consistência, exactidão posicional, exactidão temporal e exactidão
temática.
COMPLETUDE
Existem duas maneiras de perspectivar a completude dos dados geográficos. Por um lado,
há autores que defendem que a completude é o grau de solicitação com que os dados permitem
esgotar todas as possibilidades de representação de um Universo de itens (Brassel, 1995 in Lo e
Yeung, 1998), e dessa forma distinguem a completude espacial e a completude temática, por
outro lado, outros autores que se referem à completude dos dados em relação à representação ou
à falta de representação de um objecto da realidade (Matos, 2001), ou dito de outra forma, aos
erros de comissão e de omissão.
A completude espacial pode ser determinada visualizando a distribuição dos dados
geograficamente e fazendo a verificação de que todos os objectos da realidade vêm
representados. Neste sentido, a verficação da completude espacial é idêntica à verificação dos
erros por omissão. A completude temática refere-se à cobertura de todas os conjuntos de temas
relevantes para o projecto por um sistema de informação. Pela definição aqui apresentada, já se
nota que a completude temática é muito difícil de avaliar, até porque os temas relevantes para um
projecto, podem não o ser para outro. Os erros de comissão, por seu turno, são aqueles em que
aparece um objecto representado sem que este tenha uma existência real.
CONSISTÊNCIA
A consistência lógica está relacionada com a existência de uma correcta topologia entre
conjuntos de dados, de uma homogeneidade entre as áreas representados no sentido em que o
tratamento exaustivo numas não subestime o de outras e ainda se permite ou não um correcto
nível de generalização no caso de haver mudança de escala de análise. Para garantir uma boa
consistência lógica há que verificar se as intersecções são intencionais ou acidentais, se uma
linha é representada apenas uma vez ou duas vezes quando é contígua a uma outra de um
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
7
polígono adjacente, se as áreas formadas pelos polígonos estão fechadas, isto é, sem haver
aberturas acidentais (gaps), se não existem sobre- nem sub-projecções (over e undershooting)
como acontece normalmente em dados vectorizados antes da edição (figura 3).
Figura 3 – Problemas surgidos após a vectorização (esquerda)
e correcção dos mesmos após a edição (direita).
Fonte: Davis, 2001.
EXACTIDÃO POSICIONAL
A exactidão posicional traduz a proximidade entre a posição em que um objecto ou
elemento gráfico é representado na cartaobjecto e a posição de referência na carta de
teste (Matos, 2001). O erro posicional
mede-se, assim, pela diferença entre as
coordenadas
geográficas
do
objecto
representado na carta e as coordenadas
geográficas reais do objecto. Uma regra
base para a exactidão posicional é a de
considerar que os objectos não devem
exceder um distanciamento de mais de 0.5
Figura 4 – Resolução efectiva para várias
escala de um mapa. Fonte: Lo e Yeung, 2002.
mm, grosso modo a espessura de uma linha, no mapa em relação à posição em que deviam estar
representados. Este é, efectivamente, o grau de precisão com que um operador de digitalização
consegue posicional o cursor au e é dado o nome de unidade cartográfica mínima. Desta forma, a
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
8
resolução efectiva do projecto deve ter em consideração a escala a que o projecto foi elaborado e
não aquela em que é apresentado ou visualizado. Por exemplo, num projecto elaborado à escala
1:10 000, o erro não deve ser superior a 5 m uma vez que esta é a resolução efectiva àquela
escala (figura 4). A Sociedade Americana de Fotogrametria e Detecção Remota (ASPRS)
considera que uma raiz do erro médio quadrático na exactidão espacial planimétrica em 95% dos
casos inferior a 2.5 m é tolerável para os projectos de cartografia à escala atrás referida como
iremos ver mais à frente (figura 5). Por conseguinte, o projecto apresentado à escala de 1:10000
deve ser elaborado a uma escala maior, 1:2500 por exemplo, que já se enquadra na resolução
efectiva de 1.25 m, dando uma certa margem de tolerância para que a raiz do erro médio
quadrático seja inferior a 2.5 m.
EXACTIDÃO TEMÁTICA
A Exactidão temática está relacionada com a classificação de tipos de objectos
independentemente da sua exactidão posicional ser correcta. Deste modo, quando dois objectos,
que na realidade são da mesma classe, são identificados como pertencendo a classes diferentes,
estamos a cometer um erro que faz diminuir a exactidão temática. Como exemplos poderemos
apontar: um tanque assinalado no mapa, mas que na realidade que na realidade é um poço ou,
numa imagem raster, um pomar que é classificado como sendo vinha.
Evidentemente que há que ter em conta a dimensão do erro de classificação que é feito,
visto que não assinalar um aeroporto (com uma área muito grande) não é o mesmo que assinalar
incorrectamente um poço (muitas vezes com representação apenas pontual). Nestes casos, devese ponderar o erro pela área respectiva que o objecto ocupa no terreno para que o grau de
exactidão do mapa seja mais correctamente determinado. Também é de salientar que, muitas
vezes, o erro de classificação é apenas parcial, ocorre em apenas partes do objecto e não na sua
totalidade acrescentando à determinação da exactidão temática ainda maior complexidade.
EXACTIDÃO TEMPORAL
A exactidão temporal, uma das medidas de qualidade de dados que a Associação
Internacional de Cartografia (ICA) propôs, para além daquelas que destacámos anteriormente,
tem a ver com a medida da qualidade dos dados no que diz respeito à representação do tempo
(Guptill e Morrisson, 1995) num projecto cartográfico ou numa aplicação S.I.G. Podem, então,
ser definidos dois tipos de exactidão temporal: 1) Global e 2) da Base de Dados.
1) O tempo Global refere-se ao momento exacto em que os fenómenos ocorreram.
2) O tempo da base de dados refere-se ao período em que os dados foram recolhidos.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
9
Quando medimos a exactidão temporal Global, esta é associada ás observações feitas ou à
recolha de amostras em intervalos regulares de tempo. Logicamente que, quanto menor for o
período de tempo entre as observações, mais de acordo os dados estarão em relação à realidade.
Por exemplo, quando um fenómeno é medido duas vezes no mesmo dia (vazão de um rio, por
exemplo) mas é feito um registo diário das observações um dos valores perderá todo o
significado, senão os dois se for feita uma média. Todavia, se os registos forem feitos numa base
horária já serão registados com valores diferentes e mais de acordo com a realidade, logo mais
exactos.
Numa base de dados, a exactidão temporal terá que ver com a actualidade (ou
antiguidade) que os dados oferecem, ou seja, diz-nos há quanto tempo os dados foram
recolhidos. Assim, quanto maior a actualização de uma base de dados maior a sua exactidão
temporal já que maior será o grau de correspondência entre os dados e a realidade. Como se pode
constatar pelo que foi explanado anteriormente, o grau de exactidão temporal da base de dados
depende muito da aplicação que estivermos a considerar, da escala/resolução do trabalho que
está a ser efectuado. Uma aplicação que envolva a rede europeia de aeroportos terá
necessariamente uma desactualização muito menor que a rede viária de um município. Uma
aplicação que envolva o tráfego aéreo dos aeroportos fica desactualizada em cada segundo que
passa, enquanto que uma aplicação de monitorização do uso do solo sofrerá modificações mais a
longo prazo.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
10
3. TIPOS DE ERROS
Com o percurso que os dados fazem, desde que são obtidos até à publicação do projecto,
existem várias etapas e cada uma delas pode contribuir para acumulação de erros, embora possa
também inverter-se a tendência de propagação de dados errados se, no meio do projecto, se
intercalarem verificações à qualidade de dados. Não obstante as verificações que se fizerem e os
erros que se detectarem, permanecerão no projecto publicado ainda alguns enganos, os quais são
tanto mais graves quanto menor for o grau de verificação no processo de elaboração do projecto
cartográfico ou S.I.G.
Thapa e Bossler (1992) dividem os erros cometidos num projecto cartográfico em três
tipos:
1) Erros grosseiros;
2) Erros sistemáticos;
3) Erros aleatórios ou residuais.
ERROS GROSSEIROS
Os erros grosseiros são os meros enganos. Estes erros podem ser detectados com relativa
facilidade por uma verificação de controlo. Os procedimentos através de normas standard
contribuem para atenuar o número de erros na fase de colheita de dados. São, no entanto, muito
difíceis de evitar. Só com um grande investimento de formação de pessoal se consegue evitar
este tipo de erro.
ERROS SISTEMÁTICOS
Os erros sistemáticos ocorrem em resultado de uma grande variedade de factores, tais
como os de leitura pelo operador, defeitos dos instrumentos ou materiais utilizados, ou ainda de
alterações sensíveis das condições ambientais, como a temperatura e a humidade no local e na
hora das observações. O efeito dos erros sistemático tende a ser cumulativo. Ignorando-se este
tipo de erros, o impacto nos resultados pode ser significativo. Os erros sistemáticos não podem
ser evitados recorrendo-se a repetição das medições. No caso de erros instrumentais deve-se
recorrer à calibração cuidada e regular dos instrumentos e ter-se em conta a correcçaõ necessária
nos cálculos.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
11
ERROS ALEATÓRIOS OU RESIDUAIS
Os erros aleatórios ou residuais são os erros que ainda residem nos dados após serem
efectuadas todas as correcções possíveis aos erros grosseiros e sistemáticos. Estes erros têm a ver
com as próprias limitações do equipamento e da acuidade visual humana. Num grande conjunto
de dados observados e medidos os erros aleatórios ou residuais terão um efeito muito pequeno
nos resultados finais do projecto uma vez que a sua magnitude é muito pequena, raramente
ocorrem erros muito grandes, os erros têm a tendência par ter uma distribuição normal e, desta
forma, os erros por excesso compensam os erros por defeito. Os erros deste tipo podem ainda
sofrer um tratamento baseado em métodos estatísticos – mínimos quadrados, por exemplo – para
que se aproximem ainda mais do valor verdadeiro.
FONTES DE ERROS
Na impossibilidade de termos dados numa posição exacta ou com os atributos correctos,
compete-nos tentar identificar as causas possíveis para o aparecimento dos erros na vã esperança
de conseguir os eliminar por completo. Admitindo que o trabalho de recolha de dados é um
processo extremamente complexo, resta-nos assumir que a presença de erros nos dados
geográficos é um facto com o qual temos de lidar. A tomada de consciência das prováveis fontes
de erros leva-nos, por um lado, a ter mais cuidado com os dados com que trabalhamos, por outro,
a ter mais cuidado na recolha de dados que poderá ser objecto de processamento por outrem.
Murray (2003) divide as origens de erros em três categorias:
1) Material de origem:
a) registos e levantamentos de campo: incorrecções instrumentais, sensores dos
satélites, câmaras fotográficas, GPS;
b) documentos: processo cartográfico, escala; e
c) alterações físicas: mudança das características dos objectos, aparecimento de
novos objectos.
2) Processamento de Dados no S.I.G.:
a) Codificação;
b) Entrada de dados – equipamento e operador;
c) Armazenamento;
d) Manuseamento;
e) Apresentação.
3) Métodos:
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
12
a) Amostragem;
b) Design.
O modelo de fontes de erros para os dados geográficos proposto por Vitek et al (1984) é
semelhante. É, contudo, mais completo porque os classifica em erros inerentes e em erros
operacionais. Consideram que os erros inerentes decorrem da própria natureza dos dados
geográficos. Estes, sendo uma tentativa de representação do mundo real, devido à generalização
– visto que a escala não é de 1:1 – serão sempre incompletos. O modelo que os dados
geográficos constituem, uma vez sujeitos ao factor de escala, é essencialmente o resultado de um
processo de selecção, generalização e simbologia. Não importa, portanto, o tipo de aparelhos
disponíveis, continuaremos a ter dados inexactos devido à própria natureza dos dados
geográficos. Por seu turno, os erros operacionais ocorrem principalmente devido ao
manuseamento dos dados nas suas fases de recolha, gestão e utilização. Também há quem
considere este tipo de erros como erros de processamento em virtude de ocorrerem por
imperfeições (mecânicas e processuais) dos instrumentos e dos métodos empregues no
processamento dos dados. Alguns exemplos deste tipo de erros incluem medições nos
levantamentos topográficos, entrada de dados através do teclado dos aparelhos e do computador,
interpretação de fotografia aérea, análise de imagens de satélite, digitalização manual, utilização
de algoritmos desadequados na análise espacial.
Tabela 1 – Adaptada de Vitek et
al , 1984
MAPAS ORIGINAIS
COMPILAÇÃO E
AUTOMAÇÃO
ANÁLISE E
PROCESSAMENTO DE
DADOS
FONTES DE ERRO
INERENTES
Projecção Cartográfica
Escala do mapa
Generalização
Revisão cartográfica
Classificação/codificação
Medições nos levantamentos
Fotogrametria
Análise de imagens de satélite
Amostragem
Envelhecimento dos mapas
Digitalização
Entrada de dados de atributos
Conversão de formato
Transformação de coordenadas
Vectorização do raster
Arredondamentos
Análise de sobreposição
Classificação e sobreposição
Generalização e agregação
Interpolação
Algoritmos desadequados
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
OPERACIONAIS
X
X
X
X
X
X
X
X
X
X
13
Para além desta divisão em erros inerentes e operacionais, Vitek et al propõem ainda
uma divisão dos erros em três classes (tabela 1): Mapas originais; 2) Compilação e
automatização dos dados e 3) Processamento e análise.
Não obstante a separação em erros inerentes e operacionais, como se pode ver pelos
dados da tabela 1, os erros ocorrem essencialmente ao mesmo tempo por um lado, e por outro, os
erros que se fizerem numa fase propagam-se para as outras fases de trabalho. Na cartografia
convencional muitos dos erros são notórios. O cartógrafo aperceber-se-á do erro e corrigi-lo-á.
No ambiente S.I.G. o processo de entrada de dados escapa mais ao operador. Assim sendo, o
operador não está tão ciente das reais limitações que os dados têm e não se apercebe que pode
estar perante dados de diferentes formatos, de origens diferentes, com níveis de exactidão
posicional e temática diferentes, provenientes de escalas diferentes tudo isto integrado num único
ambiente de S.I.G., o qual tem tendência para ocultar as potenciais situações problemáticas para
o utilizador do sistema. Em consequência do que foi exposto, as aplicações S.I.G. que usarem
dados de fontes muito díspares e de escalas muito diferentes estarão sujeitas a um maior nível de
resultados incorrectos.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
14
4. AVALIAÇÃO DA QUALIDADE DOS DADOS
Os factores mais críticos na avaliação da qualidade de dados num S.I.G. são os índices
de exactidão posicional e os de exactidão temática. Ambos podem ser avaliados para um
conjuntos de dados recorrendo-se a uma amostra a qual é confrontada com um conjunto de
valores de referência, em princípio isentos de erros. Os valores de referência podem ser obtidos
através de dados de uma representação a uma escala maior, pela verificação da realidade ou pelas
verificações recorrendo ao sistema GPS. A comparação com dos dados finais com os dados em
bruto e a evidência da consistência dos dados pode contribuir para avaliar a exactidão temática.
AVALIAÇÃO DA EXACTIDÃO POSICIONAL
A avaliação posicional tem duas
componentes: a planimétrica e a altimétrica.
Muitas vezes a avaliação da exactidão
posicional resume-se à sua componente
planimétrica.
A
avaliação
é
feita
comparando a diferença das coordenadas (x,
y) de um mapa digital com aquelas dos
dados da realidade ou de referência. As
discrepâncias
entre
os
valores
das
coordenadas são contabilizadas para se
chegar ao valor de exactidão global que é a
Figura 5 – Raiz do erro médio quadrático (RMSE)
proposto pela ASPRS. Fonte: Matos, 2001.
Raiz do Erro Médio Quadrático (REMQ, RMSE sigla em inglês de Root Mean-Square Error)
que, como o nome indica, é igual à raiz quadrada das diferenças médias elevadas ao quadrado.
Estas diferenças são contabilizadas para os valores de x, de y e de z independentemente,
constituindo, as duas primeiras, uma medida da exactidão posicional planimétrica, e a última
uma medida da exactidão posicional altimétrica. Na avaliação planimétrica, se 95% dos
resultados estiverem dentro dos parâmetros de qualidade estabelecidos (Figura 5) o valor global
de exactidão posicional é aceitável. Por vezes, há que verificar, através de uma análise dos
resíduos, se existe um padrão espacial no erro, de jeito a que este possa ser minimizado.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
15
AVALIAÇÃO DA EXACTIDÃO TEMÁTICA
A avaliação da exactidão temática é semelhante à da posicional. Neste caso, o valor de
exactidão também é obtido comparando os valores ou atributos da amostra com os do mundo
real ou de um conjunto de referência de confiança obtido com um maior cuidado e, para o efeito
de avaliação, actualizado. O conjunto de dados da amostra pode ser as células de uma imagem
Raster, ou numa estrutura vectorial, pontos, linhas e polígonos amostrais. Existem diversas
formas de apresentar os resultados. Se os valores a testar forem do tipo de escala ou intervalo
(tipo de medida das variáveis estatísticas) pode-se utilizar uma análise estatística que nos dará o
desvio-médio ou desvio-padrão entre os valores amostrais do projecto e os da realidade. Se os
valores forem do tipo nominal ou ordinal
podem-se classificar por categorias e,
através de uma matriz de erro ou de uma
matriz de confusão (figura 6), tentar avaliar
a frequência com que os erros sucedem.
No exemplo que apresento na tabela
da figura 6, recorreu-se a 35 pontos
amostrais dos quais 21 coincidiram a
classificação da realidade. Podemos então
concluir que o valor global de exactidão
temática é de (20:35x100) 57.1%.
Também se pode efectuar uma
análise segundo o ponto de vista do
Figura 6 – Matriz de confusão e cálculo dos índices de
exactidão temática. Fonte: Lo e Yeung, 2002.
produtor da cartografia e o do utilizador da cartografia para cada tipo de classe que
estabelecemos (classes de uso do solo no exemplo da figura 6). A exactidão temática do produtor
da cartografia é dada pela probabilidade de os valores da amostra terem sido bem classificados e
constituírem erros de omissão para a classe particular à qual a amostra pertence. Na matriz de
confusão a exactidão temática do ponto de vista do produtor é avaliada pelo valor das colunas em
relação ao total da coluna. Do ponto de vista do utilizador utilizam-se os valores das linhas. Por
exemplo, a exactidão temática com que o uso do solo do tipo árvores dispersas foi produzido é
igual a (4:7x100) 57.1%, quer isto dizer que, dos sete pontos que tinham um uso do solo de
árvores dispersas, só quatro foram marcados correctamente. Enquanto que, do ponto de vista do
utilizador, há uma correcção de (4:8x100) 50%, ou seja, dos oito pontos da amostra que
assinalavam um uso do solo de árvores dispersas, metade tinham, na realidade, outro uso do solo.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
16
Existem outros métodos analíticos de avaliar a exactidão temática de um projecto
cartográfico ou S.I.G. como o Índice Kappa de Cohen (Murray, 2003) que, ao contrário do índice
de exactidão geral, consegue controlar a tendência deste para sobrestimar os valores pelo facto
de incorporar todos os valores da diagonal. O Índice Kappa de Cohen (κ) é calculado a partir do
número de casos na diagonal da matriz de confusão valor ao qual se subtrai o número esperado
de casos devido ao acaso. Tem-se em linha de conta ainda o número total de casos assinalados
correctamente ao qual se diminui igualmente o número esperado de casos atribuído ao acaso. A
relação entre os dois valores dá um resultado entre 0 e 1. Quanto mais próximo o valor estiver de
1 maior a exactidão temática. Outros índices foram entretanto propostos para avaliar a qualidade
temática de um conjunto de dados que, no entanto, já constituem um requinte ao valor de IKC
(Índice Kappa de Cohen) como é o caso do valor Tau (τ) que foi desenvolvido por Ma e
Redmond (1995). Este índice vem minorar os efeitos do IKC que sobrestimava os valores que
era devido ao acaso e subestimava, por conseguinte, a exactidão global.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
17
6. BIBLIOGRAFIA
Coates, Andrew (1998) – “Data, the Foundations of GIS” in Hohl, Pat (1998) - GIS Data
Conversion. Cap. 2, pp. 11-26, Albany, Nova Iorque, OnWord Press.
Davis, Bruce (2001) – GIS: A Visual Approach, 2ª Edição, Albany, Nova Iorque, OnWord Press.
Guptill, S.C. e Morrisson, J.L. (editores, 1995) – Elements of Spatial Data Quality, Oxford,
Elsevier Science.
Lo, Chor P. e Yeung, Albert K.W. (2002) – Concepts and Techniques of Geographic
Information Systems, Upper Saddle River, Nova Jérsia, Prentice-Hall.
Longley, Paul et altri (2201) – Geographic Information Systems and Science, Nova Iorque,
Wiley.
Matos, João de (2001) – Fundamentos de Informação Geográfica, 2ª Edição, Lisboa, Lidel.
Ma, Z. e Redmond, R.L. (1995) – “Tau coefficients for accuracy assessment of classification of
remote sensing data”, Photogrametric Engineering and Remote Sensing, Vol. 61, 4, pp. 435-439.
Murray, Alan (2003) – Data Quality – Fundamentals of Geographic Information Systems Geography, Curso 607, Não publicado – disponível em PDF, Derby.
Thapa, K. e Bossler, J. (1992) – “Accuracy of spatial data used in geographic information
systems”, Photogrametric Engineering and Remote Sensing, Vol.58, 6, pp 835-841.
Vitek, J.D., Walsh, S.J., Gregory, M.S. (1984) – “Accuracy in G.I.S.: an assessment of inherent
and operational errors”, Proceedings, pp 296-302, PECORA IX Simposium.
António Ervideira – PEG Engenharia Geográfica e GeoInformática – S.I.G.
18
Download

QUALIDADE DOS DADOS NUM S.I.G.