MINISTÉRIO DA CIÊNCIA E TECNOLOGIA INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS AVALIAÇÃO DAS INCERTEZAS NAS CLASSIFICAÇÕES DE MÁXIMA VEROSSIMILHANÇA E CONTEXTUAL DE MODAS CONDICIONAIS ITERATIVAS EM IMAGENS JERS NA REGIÃO DE TAPAJÓS, ESTADO DO PARÁ Camilo Daleles Rennó Trabalho apresentado como parte do curso de Análise Espacial (SER-310) INPE São José dos Campos 1998 1 Introdução Nas últimas décadas, as florestas tropicais brasileiras têm sido submetidas a processos de antropismo, seja por grandes projetos agropecuários, seja pela instalação de projetos de colonização, o que leva a um aumento expressivo nas taxas de desmatamento. Muitos estudos têm sido feitos na tentativa de se entender a Floresta Amazônica, com um especial interesse no estudo da sucessão secundária. A utilização do sensoriamento remoto orbital óptico, como as imagens do satélite Landsat, tem demonstrado sua eficiência na caracterização e no mapeamento de áreas antropizadas (Tardin e Cunha, 1989; Hernandez Filho et al., 1994). No entanto, algumas regiões, devido a grande freqüência de cobertura de nuvens, possuem fortes restrições no uso desse tipo de imagem. Dessa forma, as imagens obtidas na região do espectro de microondas apresentam-se como alternativas, uma vez que sofrem pouca ou nenhuma influência das condições meteorológicas do momento de aquisição. A classificação de imagens de sensoriamento remoto é uma das técnicas mais utilizadas para a extração de informações que possibilita a incorporação em um sistema de informações geográficas. Neste sistema, de modo geral, o produto da classificação de uma imagem é tratado como um mapa. Tanto quanto a informação contida neste mapa, é essencial o conhecimento das incertezas ou erros contidos neste mapeamento, que quase sempre são negligenciados. Este trabalho tem como objetivo principal gerar mapas de incertezas associados aos mapas de uso do solo proveniente da classificação por máxima verossimilhança melhorado por uma classificação contextual utilizando uma imagem de radar. 2 Classificação e mapa de incertezas A fim de extrair a informação de uma imagem para incorporá-la a um sistema de informação geográfica, é necessário proceder-se à classificação desta imagem. A classificação pode ser entendida como uma partição do espaço de atributos segundo alguns critérios. Para o caso da classificação supervisionada, este critério baseia-se na definição de assinaturas espectrais (padrões) para cada uma das classes de estudo obtidas a partir de amostras de treinamento. A classificação por máxima verossimilhança (MaxVer) é uma das técnicas de classificação supervisionada mais utilizadas em dados de sensoriamento remoto (Richards, 1986), na qual a distribuição dos valores da imagem em uma área de treinamento é descrita por uma função densidade de probabilidade (que representa a probabilidade de se ter uma radiometria R, conhecida a classe Ci, ou, P(R/Ci)) estimada com base na estatística Bayesiana. Este classificador avalia a probabilidade a posteriori de um determinado pixel da imagem pertencer a uma das classes de estudo, atribuindo ao pixel a classe a qual ele tem a maior probabilidade de pertencer, ou seja, a função de verossimilhança (Li) que representa a probabilidade a posteriori de que, dado um valor radiométrico R de um pixel, este pertença à classe Ci é calculada por: Li = P( R / Ci ).P(Ci ) . P( R) Esta classificação leva também em consideração a probabilidade a priori de ocorrência diferenciada das classes de estudo, P(Ci). Mas, surpreendentemente, este conhecimento prévio é quase sempre negligenciado no processo de classificação, supondo-se que todas as classes têm igual chance de ocorrência (Eastman, 1998). Assim, a função de verossimilhança, considerando P(Ci) e P(R) constantes, torna-se Li ≈ P( R / Ci ) . Como já foi dito anteriormente, a classificação MaxVer baseia-se na maximização de uma função que depende apenas da informação radiométrica observada e do modelo (densidade) escolhido para cada classe. Este critério não considera a informação contextual, uma vez que supõe que as radiometrias dos pixel da imagem são eventos independentes. Algumas propostas para a incorporação da informação contextual podem ser encontradas em Besag (1989), mas, no entanto, utilizam algoritmos computacionalmente muito dispendiosos e difíceis de serem usados. Em Frery (1993), encontra-se uma versão de um algoritmo de classificação contextual que apresenta boas características de desempenho e de facilidade de uso. Este classificador, denominado ICM (Iterated Conditional Modes - Modas Condicionais Iterativas), foi revisado e melhorado por Vieira (1996). O ICM baseia-se na substituição da classe associada a cada pixel da imagem por aquela que maximize a distribuição a posteriori da classe, conhecida a radiometria (componente MaxVer) e as classes vizinhas (componente contextual). A influência das classes vizinhas é quantificada por um parâmetro real (β), que é estimado iterativamente supondo o modelo baseado em campos Markovianos. Neste caso, desconsiderando os elementos constantes para todas as classes, tem-se que a função de verossimilhança é dada por Li ≈ P( R / Ci ). exp( β # Ci ) . Tão importante quanto a informação resultante de uma classificação, é essencial conhecer o grau de incerteza associada a esta informação. Comumente, utilizam-se índices que refletem o grau de exatidão de um mapa (ou classificação). Entre os mais utilizados, destacam-se a exatidão total, que avalia a porcentagem de acerto de um mapa, e o coeficiente Kappa, que se baseia na matriz de confusão. Em ambos os casos, os índices utilizam amostras para as quais são conhecidas as verdades de campo, escolhidas arbitrariamente. No entanto, estes índices são globais, ou seja, valem para todo o mapa e não refletem as incertezas espacialmente distribuídas. A fim de se obter um mapa de incertezas (incertezas espacialmente distribuídas) associado ao mapa proveniente de uma classificação, pode-se preliminarmente basear na probabilidade de se estar atribuindo erroneamente o pixel a uma determinada classe. É fácil mostrar que esta probabilidade é complementar à probabilidade de se estar atribuindo corretamente o pixel a esta determinada classe, que por sua vez, é calculada a partir da razão entre a probabilidade de se classificar este pixel a esta classe e a probabilidade de se classificar este pixel em qualquer uma das classes de estudo, ou seja, Incerteza = P(C sel / R) = 1 − P(C sel / R) , onde P(Csel / R) = P( R / C sel ).P(Csel ) P( R / C sel ).P(C sel ) = n . P( R) ∑ P( R / Ci ).P(Ci ) i É extremamente importante observar que este tipo de mapa de incerteza está muito mais relacionado ao algoritmo de classificação, às classes de estudo e às amostras de treinamento escolhidas do que ao fenômeno em estudo propriamente dito. Ou seja, um valor baixo num mapa de incerteza mostra que há fortes evidências de que a classificação tenha sido bem conduzida e não que aquela classificação obrigatoriamente corresponda a verdade. 3 Localização da área de estudo A área de estudo localiza-se no município de Santarém, Estado do Pará, a cerca de 80 km do núcleo urbano e engloba parte da Floresta Nacional de Tapajós. Situa-se entre os paralelos 3o 04’ 42” e 3o 18’ 24” de latitude sul e os meridianos 54o 52’ 27” e 54o 59’ 15” de longitude oeste (Figura 1). Figura 1. Imagem Landsat/TM, bandas 3, 4 e 5 (RGB), destacando em vermelho a área de estudo relativo à imagem JERS. A área é cortada no sentido Norte-Sul pela rodovia Santarém-Cuiabá (BR 167). A porção localizada à esquerda desta rodovia é parte da Floresta Nacional de Tapajós, onde pode-se observar pequenas áreas de regeneração junto à rodovia e pequenas propriedades com cultaras de subsistência (São Jorge, 3o 7’ 40” S, 54o 58’ 30” WGr). As áreas à direita da rodovia são formadas principalmente por pasragens. Com a decadência do cultivo da pimenta do reino, os pequenos produtores optaram entre a criação de gado bovino e o abandono de suas propriedades. Apenas as grandes fazendas fazem uma manutenção de suas pastagens, com isso surgem pastos sujos que rapidamente podem evoluir a estágios iniciais de regeneração (Hernandez Filho, comunicação pessoal). 3 Material e Método 3.1 Material Para o desenvolvimento deste trabalho foram utilizados os seguintes materiais: - Imagem Landsat, órbita/ponto 227/62, de 29/05/1993, bandas TM 3, 4 e 5, resolução espacial de 30 m. - Imagem JERS-1, órbita/ponto D405/306, de 26/06/1993, espaçamento entre pixel de 12,5x12,5 m. - programas ENVI/IDL. 3.2 Metodologia A Figura 2 apresenta o fluxograma de execução deste trabalho. Imagem JERS Seleção de amostras de treinamento Seleção das distribuições melhor ajustadas Classificação MaxVer Mapa MaxVer Mapa de Incerteza Classificação ICM Mapa ICM Mapa de Incerteza Figura 2. Fluxograma de execução do trabalho Inicialmente, a imagem JERS foi registrada à imagem TM previamente georreferenciada. Foram definidas 3 classes de uso do solo: floresta primária, regeneração (incluindo pastagem) e atividades recentes (compreendendo basicamente solo exposto). Sobre a imagem JERS, com base na imagem TM, selecionou-se algumas amostras de cada classe em estudo (Figura 3). Figura 3. Imagens JERS e TM (bandas 543/RGB), mostrando as amostras de cada classe de uso do solo: floresta primária (verde), regeneração (amarelo) e atividades recentes (magenta). Posteriormente, a partir das amostras de treinamento, fez-se a seleção da distribuição que melhor se ajustou a cada classe. Estimado os parâmetros de cada distribuição, procedeu-se à classificação MaxVer da imagem JERS, obtendo-se também o mapa de incerteza associado a esta classificação. A classificação ICM da imagem JERS foi realizada em 5 iterações. Para cada iteração, o mapa classificado e o mapa de incerteza foram obtidos. Para efeito de simplificação da análise dos resultados, apenas a primeira e última iterações foram consideradas. Foi também coletado um segundo conjunto de amostras de cada classe para obtenção da matriz de confusão e cálculo do coeficiente de concordância Kappa. 4 Resultados e discussão A Figura 4 mostra o resultado da classificação MaxVer e o mapa de incerteza correspondente. É possível observar que as áreas com maior incerteza estão associadas às classes regeneração e atividades recentes. Através da matriz de confusão (Tabela 1), podese notar que várias áreas de floresta primária foram erroneamente classificadas como regeneração, sendo o recíproco também verdadeiro, mostrando uma indefinição no padrão destas duas classes. A classificação apresentou o valor de Kappa igual a 0,50 que representa um grau regular de acerto. Figura 4. Classificação MaxVer da imagem JERS (floresta primária em verde, regeneração em amarelo e atividades recentes em magenta) e mapa de incerteza correspondente (mínimo de 0 nas regiões escuras e máximo de 0,505 nas regiões claras) Tabela 1. Matriz de confusão da classificação MaxVer da imagem JERS Floresta Floresta Ativ. Rec. Regen. Kappa = 0,50 Classif. 4205 17 964 Verdade Ativ. Rec. 9 702 298 Regen. 612 381 1174 O resultado da 1a iteração da classificação ICM é mostrado na Figura 5, juntamente com o mapa de incerteza associado. Observe que já na 1a iteração, com a incorporação da informação contextual, a incerteza diminui em praticamente toda a área. A matriz de confusão (Tabela 2) mostra um aumento do acerto na classificação (Kappa de 0,62), no entanto, grandes confusões entre as classes podem ainda ser observadas. Figura 5. Classificação ICM (1a iteração) da imagem JERS (floresta primária em verde, regeneração em amarelo e atividades recentes em magenta) e mapa de incerteza correspondente (mínimo de 0 nas regiões escuras e máximo de 0,618 nas regiões claras) Tabela 2. Matriz de confusão da classificação ICM (1a iteração) da imagem JERS Floresta Floresta Ativ. Rec. Regen. Kappa = 0,62 Classif. 4635 0 551 Verdade Ativ. Rec. 2 725 282 Regen. 550 320 1297 A partir da 5a iteração da classificação ICM (Figura 6), quando praticamente nenhum pixel foi reclassificado, a incerteza maior restringe-se basicamente às bordas (ou áreas de contato) das manchas de cada classe. Apesar desta aparente baixa incerteza, as confusões entre classes continuam a existir, como pode ser visto na matriz de confusão mostrada na Tabela 3. Nesta classificação, há apenas um pequeno aumento do acerto (Kappa = 0,68). Observe que especificamente para a classe atividades recentes não houve melhora na classificação entre a 1a e 5a iterações do ICM. Os maiores ganhos são observados pela diminuição da confusão entre as classes floresta e regeneração. Figura 6. Classificação ICM (5a iteração) da imagem JERS (floresta primária em verde, regeneração em amarelo e atividades recentes em magenta) e mapa de incerteza correspondente (mínimo de 0 nas regiões escuras e máximo de 0,576 nas regiões claras) Tabela 3. Matriz de confusão da classificação ICM (5a iteração) da imagem JERS Floresta Classif. Floresta Ativ. Rec. Regen. 4830 0 356 Verdade Ativ. Rec. 4 726 279 Regen. 485 279 1403 Kappa = 0,68 5 Conclusões A elaboração de mapas de incertezas associados à classificação é de extrema importância por indicar as áreas em que o classificador pode estar errando e com isso, as decisões tomadas sobre esta classificação podem ser ponderadas por esta incerteza. Este trabalho propôs a elaboração de um mapa de incerteza que reflete a probabilidade de se estar atribuindo erroneamente uma classe a um pixel, conhecendo-se previamente o valor de radiometria deste pixel e, no caso do classificador ICM, também a configuração da janela formada pelos seus pixels vizinhos. De modo geral, a classificação ICM apresenta melhores resultados quando comparados à classificação MaxVer, com base no coeficiente de concordância Kappa. As incertezas relativas a cada classificação, através dos mapas de incerteza, mostram que a incorporação da informação contextual é fundamental para o aumento da precisão da classificação. No entanto, estes mapas refletem basicamente as incertezas estatísticas da atribuição de uma classe a um pixel, podendo não refletir a verdade terrestre. Numa classificação contextual, como o ICM, as maiores incertezas são encontradas principalmente nas áreas de contato entre duas classes. É importante ressaltar que os mapas de incerteza deveriam também incluir os erros de classificação, incorporando informações da matriz de confusão, ou seja, deveria refletir a incerteza devido ao método de classificação utilizado e também os erros de classificação. Referências Bibliográficas Besag, J. Towards bayesian image analysis. Journal of Applied Statistics, 16(3):395407, 1989. Eastman, J.R. IDRISI for Windows: introdução e exercícios tutoriais. Porto Alegre, UFRGS Centro de Recursos Idrisi, 1998. Frery, A.C. Algumas ferramentas estatísticas na síntese, análise e processamento de imagens de radar de abertura sintética. São José dos Campos, INPE, 1993. (Tese de doutorado) Hernandez Filho, P.; Yanasse, C.C.F.; Sant’Anna, S.J.S.; Kuplich, T.M.; Santos, P.P.; Dutra, L.V.; Orgambide, A.C.F.O.; Oliveira, P.M.; Reinaldo, J.D.C.; Azevedo, V.R.G. Análise dos dados TM: Floresta Nacional do Tapajós – 1994. São José dos Campos, INPE, abr. 1995. (INPE-5614-RPQ/670) Richards, A. Remote sensing digital image analysis: na introduction. Berlin, SpringerVerlag, 1986 Tardin, A.T.; Cunha, R.P. Avaliação da alteração da cobertura florestal na Amazônia Legal utilizando sensoriamento remoto orbital. São José dos Campos, INPE, dez. 1989. (INPE-5010-RPE/607) Vieira, P.R. Desenvolvimento de classificadores de máxima verossimilhança pontuais e ICM para imagens de radar de abertura sintética. São José dos Campos, INPE, 1996. (Tese de mestrado)