Monitoração de Qualidade
de água com o uso de
Dados simbólicos
Afonso Gustavo Ataide Ferreira
Cenário
 Preocupação



Escassez
Conflitos Armados
Mundo volta-se para a qualidade. (IQA)
 Iniciativas


Mundial
Conama
ANA
Brasileiras
Roteiro
 Estado
da Arte
 Metodologia
 Resultados
 Conclusões e Trabalhos Futuros
Estado da Arte
Classificação de Amostras de Água
Classificação de Amostras de Água
 CONRADS
(MLP x Branch/BLTM)
 YONG (SOM x MLP)
 BARUAH (MLP)
Estado da Arte
Análise de Dados Simbólicos
Análise de Dados Simbólicos
 Dado
Numérico
 Dado Categórico
 Conjuntos
 Intervalos Numéricos
 Conjuntos associados a pesos
Análise de Dados Simbólicos
Pessoa Idade Altura(m) Peso(kg) Sexo
W1
18
1,7
95
M
W2
25
1,6
51
F
W3
60
1,58
60
F
W4
14
1,5
55
M
W5
10
1,1
42
F
Grupo
Idade
G1
{(Pré-adolescente, 2/5),
(Adolescente,1/5),
(Adulto, 2/5)}
Altura (m)
{(Alto, 1/5),
(Médio, 2/5),
(Baixo, 1/5) }
Peso (kg)
{ (Magro, 1/5),
(Normal, 3/5),
(Gordo, 1/5) }
Sexo
{(M, 2/5),
(F, 3/5)}
Classificador Simbólico

Amostras:

Espaço:
Classificador Simbólico
 Join:
Classificador Simbólico
 Aprendizagem:
 Sem
Mutual Neighborhood Graph
 Mutual Neighborhood Graph:


Múltiplas regiões.
Sem interseção com outras classes.
Classificador Simbólico
 Classificação:
Metodologia
Coleta de Dados
Seleção de Variáveis
Limpeza dos Dados
Análise dos Dados
Divisão dos Conjuntos
Coleta de Dados
 Bases
da CETESB
 35 Características
 IQA e outros índices
 onze rios, 239 amostras.
Seleção de Variáveis
Seleção de Variáveis









Oxigênio Dissolvidos
Coliformes Fecais
Potencial Hidrogeniônico (pH)
Demanda Bioquímica de Oxigênio
Temperatura
Nitrogênio Total
Fósforo Total
Turbidez
Resíduo Total
Limpeza dos Dados
 Valores

não numéricos
Ex: NKT < 0,2
Limpeza dos Dados
 Valores Ausentes:

Substituídos pela média da classe
Análise dos Dados
 Tamanho
do conjunto
Análise dos Dados
Conjuntos de Treinamento e Teste
 Hold-out
estratificado (50 – 50)
Classe
Treinamento
Teste
C0
10
09
C2
77
77
C3
12
12
C4
21
21
Resultados
Protótipo
Experimentos
Protótipo
 Java
J2SE1.5
 Tanagra
Experimentos
 Classificador


Simbólico:
Taxa de Erro: 21,20%
Desempate: Maior Volume
Experimentos
 K-Vizinhos


(5-nn)
Distância: Euclidiana
Taxa de Erro: 28,84%
Experimentos
 Classificador


Simbólico:
Taxa de Erro: 29,63%
Desempate: Menor Volume
Resultados
 Teste

Estatístico
1000 iterações
Conclusões
Conclusões
 Classificador
Simbólico um pouco melhor
que o k-vizinhos
 Performance ruim em algumas classes
 Utilização de MNG aumentou taxa de erro.
Trabalhos Futuros
Trabalhos Futuros
 Mudança

do formato de Região
H-Region
 Adaptação
do algoritmo de MNG
 Testes com outras bases de Dados
Referências

ANA – Agência Nacional de Águas

Java – http://java.sun.com

ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern
classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data
Analysis. Springer, Berlin, (1996) 92–102

D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A
Classifier for Quantitative Feature Values Based on a Region
Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A.
Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004

TANAGRA. TANAGRA - A Free DATA MINING Software for
Teaching and Research. Disponível em: <http://eric.univlyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: Janeiro 2006.
Download

Monitoração de Qualidade de água com Dados simbólicos