Monitoração de Qualidade
de água com o uso de
Dados simbólicos
Afonso Gustavo Ataide Ferreira
Cenário
Preocupação
Escassez
Conflitos Armados
Mundo volta-se para a qualidade. (IQA)
Iniciativas
Mundial
Conama
ANA
Brasileiras
Roteiro
Estado
da Arte
Metodologia
Resultados
Conclusões e Trabalhos Futuros
Estado da Arte
Classificação de Amostras de Água
Classificação de Amostras de Água
CONRADS
(MLP x Branch/BLTM)
YONG (SOM x MLP)
BARUAH (MLP)
Estado da Arte
Análise de Dados Simbólicos
Análise de Dados Simbólicos
Dado
Numérico
Dado Categórico
Conjuntos
Intervalos Numéricos
Conjuntos associados a pesos
Análise de Dados Simbólicos
Pessoa Idade Altura(m) Peso(kg) Sexo
W1
18
1,7
95
M
W2
25
1,6
51
F
W3
60
1,58
60
F
W4
14
1,5
55
M
W5
10
1,1
42
F
Grupo
Idade
G1
{(Pré-adolescente, 2/5),
(Adolescente,1/5),
(Adulto, 2/5)}
Altura (m)
{(Alto, 1/5),
(Médio, 2/5),
(Baixo, 1/5) }
Peso (kg)
{ (Magro, 1/5),
(Normal, 3/5),
(Gordo, 1/5) }
Sexo
{(M, 2/5),
(F, 3/5)}
Classificador Simbólico
Amostras:
Espaço:
Classificador Simbólico
Join:
Classificador Simbólico
Aprendizagem:
Sem
Mutual Neighborhood Graph
Mutual Neighborhood Graph:
Múltiplas regiões.
Sem interseção com outras classes.
Classificador Simbólico
Classificação:
Metodologia
Coleta de Dados
Seleção de Variáveis
Limpeza dos Dados
Análise dos Dados
Divisão dos Conjuntos
Coleta de Dados
Bases
da CETESB
35 Características
IQA e outros índices
onze rios, 239 amostras.
Seleção de Variáveis
Seleção de Variáveis
Oxigênio Dissolvidos
Coliformes Fecais
Potencial Hidrogeniônico (pH)
Demanda Bioquímica de Oxigênio
Temperatura
Nitrogênio Total
Fósforo Total
Turbidez
Resíduo Total
Limpeza dos Dados
Valores
não numéricos
Ex: NKT < 0,2
Limpeza dos Dados
Valores Ausentes:
Substituídos pela média da classe
Análise dos Dados
Tamanho
do conjunto
Análise dos Dados
Conjuntos de Treinamento e Teste
Hold-out
estratificado (50 – 50)
Classe
Treinamento
Teste
C0
10
09
C2
77
77
C3
12
12
C4
21
21
Resultados
Protótipo
Experimentos
Protótipo
Java
J2SE1.5
Tanagra
Experimentos
Classificador
Simbólico:
Taxa de Erro: 21,20%
Desempate: Maior Volume
Experimentos
K-Vizinhos
(5-nn)
Distância: Euclidiana
Taxa de Erro: 28,84%
Experimentos
Classificador
Simbólico:
Taxa de Erro: 29,63%
Desempate: Menor Volume
Resultados
Teste
Estatístico
1000 iterações
Conclusões
Conclusões
Classificador
Simbólico um pouco melhor
que o k-vizinhos
Performance ruim em algumas classes
Utilização de MNG aumentou taxa de erro.
Trabalhos Futuros
Trabalhos Futuros
Mudança
do formato de Região
H-Region
Adaptação
do algoritmo de MNG
Testes com outras bases de Dados
Referências
ANA – Agência Nacional de Águas
Java – http://java.sun.com
ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern
classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data
Analysis. Springer, Berlin, (1996) 92–102
D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A
Classifier for Quantitative Feature Values Based on a Region
Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A.
Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004
TANAGRA. TANAGRA - A Free DATA MINING Software for
Teaching and Research. Disponível em: <http://eric.univlyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: Janeiro 2006.