Monitoração de Qualidade de água com o uso de Dados simbólicos Afonso Gustavo Ataide Ferreira Cenário Preocupação Escassez Conflitos Armados Mundo volta-se para a qualidade. (IQA) Iniciativas Mundial Conama ANA Brasileiras Roteiro Estado da Arte Metodologia Resultados Conclusões e Trabalhos Futuros Estado da Arte Classificação de Amostras de Água Classificação de Amostras de Água CONRADS (MLP x Branch/BLTM) YONG (SOM x MLP) BARUAH (MLP) Estado da Arte Análise de Dados Simbólicos Análise de Dados Simbólicos Dado Numérico Dado Categórico Conjuntos Intervalos Numéricos Conjuntos associados a pesos Análise de Dados Simbólicos Pessoa Idade Altura(m) Peso(kg) Sexo W1 18 1,7 95 M W2 25 1,6 51 F W3 60 1,58 60 F W4 14 1,5 55 M W5 10 1,1 42 F Grupo Idade G1 {(Pré-adolescente, 2/5), (Adolescente,1/5), (Adulto, 2/5)} Altura (m) {(Alto, 1/5), (Médio, 2/5), (Baixo, 1/5) } Peso (kg) { (Magro, 1/5), (Normal, 3/5), (Gordo, 1/5) } Sexo {(M, 2/5), (F, 3/5)} Classificador Simbólico Amostras: Espaço: Classificador Simbólico Join: Classificador Simbólico Aprendizagem: Sem Mutual Neighborhood Graph Mutual Neighborhood Graph: Múltiplas regiões. Sem interseção com outras classes. Classificador Simbólico Classificação: Metodologia Coleta de Dados Seleção de Variáveis Limpeza dos Dados Análise dos Dados Divisão dos Conjuntos Coleta de Dados Bases da CETESB 35 Características IQA e outros índices onze rios, 239 amostras. Seleção de Variáveis Seleção de Variáveis Oxigênio Dissolvidos Coliformes Fecais Potencial Hidrogeniônico (pH) Demanda Bioquímica de Oxigênio Temperatura Nitrogênio Total Fósforo Total Turbidez Resíduo Total Limpeza dos Dados Valores não numéricos Ex: NKT < 0,2 Limpeza dos Dados Valores Ausentes: Substituídos pela média da classe Análise dos Dados Tamanho do conjunto Análise dos Dados Conjuntos de Treinamento e Teste Hold-out estratificado (50 – 50) Classe Treinamento Teste C0 10 09 C2 77 77 C3 12 12 C4 21 21 Resultados Protótipo Experimentos Protótipo Java J2SE1.5 Tanagra Experimentos Classificador Simbólico: Taxa de Erro: 21,20% Desempate: Maior Volume Experimentos K-Vizinhos (5-nn) Distância: Euclidiana Taxa de Erro: 28,84% Experimentos Classificador Simbólico: Taxa de Erro: 29,63% Desempate: Menor Volume Resultados Teste Estatístico 1000 iterações Conclusões Conclusões Classificador Simbólico um pouco melhor que o k-vizinhos Performance ruim em algumas classes Utilização de MNG aumentou taxa de erro. Trabalhos Futuros Trabalhos Futuros Mudança do formato de Região H-Region Adaptação do algoritmo de MNG Testes com outras bases de Dados Referências ANA – Agência Nacional de Águas Java – http://java.sun.com ICHINO, M., YAGUCHI, H. AND DIDAY, E.: A fuzzy symbolic pattern classifier In: Diday, E. et al (Eds.): Ordinal and Symbolic Data Analysis. Springer, Berlin, (1996) 92–102 D’OLIVEIRA, S. T., CARVALHO, F.A.T., SOUZA, R. M. C. R.. A Classifier for Quantitative Feature Values Based on a Region Oriented Symbolic Approach. C. Lemaître, C.A. Reyes, J. A. Gonzalez: IBERAMIA 2004, LNAI 3315 pp. 464-473,2004 TANAGRA. TANAGRA - A Free DATA MINING Software for Teaching and Research. Disponível em: <http://eric.univlyon2.fr/~ricco/tanagra/en/tanagra.html >. Acesso em: Janeiro 2006.