Interfaces para Interpretação e Divulgação do Conhecimento Descoberto Adjamir de Moura Galvão Jacques Robin Recife – Abril 2002 Roteiro Relevância. Tipos básicos de interfaces. Importância do Uso de Interfaces no Ambiente de KDD. Apresentação de exceções. Referências. Relevância Proporção por sentido de informações sensoriais nos seres humanos. Sentido Gosto Tato Olfato Audição Visão Porcentagem 1% 1,35% 3,5% 11% 83% Tipos de Interface para Apresentação Gráficos 3D Gráficos 2D Birch Beer, with a 42% national increase from September to October; Tabela HiperTexto Importância do Uso de Interfaces no Ambiente de KDD I Permite análise exploratória visual. – – – – Dos dados de entrada. Dos conhecimentos de saída. Do conhecimento prévio e viés de aprendizagem. Das representações intermediárias (rastreamento) usadas pelo algoritmo de mineração. Permite especificar visualmente tarefas de KDD. – – Para todos os passos do processo de KDD. Compor tarefas elementares arbitrariamente via GUI. Importância do Uso de Interfaces no Ambiente de KDD II Linguagens de consulta para mineração de dados fornecem primitivas que permitem comunicação com o sistema. – – Apresenta dificuldade de uso para usuários inexperientes. Pode ser usada para implementação de GUIs para efetiva mineração de dados. Componentes funcionais do GUI de mineração de dados: – – – – – Composição de query data mining. Apresentação de padrões descobertos. Especificação e manipulação de hierarquia. Manipulação de primitivas data mining. Mineração interativa multinivel. Apresentação de Dados I – Caracterização de Classe Name Jim Woodman Scott Tabela Relacional Lachance Primitiva Laura Lee … Removed Gender Major M CS M CS F … Physics … Retained Sci,Eng, Bus Birth-Place Residence Phone # GPA Vancouver,BC, 8-12-76 Canada Montreal, Que, 28-7-75 Canada Seattle, WA, USA 25-8-70 … … 3511 Main St., Richmond 345 1st Ave., Richmond 687-4598 3.67 253-9106 3.70 125 Austin Ave., Burnaby … 420-5232 … 3.83 … Country City Removed Excl, VG,.. Gender Major Tabela relacional com atributos generalizados M F … Science Science … Birth_date Age range Birth_region Age_range Residence GPA Count Canada Foreign … 20-25 25-30 … Richmond Burnaby … Very-good Excellent … 16 22 … Birth_Region Canada Foreign Total Gender Tabela Cruzada M 16 14 30 F 10 22 32 Total 26 36 62 Apresentação de Dados II Descrição Generalizada Tabela UniDimensional Location Item Sales(in millions dolars) Count(in thousands) Asia TV 15 300 Europa TV 12 250 North_America TV 28 450 Asia Computer 120 1000 Europa Computer 150 1200 North_America Computer 200 1800 Tabela BiDimensional Location\item TV Computer Both_itens Sales Count Sales Count Sales count Asia 15 300 120 1000 135 1300 Europe 12 250 150 1200 162 1450 North_america 28 450 200 1800 228 2250 All_regions 55 1000 470 4000 525 5000 Apresentação de Dados III Comparação Analítica Tarefa – Comparar os alunos de graduação com os da pos graduação usando regras discriminates. Birth_countryAge_range Gpa Count% Canada 20-25 Good 5.53% – DMQL query use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student Canada 25-30 Good 2.32% Canada Over_30 Very_good 5.86% … … … … Other Over_30 Excellent 4.68% Relação Generalizada Para a Classe Alvo: Estudantes de Pós Birth_countryAge_range Gpa Count% Canada 15-20 Fair 5.53% Canada 15-20 Good 4.53% … … … … Canada 25-30 Good 5.02% … … … … Other Over_30 Excellent 0.68% Relação Generalizada para a Classe de Contraste: Estudantes de Graduação Apresentação de caracterização estatística de dados I - Dispersão Quartiles, Outliers, Boxplot – Um conjunto de itens vendidos Preço da unidade Número de itens vendidos 40 275 43 300 47 250 .. ... 74 360 75 515 78 540 ... ... 115 320 117 270 120 350 Apresentação de caracterização estatística de dados II – Classes Básicas Outros gráficos para para mostrar dados sumarizados(summaries) e distribuições. – Nestes estão incluídos Histogramas , quantile plots, q-q plots, scatter plots, and loess curves. Histogramas: Consiste de um conjunto de retângulos que reflete o número ou freqüências de classes em um conjunto de dados. Apresentação de caracterização estatística de dados III – Classes Básicas Quantile plot é um simples e efetivo meio de ter uma primeira visão da univariância da distribuição de dados. f-value = (i – 0.5)/ n n – número de observações i – i-ésima observação Apresentação de caracterização estatística de dados III – Classes Básicas Quantile-Quantile plot (q-q plot) permite o usuário visualizar a dispersão entre duas distribuições. – branch 2 unit price É a comparação de dois quantile plot sobre uma mesma dimensão. Apresentação de caracterização estatística de dados IV – Classes Básicas Scatter plot é uma dos métodos gráficos mais efetivos para determinar se existe uma relação, padrão ou tendência entre duas variáveis quantitativas. Apresentação de caracterização estatística de dados V – Classes Básicas Loess curve é um gráfico exploratório que adiciona uma curva suave ao Scatter plot para melhorar a percepção dos padrões de dependência. Apresentação de caracterização e comparação de conceitos por visualização multidimensional I A visualização interativa é uma poderosa ferramenta na seleção de atributos e na detecção de outlier. Em situações reais de mineração de dados existe uma grande quantidade para visualizar simultaneamente e não existe nenhuma alternativa de algoritmo para automatizar a seleção dos atributos. Petal length 2 Representação em uma dimensão 4 6 Íris setosa Íris versicolor Íris virginica Apresentação de caracterização e comparação de conceitos por visualização multidimensional II Adicionando um novo atributo. Representação em duas dimensão 6 4 2 1 Petal width 2 Íris setosa Íris versicolor Íris virginica 3 Apresentação de Dados de Saída Um exemplo seria árvore de decisão que é uma representação gráfica do conhecimento descoberto. Demonstração do DBMiner Apresentação de Exceções I Exemplo de visualização de GUI. Vantagens de texto x gráficos I O texto é familiar e mais intuitivo, considerando que o usuário final tenha pouco conhecimento em matemática. A linguagem natural pode ser mais clara para fazer analise em muitas dimensões. – A língua natural pode comunicar um único fato interessante de maneira isolada, facilitando e simplificando o entendimento. – Ex. : “Cola promotional sales’ 20% increase from July to August constituted a strong exception” Ex.:“Cola sales peaked at 40% in July". Pode mais livremente misturar quantitativo e qualitativo, que muitas vezes não é transmitido de maneira intuitiva por tabelas e gráficos. Vantagens de texto x gráficos II Evita o problema de eliminar algumas informações (dilema da sumarização). Se os link forem numerosos os leitores com diferentes interesses podem seguir diferentes formas de navegação dentro de um único sumário hipertextual. Uma outra vantagem é que as figuras podem ser hipertextuais. MATRIKS Intelligent Decision Support System Decision Maker Hypertext Natural Language Executive Summary Transactional Relational Database Log file HYSSOP: gerador de relatorios resumindos KDD Expert Data Remodeling CASE Tool Data Loader & Preprocessor Information Extractor Outlier Miner OLAP Server Analytical Multidimensional Data Warehouse Apresentação de Exceções II Via HiperTexto. Last year, the most atypical sales variations from one month to the next occurred for: Birch Beer, with a 42% national increase from September to October; Diet Soda, with a 40% decrease in the Eastern region from July to August. At the level of idiosyncrasy came: Cola’s Colorado sales, falling 40% from July to August and then a further 32% from September to October; again Diet Soda Eastern sales, falling 33% from September to October. Less aberrant but still notably atypical were: again nationwide Birch Beer sales’ -12% from June to July and -10% from November to December; To know what makes one of these variations unusual in the context of this year’s sales, click on it. Hipertexto seguindo estratégia alternativa de apresentação Last year, there was 13 exceptions in the beverage product line. The most striking was Birch Beer’s 42% national fall from Sep to Oct. The remaining exceptions, clustered around four products, were: Again, Birch Beer’s sales accounting for other two national exceptions, both national slumps: -12% from Jun to Jul and -10% from Nov to Dec; Cola sales accounting for four exceptions, all slumps: two medium ones in Colorado, -40% from Jul to Aug and -32% from Aug. to Sep; and two mild ones, -11% in Wisconsin from Jul to Aug and -30% in the Central region from Aug to Sep; Diet Soda accounting for five exceptions: – one strong, -40% in the East from Jul to Aug, – one medium, -33% in the East from Sep to Oct; – and three mild ones: two rises, +19% in the South from Jul to Aug and +10% in the East from Aug to Sep, and one fall, -17% in Western region from Aug to Sep; Finally, Jolt Cola’s sales accounting for one mild exception, a national 6% fall from Aug to Sep. Visualização MultiDimensional de Grande Quantidade de Dados Motivação: – Crescente demanda de armazenamento de grandes quantidades de dados de alta dimensionalidade. – Necessidade de analisar e descobrir informações úteis dos dados armazenados. – Apresentação textual é impraticável para grande quantidades de dados. É realmente intuitivo?