Interfaces para interpretação e divulgação do conhecimento descoberto Cícero Barbosa Lima Ana Emilia de Melo Queiroz Roteiro Tipos de interfaces: tabelas, diagramas, gráficos 2D, gráficos 3D, hipertexto Abrangência e interatividade da interface do usuário de um ambiente de descoberta de conhecimento Apresentação de caracterização e comparação de conceito por indução orientada a atributo Apresentação de caracterização e comparação de dados e conceitos por distribuição estatístico Apresentação de caracterização e comparação de conceitos por visualização multidimensional Apresentação de classificação por indução de árvore de decisão Apresentação dados excepcionais em conjuntos de dados multidimensionais Demo do DBMiner (mpss) Proporção por sentido de informação sensorial nos seres humanos Sentido Gosto Porcentagem 1% Tato Olfato Audição Visão 1,35% 3,5% 11% 83% Tipos de interfaces: tabelas, diagramas, gráficos 2D, gráficos 3D, hipertexto Birch Beer, with a 42% national increase from September to October; Abrangência e interatividade da interface do usuário de um ambiente de descoberta de conhecimento Permite análise exploratória visual • • • • Dos dados de entrada Dos conhecimentos de saída. Do conhecimento prévio e viés de aprendizagem. Das representações intermediárias (rastreamento) usadas pelo algoritmo de mineração. Permite especificar visualmente tarefas de KDD • Para todos os passos do processo de KDD • Compor tarefas elementares arbitrariamente via GUI Abrangência e interatividade da interface do usuário de um ambiente de descoberta de conhecimento Linguagens de consulta para mineração de dados fornece primitivas que permitem comunicação com o sistema • Apresenta dificuldade de uso para usuários inexperientes • Pode ser usada para implementação de GUIs para efetiva mineração de dados Componentes funcionais do GUI de mineração de dados: • • • • • Composição de query data mining Apresentação de padrões descobertos Especificação e manipulação de hierarquia Manipulação de primitivas data mining Mineração interativa multinivel Indução Orientada a atributo Descição de conceitos: Caracterização e Comparação – Caracterização: fornece um sumário conciso e suscinto da coleção de dados: Abordagem indução orientada atributo. • Não se restringe a dados categóricos ou a medidas particulares. • Como é feito? • Colete o conjunto de dados relevantes ( relação inicial) a partir de uma consulta a uma base de dados relacional • Execute a generalização pela remoção de atributo ou pela generalização de atributo. • Aplique a agregação fundindo tuplas generalizadas idênticas e acumule suas contagens respectivas. • Apresentação interativa com usuários Apresentação Caracterização de classes: Um exemplo Name Tabela Relacional Primitiva Gender Jim Woodman Scott Lachance Laura Lee … M F … Removed Retained Major Birth-Place Residence Phone # GPA Vancouver,BC, 8-12-76 Canada CS Montreal, Que, 28-7-75 Canada Physics Seattle, WA, USA 25-8-70 … … … 3511 Main St., Richmond 345 1st Ave., Richmond 687-4598 3.67 253-9106 3.70 125 Austin Ave., Burnaby … 420-5232 … 3.83 … Sci,Eng, Bus City Removed Excl, VG,.. CS M Country Gender Major Tabela relacional com atributos generalizados Birth_date M F … Science Science … Age range Birth_region Age_range Residence GPA Count Canada Foreign … 20-25 25-30 … Richmond Burnaby … Very-good Excellent … 16 22 … Birth_Region Canada Tabela Cruzada Foreign Total Gender M 16 14 30 F 10 22 32 Total 26 36 62 Apresentação de Descrições Generalizadas Tabela unidimensional Location Item Sales(in millions dolars) Count(in thousands) Asia TV 15 300 Europa TV 12 250 North_America TV 28 450 Asia Computer 120 1000 Europa Computer 150 1200 North_America Computer 200 1800 Visualização em tabela bidimensionais Location\item TV Computer Both_itens Sales Count Sales Count Sales count Asia 15 300 120 1000 135 1300 Europe 12 250 150 1200 162 1450 North_america 28 450 200 1800 228 2250 All_regions 55 1000 470 4000 525 5000 Comparação de conceitos por indução orientado a atributos Comparação: Comparação de duas ou mais classes. Método: – Partição do conjunto de dados relevantes em classe alvo e classe(s) de contraste(s) – Generalize ambas as classes nos mesmos níveis superiores de conceitos – Compare tuplas de mesmo nível superior de descrição – Apresente para cada tupla a sua descrição e duas medidas: • suporte – distribuição na classe isolada • comparação – distribuição entre as classes – Destaques as tuplas com características discriminantes fortes Apresentação:Como relações generalizadas, tabelas cruzadas, gráfico de barras, gráfico de setores, ou regras Example: Comparação analítica Tarefa • Comparar os alunos de graduação com os da pos graduação usando regras discriminates Birth_country Age_rangeGpa Count% • DMQL query use Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student Canada Canada Canada … Other 20-25 25-30 Over_30 … Over_30 Good 5.53% Good 2.32% Very_good5.86% … … Excellent 4.68% Relação Generalizada Para a Classe Alvo: Estudantes de Pós Birth_countryAge_rangeGpa Canada 15-20 Fair Canada 15-20 Good … … … Canada 25-30 Good … … … Other Over_30 Excellent Count% 5.53% 4.53% … 5.02% … 0.68% Relação Generalizada para a Classe de Contraste: Estudantes de Graduação Apresentação de caracterização estatística de dados: tendência central Medidas agregando dados em uma quantidade única caracterizando-os: • • • • • • • ocorrencias soma (total) maximo minimo média mediana mode Apresentação de caracterização estatística de dados: dispersão Quartiles, Outliers, Boxplot • Um conjunto de itens vendidos Preço da unidade Número de itens vendidos 40 275 43 300 47 250 .. ... 74 360 75 515 78 540 ... ... 115 320 117 270 120 350 Gráficos de visualização de descrições de classes estatísticas básicas Outros gráficos para para mostrar dados sumarizados(summaries) e distribuições. Nestes estão incluídos Histogramas , quantile plots, q-q plots, scatter plots, and loess curves. Histogramas: Consiste de um conjunto de retângulos que reflete o número ou freqüências de classes em um conjunto de dados. Gráficos de visualização de descrições de classes estatísticas básicas Quantile plot é um simples e efetivo meio de ter uma primeira visão da univariância da distribuição de dados. Gráficos de visualização de descrições de classes estatísticas básicas Quantile-Quantile plot (q-q plot) permite o usuário visualizar a dispersão entre duas distribuições Gráficos de visualização de descrições de classes estatísticas básicas Scatter plot é uma dos métodos gráficos mais efetivos para determinar se existe uma relação, padrão ou tendência entre duas variáveis quantitativas. Gráficos de visualização de descrições de classes estatísticas básicas Loess curve é um gráfico exploratório que adiciona uma curva suave ao Scatter plot para melhorar a percepção dos padrões de dependência. Apresentação de caracterização e comparação de conceitos por vizualização multidimensional A visualização interativa é uma poderosa ferramenta na seleção de atributos e na detecção de outlier. Em situações reais de mineração de dados existe uma grande quantidade para visualizar simultaneamente e não existe nenhuma alternativa de algoritmo para automatizar a seleção dos atributos. Petal length 2 Representação em uma dimensão 4 6 Íris setosa Íris versicolor Íris virginica Apresentação de caracterização e comparação de conceitos por visualização multidimensional • Adicionando um novo atributo Representação em duas dimensão 6 4 2 1 Petal width 2 Íris setosa Íris versicolor Íris virginica 3 Apresentação de árvore de decisão Visualizando dados de saída (Conhecimento) Um exemplo seria arvore de decisão que é uma representação gráfica do conhecimento descoberto. Demo do DBMiner Visualização multidimensional de grande quantidade de dados Motivação: • Crescente demanda de armazenamento de grandes quantidades de dados de alta dimensionalidade • Necessidade de analisar e descobrir informações úteis dos dados armazenados • Apresentação textual é impraticável para grande quantidades de dados • “Gap” cada vez maior entre os dados que precisam ser visualizados e os dados que de fato podem ser visualizados Visualização multidimensional de grande quantidade de dados A técnica: • São definidas regiões dentro do espaço multidimensional, onde só os itens que pertencem a estas regiões são apresentados • A pertinência é determinada por uma função distância para cada dimensão • As diferentes dimensões são mapeadas em cores • Os pontos são ordenados e dispostos na tela na forma de um espiral retangular Visualização multidimensional de grande quantidade de dados A coloração de cada ponto, dependera da distância ao centro da dimensão em foco A variação das cores é entre crominância e luminância Visualização multidimensional de grande quantidade de dados Alternativa 1: organização dos dados em 2-D • São determinados os atributos para os eixos e a distribuição de acordo com a direção da função distância • Vantagens: melhor para dados que tem a idéia inerente de 2-D Visualização multidimensional de grande quantidade de dados Desvantagem: pode causar má distribuição dos dados apresentados, deixando algumas áreas vazias Visualização multidimensional de grande quantidade de dados Alternativa 2: agrupando as dimensões para cada item de dado • Apresenta todas as dimensões juntas numa mesma área (uma única janela) Mineração de Outliers Pode ser dividido em 2 subproblemas: 1. 2. 3. Definir quais dados são aberrantes Definir método eficiente para encontrar tais aberrações Aberrante sempre com referência a algum padrão Métodos de detecção: • Semi-automático: Visualização • Automático Estatística Distância Desvio Observação: • Usuário tem que checar se os outliers descobertos são realmente outliers. Apresentação dados excepcionais em conjuntos de dados multidimensionais via GUI Exemplo de visualização de GUI Apresentação dados excepcionais em conjuntos de dados multidimensionais via hipertexto Last year, the most atypical sales variations from one month to the next occurred for: Birch Beer, with a 42% national increase from September to October; Diet Soda, with a 40% decrease in the Eastern region from July to August. At the level of idiosyncrasy came: Cola’s Colorado sales, falling 40% from July to August and then a further 32% from September to October; again Diet Soda Eastern sales, falling 33% from September to October. Less aberrant but still notably atypical were: again nationwide Birch Beer sales’ -12% from June to July and -10% from November to December; Cola sales 11% fall from July to August in the Central region and 30% dive in Wisconsin from August to September; Diet Soda sales’ 19% increase in the Southern Region from July to August, followed by its two opposite regional variations from August to September, +10% in the East but -17% in the West; national Jolt Cola sales’ +6% from August to September To know what makes one of these variations unusual in the context of this year’s sales, click on it. Vantagens de texto x gráficos O texto é familiar e mais intuitivo, considerando que o usuário final tenha pouco conhecimento em matemática. A linguagem natural pode ser mais clara para fazer analise em muitas dimensões. • A língua natural pode comunicar um único fato interessante de maneira isolada, facilitando e simplificando o entendimento. • Ex. : “Cola promotional sales’ 20% increase from July to August constituted a strong exception” Ex.:“Cola sales peaked at 40% in July". Pode mais livremente misturar quantitativo e qualitativo, que muitas vezes não é transmitido de maneira intuitiva por tabelas e gráficos Vantagens de hipertexto x texto Evita o problema de eliminar algumas informações( dilema da sumarização). Se os link forem numerosos os leitores com diferentes interesses podem seguir diferentes formas de navegação dentro de um único sumário hipertextual. Uma outra vantagem é que as figuras podem ser hipertextuais. Hipertexto seguindo estratégia alternativa de apresentação Last year, there was 13 exceptions in the beverage product line. The most striking was Birch Beer’s 42% national fall from Sep to Oct. The remaining exceptions, clustered around four products, were: Again, Birch Beer’s sales accounting for other two national exceptions, both national slumps: -12% from Jun to Jul and -10% from Nov to Dec; Cola sales accounting for four exceptions, all slumps: two medium ones in Colorado, -40% from Jul to Aug and -32% from Aug. to Sep; and two mild ones, -11% in Wisconsin from Jul to Aug and -30% in the Central region from Aug to Sep; Diet Soda accounting for five exceptions: • one strong, -40% in the East from Jul to Aug, • one medium, -33% in the East from Sep to Oct; • and three mild ones: two rises, +19% in the South from Jul to Aug and +10% in the East from Aug to Sep, and one fall, -17% in Western region from Aug to Sep; Finally, Jolt Cola’s sales accounting for one mild exception, a national 6% fall from Aug to Sep. MATRIKS intelligent decision support system HYSSOP Decision Maker Hypertext Natural Language Executive Summary Transactional Relational Database Log file Data Hypercube Exploration Expert System KDD Expert Data Remodeling CASE Tool Data Loader & Preprocessor Information Extractor Data Mining Suite OLAP Server Analytical Multidimensional Data Warehouse Exploration heurtistics & session base HYSSOP hypertext summary generator Selected pool of data mining annotated cube cells Data Hypercube Exploration Expert System Content matrix Discourse planner Discourse Strategies Factorization matrix Sentence planner Hypertext plans Hypertext Planner Sentence planning rules Discourse tree Lexicalizer Lexicalization rules Lexicalized thematic tree Syntactic realizer Natural language web page Executive hypertext summary Grammar rules Referências Bibliográficas Daniel A. Keim, Has-Peter Kriegel: Possibilities and Limits in Visualizing Large Databases Jacques Robin, Eloi Favero:HYSSOP: Natural Language Generation Meets Knowledge Discovery in Databases Han & Kamber : Data Mining, Concepts and Techniques Witten & Frank : Data Mining, Pratical Machine Learning Tools Kurt Thearling, Barry Becker, Dennis DeCoste, Bill Mawby, Michel Pilote, and Dan Sommerfield:Visualizing Data Mining Models