Interfaces para interpretação e
divulgação do conhecimento
descoberto
Cícero Barbosa Lima
Ana Emilia de Melo Queiroz
Roteiro
Tipos de interfaces: tabelas, diagramas, gráficos 2D,
gráficos 3D, hipertexto
 Abrangência e interatividade da interface do usuário de
um ambiente de descoberta de conhecimento
 Apresentação de caracterização e comparação de
conceito por indução orientada a atributo
 Apresentação de caracterização e comparação de dados
e conceitos por distribuição estatístico
 Apresentação de caracterização e comparação de
conceitos por visualização multidimensional
 Apresentação de classificação por indução de árvore de
decisão
 Apresentação dados excepcionais em conjuntos de dados
multidimensionais
 Demo do DBMiner (mpss)

Proporção por sentido de informação
sensorial nos seres humanos
Sentido
Gosto
Porcentagem
1%
Tato
Olfato
Audição
Visão
1,35%
3,5%
11%
83%
Tipos de interfaces: tabelas, diagramas,
gráficos 2D, gráficos 3D, hipertexto

Birch Beer, with a 42% national
increase from September to
October;
Abrangência e interatividade da interface
do usuário de um ambiente de descoberta de
conhecimento

Permite análise exploratória visual
•
•
•
•

Dos dados de entrada
Dos conhecimentos de saída.
Do conhecimento prévio e viés de aprendizagem.
Das representações intermediárias (rastreamento) usadas pelo
algoritmo de mineração.
Permite especificar visualmente tarefas de KDD
• Para todos os passos do processo de KDD
• Compor tarefas elementares arbitrariamente via GUI
Abrangência e interatividade da interface
do usuário de um ambiente de descoberta de
conhecimento

Linguagens de consulta para mineração de dados fornece
primitivas que permitem comunicação com o sistema
• Apresenta dificuldade de uso para usuários inexperientes
• Pode ser usada para implementação de GUIs para efetiva
mineração de dados

Componentes funcionais do GUI de mineração de dados:
•
•
•
•
•
Composição de query data mining
Apresentação de padrões descobertos
Especificação e manipulação de hierarquia
Manipulação de primitivas data mining
Mineração interativa multinivel
Indução Orientada a atributo

Descição de conceitos: Caracterização e Comparação
– Caracterização: fornece um sumário conciso e suscinto da coleção
de dados:

Abordagem indução orientada atributo.
• Não se restringe a dados categóricos ou a medidas particulares.
• Como é feito?
• Colete o conjunto de dados relevantes ( relação inicial) a partir de uma
consulta a uma base de dados relacional
• Execute a generalização pela remoção de atributo ou pela generalização de
atributo.
• Aplique a agregação fundindo tuplas generalizadas idênticas e acumule
suas contagens respectivas.
• Apresentação interativa com usuários
Apresentação
Caracterização de classes: Um exemplo
Name
Tabela
Relacional
Primitiva
Gender
Jim
Woodman
Scott
Lachance
Laura Lee
…
M
F
…
Removed
Retained
Major
Birth-Place
Residence
Phone #
GPA
Vancouver,BC, 8-12-76
Canada
CS
Montreal, Que, 28-7-75
Canada
Physics Seattle, WA, USA 25-8-70
…
…
…
3511 Main St.,
Richmond
345 1st Ave.,
Richmond
687-4598
3.67
253-9106
3.70
125 Austin Ave.,
Burnaby
…
420-5232
…
3.83
…
Sci,Eng,
Bus
City
Removed
Excl,
VG,..
CS
M
Country
Gender Major
Tabela relacional
com atributos
generalizados
Birth_date
M
F
…
Science
Science
…
Age range
Birth_region
Age_range
Residence
GPA
Count
Canada
Foreign
…
20-25
25-30
…
Richmond
Burnaby
…
Very-good
Excellent
…
16
22
…
Birth_Region
Canada
Tabela
Cruzada
Foreign
Total
Gender
M
16
14
30
F
10
22
32
Total
26
36
62
Apresentação de Descrições Generalizadas

Tabela unidimensional
Location

Item
Sales(in millions dolars)
Count(in thousands)
Asia
TV
15
300
Europa
TV
12
250
North_America
TV
28
450
Asia
Computer
120
1000
Europa
Computer
150
1200
North_America
Computer
200
1800
Visualização em tabela bidimensionais
Location\item
TV
Computer
Both_itens
Sales
Count
Sales
Count
Sales
count
Asia
15
300
120
1000
135
1300
Europe
12
250
150
1200
162
1450
North_america
28
450
200
1800
228
2250
All_regions
55
1000
470
4000
525
5000
Comparação de conceitos por indução
orientado a atributos

Comparação: Comparação de duas ou mais classes. Método:
– Partição do conjunto de dados relevantes em classe alvo e
classe(s) de contraste(s)
– Generalize ambas as classes nos mesmos níveis superiores de
conceitos
– Compare tuplas de mesmo nível superior de descrição
– Apresente para cada tupla a sua descrição e duas medidas:
• suporte – distribuição na classe isolada
• comparação – distribuição entre as classes
– Destaques as tuplas com características discriminantes fortes

Apresentação:Como relações generalizadas, tabelas cruzadas,
gráfico de barras, gráfico de setores, ou regras
Example: Comparação analítica

Tarefa
• Comparar os alunos de graduação com os da pos graduação usando
regras discriminates
Birth_country
Age_rangeGpa
Count%
• DMQL query
use Big_University_DB
mine comparison as
“grad_vs_undergrad_students”
in relevance to name, gender,
major, birth_place, birth_date,
residence, phone#, gpa
for “graduate_students”
where status in “graduate”
versus
“undergraduate_students”
where status in “undergraduate”
analyze count%
from student
Canada
Canada
Canada
…
Other
20-25
25-30
Over_30
…
Over_30
Good
5.53%
Good
2.32%
Very_good5.86%
…
…
Excellent 4.68%
Relação Generalizada Para a Classe
Alvo: Estudantes de Pós
Birth_countryAge_rangeGpa
Canada
15-20
Fair
Canada
15-20
Good
…
…
…
Canada
25-30
Good
…
…
…
Other
Over_30 Excellent
Count%
5.53%
4.53%
…
5.02%
…
0.68%
Relação Generalizada para a Classe de
Contraste: Estudantes de Graduação
Apresentação de caracterização estatística
de dados: tendência central

Medidas agregando dados em uma quantidade única
caracterizando-os:
•
•
•
•
•
•
•
ocorrencias
soma (total)
maximo
minimo
média
mediana
mode
Apresentação de caracterização estatística
de dados: dispersão

Quartiles, Outliers, Boxplot
•
Um conjunto de itens vendidos
Preço da
unidade
Número de itens
vendidos
40
275
43
300
47
250
..
...
74
360
75
515
78
540
...
...
115
320
117
270
120
350
Gráficos de visualização de
descrições de classes estatísticas básicas

Outros gráficos para para mostrar dados sumarizados(summaries) e
distribuições. Nestes estão incluídos Histogramas , quantile plots,
q-q plots, scatter plots, and loess curves.
Histogramas: Consiste de um conjunto de retângulos que
reflete o número ou freqüências de classes em um conjunto
de dados.
Gráficos de visualização de
descrições de classes estatísticas básicas

Quantile plot é um simples e efetivo meio de ter uma primeira visão
da univariância da distribuição de dados.
Gráficos de visualização de
descrições de classes estatísticas básicas

Quantile-Quantile plot (q-q plot) permite o usuário visualizar a
dispersão entre duas distribuições
Gráficos de visualização de
descrições de classes estatísticas básicas

Scatter plot é uma dos métodos gráficos mais efetivos para
determinar se existe uma relação, padrão ou tendência entre duas
variáveis quantitativas.
Gráficos de visualização de
descrições de classes estatísticas básicas

Loess curve é um gráfico exploratório que adiciona uma curva
suave ao Scatter plot para melhorar a percepção dos padrões de
dependência.
Apresentação de caracterização e
comparação de conceitos por vizualização
multidimensional


A visualização interativa é uma poderosa ferramenta na seleção de
atributos e na detecção de outlier.
Em situações reais de mineração de dados existe uma grande
quantidade para visualizar simultaneamente e não existe nenhuma
alternativa de algoritmo para automatizar a seleção dos atributos.
Petal length
2
Representação em uma dimensão
4
6
Íris setosa
Íris versicolor
Íris virginica
Apresentação de caracterização e
comparação de conceitos por visualização
multidimensional
• Adicionando um novo atributo
Representação em duas dimensão
6
4
2
1
Petal width
2
Íris setosa
Íris versicolor
Íris virginica
3
Apresentação de árvore de decisão


Visualizando dados de saída (Conhecimento)
Um exemplo seria arvore de decisão que é uma representação
gráfica do conhecimento descoberto.
Demo do DBMiner
Visualização multidimensional de grande
quantidade de dados

Motivação:
• Crescente demanda de armazenamento de grandes
quantidades de dados de alta dimensionalidade
• Necessidade de analisar e descobrir informações úteis
dos dados armazenados
• Apresentação textual é impraticável para grande
quantidades de dados
• “Gap” cada vez maior entre os dados que precisam ser
visualizados e os dados que de fato podem ser
visualizados
Visualização multidimensional de grande
quantidade de dados

A técnica:
• São definidas regiões dentro do espaço multidimensional, onde só
os itens que pertencem a estas regiões são apresentados
• A pertinência é determinada por uma função distância para cada
dimensão
• As diferentes dimensões são mapeadas em cores
• Os pontos são ordenados e dispostos
na tela na forma de um espiral retangular
Visualização multidimensional de grande
quantidade de dados


A coloração de cada ponto,
dependera da distância ao
centro da dimensão em foco
A variação das cores é entre
crominância e luminância
Visualização multidimensional de grande
quantidade de dados

Alternativa 1: organização dos dados em 2-D
• São determinados os atributos para os eixos e a distribuição de
acordo com a direção da função distância
• Vantagens: melhor para dados que tem a idéia inerente de 2-D
Visualização multidimensional de grande
quantidade de dados

Desvantagem: pode causar má distribuição dos
dados apresentados, deixando algumas áreas vazias
Visualização multidimensional de grande
quantidade de dados

Alternativa 2: agrupando as dimensões para cada item de
dado
• Apresenta todas as dimensões
juntas numa mesma área
(uma única janela)
Mineração de Outliers

Pode ser dividido em 2
subproblemas:
1.
2.
3.
Definir quais dados são
aberrantes
Definir método
eficiente para
encontrar tais
aberrações
Aberrante sempre com
referência a algum
padrão

Métodos de detecção:
• Semi-automático:

Visualização
• Automático




Estatística
Distância
Desvio
Observação:
• Usuário tem que checar
se os outliers descobertos
são realmente outliers.
Apresentação dados excepcionais em conjuntos de
dados multidimensionais via GUI

Exemplo de visualização de GUI
Apresentação dados excepcionais em conjuntos de
dados multidimensionais via hipertexto
Last year, the most atypical sales variations from one month to the next occurred for:
 Birch Beer, with a 42% national increase from September to October;
 Diet Soda, with a 40% decrease in the Eastern region from July to August.
At the level of idiosyncrasy came:
 Cola’s Colorado sales, falling 40% from July to August and then a further 32% from
September to October;
 again Diet Soda Eastern sales, falling 33% from September to October.
Less aberrant but still notably atypical were:
 again nationwide Birch Beer sales’ -12% from June to July and -10% from November to
December;
 Cola sales 11% fall from July to August in the Central region and 30% dive in Wisconsin
from August to September;
 Diet Soda sales’ 19% increase in the Southern Region from July to August, followed by
its two opposite regional variations from August to September, +10% in the East but -17%
in the West;
 national Jolt Cola sales’ +6% from August to September
To know what makes one of these variations unusual in the context of this year’s sales, click
on it.
Vantagens de texto x gráficos


O texto é familiar e mais intuitivo, considerando que o usuário final
tenha pouco conhecimento em matemática.
A linguagem natural pode ser mais clara para fazer analise em
muitas dimensões.
•

A língua natural pode comunicar um único fato interessante de
maneira isolada, facilitando e simplificando o entendimento.
•

Ex. : “Cola promotional sales’ 20% increase from July to August constituted a strong
exception”
Ex.:“Cola sales peaked at 40% in July".
Pode mais livremente misturar quantitativo e qualitativo, que muitas
vezes não é transmitido de maneira intuitiva por tabelas e gráficos
Vantagens de hipertexto x texto
Evita o problema de eliminar algumas informações( dilema
da sumarização).
 Se os link forem numerosos os leitores com diferentes
interesses podem seguir diferentes formas de navegação
dentro de um único sumário hipertextual.
 Uma outra vantagem é que as figuras podem ser
hipertextuais.

Hipertexto seguindo estratégia alternativa
de apresentação
Last year, there was 13 exceptions in the beverage product line.
The most striking was Birch Beer’s 42% national fall from Sep to Oct.
The remaining exceptions, clustered around four products, were:
 Again, Birch Beer’s sales accounting for other two national exceptions, both
national slumps: -12% from Jun to Jul and -10% from Nov to Dec;
 Cola sales accounting for four exceptions, all slumps: two medium ones in
Colorado, -40% from Jul to Aug and -32% from Aug. to Sep; and two mild
ones, -11% in Wisconsin from Jul to Aug and -30% in the Central region
from Aug to Sep;
 Diet Soda accounting for five exceptions:
• one strong, -40% in the East from Jul to Aug,
• one medium, -33% in the East from Sep to Oct;
• and three mild ones: two rises, +19% in the South from Jul to Aug and
+10% in the East from Aug to Sep, and one fall, -17% in Western region
from Aug to Sep;
 Finally, Jolt Cola’s sales accounting for one mild exception, a national 6%
fall from Aug to Sep.
MATRIKS intelligent decision support system
HYSSOP
Decision
Maker
Hypertext
Natural
Language
Executive
Summary
Transactional
Relational
Database
Log file
Data Hypercube Exploration Expert System
KDD
Expert
Data Remodeling
CASE Tool
Data Loader
& Preprocessor
Information
Extractor
Data Mining Suite
OLAP Server
Analytical
Multidimensional
Data Warehouse
Exploration
heurtistics &
session base
HYSSOP hypertext summary generator
Selected pool of data mining
annotated cube cells
Data Hypercube Exploration
Expert System
Content matrix
Discourse planner
Discourse Strategies
Factorization matrix
Sentence planner
Hypertext
plans
Hypertext
Planner
Sentence planning rules
Discourse tree
Lexicalizer
Lexicalization rules
Lexicalized thematic tree
Syntactic realizer
Natural language web page
Executive hypertext summary
Grammar rules
Referências Bibliográficas
Daniel A. Keim, Has-Peter Kriegel: Possibilities and Limits
in Visualizing Large Databases
 Jacques Robin, Eloi Favero:HYSSOP: Natural Language
Generation Meets Knowledge Discovery in Databases
 Han & Kamber : Data Mining, Concepts and Techniques
 Witten & Frank : Data Mining, Pratical Machine Learning
Tools
 Kurt Thearling, Barry Becker, Dennis DeCoste, Bill
Mawby, Michel Pilote, and Dan Sommerfield:Visualizing
Data Mining Models

Download

UserInterfaces - Centro de Informática da UFPE