Interfaces para Interpretação e
Divulgação do Conhecimento
Descoberto
Adjamir de Moura Galvão
Jacques Robin
Recife – Abril 2002
Roteiro





Relevância.
Tipos básicos de interfaces.
Importância do Uso de Interfaces no Ambiente
de KDD.
Apresentação de exceções.
Referências.
Relevância

Proporção por sentido de informações
sensoriais nos seres humanos.
Sentido
Gosto
Tato
Olfato
Audição
Visão
Porcentagem
1%
1,35%
3,5%
11%
83%
Tipos de Interface para
Apresentação
Gráficos 3D Gráficos 2D
Birch Beer, with a 42%
national increase from
September to October;
Tabela
HiperTexto
Importância do Uso de Interfaces
no Ambiente de KDD I

Permite análise exploratória visual.
–
–
–
–

Dos dados de entrada.
Dos conhecimentos de saída.
Do conhecimento prévio e viés de aprendizagem.
Das representações intermediárias (rastreamento)
usadas pelo algoritmo de mineração.
Permite especificar visualmente tarefas de
KDD.
–
–
Para todos os passos do processo de KDD.
Compor tarefas elementares arbitrariamente via
GUI.
Importância do Uso de Interfaces
no Ambiente de KDD II

Linguagens de consulta para mineração de dados
fornecem primitivas que permitem comunicação com o
sistema.
–
–

Apresenta dificuldade de uso para usuários inexperientes.
Pode ser usada para implementação de GUIs para efetiva
mineração de dados.
Componentes funcionais do GUI de mineração de
dados:
–
–
–
–
–
Composição de query data mining.
Apresentação de padrões descobertos.
Especificação e manipulação de hierarquia.
Manipulação de primitivas data mining.
Mineração interativa multinivel.
Apresentação de Dados I –
Caracterização de Classe
Name
Jim
Woodman
Scott
Tabela
Relacional Lachance
Primitiva Laura Lee
…
Removed
Gender
Major
M
CS
M
CS
F
…
Physics
…
Retained
Sci,Eng,
Bus
Birth-Place
Residence
Phone #
GPA
Vancouver,BC, 8-12-76
Canada
Montreal, Que, 28-7-75
Canada
Seattle, WA, USA 25-8-70
…
…
3511 Main St.,
Richmond
345 1st Ave.,
Richmond
687-4598
3.67
253-9106
3.70
125 Austin Ave.,
Burnaby
…
420-5232
…
3.83
…
Country
City
Removed
Excl,
VG,..
Gender Major
Tabela relacional
com atributos
generalizados
M
F
…
Science
Science
…
Birth_date
Age range
Birth_region
Age_range
Residence
GPA
Count
Canada
Foreign
…
20-25
25-30
…
Richmond
Burnaby
…
Very-good
Excellent
…
16
22
…
Birth_Region
Canada
Foreign
Total
Gender
Tabela
Cruzada
M
16
14
30
F
10
22
32
Total
26
36
62
Apresentação de Dados II Descrição Generalizada


Tabela UniDimensional
Location
Item
Sales(in millions dolars)
Count(in thousands)
Asia
TV
15
300
Europa
TV
12
250
North_America
TV
28
450
Asia
Computer
120
1000
Europa
Computer
150
1200
North_America
Computer
200
1800
Tabela BiDimensional
Location\item
TV
Computer
Both_itens
Sales
Count
Sales
Count
Sales
count
Asia
15
300
120
1000
135
1300
Europe
12
250
150
1200
162
1450
North_america
28
450
200
1800
228
2250
All_regions
55
1000
470
4000
525
5000
Apresentação de Dados III Comparação Analítica

Tarefa
– Comparar os alunos de graduação com os da pos graduação usando
regras discriminates.
Birth_countryAge_range Gpa
Count%
Canada
20-25
Good
5.53%
– DMQL query
use Big_University_DB
mine comparison as
“grad_vs_undergrad_students”
in relevance to name, gender,
major, birth_place, birth_date,
residence, phone#, gpa
for “graduate_students”
where status in “graduate”
versus
“undergraduate_students”
where status in “undergraduate”
analyze count%
from student
Canada
25-30
Good
2.32%
Canada
Over_30 Very_good 5.86%
…
…
…
…
Other
Over_30 Excellent 4.68%
Relação Generalizada Para a Classe
Alvo: Estudantes de Pós
Birth_countryAge_range Gpa
Count%
Canada
15-20
Fair
5.53%
Canada
15-20
Good
4.53%
…
…
…
…
Canada
25-30
Good
5.02%
…
…
…
…
Other
Over_30 Excellent 0.68%
Relação Generalizada para a Classe de
Contraste: Estudantes de Graduação
Apresentação de caracterização
estatística de dados I - Dispersão

Quartiles, Outliers, Boxplot
– Um conjunto de itens vendidos
Preço da
unidade
Número de itens
vendidos
40
275
43
300
47
250
..
...
74
360
75
515
78
540
...
...
115
320
117
270
120
350
Apresentação de caracterização estatística de
dados II – Classes Básicas

Outros gráficos para para mostrar dados sumarizados(summaries)
e distribuições.
–

Nestes estão incluídos Histogramas , quantile plots, q-q plots, scatter
plots, and loess curves.
Histogramas: Consiste de um conjunto de retângulos que reflete o
número ou freqüências de classes em um conjunto de dados.
Apresentação de caracterização estatística de
dados III – Classes Básicas

Quantile plot é um simples e efetivo meio de ter uma primeira
visão da univariância da distribuição de dados.
f-value = (i – 0.5)/ n
n – número de observações
i – i-ésima observação
Apresentação de caracterização estatística de
dados III – Classes Básicas

Quantile-Quantile plot (q-q plot) permite o usuário visualizar a
dispersão entre duas distribuições.
–
branch 2
unit price
É a comparação de dois quantile plot sobre uma mesma dimensão.
Apresentação de caracterização estatística de
dados IV – Classes Básicas

Scatter plot é uma dos métodos gráficos mais efetivos para
determinar se existe uma relação, padrão ou tendência entre duas
variáveis quantitativas.
Apresentação de caracterização estatística de
dados V – Classes Básicas

Loess curve é um gráfico exploratório que adiciona uma curva
suave ao Scatter plot para melhorar a percepção dos padrões de
dependência.
Apresentação de caracterização e comparação
de conceitos por visualização multidimensional I


A visualização interativa é uma poderosa ferramenta na seleção de
atributos e na detecção de outlier.
Em situações reais de mineração de dados existe uma grande
quantidade para visualizar simultaneamente e não existe nenhuma
alternativa de algoritmo para automatizar a seleção dos atributos.
Petal length
2
Representação em uma dimensão
4
6
Íris setosa
Íris versicolor
Íris virginica
Apresentação de caracterização e comparação
de conceitos por visualização multidimensional II

Adicionando um novo atributo.
Representação em duas dimensão
6
4
2
1
Petal width
2
Íris setosa
Íris versicolor
Íris virginica
3
Apresentação de Dados de Saída

Um exemplo seria árvore de decisão que é
uma representação gráfica do conhecimento
descoberto.
Demonstração do DBMiner
Apresentação de Exceções I

Exemplo de visualização de GUI.
Vantagens de texto x gráficos I


O texto é familiar e mais intuitivo, considerando que o
usuário final tenha pouco conhecimento em
matemática.
A linguagem natural pode ser mais clara para fazer
analise em muitas dimensões.
–

A língua natural pode comunicar um único fato
interessante de maneira isolada, facilitando e
simplificando o entendimento.
–

Ex. : “Cola promotional sales’ 20% increase from July to August constituted
a strong exception”
Ex.:“Cola sales peaked at 40% in July".
Pode mais livremente misturar quantitativo e
qualitativo, que muitas vezes não é transmitido de
maneira intuitiva por tabelas e gráficos.
Vantagens de texto x gráficos II



Evita o problema de eliminar algumas
informações (dilema da sumarização).
Se os link forem numerosos os leitores com
diferentes interesses podem seguir diferentes
formas de navegação dentro de um único
sumário hipertextual.
Uma outra vantagem é que as figuras podem
ser hipertextuais.
MATRIKS Intelligent Decision
Support System
Decision
Maker
Hypertext
Natural
Language
Executive
Summary
Transactional
Relational
Database
Log file
HYSSOP: gerador de
relatorios resumindos
KDD
Expert
Data Remodeling
CASE Tool
Data Loader
& Preprocessor
Information
Extractor
Outlier Miner
OLAP Server
Analytical
Multidimensional
Data Warehouse
Apresentação de Exceções II

Via HiperTexto.
Last year, the most atypical sales variations from one month to the next
occurred for:

Birch Beer, with a 42% national increase from September to October;

Diet Soda, with a 40% decrease in the Eastern region from July to
August.
At the level of idiosyncrasy came:

Cola’s Colorado sales, falling 40% from July to August and then a further
32% from September to October;

again Diet Soda Eastern sales, falling 33% from September to October.
Less aberrant but still notably atypical were:

again nationwide Birch Beer sales’ -12% from June to July and -10% from
November to December;
To know what makes one of these variations unusual in the context of this
year’s sales, click on it.
Hipertexto seguindo estratégia alternativa
de apresentação
Last year, there was 13 exceptions in the beverage product line.
The most striking was Birch Beer’s 42% national fall from Sep to Oct.
The remaining exceptions, clustered around four products, were:
 Again, Birch Beer’s sales accounting for other two national exceptions,
both national slumps: -12% from Jun to Jul and -10% from Nov to Dec;
 Cola sales accounting for four exceptions, all slumps: two medium ones
in Colorado, -40% from Jul to Aug and -32% from Aug. to Sep; and two
mild ones, -11% in Wisconsin from Jul to Aug and -30% in the Central
region from Aug to Sep;
 Diet Soda accounting for five exceptions:
– one strong, -40% in the East from Jul to Aug,
– one medium, -33% in the East from Sep to Oct;
– and three mild ones: two rises, +19% in the South from Jul to Aug
and +10% in the East from Aug to Sep, and one fall, -17% in Western
region from Aug to Sep;
 Finally, Jolt Cola’s sales accounting for one mild exception, a national
6% fall from Aug to Sep.
Visualização MultiDimensional de
Grande Quantidade de Dados

Motivação:
– Crescente demanda de armazenamento de grandes
quantidades de dados de alta dimensionalidade.
– Necessidade de analisar e descobrir informações úteis dos
dados armazenados.
– Apresentação textual é impraticável para grande quantidades
de dados.
É realmente intuitivo?
Download

UserInterfaces