●
●
Terminologia
O que é um conceito?

●
O que é um exemplo?

●
Relações, arquivos flats, recursão
O que é um atributo?

●
Classificação, associação, agrupamento, predição numérica
Nominal, ordinal, intervalo
Preparando a entrada

ARFF, atributos, valores faltando
2
●
Componentes da entrada:

Conceitos: tipos
●

Instâncias: o exemplo independente do conceito
●

Propósito: descrição inteligível e operacional
Note:entradas mas complicadas são possíveis
Atributos: medindo aspectos de uma instância
●
Foco em nominais e numéricos
3
●
Estilo do aprendizado:

Classificação:
predição de uma classe discreta

Associação:
detecção de associação entre características

Agrupamento (Clustering):
agrupamento de instâncias similares em grupos

Predição numérica:
predição de um valor numérico
●
Conceito: aquilo que se aprende
●
Descrição do conceito:
saída do esquema de aprendizado
4
●
●
●
●
●
●
Exemplos de problemas: weather, contact lenses,
A tarefa de Classificação é supervisionada
 Os exemplos são fornecidos com a saída esperada
A saída é chamada de classe
Mede-se o sucesso em dados não vistos anteriormente,
porem conhece se a classe
Na pratica o sucesso é medido de forma subjetiva
5
●
Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de
estrutura é considerada interessante
●
Diferenças com a classificação:

Podem predizer qualquer atributo e mais de um atributo

Portanto: existem muito mais regras de associação do que regras
de classificação

Assim: restrições são necessárias
●
Cobertura mínima e máxima acuracia
6
●
●
●
Encontrar grupos de itens que são similares
Agrupamento é não supervisionado
 A classe de um exemplo não é conhecida
O sucesso é subjetivo
Sepal length
Sepal width
Petal length
Petal width
Type
1
5.1
3.5
1.4
0.2
Iris setosa
2
4.9
3.0
1.4
0.2
Iris setosa
51
7.0
3.2
4.7
1.4
Iris versicolor
52
6.4
3.2
4.5
1.5
Iris versicolor
101
6.3
3.3
6.0
2.5
Iris virginica
102
5.8
2.7
5.1
1.9
Iris virginica
…
…
…
7
Análise de crédito
+
+
débito
+
+
+
+
+
+
+
t

+
+
+

+
Agrupamento
Exemplo:
◦ vector quantization;
+
+
+
+
renda
+: exemplo
Métodos
●
Uma variante da classificação na qual a classe é numérica
(também chamada de regressão)
●
O aprendizado é supervisionado

●
Os exemplos são fornecidos com o valor alvo
Medida de sucesso nos dados de teste
Outlook
Temperature
Humidity
Windy
Play-time
Sunny
Hot
High
False
5
Sunny
Hot
High
True
0
High
False
55
Overcast
Hot
Rainy
Mild
Normal
False
40
…
…
…
…
…
9
●
●
Instância: tipo especifico de exemplo
● Algo a ser classificado, associado ou agrupado
● Individual, exemplo independente do conceito alvo
● Caracterizado por um conjunto pre-determinado de
atributos
Entrada do algoritmo de aprendizado: conjunto de
instâncias/bases
● Representados como uma relação simples/arquivo flat
10
Peter
M
Steven
M
=
Peggy
F
Graham
M
Pam
F
Anna
F
Grace
F
=
Ian
M
=
Pippa
F
Ray
M
Brian
M
Nikki
F
11
Name
Gender
Parent1
parent2
Peter
Male
?
?
Peggy
Female
?
?
Steven
Male
Peter
Peggy
Graham
Male
Peter
Peggy
Pam
Female
Peter
Peggy
Ian
Male
Grace
Ray
Pippa
Female
Grace
Ray
Brian
Male
Grace
Ray
Anna
Female
Pam
Ian
Nikki
Female
Pam
Ian
12
First
person
Second person Sister of?
First
person
Second person Sister of?
Peter
Peggy
No
Steven
Pam
Yes
Peter
Steven
No
Graham
Pam
Yes
…
…
…
Ian
Pippa
Yes
Steven
Peter
No
Brian
Pippa
Yes
Steven
Graham
No
Anna
Nikki
Yes
Steven
Pam
Yes
Nikki
Anna
Yes
…
…
…
Ian
Pippa
Yes
…
…
…
Anna
Nikki
Yes
…
…
…
Nikki
Anna
yes
All the rest
No
Assume-se Closed-world
13
First person
Second person
Sister
of?
Name
Gender
Parent1
Parent2
Name
Gender
Parent1
Parent2
Steven
Male
Peter
Peggy
Pam
Female
Peter
Peggy
Yes
Graham
Male
Peter
Peggy
Pam
Female
Peter
Peggy
Yes
Ian
Male
Grace
Ray
Pippa
Female
Grace
Ray
Yes
Brian
Male
Grace
Ray
Pippa
Female
Grace
Ray
Yes
Anna
Female
Pam
Ian
Nikki
Female
Pam
Ian
Yes
Nikki
Female
Pam
Ian
Anna
Female
Pam
Ian
Yes
All the rest
No
If second person’s gender = female
and first person’s parent = second person’s parent
then sister-of = yes
14
●
●
Cada instância é descrita como um predefinido
conjunto de características, seus atributos
Porém: o numero de atributos pode variar na pratica
Possível solução: “valores irrelevantes”
Possíveis tipos de atributos:
 Nominal, ordinal, intervalos
●
●
15
●
●
●
●
Os valores são símbolos diferentes
Exemplo: atributo “outlook” da base weather
 Valores: “sunny”,”overcast”, e “rainy”
Não existe relação entre os valores nominais (sem ordem
ou medida de distância)
Somente testes de igualdade podem ser realizados
16
●
●
●
●
●
●
Impõe uma ordem nos valores
Porém: não existe distancia nos valores predefinidos
Exemplo:
atributo “temperature” nos dados weather
 Valores: “hot” > “mild” > “cool”
Note: adição e subtração não tem sentido
Exemplo de regra:
temperature < hot Þ play = yes
A diferença entre atributos nominais e ordinais não
sempre é clara
17
●
●
●
●
●
Os intervalos são ordenados e medidos em
unidades fixas e iguais
Exemplo 1: atributo “temperature” expresso em
graus Fahrenheit
Exemplo 2: atributo “year”
A diferença entre 2 valores faz sentido
A soma ou produto não fazem sentido
18
●
●
●
●
A maior parte dos algoritmos diferenciam 2 : nominal e
ordinal
Atributos Nominais são também chamados
“categorical”, ”enumerated”, ou “discrete”
 Porém: “enumerated” e “discrete” implicam em
uma ordem
Caso especial: dicotomia (“boolean” )
Atributos ordinais são chamados de “numeric”, ou
“continuous”
 Porém: “continuous” implica em continuidade
matematica
19
%
% ARFF file for weather data with some numeric features
%
@relation weather
@attribute
@attribute
@attribute
@attribute
@attribute
outlook {sunny, overcast, rainy}
temperature numeric
humidity numeric
windy {true, false}
play? {yes, no}
@data
sunny, 85, 85, false, no
sunny, 80, 90, true, no
overcast, 83, 86, false, yes
...
20
●
ARFF suporta atributos string:
@attribute description string

●
Similar a os atributos nominais porém uma
lista de valores não é pre-especificada
Suporta dados tipo data:
@attribute today date

Usa o formato ISO-8601
yyyy-MM-dd-THH:mm:ss
21
Download

Conceitos, instâncias e atributos