● ● Terminologia O que é um conceito? ● O que é um exemplo? ● Relações, arquivos flats, recursão O que é um atributo? ● Classificação, associação, agrupamento, predição numérica Nominal, ordinal, intervalo Preparando a entrada ARFF, atributos, valores faltando 2 ● Componentes da entrada: Conceitos: tipos ● Instâncias: o exemplo independente do conceito ● Propósito: descrição inteligível e operacional Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância ● Foco em nominais e numéricos 3 ● Estilo do aprendizado: Classificação: predição de uma classe discreta Associação: detecção de associação entre características Agrupamento (Clustering): agrupamento de instâncias similares em grupos Predição numérica: predição de um valor numérico ● Conceito: aquilo que se aprende ● Descrição do conceito: saída do esquema de aprendizado 4 ● ● ● ● ● ● Exemplos de problemas: weather, contact lenses, A tarefa de Classificação é supervisionada Os exemplos são fornecidos com a saída esperada A saída é chamada de classe Mede-se o sucesso em dados não vistos anteriormente, porem conhece se a classe Na pratica o sucesso é medido de forma subjetiva 5 ● Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante ● Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que regras de classificação Assim: restrições são necessárias ● Cobertura mínima e máxima acuracia 6 ● ● ● Encontrar grupos de itens que são similares Agrupamento é não supervisionado A classe de um exemplo não é conhecida O sucesso é subjetivo Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica … … … 7 Análise de crédito + + débito + + + + + + + t + + + + Agrupamento Exemplo: ◦ vector quantization; + + + + renda +: exemplo Métodos ● Uma variante da classificação na qual a classe é numérica (também chamada de regressão) ● O aprendizado é supervisionado ● Os exemplos são fornecidos com o valor alvo Medida de sucesso nos dados de teste Outlook Temperature Humidity Windy Play-time Sunny Hot High False 5 Sunny Hot High True 0 High False 55 Overcast Hot Rainy Mild Normal False 40 … … … … … 9 ● ● Instância: tipo especifico de exemplo ● Algo a ser classificado, associado ou agrupado ● Individual, exemplo independente do conceito alvo ● Caracterizado por um conjunto pre-determinado de atributos Entrada do algoritmo de aprendizado: conjunto de instâncias/bases ● Representados como uma relação simples/arquivo flat 10 Peter M Steven M = Peggy F Graham M Pam F Anna F Grace F = Ian M = Pippa F Ray M Brian M Nikki F 11 Name Gender Parent1 parent2 Peter Male ? ? Peggy Female ? ? Steven Male Peter Peggy Graham Male Peter Peggy Pam Female Peter Peggy Ian Male Grace Ray Pippa Female Grace Ray Brian Male Grace Ray Anna Female Pam Ian Nikki Female Pam Ian 12 First person Second person Sister of? First person Second person Sister of? Peter Peggy No Steven Pam Yes Peter Steven No Graham Pam Yes … … … Ian Pippa Yes Steven Peter No Brian Pippa Yes Steven Graham No Anna Nikki Yes Steven Pam Yes Nikki Anna Yes … … … Ian Pippa Yes … … … Anna Nikki Yes … … … Nikki Anna yes All the rest No Assume-se Closed-world 13 First person Second person Sister of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Steven Male Peter Peggy Pam Female Peter Peggy Yes Graham Male Peter Peggy Pam Female Peter Peggy Yes Ian Male Grace Ray Pippa Female Grace Ray Yes Brian Male Grace Ray Pippa Female Grace Ray Yes Anna Female Pam Ian Nikki Female Pam Ian Yes Nikki Female Pam Ian Anna Female Pam Ian Yes All the rest No If second person’s gender = female and first person’s parent = second person’s parent then sister-of = yes 14 ● ● Cada instância é descrita como um predefinido conjunto de características, seus atributos Porém: o numero de atributos pode variar na pratica Possível solução: “valores irrelevantes” Possíveis tipos de atributos: Nominal, ordinal, intervalos ● ● 15 ● ● ● ● Os valores são símbolos diferentes Exemplo: atributo “outlook” da base weather Valores: “sunny”,”overcast”, e “rainy” Não existe relação entre os valores nominais (sem ordem ou medida de distância) Somente testes de igualdade podem ser realizados 16 ● ● ● ● ● ● Impõe uma ordem nos valores Porém: não existe distancia nos valores predefinidos Exemplo: atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool” Note: adição e subtração não tem sentido Exemplo de regra: temperature < hot Þ play = yes A diferença entre atributos nominais e ordinais não sempre é clara 17 ● ● ● ● ● Os intervalos são ordenados e medidos em unidades fixas e iguais Exemplo 1: atributo “temperature” expresso em graus Fahrenheit Exemplo 2: atributo “year” A diferença entre 2 valores faz sentido A soma ou produto não fazem sentido 18 ● ● ● ● A maior parte dos algoritmos diferenciam 2 : nominal e ordinal Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete” Porém: “enumerated” e “discrete” implicam em uma ordem Caso especial: dicotomia (“boolean” ) Atributos ordinais são chamados de “numeric”, ou “continuous” Porém: “continuous” implica em continuidade matematica 19 % % ARFF file for weather data with some numeric features % @relation weather @attribute @attribute @attribute @attribute @attribute outlook {sunny, overcast, rainy} temperature numeric humidity numeric windy {true, false} play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes ... 20 ● ARFF suporta atributos string: @attribute description string ● Similar a os atributos nominais porém uma lista de valores não é pre-especificada Suporta dados tipo data: @attribute today date Usa o formato ISO-8601 yyyy-MM-dd-THH:mm:ss 21