Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2 Visão Geral • A Classificação em mineração de dados consiste em gerar conhecimento, a partir da análise de exemplos fornecidos, que pode ser usado para classificar itens. • A tarefa de classificação pode ser dividida em duas etapas: – na etapa de aprendizado, os exemplos fornecidos são analisados e um modelo classificador é construído. Este modelo pode assumir diferentes formas, sendo que as mais comuns são regras de classificação e árvores de decisão; – na etapa de classificação, o modelo classificador construído é usado para distribuir itens em grupos predefinidos, denominados classes, de acordo com informações quantitativas ou características inerentes aos itens. Aprendizado • Neste exemplo, os itens são da forma (x1, x2, x3), onde x1 é o nome do cliente, x2 pertence a {jovem, meia-idade, idoso} é a sua faixa-etária e x3 pertence a {baixa, média, alta} é a sua renda. Os exemplos de treinamento, ou dados de treino, representam informações sobre clientes de um banco, classificados de acordo com o risco de empréstimo que estes oferecem, ou seja, C = {baixo, médio, alto}. • A partir dos dados de treino, o algoritmo de classificação gera um modelo classificador que, neste exemplo, está sob a forma de regras de classificação. • Durante a etapa de classificação, novos itens, cujas classes são desconhecidas, são analisados e classificados de acordo com o modelo gerado na etapa de aprendizado. Aprendizado Classificação por Árvore de Decisão • Árvore de decisão que pode ser usada para classificar uma pessoa como possível compradora de um computador, ou não, dependendo da sua faixaetária, do fato de ela estar ou não estudando e da sua renda: Árvore de Decisão – Parâmetros • um conjunto de exemplos de treinamento, ou dados de treino, denotado por E. • uma lista de atributos que caracterizam os itens dos dados de treino, denotada por L. • um método de seleção de atributo, denotado por M. Árvore de Decisão – Métodos de Seleção de Atributos Algoritmo – Formalmente Definido • • IndArvDec (E, L, M) { – Criar nó atual N; – Se todos o itens de E pertencem à mesma classe C então • retornar N como nó folha com o nome de C; – Se L = vazio então • retornar N como nó folha com o nome da classe majoritária em E; – Chamar M(E, L) para determinar o atributo A para o teste T e suas ramificações; – Para cada ramificação R de T { • Criar grupo vazio GR; • Para cada item I de E { – Se I.A = R então GR <- GR U { I }; • }; • Se GR = vazio então – retornar N como nó folha com o nome da classe majoritária em E; • Senão – Chamar IndArvDec(GR, L – A, M); – }; };