Mineração de Dados
Classificação
Felipe Carvalho – UFES 2009/2
Visão Geral
• A Classificação em mineração de dados consiste em gerar conhecimento, a
partir da análise de exemplos fornecidos, que pode ser usado para
classificar itens.
• A tarefa de classificação pode ser dividida em duas etapas:
– na etapa de aprendizado, os exemplos fornecidos são analisados e um modelo
classificador é construído. Este modelo pode assumir diferentes formas, sendo
que as mais comuns são regras de classificação e árvores de decisão;
– na etapa de classificação, o modelo classificador construído é usado para
distribuir itens em grupos predefinidos, denominados classes, de acordo com
informações quantitativas ou características inerentes aos itens.
Aprendizado
• Neste exemplo, os itens são da forma (x1, x2, x3), onde x1 é o nome do
cliente, x2 pertence a {jovem, meia-idade, idoso} é a sua faixa-etária e x3
pertence a {baixa, média, alta} é a sua renda. Os exemplos de
treinamento, ou dados de treino, representam informações sobre clientes
de um banco, classificados de acordo com o risco de empréstimo que
estes oferecem, ou seja, C = {baixo, médio, alto}.
• A partir dos dados de treino, o algoritmo de classificação gera um modelo
classificador que, neste exemplo, está sob a forma de regras de
classificação.
• Durante a etapa de classificação, novos itens, cujas classes são
desconhecidas, são analisados e classificados de acordo com o modelo
gerado na etapa de aprendizado.
Aprendizado
Classificação por Árvore de Decisão
• Árvore de decisão que pode ser usada para classificar uma pessoa como
possível compradora de um computador, ou não, dependendo da sua faixaetária, do fato de ela estar ou não estudando e da sua renda:
Árvore de Decisão – Parâmetros
• um conjunto de exemplos de treinamento, ou dados de treino, denotado
por E.
• uma lista de atributos que caracterizam os itens dos dados de treino,
denotada por L.
• um método de seleção de atributo, denotado por M.
Árvore de Decisão – Métodos de
Seleção de Atributos
Algoritmo – Formalmente Definido
•
•
IndArvDec (E, L, M) {
– Criar nó atual N;
– Se todos o itens de E pertencem à mesma classe C então
• retornar N como nó folha com o nome de C;
– Se L = vazio então
• retornar N como nó folha com o nome da classe majoritária em E;
– Chamar M(E, L) para determinar o atributo A para o teste T e suas ramificações;
– Para cada ramificação R de T {
• Criar grupo vazio GR;
• Para cada item I de E {
– Se I.A = R então GR <- GR U { I };
• };
• Se GR = vazio então
– retornar N como nó folha com o nome da classe majoritária em E;
• Senão
– Chamar IndArvDec(GR, L – A, M);
– };
};
Download

MineracaoDeDados