Projeto de Formatura – Turmas 2010
PCS - Departamento de Engenharia
de Computação e Sistemas Digitais
Engenharia de Computação
Árvore de decisão adaptativa na classificação de textos
Motivação
O século do conhecimento, como é conhecido
o século XXI, está sendo marcado por uma
abundância de informação. Essa oferta
exagerada de informação está galgada em uma
série de fatores econômicos e tecnológicos,
como por exemplo o baixíssimo custo marginal
de distribuição de conteúdo pela internet.
O volume de informação é tanto que as
pessoas as vezes se perdem nesse mar de
dados. Se faz necessário então a criação de
ferramentas que ajudem as pessoas a filtrar de
modo fácil e intuitivo o que elas realmente estão
procurando dentro do vasto volume de
informação e notícias que hoje são produzidas
diariamente.
Um sistema classificador de textos pode ser
usado como uma ferramenta para ajudar as
pessoas a filtrar esse alto volume de informação.
Um exemplo disso é o Google News.
Classificação de textos
Objetivos do projeto
O objetivo desde projeto é construir e avaliar
um classificador de textos de aprendizado
incremental baseado em árvore de decisão
adaptativa.
Árvore de decisão adaptativa
Árvore de decisão adaptativa é um dispositivo
adaptativo cujo mecanismo subjacente é uma
árvore de decisão. Esse dispositivo permite que
a estrutura hierárquica da árvore possa ser
dinamicamente alterada durante o processo de
decisão.
Neste projeto foi utilizado uma árvore de
decisão adaptativa para construir o classificador
a partir do conjunto de treinamento, mais
especificamente, foi utilizado o algoritmo
AdapTree.
O AdapTree é um algoritmo de aprendizado de
máquina supervisionado, incremental, que
permite que as fases de treinamento e teste
sejam executadas intercaladamente..
Classificação de textos é a assinalação
automática de um documento de texto em
formato eletrônico para um ou mais elementos
de um conjunto pré-definido de classes.
O problema de classificação de textos é divido
em duas partes, a fase de aprendizado e a fase
de testes. A fase de aprendizado consiste em
construir uma função que dado um texto, ela
retorna a categoria do mesmo. Para que o
sistema aprenda, é necessário ter como entrada
do mesmo um conjunto de documentos já
categorizados, chamado de conjunto de
treinamento.
A fase de testes consiste em utilizar a função
construída para classificar um documento de
texto.
Exemplo de árvore de decisão adaptativa
Integrante: Hugo Pessoa de Baraúna
Professor orientador: Ricardo Luis de Azevedo Rocha
[email protected]
[email protected]
Download

Slide 1