Projeto de Formatura – Turmas 2010 PCS - Departamento de Engenharia de Computação e Sistemas Digitais Engenharia de Computação Árvore de decisão adaptativa na classificação de textos Motivação O século do conhecimento, como é conhecido o século XXI, está sendo marcado por uma abundância de informação. Essa oferta exagerada de informação está galgada em uma série de fatores econômicos e tecnológicos, como por exemplo o baixíssimo custo marginal de distribuição de conteúdo pela internet. O volume de informação é tanto que as pessoas as vezes se perdem nesse mar de dados. Se faz necessário então a criação de ferramentas que ajudem as pessoas a filtrar de modo fácil e intuitivo o que elas realmente estão procurando dentro do vasto volume de informação e notícias que hoje são produzidas diariamente. Um sistema classificador de textos pode ser usado como uma ferramenta para ajudar as pessoas a filtrar esse alto volume de informação. Um exemplo disso é o Google News. Classificação de textos Objetivos do projeto O objetivo desde projeto é construir e avaliar um classificador de textos de aprendizado incremental baseado em árvore de decisão adaptativa. Árvore de decisão adaptativa Árvore de decisão adaptativa é um dispositivo adaptativo cujo mecanismo subjacente é uma árvore de decisão. Esse dispositivo permite que a estrutura hierárquica da árvore possa ser dinamicamente alterada durante o processo de decisão. Neste projeto foi utilizado uma árvore de decisão adaptativa para construir o classificador a partir do conjunto de treinamento, mais especificamente, foi utilizado o algoritmo AdapTree. O AdapTree é um algoritmo de aprendizado de máquina supervisionado, incremental, que permite que as fases de treinamento e teste sejam executadas intercaladamente.. Classificação de textos é a assinalação automática de um documento de texto em formato eletrônico para um ou mais elementos de um conjunto pré-definido de classes. O problema de classificação de textos é divido em duas partes, a fase de aprendizado e a fase de testes. A fase de aprendizado consiste em construir uma função que dado um texto, ela retorna a categoria do mesmo. Para que o sistema aprenda, é necessário ter como entrada do mesmo um conjunto de documentos já categorizados, chamado de conjunto de treinamento. A fase de testes consiste em utilizar a função construída para classificar um documento de texto. Exemplo de árvore de decisão adaptativa Integrante: Hugo Pessoa de Baraúna Professor orientador: Ricardo Luis de Azevedo Rocha [email protected] [email protected]