INSTITUTO VIANNA JÚNIOR LTDA FACULDADES INTEGRADAS DO INSTITUTO VIANNA JUNIOR O TEXT MINING PARA APOIO A TOMADA DE DECISÃO Lúcia Helena de Magalhães1 Márcio Aarestrup Arbex2 Resumo Este artigo tem como objetivo fundamentar o propósito da técnica de Text Mining que é a descoberta de conhecimento, através da análise de grandes conjuntos de textos, que leva ao apoio à tomada de decisão, o que pode proporcionar uma vantagem competitiva estratégica a uma empresa. Palavras Chaves: Text Mining, Mineração de Dados, Decisão, Empresa, Conhecimento e Informação. 1 Lúcia Helena de Magalhães, Pós Graduada em Desenvolvimento de Aplicações para Web pelo Centro de Ensino Superior, Pós Graduada em Matemática e Estatística pela Universidade Federal de Lavras e Mestranda em Sistemas Computacionais – Computação de Auto-Desempenho pela Universidade Federal do Rio de Janeiro. Professora de Computação na Universidade Presidente Antonio Carlos e Professora no Curso de Desenvolvimento Web da Faculdade de Ciências Econômicas Vianna Júnior. [email protected] 2 Márcio Aarestrup Arbex, Pós Graduado em Sistema de Informação pela Universidade Federal de Viçosa. Professor de Computação na Universidade Presidente Antonio Carlos e Professor de Sistema de Informação na Faculdade Doctum. Administrador de Sistemas da BrasilCenter – Embratel. [email protected] O TEXT MINING PARA APOIO A TOMADA DE DECISÃO A dimensão do volume de informações textuais que são geradas no dia-a-dia torna cada vez maior a necessidade de mecanismos eficientes e eficazes de extração de conhecimento em textos. Praticamente não há uma transação que não gere um registro de computador em algum lugar. A cada ano mais operações estão sendo computadorizadas acumulando todos os dados em operações, atividades e desempenho. Todos esses dados incluem informações valiosas, por exemplo, tendências e padrões, aos quais poderiam ser usadas para melhorar decisões empresariais [Goebel e Gruenwald, 1999]. Entretanto, com essa grande quantidade de dados nos bancos de dados se torna quase que impossível analisálos manualmente para tomadas de decisões eficientes. Como a forma mais natural de armazenar informação é texto, text mining (mineração de textos) tem um potencial maior do que data mining 3pois cerca de 80% de informações contidas nas organizações estão contidas em documentos textuais. Porém, é um processo muito mais complexo à medida que envolve procedimentos com dados textuais que estão em linguagem natural, não estruturados e confusos. Text mining é um campo multidisciplinar, envolvendo recuperação de informação, análises textuais, extração de informação, clusterização, categorização, visualização, tecnologias de base de dados, e data mining [Li et al, 2002]. Text Mining (ou KDT – Descoberta de Conhecimento em Textos) é o processo de extrair padrões ou conhecimentos interessantes e não-triviais a partir de documentos textuais.[Tan, 1999] EBECKEN. N, Apostila. UFRJ. 2006 A tecnologia de Text Mining pode ser usada para formalizar e explorar conhecimento tácito. O conhecimento disponível com pessoas pode ser armazenado em textos, os quais serão analisados para se entender seu significado, ou seja, do que tratam os textos. Depois, pode-se explorar o conhecimento extraído dos textos para gerar novos conhecimentos que podem de extrema importância para os gestores na tomada de decisão. A mineração de textos possui duas fases principais e seqüentes [Hoeschl, Bueno, Bortolon, Mattos e Ribeiro, 2002]: a extração de informações e a própria mineração de 3 Data Mining ou Mineração de Dados é o processo de descobrir conhecimentos interessantes a partir de grandes conjuntos de dados, os quais podem estar armazenados em bases de dados ou em outros repositórios de dados. dados. A primeira destina-se a extrair conceitos, estatísticas e palavras relevantes de um conjunto textual para estruturá-los minimamente, preparando-os para a aplicação das técnicas de mineração de dados. Neste segundo momento aplicam-se as diretrizes e algoritmos de mineração de dados destinados a gerarem regras, classificações ou agrupamentos. HOESCHL, H. C; BUENO, T. C. D.; BORTOLON, A.; MATTOS, E.; RIBEIRO, M. S. AlphaThemis. UFSC. 2002 Uma vez que conceitos apropriados são extraídos de cada parte do texto, podemos aplicar vários métodos de análise em Data Mining a uma série de conceitos e a dados estruturados. Como resultado, até mesmo uma função simples que examina o aumento e diminuição de ocorrências, pode nos permitir análise em tópicos. A mineração de textos deve, também, preocupar-se com os problemas básicos de processamento de linguagem natural, tais como: erros de ortografia e digitação, problemas de normalização de palavras (variações de gênero, número e flexões verbais) e ambigüidades semânticas. Embora a mineração de textos possa trabalhar com qualquer tipo de informação, esta deve seguir alguns critérios [Hoeschl, Bueno, Bortolon, Mattos e Ribeiro, 2002] quando da visualização pelo usuário: 1. A informação recuperada deve ter valor para o operador do conhecimento. A mineração de textos deve fornecer novas visões sobre os textos para os operadores do conhecimento. Isto permite a adição de valores à base de conhecimento; 2. O conteúdo deve ser baseado em texto. Para dados numéricos as tecnologias existentes estão melhor desenvolvidas; 3. O valor da mineração de textos é diretamente proporcional ao valor do dado que se está minerando. Quanto mais importante for o conhecimento contido na coleção de textos, mais valiosa será a mineração; 4. O conteúdo deve estar explicitamente declarado no texto, tais como textos técnicos e científicos; 5. A mineração de textos é mais valiosa quanto menos estruturado for o texto. Textos desorganizados, contendo acúmulo de informações são os mais indicados. Hoje em dia, clientes costumam selecionar produtos e serviços analisando a competência das organizações e procurando por algum diferencial. Assim, para que as organizações ganhem e mantenham seus clientes precisam conhecer seus clientes para identificar suas necessidades, como também saber se elas podem oferecer esse diferencial ou como poderiam fazê-lo. Este conhecimento pode estar em diferentes formas e provir de diferentes fontes. Essas fontes poderiam ser pessoas ligadas à empresa. As pessoas são o foco da empresa, e fonte principal de conhecimento para que a organização atinja a competência e o diferencial desejados. Este conhecimento pode estar disponível internamente com funcionários e colaboradores, mas também pode ser obtido dos clientes. Os clientes são fonte de conhecimento e inovação para a organização [Pereira e Angeoli, 2000]. A aplicação de Text Mining tem por objetivo gerar novos conhecimentos sobre organização, para melhorar processos internos, serviços, produtos e relacionamento com clientes. O conhecimento tácito (de colaboradores ou de clientes) deve ser armazenado de forma livre em textos não estruturados. Como exemplo, aplicando no conhecimento de clientes. O conhecimento tácito foi coletado através de uma pesquisa com clientes de uma empresa de TV por assinatura. Sugestões e reclamações dos clientes sobre produtos e serviços da empresa foram registradas em formato de texto livre (um registro para cada cliente). Depois de coletados os textos, o processo de formalização4 seguiu com a identificação dos conceitos presentes. Na tabela 1 são apresentados alguns exemplos de padrões descobertos nesta aplicação. Algumas conclusões podem ser obtidas dos resultados apresentados na tabela. Metade dos clientes tem alguma sugestão ou reclamação sobre filmes. Em geral, uma sugestão vem de uma insatisfação e também pode ser considerada uma reclamação, só que não explícita. Destas reclamações (sobre filmes), 39,5% falam também de repetição, como pode ser notado nas regras associativas. Segundo o senso comum, infere-se que esta é uma insatisfação dos clientes. Este então é um ponto fraco da empresa e seu negócio pode ser melhorado diminuindo-se a repetição de filmes. Ainda pode-se notar que alguns poucos clientes citaram a concorrência (5,3%), mas este pode ser um valor alto para a empresa (deve-se analisar a proporção de perdas de clientes). Destes, segundo as regras associativas, 33,3% citaram o custo. Conclui-se que estes clientes estão dizendo que a concorrência tem custo menor. 4 A extração de conceitos é feita através de um processo semi-automático. As regras para identificação dos conceitos são definidas manualmente com auxílio de ferramentas automatizadas. Depois, um processo de categorização identifica automaticamente os conceitos presentes nos textos usando as regras previamente definidas. Na tabela 2, são apresentados os conceitos mais freqüentes nas reclamações dos clientes do pacote A (mais caro) e dos clientes do pacote D (mais barato). Observando a tabela 2 nota-se que os clientes do pacote A reclamam menos do custo que os clientes do pacote D e que os primeiros estão mais insatisfeitos com os filmas da programação geral do que os segundos. Este conhecimento permite entender melhor os interesses dos clientes de cada pacote, podendo-se gerar um perfil de clientes por tipo de pacote. Na tabela 3, são apresentados os conceitos mais freqüentes por tipo de canal preferido. O quadro comparativo da tabela 3 permite traçar um perfil do cliente por interesse. Nota-se que 15,2% dos clientes que preferem canais de esportes citaram também o conceito “pay per view”, talvez estando mais suscetíveis a fazer aquisições deste tipo do que os demais (4,7% em filmes e 7,7% em notícias). Pode-se também notar que os clientes que citaram os canais de filmes como preferidos também citaram o conceito “ponto extra” (os outros não). Disto pode-se inferir que estes clientes estão mais interessados em ter um ponto extra. Dos clientes que escolheram um canal de esporte como favorito, 15,2% citaram a concorrência (bem mais que os demais clientes). Isto levanta a hipótese de que a concorrência possa estar oferecendo algo melhor em termos de esportes. Analisando-se as regras associativas desta primeira, não foi detectado nenhum padrão associativo entre “pay per view” e “concorrente”. Assim, pode-se inferir que estes 15,2% referentes aos dois conceitos não são os mesmos clientes, ou seja, quem cita um destes dois conceitos provavelmente não cita o outro. [Loh, Reategui, Wives, Oliveira e Gameiro, 2001] CONCLUSÃO O aumento do volume de informação que são geradas no dia-a-dia de empresas e as taxas diárias de crescimento exigem mecanismos capazes de prover, de maneira rápida fácil, a descoberta de novos conhecimentos. A tecnologia de Text Mining pode ser usada para formalizar e explorar conhecimento tácito, se este for capturado em textos. A abordagem procura descobrir padrões, tendências e correlações ocultas em textos, o que permite gerar novos conhecimentos sobre a organização, proporcionando vantagem competitiva às empresas. No mercado as empresas procuram consolidar excelências no fornecimento de produtos para esse fim e as indicações de crescimento e importância do segmento são claras. REFERÊNCIAS BIBLIOGRÁFICAS Goebel, M.; Gruenwald L. “A survey of data mining and knowledge discovery software tools”. In: ACM SIGKDD Explorations Newsletter. 1. ed. vol. 1 1999. Hoeschl, H. C; Bueno, T. C. D.; Bortolon, A.; Mattos, E.; Ribeiro, M. S. “AlphaThemis - Do texto ao conhecimento”. 2002. 11 f. Programa de Pós-Graduação em Engenharia de Produção, Universidade Federal de Santa Catarina. Campus Universitário, Trindade, Florianópolis, Santa Catarina, Brasil. IBM. IBM Intelligent Miner for Text. In: IBM Business Intelligence Solutions CD. EUA: 1998. CD-ROM. Li, T.; Li, Q.; Zhu, S..; Ogihara, M.. “A survey on wavelet applications in data mining”.In: ACM SIGKDD Explorations Newsletter. 2. ed. vol.4. 2002. PEREIRA, Rita C. F. & ANGELONI, M. T. (2000). “O relacionamento com os clientes para transformação do conhecimento na organização”. In: LETHELIER, E. et al. (eds). Proceedings, International Symposium on Knowledge Management / Document Management, Novembro de 2000. Curitiba: Editora Universitária Champagnat, p.89-104. Agrawal, R.; Imielinski, T.; Swami, A. “Mining Association Rules Between Sets of Items in Large Databases”, Proceedings of the ACM SIGMOD ’93 (1993), pp. 207– 216. Loh, S.; Reategui, E. B.; Wives, L. K.; Oliveira, J. P. M.; Gameiro, M. A.. “Formalizando e Explorando Conhecimento Tácito com a Tecnologia de Text Mining para Inteligência com a Tecnologia de Text Mining para Inteligência.” In: ISKM/DM '2001, 2001, Curitiba, 13 a 15 de Agosto. Anais. 2001. v. 1, p. 379-397. Tan, Ah-Hwee. (1999). “Text mining: the state of the art and the challenges”. In: Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases – PAKDD’99, p.65-70, Beijing, April 1999. Disponível por WWW em http://textmining.krdl.org.sg/publications.html. TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em: <http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/01/2002.