INSTITUTO VIANNA JÚNIOR LTDA
FACULDADES INTEGRADAS DO INSTITUTO VIANNA JUNIOR
O TEXT MINING PARA APOIO A TOMADA DE DECISÃO
Lúcia Helena de Magalhães1
Márcio Aarestrup Arbex2
Resumo
Este artigo tem como objetivo fundamentar o propósito da técnica de Text Mining que é
a descoberta de conhecimento, através da análise de grandes conjuntos de textos, que
leva ao apoio à tomada de decisão, o que pode proporcionar uma vantagem competitiva
estratégica a uma empresa.
Palavras
Chaves: Text Mining, Mineração de Dados, Decisão, Empresa,
Conhecimento e Informação.
1
Lúcia Helena de Magalhães, Pós Graduada em Desenvolvimento de Aplicações para Web pelo Centro
de Ensino Superior, Pós Graduada em Matemática e Estatística pela Universidade Federal de Lavras e
Mestranda em Sistemas Computacionais – Computação de Auto-Desempenho pela Universidade Federal
do Rio de Janeiro. Professora de Computação na Universidade Presidente Antonio Carlos e Professora no
Curso de Desenvolvimento Web da Faculdade de Ciências Econômicas Vianna Júnior.
[email protected]
2
Márcio Aarestrup Arbex, Pós Graduado em Sistema de Informação pela Universidade Federal de
Viçosa. Professor de Computação na Universidade Presidente Antonio Carlos e Professor de Sistema de
Informação na Faculdade Doctum. Administrador de Sistemas da BrasilCenter – Embratel.
[email protected]
O TEXT MINING PARA APOIO A TOMADA DE DECISÃO
A dimensão do volume de informações textuais que são geradas no dia-a-dia
torna cada vez maior a necessidade de mecanismos eficientes e eficazes de extração de
conhecimento em textos.
Praticamente não há uma transação que não gere um registro de computador em
algum lugar. A cada ano mais operações estão sendo computadorizadas acumulando
todos os dados em operações, atividades e desempenho. Todos esses dados incluem
informações valiosas, por exemplo, tendências e padrões, aos quais poderiam ser usadas
para melhorar decisões empresariais [Goebel e Gruenwald, 1999]. Entretanto, com essa
grande quantidade de dados nos bancos de dados se torna quase que impossível analisálos manualmente para tomadas de decisões eficientes.
Como a forma mais natural de armazenar informação é texto, text mining
(mineração de textos) tem um potencial maior do que data mining 3pois cerca de 80%
de informações contidas nas organizações estão contidas em documentos textuais.
Porém, é um processo muito mais complexo à medida que envolve procedimentos com
dados textuais que estão em linguagem natural, não estruturados e confusos. Text
mining é um campo multidisciplinar, envolvendo recuperação de informação, análises
textuais, extração de informação, clusterização, categorização, visualização, tecnologias
de base de dados, e data mining [Li et al, 2002].
Text Mining (ou KDT – Descoberta de Conhecimento em Textos) é o processo
de extrair padrões ou conhecimentos interessantes e não-triviais a partir de documentos
textuais.[Tan, 1999]
EBECKEN. N, Apostila. UFRJ. 2006
A tecnologia de Text Mining pode ser usada para formalizar e explorar
conhecimento tácito. O conhecimento disponível com pessoas pode ser armazenado em
textos, os quais serão analisados para se entender seu significado, ou seja, do que tratam
os textos. Depois, pode-se explorar o conhecimento extraído dos textos para gerar novos
conhecimentos que podem de extrema importância para os gestores na tomada de
decisão.
A mineração de textos possui duas fases principais e seqüentes [Hoeschl, Bueno,
Bortolon, Mattos e Ribeiro, 2002]: a extração de informações e a própria mineração de
3
Data Mining ou Mineração de Dados é o processo de descobrir conhecimentos interessantes a partir de
grandes conjuntos de dados, os quais podem estar armazenados em bases de dados ou em outros
repositórios de dados.
dados. A primeira destina-se a extrair conceitos, estatísticas e palavras relevantes de um
conjunto textual para estruturá-los minimamente, preparando-os para a aplicação das
técnicas de mineração de dados. Neste segundo momento aplicam-se as diretrizes e
algoritmos de mineração de dados destinados a gerarem regras, classificações ou
agrupamentos.
HOESCHL, H. C; BUENO, T. C. D.; BORTOLON, A.; MATTOS, E.;
RIBEIRO, M. S. AlphaThemis. UFSC. 2002
Uma vez que conceitos apropriados são extraídos de cada parte do texto,
podemos aplicar vários métodos de análise em Data Mining a uma série de conceitos e a
dados estruturados. Como resultado, até mesmo uma função simples que examina o
aumento e diminuição de ocorrências, pode nos permitir análise em tópicos.
A mineração de textos deve, também, preocupar-se com os problemas básicos de
processamento de linguagem natural, tais como: erros de ortografia e digitação,
problemas de normalização de palavras (variações de gênero, número e flexões verbais)
e ambigüidades semânticas. Embora a mineração de textos possa trabalhar com
qualquer tipo de informação, esta deve seguir alguns critérios [Hoeschl, Bueno,
Bortolon, Mattos e Ribeiro, 2002] quando da visualização pelo usuário:
1. A informação recuperada deve ter valor para o operador do conhecimento. A
mineração de textos deve fornecer novas visões sobre os textos para os operadores do
conhecimento. Isto permite a adição de valores à base de conhecimento;
2. O conteúdo deve ser baseado em texto. Para dados numéricos as tecnologias
existentes estão melhor desenvolvidas;
3. O valor da mineração de textos é diretamente proporcional ao valor do dado
que se está minerando. Quanto mais importante for o conhecimento contido na coleção
de textos, mais valiosa será a mineração;
4. O conteúdo deve estar explicitamente declarado no texto, tais como textos
técnicos e científicos;
5. A mineração de textos é mais valiosa quanto menos estruturado for o texto.
Textos desorganizados, contendo acúmulo de informações são os mais indicados.
Hoje em dia, clientes costumam selecionar produtos e serviços analisando a
competência das organizações e procurando por algum diferencial. Assim, para que as
organizações ganhem e mantenham seus clientes precisam conhecer seus clientes para
identificar suas necessidades, como também saber se elas podem oferecer esse
diferencial ou como poderiam fazê-lo.
Este conhecimento pode estar em diferentes formas e provir de diferentes fontes.
Essas fontes poderiam ser pessoas ligadas à empresa. As pessoas são o foco da empresa,
e fonte principal de conhecimento para que a organização atinja a competência e o
diferencial desejados.
Este conhecimento pode estar disponível internamente com funcionários e
colaboradores, mas também pode ser obtido dos clientes. Os clientes são fonte de
conhecimento e inovação para a organização [Pereira e Angeoli, 2000].
A aplicação de Text Mining tem por objetivo gerar novos conhecimentos sobre
organização, para melhorar processos internos, serviços, produtos e relacionamento com
clientes. O conhecimento tácito (de colaboradores ou de clientes) deve ser armazenado
de forma livre em textos não estruturados.
Como exemplo, aplicando no conhecimento de clientes. O conhecimento tácito
foi coletado através de uma pesquisa com clientes de uma empresa de TV por
assinatura. Sugestões e reclamações dos clientes sobre produtos e serviços da empresa
foram registradas em formato de texto livre (um registro para cada cliente). Depois de
coletados os textos, o processo de formalização4 seguiu com a identificação dos
conceitos presentes.
Na tabela 1 são apresentados alguns exemplos de padrões descobertos nesta
aplicação.
Algumas conclusões podem ser obtidas dos resultados apresentados na tabela.
Metade dos clientes tem alguma sugestão ou reclamação sobre filmes. Em geral, uma
sugestão vem de uma insatisfação e também pode ser considerada uma reclamação, só
que não explícita. Destas reclamações (sobre filmes), 39,5% falam também de
repetição, como pode ser notado nas regras associativas. Segundo o senso comum,
infere-se que esta é uma insatisfação dos clientes. Este então é um ponto fraco da
empresa e seu negócio pode ser melhorado diminuindo-se a repetição de filmes. Ainda
pode-se notar que alguns poucos clientes citaram a concorrência (5,3%), mas este pode
ser um valor alto para a empresa (deve-se analisar a proporção de perdas de clientes).
Destes, segundo as regras associativas, 33,3% citaram o custo. Conclui-se que estes
clientes estão dizendo que a concorrência tem custo menor.
4
A extração de conceitos é feita através de um processo semi-automático. As regras para identificação dos
conceitos são definidas manualmente com auxílio de ferramentas automatizadas. Depois, um processo de
categorização identifica automaticamente os conceitos presentes nos textos usando as regras previamente
definidas.
Na tabela 2, são apresentados os conceitos mais freqüentes nas reclamações dos
clientes do pacote A (mais caro) e dos clientes do pacote D (mais barato).
Observando a tabela 2 nota-se que os clientes do pacote A reclamam menos do
custo que os clientes do pacote D e que os primeiros estão mais insatisfeitos com os
filmas da programação geral do que os segundos. Este conhecimento permite entender
melhor os interesses dos clientes de cada pacote, podendo-se gerar um perfil de clientes
por tipo de pacote.
Na tabela 3, são apresentados os conceitos mais freqüentes por tipo de canal
preferido.
O quadro comparativo da tabela 3 permite traçar um perfil do cliente por
interesse. Nota-se que 15,2% dos clientes que preferem canais de esportes citaram
também o conceito “pay per view”, talvez estando mais suscetíveis a fazer aquisições
deste tipo do que os demais (4,7% em filmes e 7,7% em notícias). Pode-se também
notar que os clientes que citaram os canais de filmes como preferidos também citaram o
conceito “ponto extra” (os outros não). Disto pode-se inferir que estes clientes estão
mais interessados em ter um ponto extra. Dos clientes que escolheram um canal de
esporte como favorito, 15,2% citaram a concorrência (bem mais que os demais
clientes). Isto levanta a hipótese de que a concorrência possa estar oferecendo algo
melhor em termos de esportes. Analisando-se as regras associativas desta primeira, não
foi detectado nenhum padrão associativo entre “pay per view” e “concorrente”. Assim,
pode-se inferir que estes 15,2% referentes aos dois conceitos não são os mesmos
clientes, ou seja, quem cita um destes dois conceitos provavelmente não cita o outro.
[Loh, Reategui, Wives, Oliveira e Gameiro, 2001]
CONCLUSÃO
O aumento do volume de informação que são geradas no dia-a-dia de empresas e
as taxas diárias de crescimento exigem mecanismos capazes de prover, de maneira
rápida fácil, a descoberta de novos conhecimentos.
A tecnologia de Text Mining pode ser usada para formalizar e explorar
conhecimento tácito, se este for capturado em textos. A abordagem procura descobrir
padrões, tendências e correlações ocultas em textos, o que permite gerar novos
conhecimentos sobre a organização, proporcionando vantagem competitiva às
empresas.
No mercado as empresas procuram consolidar excelências no fornecimento de
produtos para esse fim e as indicações de crescimento e importância do segmento são
claras.
REFERÊNCIAS BIBLIOGRÁFICAS
Goebel, M.; Gruenwald L. “A survey of data mining and knowledge discovery
software tools”. In: ACM SIGKDD Explorations Newsletter. 1. ed. vol. 1 1999.
Hoeschl, H. C; Bueno, T. C. D.; Bortolon, A.; Mattos, E.; Ribeiro, M. S.
“AlphaThemis - Do texto ao conhecimento”. 2002. 11 f. Programa de Pós-Graduação
em Engenharia de Produção, Universidade Federal de Santa Catarina. Campus
Universitário, Trindade, Florianópolis, Santa Catarina, Brasil.
IBM. IBM Intelligent Miner for Text. In: IBM Business Intelligence Solutions CD.
EUA: 1998. CD-ROM.
Li, T.; Li, Q.; Zhu, S..; Ogihara, M.. “A survey on wavelet applications in data
mining”.In: ACM SIGKDD Explorations Newsletter. 2. ed. vol.4. 2002.
PEREIRA, Rita C. F. & ANGELONI, M. T. (2000). “O relacionamento com os
clientes para transformação do conhecimento na organização”. In: LETHELIER,
E. et al. (eds). Proceedings, International Symposium on Knowledge Management /
Document Management, Novembro de 2000. Curitiba: Editora Universitária
Champagnat, p.89-104.
Agrawal, R.; Imielinski, T.; Swami, A. “Mining Association Rules Between Sets of
Items in Large Databases”, Proceedings of the ACM SIGMOD ’93 (1993), pp. 207–
216.
Loh, S.; Reategui, E. B.; Wives, L. K.; Oliveira, J. P. M.; Gameiro, M. A..
“Formalizando e Explorando Conhecimento Tácito com a Tecnologia de Text
Mining para Inteligência com a Tecnologia de Text Mining para Inteligência.” In:
ISKM/DM '2001, 2001, Curitiba, 13 a 15 de Agosto. Anais. 2001. v. 1, p. 379-397.
Tan, Ah-Hwee. (1999). “Text mining: the state of the art and the challenges”. In:
Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases –
PAKDD’99, p.65-70, Beijing, April 1999. Disponível por WWW em
http://textmining.krdl.org.sg/publications.html.
TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text
Mining. Disponível em: <http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em:
30/01/2002.
Download

o text mining para apoio a tomada de decisão