Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Ciência da Computação
YUSSIF TADEU DE BARCELOS
VISUALIZAÇÃO DE DADOS
APLICADA AO MARKETIG
Belo Horizonte
2013 / 1º semestre
Universidade Federal de Minas Gerais
Instituto de Ciências Exatas
Departamento de Ciência da Computação
Curso de Bacharelado em Sistemas de Informação
VISUALIZAÇÃO DE DADOS
APLICADA AO MARKETIG
por
Yussif Tadeu de Barcelos
Apresentado como requisito da disciplina de Atividade Prática
Integradora do Curso de Bacharelado em Sistemas de Informação
da UFMG
Prof. Dr. Marlusa Gosling
Departamento de Ciências Administrativas
Prof. Dr. Raquel Cardoso de Melo Minardi
Departamento de Ciências da Computação
Mestranda Mariana de Freitas Coelho
Departamento de Ciências Administrativas
Belo Horizonte
2013 / 1º semestre
AGRADECIMETOS
Agradeço à minha mãe, pela paciência e garrafas de café.
Às professoras Marlusa e Raquel, pelos conhecimentos adquiridos e pelo apoio.
À Mariana Coelho, pelas ideias e apoio nas etapas do trabalho.
Ao Alexandre Brina, pela compreensão e apoio.
E finalmente aos colegas de curso pela convivência, trocas e compartilhamento do meu
entusiasmo com este trabalho.
RESUMO
O principal objetivo do presente trabalho é demonstrar os benefícios da utilização de
ferramentas de visualização de dados como auxiliadoras na análise dos dados e na
descoberta intuitiva de informações em um complexo conjunto de dados. Este projeto
teve como base o estudo “Comentar Bem ou Mal na Internet? O Engajamento de
Viajantes em Reviews de Hotéis” da mestranda Mariana de Freitas Coelho, que objetiva
avaliar o engajamento de viajantes com hotéis de um destino turístico através de reviews
online nos websistes de planejamento de viagens Booking.com e TripAdvisor. Foram
analisados comentários no TripAdvisor de 6 hotéis da cidade de Ouro Preto, Minas
Gerais, de forma qualitativa e exploratória nos conteúdos e dados destes comentários.
Os dados foram coletados automaticamente, pré-processados, categorizados e
disponibilizados em visualizações interativas e dinâmicas para análises qualitativas e
quantitativas dos comentários. As visualizações se aplicam tanto a usuários interessados
nos hotéis e que desejam conhecer a reputação dos mesmos do ponto de vista de outros
usuários quanto aos gerentes destes hotéis que almejam conhecer as opiniões de seus
clientes e assim poder tomar decisões administrativas.
Palavras-chave:.
Visualização de Dados, Text Mining, Marketing, Reviews de Hoteis, TripAdvisor
LISTA DE FIGURAS
Figura 1 – Página do TripAdvisor para o Hotel Solar do Rosário .................................. 3
Figura 2 – Processo de Text Mining segundo Liddy (2000) .......................................... 7
Figura 3 – Diagrama de camadas de mineração de texto segundo Aranha (2007) ......... 7
Figura 4 – Menu de Processamento de Dados ............................................................... 11
Figura 5 – HTML do Hotel Solar do Rosário ................................................................ 12
Figura 6 – Arquivo de carga de hotéis e arquivo exemplo de dados coletados ............. 12
Figura 7 – Cadastro de Categorias de Termos ................................................................13
Figura 8 – Cadastro de Macro-Temas de Termos ......................................................... 14
Figura 9 – Cadastro de Termos ...................................................................................... 15
Figura 10 – Exemplos de comentários indexados e analisados .................................... 16
Figura 11 – Relatório de Visualização de Comentários ................................................ 18
Figura 12 – Detalhes de Comentários em Relatório de Visualização de Comentários...19
Figura 13 – Visualização em Bolhas de Macro Temas por Hotel ................................. 19
Figura 14 – Visualização em Barras de Macro Temas por Hotel ................................. 20
Figura 15 – Visualização Mapa Mundi ......................................................................... 21
SUMÁRIO
RESUMO............................................................................................................................................................. IV
LISTA DE FIGURAS........................................................................................................................................... V
1
ITRODUÇÃO ............................................................................................................................................1
2
COTEXTUALIZAÇÃO E TRABALHOS RELACIOADOS.............................................................2
2.1
COMENTAR BEM OU MAL NA INTERNET? O ENGAJAMENTO DE VIAJANTES EM
REVIEWS DE HOTÉIS......................................................................................................................................4
2.2
TEXT MINING (MINERAÇÃO DE TEXTO) .....................................................................................6
3
DESEVOLVIMETO DO TRABALHO................................................................................................9
3.1
DEFINIÇÕES GERAIS......................................................................................................................10
3.2
COLETA DE DADOS........................................................................................................................12
3.2.1
LIMITAÇÕES.................................................................................................................................13
3.3
CADASTRO DE CATEGORIA DE TERMOS..................................................................................13
3.4
CADASTRO DE MACRO-TEMAS DE TERMOS ...........................................................................14
3.5
CADASTRO DE TERMOS................................................................................................................14
3.6
PRÉ-PROCESSAMENTO, INDEXAÇÃO SIMPLES E ANÁLISE DE TERMOS DE
COMENTÁRIOS..............................................................................................................................................15
3.6.1
ITERPRETAÇÃO DE TERMOS COMPOSTOS..........................................................................16
3.7
EXPORTAÇÃO DE DADOS PARA VISUALIZAÇÕES .................................................................17
3.8
EXIBIÇÃO DE INFORMAÇÕES EM VISUALIZAÇÕES...............................................................18
3.8.1
VISUALIZAÇÃO DE COMETÁRIOS..........................................................................................18
3.8.2
VISUALIZAÇÃO DE MACRO TEMAS EM BOLHAS ...................................................................19
3.8.3
VISUALIZAÇÃO DE MACRO TEMAS EM BARRAS ....................................................................20
3.8.4
VISUALIZAÇÃO MAPA MUDI...................................................................................................20
4
RESULTADOS E DISCUSSÃO ...............................................................................................................22
5
COCLUSÕES E TRABALHO FUTUROS...........................................................................................23
6
REFERÊCIAS .........................................................................................................................................24
1
1
ITRODUÇÃO
A visualização de dados é o estudo da representação visual dos dados, definidos como
informações que podem ser abstraídas de forma esquemática, incluindo atributos ou variáveis
das unidades de informação. Para transmitir ideias efetivamente, tanto a forma estética quanto
as necessidades funcionais precisam estar equilibradas, promovendo a compreensão de um
complexo conjunto de dados, comunicando seus principais aspectos de uma forma mais
intuitiva.
O marketing é “a área do conhecimento que engloba todas as atividades concernentes às
relações de troca, orientadas para a satisfação dos desejos e necessidades dos consumidores,
visando alcançar determinados objetivos de empresas ou indivíduos e considerando sempre o
meio ambiente de atuação e o impacto que essas relações causam no bem-estar da sociedade”
(Las Casas, 1997, p. 27). As atividades de um gestor de marketing abrangem um leque muito
amplo, desde o estudo de mercado, fixação de preço, definição de uma estratégia, promoção,
distribuição, vendas e assistência pós-venda.
A necessidade de cruzar informações para realizar uma gestão empresarial eficiente é hoje
uma realidade. As empresas estão cada vez mais procurando ferramentas para análises
estratégicas de seus dados, principalmente aquelas que se encontram em áreas altamente
competitivas e que compreendem que a informação e o conhecimento constituem o principal
diferencial competitivo em um mercado tão acirrado.
Este projeto teve como base a sua aplicação no estudo “Comentar Bem ou Mal na Internet? O
Engajamento de Viajantes em Reviews de Hotéis”, da mestranda em “Administração
Estratégica e Marketing” Mariana de Freitas Coelho e orientadora Marlusa Gosling.
O envolvimento das áreas administrativas e de visualização de dados é importante para o
entendimento das necessidades administrativas e a aplicabilidade das visualizações. Nesta
API foram elaboradas visualizações interativas para serem utilizadas por gestores
administrativos em suas análises dos comentários dos clientes e por usuários interessados nos
comentários de outros clientes dos hotéis e assim conhecer melhor a reputação e as
características dos serviços do hotel.
A API demanda entendimento de algoritmos, banco de dados e visualização de informações
(exigindo boa habilidade técnica dentro dessas áreas), além de conhecimentos administrativo,
gerencial, estratégico, de planejamento e marketing. Assim, o projeto foi interessante para o
aluno de Sistemas de Informação colocar em prática os conhecimentos adquiridos nas
disciplinas administrativas e técnicas estudadas durante a graduação.
2
2
COTEXTUALIZAÇÃO E TRABALHOS RELACIOADOS
É difícil compreender com exatidão as necessidades e anseios dos consumidores, sejam
clientes atuais ou clientes em potencial, e essa dificuldade é ampliada quando estes clientes
expressam as suas opiniões em ferramentas on-line uma vez que não há o contato e
comunicação corpo a corpo, perdendo as nuances que existem na linguagem corporal e na
comunicação oral como sinais de gratidão, irritação, felicidade, ironia, desprezo, etc.
Podemos citar alguns fatores que são comuns nessa falha de comunicação entre o cliente e o
fornecedor, como a dificuldade do cliente em articular quais são as suas reais necessidades
(Gosling, 2012), problemas de semântica e de significado (Gosling, 2012), necessidades das
quais o cliente não tem consciência (Gosling, 2012), dificuldades do fornecedor em
compreender o perfil do cliente e de interpretar a comunicação de seus clientes. As empresas
devem ir além de simplesmente perguntar o que os clientes desejam.
Ao identificar e selecionar o seus mercados-alvo, as empresas podem assumir algumas
atitudes voltadas ao marketing. Segundo Gosling (2013):
• marketing reativo: preencher uma necessidade declarada com a solução;
• marketing pró-ativo: identificar quais necessidades os clientes possam vir a ter em um
futuro próximo;
• marketing criativo: descobrir e produzir soluções que os clientes não pediram, mas às
quais respondem com entusiasmo
Entender e mensurar as definições do seu cliente e mercado-alvo para valor, satisfação e
qualidade são requisitos importantes para uma empresa que deseja ser mais competitiva, estar
a frente de seus concorrentes, reter os seus clientes, atrair novos clientes e influenciar a
decisão de compra por estes clientes.
O valor entregue ao cliente é a diferença entre os benefícios que o cliente recebe e os custos
em que ele incorre para adquirir o produto ou serviço (Gosling, 2012). A satisfação consiste
na sensação de prazer ou desapontamento resultante da comparação do desempenho (ou
resultado) percebido de um produto em relação às expectativas do comprador (Gosling,
2012). A qualidade para o cliente pode ser definida como a totalidade dos atributos e
características de um produto ou serviço que afetam sua capacidade de satisfazer necessidades
declaradas ou implícitas (Gosling, 2012).
A empresa deve reconhecer que seus clientes possuem diversidade de experiências, padrões e
expectativas que influenciam na percepção das variáveis de valor, satisfação e qualidade,
além, é claro, de outras variáveis externas. Assim, as empresas precisam estar cientes também
que os clientes divergem na classificação de um atributo e os clientes podem estar satisfeitos e
insatisfeitos por motivos diferentes.
Clientes satisfeitos são aliados importantes para a empresa, pois Gosling (2013) explica que
estes clientes “permanecem fiéis por mais tempo, consomem e compram mais, falam
favoravelmente da empresa e de seus produtos e serviços, são mais fiéis à marca e menos
sensíveis a preço, oferecem ideias sobre produtos ou serviços à empresa, influenciam amigos
e familiares”. Assim, percebemos que é imprescindível para a empresa identificar quais são os
3
fatores que geram satisfação e insatisfação em seus clientes e eliminar, ou pelo menos
minimizar, as fontes de problema das insatisfações.
O TripAdvisor é uma ferramenta web gratuita para planejamento de viagens bastante
conhecida e utilizada como fonte de dados por consumidores em busca de informações sobre
hotéis e turismo. Este site apresenta informações e fotos disponibilizadas pelo próprio hotel e
reviews (comentários e avaliações) de usuários sobre suas experiências no hotel selecionado.
Figura 1 – Página do TripAdvisor para o Hotel Solar do Rosário
Ao explorar os conteúdos dos comentários e as avaliações dos usuários do TripAdvisor é
possível realizar uma análise da satisfação dos clientes dos hotéis, identificar os termos e
4
temas comentados pelos usuários, classificar e relacionar estes temos e temas com a satisfação
dos consumidores.
Este trabalho explora o estudo abordado no artigo “Comentar Bem ou Mal na Internet? O
Engajamento de Viajantes em Reviews de Hotéis” (Coelho, Mariana, 2013) e apresenta uma
solução computacional para auxiliar os usuários do TripAdvisor e gestores de hotéis na
análise de satisfação dos consumidores, a reputação dos hotéis e os termos e macro-temas
mais mencionados pelos consumidores.
Assim como no artigo, este trabalho considera os mesmos hotéis em Ouro Preto, Minas
Gerais. Os hotéis são: Solar do Rosário, Pousada Arcanjo, Luxor, Pousada Clássica, Boroni
Palaci Hotel, Grande Hotel Ouro Preto. Foram analisados reviews publicados até 30 de junho
de 2013.
A implementação da solução computacional envolveu as etapas de coleta e pré-processamento
de mineração de texto (text mining), armazenamento de informações em um banco de dados, a
categorização e classificação de termos, o processamento dos textos dos comentários
aplicando índice dos termos categorizados, o processamento e contagem dos termos
agrupando-os como avaliações e macro-temas, a disponibilização dos dados em visualizações
web utilizando a biblioteca D3JS.
2.1
COMETAR BEM OU MAL A ITERET? O EGAJAMETO DE
VIAJATES EM REVIEWS DE HOTÉIS
Nesta seção exponho trechos do artigo da Mestranda Mariana de Freitas Coelho que
contribuíram para a definição do objetivo e ideias para a implementação deste projeto da
disciplina de Atividades Práticas Integradoras. Os trechos foram reproduzidos da versão
parcial do artigo recebida em meados de abril de 2013 e não possuem alterações.
Este artigo tem como objetivo avaliar o que viajantes comentam em websites de avaliação de
hotéis utilizados como planejadores de viagem. Para tanto, pretende-se descobrir se o
conteúdo dos reviews dos viajantes tendem a passar mensagens positivas ou negativas (SEN;
LERMAN, 2007) sobre o hotel visitado. E ainda, visa-se explorar o conteúdo dos reviews dos
hotéis, identificando os principais macro temas mencionados pelos viajantes e a presença de
pistas sobre a reputação online do destino turístico.
Há aumento no número de viajantes utilizando a internet para planejar suas viagens (Ye et
al., 2010). Ainda, o empoderamento dos viajantes ao planejarem suas viagens tem estimulado
a reserva e compra de produtos e serviços turísticos através de websites (TIERNEY, 2000),
além de possibilitar a interação e aconselhamento entre consumidores (BUHALIS, 2008).
Para Xiang e Gretzel (2010) a prática de marketing de turismo atualmente tem dado atenção
ao uso de mídia social para criar imagens positivas e comunicação boca-a-boca para destinos
e empreendimentos turísticos.
Yet et al. (2009) encontram em seu estudo que reviews positivos online podem aumentar
significativamente as reservas em um hotel. Já Vermeulen e Seegers (2009) encontram que a
simples exposição a um review online aumenta a probabilidade média dos viajantes
5
considerarem a reserva no hotel revisado. Vermeulen e Seegers (2009) também ressaltam que
todos os reviews, negativos ou positivos, fazem com que os viajantes potenciais fiquem mais
conscientes da existência do hotel. Sen e Lerman (2007) afirmam que reviews online
negativos tendem a pesar mais na avaliação de consumidores do que os positivos para a
tomada de decisão.
Ainda, reviews de outros viajantes são percebidos pelas pessoas que os leem como mais
atuais, aprazíveis e confiáveis do que as informações de empresas turísticas (MIGUÉNS et al.,
2008; YE et al., 2009). Portanto, consumidores criam conteúdo coletivamente ou
individualmente e são participantes ativos na co-criação de valor para questões importantes
para os mesmoes (PARK; ALLEN, 2013) e essa dinâmica de co-criação interfere na
reputação do destino turístico.
O método adotado para o tratamento dos dados foi exploratório, de natureza qualitativa
(MALHOTRA, 2004). Optou-se pela utilização de dados secundários, presentes nos reviews
dos hotéis selecionados, compostos por notas e avaliações dos viajantes dos hotéis. Utilizouse para o estudo reviews publicados nos sites até 15 de janeiro de 2013.
Os dados dos 606 reviews avaliados foram tratados de forma comparativa entre os websites
Booking.com e TripAdvisor, da seguinte maneira:
• Passo 1 – Criação de um índice de favorabilidade a partir das soma das notas das
avaliações, divididas pela quantidade total de comentários e posterior rankeamento
dos hotéis estudados.
• Passo 2 – Verificação se os comentários escritos pelos viajantes tendem a apresentar
um conteúdo que destaca aspectos positivos ou negativos do hotel e/ou destino
turístico, por meio de análise de conteúdo;
• Passo 3 – Categorização dos principais macro temas abordados nos conteúdo dos
reviews, através de uma análise de conteúdo;
• Passo 4 – definição das características interativas dos sites;
• Passo 5 – Apuração da relação entre o conteúdo dos reviews e pistas sobre o destino
turístico, as quais possam refletir sua reputação.
Os principais elementos de macro-temas destacados nas avaliações escritas foram
características do quarto, localização, qualidade da gastronomia (café da manhã e/ou
restaurante), qualidade do atendimento/ funcionários, preço, limpeza, decoração, além do
barulho percebido dentro das instalações do hotel.
Dentre os pontos positivos destacados pelos viajantes estão características arquitetônicas,
estéticas e serviços complementares, que também apareceram como destaques de bom
serviço. Pode-se considerar que os diferenciais de cada hotel são notados e destacados pelos
viajantes nos seus reviews, principalmente dentre os comentários positivos ou mistos.
Nos pontos negativos percebidos pelos viajantes estão problemas com o quarto (LEVY et al.,
2013) e problemas com o hotel. Reclamações referentes aos funcionários (LEVY et al., 2013)
aparecem timidamente. Outra reclamação citada em todos os hotéis foi a questão do preço.
Alguns viajantes não concordaram com o valor cobrado pelo hotel, percebendo o serviço
oferecido como sendo de menor valia do que o serviço recebido. A acessibilidade do hotel,
como a falta de elevadores, também foi característica notada como negativa para alguns
viajantes que avaliaram os hotéis.
6
No artigo observou-se a tendência dos viajantes atribuírem notas acima da média para os
hotéis no meio online, mesmo quando o conteúdo do review possui uma mensagem negativa
sobre o estabelecimento. Além disso, os estudos demonstraram que a maioria dos viajantes
pondera entre pontos positivos e negativos da estadia ao engajar com o hotel através de um
review, oferecendo pistas sobre a reputação do destino turístico para futuros viajantes que
utilizem essa informação para planejar suas viagens.
2.2
TEXT MIIG (MIERAÇÃO DE TEXTO)
De acordo com Liddy (2000), text mining é o processo de análise natural de ocorrência de
texto com a finalidade de descobrir e capturar informações semânticas para inserção e
armazenamento em uma Estrutura de Organização do Conhecimento (KOS) com o objetivo
de permitir a descoberta de conhecimento, através de acesso textual ou visual, para uso em
uma ampla gama de aplicações (tradução livre).
Hearst, M. A. (1999) define que text mining, como análise de dados exploratória, é um
método para apoiar pesquisadores e derivar novas e relevantes informações de uma grande
coleção de textos. É um processo parcialmente automatizado onde o pesquisador ainda está
envolvido, interagindo com o sistema.
Aranha (2007) complementa a definição ao dizer que a mineração de texto é interdisciplinar
com influências de áreas como Processamento de Linguagem Natural (PLN), Recuperação da
Informação (RI), Inteligência Artificial (IA) e Ciência Cognitiva.
Liddy (2000)[tradução livre] define que o processo de mineração de texto consiste em 3
etapas:
•
Text Preparation: seleção, limpeza e pré-processamento do texto. Nesta fase ocorre a
seleção de sites ou fontes de texto com um pré-processamento inicial, como a
identificação de parágrafos/sentenças e classes de palavras.
•
Text Processing: uso do algoritmo de data-mining para processamento dos dados
preparados, comprimindo e transformando esses dados para identificar pepitas (como
mineração de ouro) de informação latentes. Nesta etapa um sistema de PLN
inteiramente caracterizado determina identidades canônicas e variante de entidades
(pessoas, empresas, organizações, etc.), identificando relações conceituais entre
entidades e até mesmo instanciar quadros de interesse.
•
Text Analysis: fase de avaliação da saída para ver se o conhecimento foi descoberto e
determinar a sua importância. Após executado os algoritmos de processamento, os
textos/dados extraído são submetido a várias técnicas que permitirão a utilização direta
da informação extraída ou através da visualização em uma ferramenta que permitirá a
análise humana para completar a análise iniciada pela ferramenta de mineração de
texto.
7
Figura 2 – Processo de Text Mining segundo Liddy (2000)
Aranha (2007) apresenta em sua tese a expansão deste modelo para 5 etapas. A figura 3
apresenta o processo do início ao fim, passando por todas as etapas. A sequência como é
mostrado na figura é uma tendência encontrada nos trabalhos da literatura como (MATHIAK,
B. e ECKSTEIN, S., 2004), (BATISTA, G. E. A. P. A., 2003), (FERNEDA, E. e SMIT, J.,
2003), (KAO, A. e POTEET, S., 2004), todos trabalhos posteriores a artigo publicado de
(LIDDY, Elizabeth D., 2000).
Figura 3 – Diagrama de camadas de mineração de texto segundo Aranha (2007)
8
•
Coleta de Dados: nesta etapa ocorre a busca dos dados para formar a base textual de
trabalho que irá ser processada. Segundo Aranha (2007) coletar dados é uma atividade
trabalhosa, um do motivos é que os dados podem não estar disponíveis em um formato
apropriado para serem utilizados no processo de mineração de textos.
•
Pré-Processamento: consiste em um conjunto de transformações realizadas sobre
alguma coleção de textos com o objetivo de fazer com que esses passem a ser
estruturados em um representação atributo-valor (ARANHA, 2007). Em mineração
de textos, pré-processamento normalmente significa dividir o texto em palavras,
aplicar técnicas de stemming, remover as stop-words e classificá-las segundo a classe
gramatical. Segundo (SPARK-JONES, K. e WILLET, P., 1997), esta etapa inclui:
•
A eliminação de palavras comuns: as palavras comuns (stop-words) são elementos
de texto que não possuem uma semântica significativa; sua presença não agrega
nenhuma indicação do conteúdo ou do assunto do texto correspondente.
Normalmente as palavras comuns são constituídas de artigos, preposições, verbos
auxiliares, etc, tais como “que”, “de/do/das”, “o” ou “a”.
•
A obtenção dos radicais (stems): em linguagem natural, diversas palavras que
designam variações indicando plural, flexões verbais ou variantes são
sintaticamente similares entre si. Por exemplo, as palavras “real”, “realidade”,
“realeza” e “realizado” têm sua semântica relacionada. O objetivo é a obtenção de
um elemento único que permita considerar como um único termo, portanto com
uma semântica única, estes elementos de texto.
•
Indexação: conforme explicado por Aranha (2007), indexação é o processo de
catalogar documentos, segundo um critério, para que estes documentos sejam
recuperados de forma mais rápida e precisa.
•
Mineração: para Aranha (2007) o objetivo desta etapa é derivar informações a partir
dos dados de documentos enriquecidos existentes no índice, lembrando que todos os
dados provenientes de documentos já foram computados pela etapa de préprocessamento e se encontram presentes no índice, que neste momento servirá apenas
para leitura.
•
Análise da Informação: Aranha (2007) e Liddy (2000) apresentam definições muito
semelhantes para esta fase, enfatizando a participação humana na análise da
informação aplicabilidade e consistência dos resultados.
Em Salton (1983), a identificação das palavras nos documentos a serem indexados nada mais
é do que a identificação de palavras analisando-se as sequencias de caracteres no texto.
Salnton aconselha fazer um Dictionary lookup, ou seja, comparar as sequencias de caracteres
retiradas do texto com um dicionário a fim de validar se essas palavras realmente existem.
Aranha (2013) observa que o dicionário pode também auxiliar a identificação de termos
específicos, quando se deseja utilizar palavras pré-definidas no índice, evitando que palavras
desconhecidas sejam identificadas (ou seja, evita a utilização de um vocabulário
descontrolado).
9
3
DESEVOLVIMETO DO TRABALHO
O trabalho prático foi desenvolvido com o intuito de propiciar uma experiência visual
analítica amigável e interativa para os usuários levando em consideração principalmente os
conceitos e necessidades abordados nos trechos do estudo do artigo da Mestranda Mariana
Coelho, além de facilitar as etapas de coleta e análise dos dados através de aplicativos com
rotinas automáticas ou semi-automáticas com a intervenção do usuário.
O aplicativo de classificação de termos e macro-temas e as rotinas de coleta e processamento
dos dados foram desenvolvidos utilizando a linguagem C# na plataforma Microsoft Visual
Studios 2008 e o SGBD (Sistema Gerenciador de Banco de Dados) Microsoft Sql Server
2005. Essas ferramentas foram escolhidas por conveniência devido à minha experiência no
desenvolvimento de soluções em Business Intelligence e de aplicativos web e desktop
utilizando estas ferramentas, o que facilitou a implementação uma vez que não foi preciso
aprender uma nova linguagem ou plataforma de desenvolvimento e/ou banco de dados.
As visualizações foram desenvolvidas utilizando a biblioteca D3JS, html, css e javascript. O
site oficial da biblioteca D3JS (http://d3js.org) explica que
D3JS (Data-Driven Document) é uma biblioteca JavaScript para
manipular documentos com base em dados D3 ajuda você a trazer
dados à vida usando HTML, SVG e CSS. A ênfase de D3 em padrões
web dá-lhe todas as capacidades de navegadores modernos, sem
amarrar-se a uma estrutura de propriedade, combinando componentes
de visualização poderosas e uma abordagem data-driven para
manipulação DOM (tradução livre do site http://d3js.org , 30 de janeiro
de 2013)
A seguir serão apresentados os processos e fluxos utilizados na implementação da solução
computacional, incluindo:
• definições gerais
• coleta de dados
• cadastro de categorias de termos
• cadastro de macro-temas de termos
• cadastro de termos
• pré-processamento, indexação simples e análise de termos de comentários
• exportação de dados para visualizações
• exibição de informações em visualizações
As ações de cadastro e execução de rotinas definidas nos próximos tópicos deste trabalho
referem-se ao usuário Administrador do Sistema, que será identificado como Administrador.
Neste trabalho não foi implementado obtenção e identificação de radicais e as stop-words
foram mantidas no dicionário de termos por serem importantes no pré-processamento e
identificação de termos compostos. A etapa de mineração do text mining também não está no
escopo deste trabalho.
10
3.1
DEFIIÇÕES GERAIS
•
Termo: palavras, conjunto de palavras e caracteres (desconsiderando espaço)
presentes nos comentários
•
Termo Simples: contém apenas uma palavra ou caractere, por exemplo casa , ! - .
comida : e de hotel piscina
•
Termo Composto: contém duas ou mais palavras para formar um termo ou
expressões significativas, por exemplo café da manhã, café-da-manhã, comida
mineira, piscina aquecida, o hotel estava cheio
•
Dicionário de Termos: contém o índice dos termos e classificação dos temos em
categorias, macro-tema, positivo e negativo. Este dicionário será a base para o préprocessamento, indexação e geração de dados para as visualizações
•
Categoria de Termos: classificação do termo de acordo com sua função e tipos de
interpretação nos textos de comentários
• Não identificado: termos ainda não classificados pelo usuário
• Auxiliares: são as stop-words, palavras que não possuem relevância na análise de
termos simples, como exemplo de para é sim não manhã talvez
• Pontuação: sinais de pontuação de texto, como por exemplo . ! ?- : )
• Sentimentos: verbos e adjetivos de caráter positivo ou negativo que expressão
reações e comportamentos sentimentais dos clientes, como exemplo gostei detestei
triste feliz
• Avaliação: adjetivos e advérbios de caráter positivo ou negativo que expressão a
análise ou satisfação do cliente em relação aos hotéis e serviços, como exemplo
quente frio bom ruim agradável amigável excelente péssimo
• Característica: adjetivos e advérbios de caráter positivo ou negativo que expressão
características dos hotéis ou serviços, como exemplo antigo histórico decorado
barulhento espaçoso
• Tema: classificação temática dos termo relacionados aos hotéis sinalizados no
artigo base deste trabalho, como quarto atendimento gastronomia preço cultura
•
Macro Temas: classificação temática dos termos relacionados aos hotéis que serão
utilizados para análises
• Atendimento: funcionários, atendimento, recepção, colaboradores
• Cultura: igreja, histórico
• Decoração: bem decorado
• Gastronomia: café-da-manhã, almoço, restaurante
• Instalações: elevadores, salas, piscina
• Localização: próximo, longe, localização
• Preço: caro, barato,
• Quarto: banheiro, cama, quarto, chuveiro
11
•
Rotina: aplicativo, software, programa que executa automaticamente uma tarefa cuja
intervenção do usuário está limitada a iniciar a execução da rotina através do clique de
um botão ou menu, execução de um arquivo .exe ou .bat ou agendamento de job
•
Administrador: usuário Administrador do sistema responsável por manter (cadastrar,
editar e excluir) categorias, macro-temas e termos e responsável por iniciar o
processamento dos dados
•
Sistema: aplicativo desktop disponibilizado para os Administradores. O sistema
contém telas para pesquisa e manutenção de categoria, macro-temas, termos e para o
processamento, todos acessíveis através do menu superior. A tela de processamento
apresenta menus para execução das rotinas de carga, análise e exportação dos dados.
Figura 4 – Menu de Processamento de Dados
12
3.2
COLETA DE DADOS
A coleta de dados é realizada automaticamente através de uma rotina que acessa a url
(endereço do site) do TripAdvisor do hotel para cada paginação dos comentários, percorre o
texto do arquivo HTML extraído da url em busca em busca de padrões de textos que
identificam os dados do usuário e do comentário. Na figura 5 podemos observar um trecho do
HTML do comentário mais recente registrado para o hotel Solar do Rosário.
Figura 5 – HTML do Hotel Solar do Rosário
Os seguintes dados são coletados dos html extraído:
• Usuário: Nome, Localização (cidade, estado, país)
• Comentário: Data, Nota (avaliação), Conteúdo (texto do comentário)
Para executar esta rotina o Administrador deve preencher o arquivo lstReviewHotel.txt com
os campos do código do hotel, nome do arquivo de dados para conferência, número de
páginas de reviews do hotel e url da página do hotel no TripAdvisor. Veja o exemplo da
primeira imagem da Figura 6.
Figura 6 – Arquivo de carga de hotéis e arquivo exemplo de dados coletados
13
Em seguida o Administrador deverá executar o menu “Carregar Review On-Line” no sistema.
Os dados dos reviews serão carregados no banco de dados e uma cópia dos dados estará
disponível para o Administrador conferir a coerência dos dados. Veja a segunda imagem da
Figura 6.
3.2.1
LIMITAÇÕES
O site do TripAdvisor limita o número de palavras que são exibidas na visão geral dos
conteúdos dos comentários. Para os usuários verem o restante do texto do comentário o
usuário deve clicar na opção “MAIS” localizada sob o conteúdo do comentário. Ao clicar
neste botão é apresentado ao usuário o restante do texto do comentário e as avaliações dos
macro-temas definidos pelo TripAdvisor (Custo-Benefício, Localização, Qualidade do Solo,
Quartos, Limpeza, Serviço).
Esta necessidade de clicar no MAIS elimina a captura do restante do conteúdo do comentário
e a avaliação dos macro-temas pela rotina de carga.
Outra limitação refere-se aos comentários que não estão em Português: estes comentários
utilizam um serviço do Google Tradutor para traduzir o conteúdo do comentário.
Esta limitação elimina a captura do conteúdo do comentário pela rotina de carga.
3.3
CADASTRO DE CATEGORIA DE TERMOS
Ao acessar o menu “CATEGORIA” no sistema a seguinte tela é exibida ao Administrador:
Figura 7 – Cadastro de Categorias de Termos
14
Nesta tela o Administrador poderá cadastrar, editar e excluir categorias de termos. Para cada
categoria é necessário cadastrar o nome da categoria e o seu tipo: Tema, Avaliação (se é
positivo ou negativo) ou Outros (termos diversos que não são Tema e nem Avaliação).
3.4
CADASTRO DE MACRO-TEMAS DE TERMOS
Ao acessar o menu “MACRO TEMA” no sistema a seguinte tela é exibida ao Administrador:
Figura 8 – Cadastro de Macro-Temas de Termos
Nesta tela o Administrador poderá cadastrar, editar e excluir macro-temas de termos. Para
cada macro-tema é necessário cadastrar o nome do macro-tema e definir a cor que identificará
o macro-tema nas visualizações.
3.5
CADASTRO DE TERMOS
Ao acessar o menu “TERMOS” no sistema tela seguinte é exibida ao Administrador. Nesta
tela o Administrador poderá cadastrar, editar e excluir os termos, simples ou compostos.
Durante o cadastro ou edição de um termo o Administrador deverá classificar o termo em uma
categoria. Caso opte por uma categoria que seja do tipo “Tema” as opções “Macro Tema” e
15
“Tema” serão habilitadas para cadastro. Caso opte por um categoria do tipo “Avaliação” a
opção de “Avaliação: Positivo/Negativo” será habilitada.
Figura 9 – Cadastro de Termos
Ao cadastrar/editar um termo composto o seguinte fluxo é realizado:
1. sistema identifica os termos individuais
2. sistema verifica se estes termos não estão cadastrados
3. sistema cadastra novos termos individuais
4. sistema recupera os códigos dos termos individuais na ordem do termo composto
5. sistema cadastra novo termo composto e atribui ao campo “LST_COMPOSTO” na
tabela de termos (dicionário de termos) a sequência de códigos dos termos individuais
separados por vírgula
6. caso seja uma edição do termo composto o sistema atualiza o valor do campo
“LST_COMPOSTO”
O usuário deverá pesquisar os termos que deseja editar ou excluir na listagem localizada na
parte inferior da tela de cadastro. Na listagem o usuário poderá ordenar pelo atributo (coluna)
desejado. A listagem apresenta as informações (atributos) do termo e uma contagem do
número de ocorrências do termo em questão. Assim, o usuário poderá realizar um filtro pelas
características do termo e por termos mais frequentes. Essa contagem de termos é interessante
para o usuário identificar os termos mais relevantes considerando frequência e assim
classificar e analisar esses termos.
3.6
PRÉ-PROCESSAMETO, IDEXAÇÃO SIMPLES E AÁLISE DE TERMOS
DE COMETÁRIOS
16
Nesta seção serão detalhados impactos de termos compostos, os processos de identificação de
termos, indexação dos termos nos comentários e análise dos termos.
Após executar a coleta de dados, o Administrador deverá executar o próximo passo no menu
acionando a opção “Processar Review On-Line”. Esta rotina percorre os comentários que
ainda não tiveram seus termos indexados. O seguinte fluxo é executado:
1. sistema consulta os comentários para indexação e percorre cada comentário retornado
2. sistema busca pontuações no comentário e adiciona espaço antes e depois da
pontuação (dessa forma a pontuação não ficará no termo antecessor à ela)
3. sistema realiza um split (quebra) por espaços em branco na texto do comentário
4. sistema percorre cada termo retornado da quebra removendo os espaços extras
a. sistema envia para banco de dados o termo
b. banco de dados pesquisa o termo e cadastra o termo caso ele não exista
c. banco de dados retorna o código do termo (seja ele novo ou já existente)
d. sistema concatena o código à lista de códigos (índices) de termos
5. sistema cadastra a análise do comentário incluindo a lista de códigos (índices) dos
termos, separando os códigos por vírgula
Após executar o passo anterior, o Administrador deverá executar o próximo passo no menu
acionando a opção “Processar Termo Análise”. Esta rotina percorre os comentários que não
possuem termos compostos analisados. O seguinte fluxo é executado:
1. sistema consulta os comentários para análises e percorre cada comentário retornado
2. sistema busca sequências de termos compostos nos índices do comentário
3. sistema percorre cada termo composto retornado
a. sistema procura o termo mais relevante
b. sistema substitui na indexação do comentário a sequência do termo composto
pelo código do termo composto (C#), identificando assim que o termo é
composto
4. sistema encerra o processamento ao término do último comentário
Figura 10 – Exemplos de comentários indexados e analisados
3.6.1
ITERPRETAÇÃO DE TERMOS COMPOSTOS
O objetivo dos termos compostos é unir termos que isoladamente não são interessantes para
análise e interpretação mas que juntos são significativos. Caso seja encontrado no
processamento de análise de termos uma lista de códigos de termos que seja uma sub-lista de
17
mais de um termo composto será considerado como mais relevante o termo composto que
possui mais termos individuais. Por exemplo, vamos analisar a expressão “hotel não é ruim”.
No sistema estão cadastrados os seguintes termos compostos:
• hotel não é ruim
• não é ruim
• é ruim
Após percorrer a indexação de termos do comentário o sistema identifique que existem 3
termos compostos para esse intervalo de 4 termos individuais.
1. sistema ordena a listagem de termos compostos pelo número de termos individuais
2. sistema substitui a sequência de caracteres da indexação pelo código do maior termo
composto acrescido da letra C (ex. C10), identificando que o código refere-se a um
termo composto
3. sistema procura próxima lista de termos compostos e repete o processo até que não
exista mais sequências de termos na indexação que são sub-listas de termos compostos
Adotou-se essa heurística de considerar o maior termo composto por considerar que quanto
mais termos individuais o termo composto possuir mais precisa é a interpretação do termo.
No exemplo, percebemos que o usuário do TripAdivisor fez uma avaliação não negativa do
hotel. Observe:
• os termos isolados (hotel, não, é, ruim) não possuem uma significância forte
• o termo composto é ruim retorna uma avaliação negativa do usuário
• o termo composto não é ruim retorna uma avaliação mais positiva que negativa
• a composição hotel não é ruim é mais relevante para as análises de usuários do
TripAdvisor e para os gestores dos hotéis
3.7
EXPORTAÇÃO DE DADOS PARA VISUALIZAÇÕES
Optou-se por as visualizações utilizarem os arquivos como fonte de dados devido à facilidade
de utilização destes arquivos e flexibilidade de desenvolver as visualizações em diversas
máquinas sem a necessidade de estar na rede de um banco de dados.
No menu de Processamento existem 4 opções de exportação de dados para o formato JSON e
CSV, que serão utilizados pela visualização.
•
Exportar Comentário: exporta os comentários e dados utilizados na visualização de
comentários para o arquivo comentario.json
•
Exportar Macro Tema: exporta os dados e cores dos macro temas utilizados na
visualização de comentários para o arquivo macrotema.json
•
Exportar Empresa: exporta os dados das empresas utilizados em todas as
visualizações para o arquivo empresa.json
18
•
3.8
Exportar Indicadores: exporta indicadores e mapas utilizados nas visualizaçoes para
os arquivos dataindicadorempresa.json, datamapa.json, datamacrotemabarra.json,
datamacrotemabolha.json.
EXIBIÇÃO DE IFORMAÇÕES EM VISUALIZAÇÕES
Para a visualização dos dados proposta nesse trabalho foram elaborados 4 relatórios,
especificados a seguir.
3.8.1
VISUALIZAÇÃO DE COMETÁRIOS
Após selecionar o hotel desejado a visualização exibe uma tabela com a contagem de termos
negativos e positivos (coluna avaliações), a contagem de termos de macro temas (respectiva
coluna), a nota atribuída, a data do comentário e os 100 primeiros caracteres do comentário.
No cabeçalho da visualização são exibidos os totalizadores de comentários, das avaliações,
dos macro-temas e a nota media dos comentários.
Figura 11 – Relatório de Visualização de Comentários
A coluna de comentário possui uma imagem de uma lupa (detalhes) que ao posicionar o
mouse sobre exibe uma caixa com o texto identificando por cores os macro-temas e termos
positivos e negativos. Dessa forma o usuário consegue ter uma visão do texto destacando o
que foi considerado como importante. Também é exibido nos detalhes informações do usuário
(nome e localização) e do comentário (data e nota).
Nas colunas da tabela de comentários existe um "check" ao lado do nome do macro-tema para
que o usuário possa marcar se vai destacar esse macro-tema ou não no detalhe do comentário.
19
Isso é interessante para que o comentário não fique um exageradamente colorido e o usuário
possa definir melhor o que deseja destacar.
Figura 12 – Detalhes de Comentários em Relatório de Visualização de Comentários
3.8.2
VISUALIZAÇÃO DE MACRO TEMAS EM BOLHAS
O total de macro-temas são representados pela área da bolha e o macro-tema é identificado
pelo texto no centro da bolha e pelo texto ao posicionar o mouse sobre a bolha. Os hotéis são
categorizados por cores e essas cores são percebidas na visualização.
Figura 13 – Visualização em Bolhas de Macro Temas por Hotel
20
A visualização distribui os macro-temas por hotéis com maior volume de termos em macrotemas na região central e na periferia/borda estão os hotéis com menos termos. Nesta
visualização é possível ter uma percepção espacial e da representatividade dos comentários
por macro-tema e empresa.
3.8.3
VISUALIZAÇÃO DE MACRO TEMAS EM BARRAS
Diferente da visualização em Bolhas, a visualização em Barras permite ao usuário realizar
uma avaliação quantitativa mais clara do número de temos por macro-tema e empresa e assim
conseguir comparar os macro-temas e as empresas. As cores dos macro-temas nesta
visualização são as cores cadastradas no sistema e aplicadas na visualização de comentários.
Figura 14 – Visualização em Barras de Macro Temas por Hotel
3.8.4
VISUALIZAÇÃO MAPA MUDI
No decorrer das reuniões para planejamento de visualizações importantes para gestores de
hotéis identificou-se que seria interessante ter um panorama das origens dos turistas que se
hospedaram nos hotéis e que possuem informação da sua localização.
Através da “Visualização Mapa Mundi” é possível ter um panorama global da origem dos
clientes dos hotéis. Após realizar a filtragem do hotel são destacados os países de origem dos
clientes do hotel que comentaram no TripAdvisor. Ao posicionar o mouse sobre a áreas dos
países é exibido o nome do país em inglês.
21
Figura 15 – Visualização Mapa Mundi
22
4
RESULTADOS E DISCUSSÃO
Devido à incompatibilidade do D3JS com alguns navegadores, é necessário para as
visualizações utilizar os navegadores Firefox, Chrome ou IE9. O site está disponível em:
http://homepages.dcc.ufmg.br/~yussif/visdados/vismarketing/vismkt.html
Para a análise dos termos foi utilizado como base os comentários do hotel Solar do Rosário
uma vez que apresentava maior quantidade de comentários. Aproximadamente 20
comentários foram analisados parcialmente e o mapeamento dos termos se propagou para os
demais comentários registrados.
Os comentários e hotel foram selecionados por conveniência e podem apresentar resultados
tendenciosos uma vez que durante a análise dos termos pelo Administrador este já conhecia o
resultado do artigo, o que pode tê-lo influenciado.
Vale ressaltar que não foram considerados comentários em outras línguas e o texto completo
de comentários com conteúdos extensos. Outro ponto importante foi a limitação da região e
do número de hotéis selecionados.
Assim como apontado pela mestranda Mariana Coelho em seu artigo, os principais macrotemas registrados foram Quarto, Atendimento e Gastronomia. Entretanto, este resultado não é
conclusivo e não pode ser generalizado devido aos fatores apontados anteriormente nesta
sessão e pelo fato de não ser uma amostra probabilística.
Ao utilizar um termo composto por termos individuais de temas e avaliações, perde-se a
referência ao macro-tema e obtêm-se apenas um termo composto do tipo avaliativo. Esta
característica da análise dos dados precisa ser reestruturada para conseguir aproveitar a
oportunidade de associar avaliações a macro-temas.
No gráfico de mapa não foi possível explorar melhor os países de origem dos usuários uma
vez que os comentários em uma língua diferente do português não foram considerados e por
alguns usuários somente informarem a cidade de origem, desestimulando uma vez que é
necessário realizar uma pesquisa do país da cidade informada.
O gráfico de barras de macro-temas e hotéis atendeu ao seu objetivo permitindo uma
avaliação quantitativa clara e rápida dos termos. O gráfico de bolhas proporcionou uma visão
rápida e direta sobre o volume de termos por hotel e por macro-tema mais frequentes;
entretanto a limitação dos textos dentro da bolha dificulta a identificação do macro-temas com
baixa frequência.
A agilidade e as informações diretas sobre macro-temas, avaliações, notas e conteúdo foram o
grande destaque do trabalho, proporcionando uma visão qualitativa importante dos reviews.
Como as visualizações e rotinas de coleta e análise dos dados somente foram concluídas no
fim de junho, não foi possível aplicar o trabalho no estudo sobre reviews. Esta etapa será
executada posteriormente.
23
5
COCLUSÕES E TRABALHO FUTUROS
Através das visualizações foi possível perceber o volume de informações interessantes que
podem ser extraídas de dados não estruturados e através de Processamento da Linguagem
Natural, disponibilizados para análises qualitativas e quantitativas.
O gráfico de mapas possui um grande potencial para entender a origem de turistas
estrangeiros. Dessa forma pode-se traçar estratégias de gestão voltadas ao treinamento de
idiomas dos funcionários e elaborar planos para adequação do hotel a padrões internacionais e
decisões de marketing, além das oportunidades de negócios que surgem com os eventos
esportivos no país nos próximos anos.
As visualizações implementadas e o processamento dos temos cumpriram com o proposta do
trabalho e apresentaram novas formas de entender os dados de reviews. Apesar de no início
do projeto o foco ser a aplicação gerencial das visualizações, estas são flexíveis e intuitivas
também para a utilização de usuários do TripAdvisor.
Para resultados mais conclusivos é necessário utilizar no projeto de coleta e processamento
dos dados técnicas estatísticas de amostragem e probabilidade. Também é importante contar
com uma equipe de marketing para a fase de análise de termos e de reviews.
Para uma próxima etapa evolutiva do projeto e para trabalhos futuros deve-se pensar em
novas funcionalidades e aperfeiçoamentos como:
• acesso direto ao banco de dados pelas visualizações;
• aplicação de visualizações mais flexíveis e interativas;
• expansão para coletar dados de mais hotéis;
• aperfeiçoar a pré-processamento e indexação de termos;
• elaborar visualizações, estatísticas e comparadores entre hotéis;
• aplicação ao marketing de relacionamento.
24
6
REFERÊCIAS
LIDDY, Elizabeth D. Text Mining. 2000. Bulletin of the the American society for Information
Science, October/November 2010.
Disponível em: <http://onlinelibrary.wiley.com/doi/10.1002/bult.184/full> Acesso em: 15 abr.
2013
ARANHA, Cristian Nunes. Uma Abordagem de Pré-Processamento Automático para
Mineração de Textos em Português. 2007. Tese (Doutorado)-Pontifícia Universidade Católica
do Rio de Janeiro.
Disponível em: <http://www.maxwell.lambda.ele.pucrio.br/Busca_etds.php?strSecao=resultado&nrSeq=10081@2> Acesso em 15 abr. 2013
SALTON, G. Introduction to Modern Information Retrieval. 1983. McGraw-Hill
YE, Q.; LAW, R.; GU, B. The impact of online user reviews on hotel room sales.
International Journal of Hospitality Management, n. 28, p.180-182, 2009.
COELHO, M. F. Comentar Bem ou Mal na Internet? O Engajamento de Viajantes em
Reviews de Hotéis. 2013
GOSLING, M. Material de apoio à disciplina de Administração Mercadológica. 2012.
UFMG
Download

Clique aqui para acessar a monografia.