Data Webhouse FABIANO AUGUSTO GOMES* [email protected] IREMAR NUNES DE LIMA** [email protected] Resumo Visando atender à necessidade de melhorar a qualidade de seus sites e conhecer o comportamento dos usuários, tem surgido a demanda da criação de uma nova metodologia que priorize o tratamento das informações. Para isto, é preciso trazer a web para dentro do data warehouse (DW) ou o data warehouse para web. Com esta tecnologia é possível investigar o perfil dos usuários que navegam nos sites. Essa abordagem é conhecida como data webhouse, e que será descrita neste artigo. Palavra chave: Data Webhouse, Clickstream. *Graduando em Tecnologia em Informática pelo Unicentro Newton Paiva **Professor/Orientador - Unicentro Newton Paiva 1 Introdução O grande avanço e a popularização da Internet ocorrida nos últimos dez anos, modificaram a missão da Tecnologia da Informação – TI. Passado de mero suporte dos aplicativos para a capacidade de produção de conteúdo de informações. A utilização desta forma de comunicação alterou a maneira de manipular as informações, bem como a forma de interação entre as empresas e seus clientes. Percebendo isto, as empresas tiveram que se organizar para se adaptarem ao novo pensamento e as formas de realizar comércio via web aproveitando sua infra-estrutura e seu grande alcance. Assim, as empresas permitiram que o mundo inteiro realizasse negócios com extrema facilidade. O crescente aumento dos meios produtivos alterou consideravelmente o volume de dados nas organizações fazendo com que as empresas extraíssem as informações de maior relevância para o processo de tomada de decisão. É cada vez mais indispensável para as empresas que queiram manter-se no mercado de maneira competitiva utilizar dessas informações como um diferencial competitivo. A percepção do perfil de cada cliente e dos eventos que alteram todo seu ciclo de vida, como o ingresso na faculdade, nascimento de um filho, ou casamento, é uma ótima estratégia para a abertura de um novo negócio (Kimball, 2000, p.75). Para permitir o estudo detalhado do perfil de cada cliente, as empresas investem em várias metodologias de marketing. Dentre elas existe o CRM (Custumer Relationship Management) – Gerenciamento do Relacionamento com Cliente, o data webhouse que especificamente através de uma seqüência de cliques (clickstream) procura mapear a navegação de um determinado cliente dentro do seu Website. Justifica-se este estudo pela novidade da tecnologia que oferece recursos para um atendimento individual e personalizado a cada cliente oferecendo informações detalhadas que auxiliam no processo de tomada de decisões. Este artigo descreve o estado da arte sobre a tecnologia data webhouse discutindo suas principais características, objetivos, benefícios e problemas. O artigo está organizado na seguinte forma: a seção 2 traz os principais conceitos, características e problemas sobre a tecnologia webhouse; a seção 3 traz a descrição do clickstream e as suas aplicações, seção 4 discute a forma de implementação do data webhouse, e por fim na seção 5 será apresentado a conclusão do artigo. 2 Data Webhouse “Data webhouse (DWH) é a instanciação da web do data warehouse. O webhouse tem como foco central as operações de um negócio voltado para a web”. (Kimball, 2000, p.17). O casamento entre data warehouse e web originou o que se conhece por data webhouse. A atividade de trazer o data warehouse para a web se constitui na disponibilização de todos os serviços do data warehouse na web. No outro sentido a atividade de trazer a web para o ambiente do data warehouse se constitui em armazenar dados de clickstream. Com a chegada do data warehouse, surgiu a necessidade de mapear melhor as questões gerencias dos sites da web. O aumento significativo de páginas web, fez com que fosse pensada uma maneira de criar um armazém de dados que seguisse conceitos e características semelhantes aos do data warehouse criando assim uma espécie de armazém de dados para web, ao qual podemos chamar de data webhouse (Pedrozo, 2004; Kolitski, 2003). Quando se traz a atividade do cliente na web para o Data warehouse, se traz esta fonte de dados enorme e indisciplinada a fim de analisá-la e, alternativamente, adaptá-la e combiná-la com fontes de dados existentes mais convencionais. Se projetado corretamente, o data webhouse pode tornar-se o elemento central e coesivo da empresa moderna, focada no cliente, fornecendo informações competitivas e essenciais a gerentes e responsáveis pelas decisões estratégicas. Os resultados são negócios mais bem posicionados para manter a empresa estável e competitiva (Pedrozo, 2004). O quadro 1 mostra quais são as ações realizadas por usuários que realizam compras em lojas convencionais e virtuais. Ao realizarem suas compras virtuais será aplicado o conceito de data webhouse. O monitoramento é feito indicando cada passo dado pelo cliente a fim de se montar um perfil Monitoramento de ações dos usuários Loja convencional • Cliente entra, percorre vários corredores e sai, compra ou não Loja virtual • Cliente entra por uma página Portal; compra; • Identificação do cliente só ocorre na saída da loja. • Loja virtual pode se alterar dinamicamente; • Atendimento de expectativas; • Todas as ações do cliente são registradas/analisadas antes do final da compra. Quadro 1: Monitoramento de ações dos usuários. Fonte: Construindo o data warehouse para web (2002) Para fornecer informações úteis que gerem satisfação e possam suprir os anseios de cada cliente, as empresas procuram focar na ‘experiência do cliente’, oferecendo um serviço que atenda as necessidades individuais de cada um deles (Kimball, 2000). 2.1 Características do data webhouse O data webhouse é de fundamental importância para os negócios voltados para Web, e para cumprir este potencial (KIMBALL, 2000) descreve suas principais características: 1. Armazena e mostra dados de seqüência de cliques e outros dados comportamentais da Web - que guiam a uma melhor compreensão do comportamento do cliente; 2. É uma fonte adaptável e flexível de informações - à medida que novas perguntas surgem e que novas origens de dados tornam-se disponíveis, o webhouse responde a todas as novidades. 3. É estendido aos novos meios da web - incluindo imagens paradas, imagens gráficas, áudio e vídeo; 4. É um meio seguro de publicar dados - para clientes, parceiros de negócio e funcionários, mas que, ao mesmo tempo, protege os ativos de dados da empresa contra utilização não intencionada; 5. É a base para as decisões de conversões para a web - o webhouse deve permitir que os usuários tomem decisões sobre a web enquanto estiverem utilizando-a. Data webhouse é um conceito novo, ainda em fase de amadurecimento. A personalização do site, aumento da interação entre o usuário e a organização, e o marketing voltado para o consumidor são algumas das principais características deste novo conceito. 2.3 Problemas do data webhouse Kimball apresenta alguns problemas encontrados pelos administradores de data webhouse como: confiabilidade nos web sites, vários formatos de arquivos de log para capturar dados de seqüência de cliques, sincronização de arquivos e segurança. Nenhum usuário tem razão para confiar na Internet, passando suas identificações pessoais e até mesmo a do seu cartão de crédito. Boa parte dos usuários deseja ser anônimos pela descrença na segurança das informações. Pelo mesmo descaso com a segurança muitos usuários mentem seus nomes a fim de não serem identificados. Computadores utilizados por várias pessoas ou por membros de uma família dificultam a identificação do usuário, mesmo que alguns sistemas operacionais como Windows 2000 ou a família XP possua recursos para personalizar um PC para cada membro da família. Infelizmente, muitas organizações não conseguem interpretar os dados obtidos através da seqüência de cliques, simplesmente porque não possuem os recursos necessários para utilizá-los de forma eficaz. A evolução da Tecnologia da Informação tornou possível gerar recursos que atendam à necessidade destas organizações, isto é, capturar a seqüência de cliques, entendê-la e levá-la para um ambiente de banco de dados para serem analisadas efetivamente. Sem acompanhar como o usuário navega no website torna-se difícil fazer uma análise do seu comportamento (Kimball, 2000; Pedrozo 2004). 3 Web no Data warehouse Como foi dito anteriormente, o data webhouse se propõe a levar data warehouse para web. Kimball (2000) apresenta duas maneiras de realizar essa tarefa. Na primeira pode-se trazer a web para o DWH, através da compreensão do comportamento do cliente na web. A segunda traz o DWH para dentro da web, através da disponibilização dos dados do data warehouse na web. Trazer a web para o data warehouse significa trazer o comportamento do cliente a este. Os data warehouse são alimentados na maioria das vezes por sistemas de processamentos de transações, o que com a evolução dos conceitos de data warehouse tornou-se uma tarefa fácil para os datas warehousers. Hoje, um dos grandes desafios é analisar e entender o comportamento dos usuários que clicam em sites da web (Kimball, 2000). 3.1 Clickstream O mapeamento do perfil do cliente no website é feito pela técnica clickstream, que tenta compreender os padrões de utilização das páginas, e as motivações dos usuários ao navegarem na web. A motivação, do ponto de vista comercial, para o uso de clickstream está na tentativa de identificar as preferências e os padrões de comportamento do consumidor, qual área lhe interessa, com que freqüência a procura, quais as informações úteis para criar estratégias de marketing mais personalizadas e com maior chance de sucesso (Kolitski, 2003; Kimball, 2000). Clickstream é literalmente, um registro de todos os gestos de interação feitos por qualquer visitante a um site. Ao capturar cada clique, seleção, preenchimento de campo e outras atividades realizadas pelo usuário no acesso às páginas de um site, estão criando subsídios para uma análise posterior, que permitirá identificar o perfil de compras deste usuário, suas preferências e tendências para lhe oferecer soluções mais personalizadas, sendo esta uma meta para alcançar o data webhouse. Esta fonte de dados tem um potencial de agregar valor às fontes de dados tradicionais. Apesar de estes dados estarem desorganizados e sem nenhum tratamento, se corretamente processados, eles têm o potencial para fornecer à organização detalhes importantes sobre a utilização de seus sites. Os dados não estruturados de Clickstream são trazidos para o data webhouse para serem analisados isoladamente ou combinados com outras fontes de dados convencionais. As informações de Clickstream que representam o comportamento de um cliente podem indicar tipos de adequações que podem ser realizadas no processo de navegação do site para este cliente em particular, ou seja, que informações devem ser focadas e que informações podem ser retiradas por não serem de grande ajuda ao processo de tomada de decisão (Pedrozo, 2004). A figura a seguir representa o pós-processador de seqüência de cliques, que tem como objetivo final preparar os dados da seqüência de cliques para que sejam carregados no data warehouse. 1 Ilustração geral da tarefa de trazer a web para o DW. Servidor de Aplicativo Dados de Log Pós-Processador de seqüência de cliques WEB Servidor de WEB Data Webhouse Dados de Log FIGURA 1.0 - Mecanismo de criação do Webhouse através da web. Fonte: KIMBALL. Data Webhouse: construindo o Data warehouse para a Web. p.176. Para exemplificar, pode-se pensar em um sistema de vídeo locadora na web. A fonte de dados tradicional deste tipo de negócio informa quais os DVD’s são mais alugados, quais são os mais procurados, o tempo de duração de cada visita, a satisfação de cada cliente ou motivo pelo qual ele efetua determinada locação. Se a empresa não tiver como medir, entre outras coisas, o grau de satisfação dos seus clientes, a qualidade do seu site e a relevância das informações disponibilizadas, faltará a ela subsídios para atendê-los bem. Com a utilização da seqüência de cliques, a organização poderá responder melhor aos anseios de seus clientes a partir do conhecimento do seu comportamento (Pedrozo, 2004). Desta forma o clickstream tem como objetivo suprir as deficiências das fontes de dados tradicionais no ambiente web, porém ele não é somente mais uma fonte de dados que foi extraída, limpa e organizada no data warehouse. O clickstream é uma coleção de fontes de dados, que possibilita a identificação de usuários e sessões. O grande problema da utilização do clickstream é o anonimato da sessão, a menos que o usuário concorde em revelar sua identidade de alguma maneira. 4 O data webhouse na web A necessidade da divulgação do data warehouse, que é trazer o data warehouse para a web. Proporcionam as empresas que têm seus dados organizados pelo data warehouse a divulgação pela web, que é uma ótima estratégia devido a suas várias vantagens. Ela permite que as pessoas tenham acesso rápido a dados dos mais variados assuntos, 24 horas por dia, sete dias por semana, e constantemente atualizados. Trazer o data warehouse para o web significa fazer com que todas as interfaces do data warehouse sejam disponibilizadas por meio de navegadores web, mas para que o DW seja disponibilizado na web, devem-se seguir várias regras. Isto se justifica pois a web impõe algumas regras de usabilidade que devem ser seguidas para se obter sucesso no projeto do data webhouse. Kimball (2000) descreve estas regras da seguinte forma: 1. Facilidade de utilização pelos usuários - até certo tempo, os programadores não tinham idéia de como eram as atividades dos usuários. As novas idéias com relação à usabilidade eram pouco consideradas e as sugestões individuais dos usuários eram tidas como insignificantes. Com o desenvolvimento da web, houve uma maior necessidade das ferramentas serem de fácil utilização, preocupando-se assim com a opinião dos usuários; 2. Vocabulário fácil - a linguagem utilizada não pode ser somente técnica, pois, mesmo que os acessos sejam em grande parte feitos por conhecedores da área, o webhouse está localizado em um ambiente de amplo acesso, não devendo restringir-se a um único público. 3. Velocidade no acesso aos dados - o tempo de resposta eficaz é de extrema importância para o sucesso do projeto. Apesar de os dados no webhouse serem históricos e de acesso mais demorado, a modelagem deve ser efetuada de forma que o usuário não fique indefinidamente aguardando a resposta de uma consulta. 4. Natureza Multicultural da web - as informações dispostas no webhouse, tanto as contidas na interface com o usuário quanto as contidas no BD, devem estar em padronização internacional, tendo em vista o uso global que terá o webhouse. Exemplos: nomes, endereços, telefones, datas, horários e valores monetários; 5. Formato multimídia - o data webhouse deve ser capaz de entregar seus resultados de várias maneiras: gráficos, animações, imagens ampliáveis, mapas, videoclipes e sons. Além disso, os usuários querem a possibilidade de armazenar os dados pesquisados em diversos formatos, tanto em arquivos extensão PDF (Portable Document Format), quanto em planilhas ou arquivos texto. O webhouse deve fornecer esta possibilidade; 6. Segurança e privacidade dos dados - no ambiente web é muito difícil certificar se os dados serão acessados somente por aqueles que possuem a devida permissão. Considerando este fato é indispensável na equipe de projeto, desde o início, um especialista em segurança de rede dedicado em tempo integral. Este especialista entenderá e especificará um sistema de segurança. As tecnologias de DW e web têm objetivos similares: enquanto que a função primária do data warehouse é a publicação de informações corporativas visando a análise, a tecnologia web é o meio ideal para essa publicação. 5 Conclusão O uso do data webhouse aperfeiçoa e qualifica o relacionamento cliente/empresa a partir da experiência adquirida e de informações bem fundamentadas. O uso do clickstream para o mapeamento do perfil dos usuários trouxe algumas vantagens aos profissionais de marketing através do acesso às informações sobre o comportamento do cliente. De posse destas informações que são coletadas da navegação dos usuários, a empresa pode melhor visualizar o desempenho do seu site na web, bem como analisar como o site está sendo visto pelos usuários. Isto proporciona melhorias, aprimorando os serviços e a forma como disponibiliza suas informações. Permitir o acesso às informações coorporativas das empresas por meio da internet, levar o data warehouse para web. Para esta disponibilidade, utilizam-se a internet como meio difusão, permitindo assim analises mais individualizadas das informações acessos por meio dos logs dos usuários, otimizando o tempo de resposta aos clientes. Portanto, é de fundamental importância o atendimento personalizado, com a possibilidade de fornecer um ambiente agradável e de fácil acesso ao usuário, pois os clientes estão cada vez mais exigentes em busca de melhor atendimento. A aquisição de tecnologias e conhecimentos que viabilizem este tipo de atendimento permite as empresas ganharem vantagens competitivas e se destacarem à frente da concorrência, descobrindo e explorando novos mercados. Referências CHENG, K. et al. Functions of a web warehouse. In: KYOTO INTERNATIONAL CONFERENCE ON DIGITAL LIBRARIES, 2000. CIELO, I. Data Warehouse, 2004. Disponível em: <http://www.datawarehouse.inf.br> Acesso em: 20 set.2006. KIMBALL, R.; MERZ, R. Data Webhouse: construindo o Data Warehouse para a WEB. Rio de Janeiro: Editora Campus, 2000. KOLITSKI, R. Web Warehouse, Programa de pós-graduação em computação, Universidade Federal do Rio grande do Sul Instituto de informática, Porto Alegre ago.2003. Disponível: www.inf.ufrgs.br/~clesio/cmp151/cmp15120031/seminarios/artigo_webwarehouse.pdf#search=%22Web% 20Warehouse%22>.Acessado em: 08 out.2006. MARILZA, A. Modelagem de um Data Webhouse voltado a Produção e Comercialização de sementes, pelotas de 2003. Disponível em: www.ufpel.tche.br. Acessado em: 08 out.2006. PEDROZO, Wendel G. DATA WEBHOUSE – Uma Ferramenta de suporte a Análise de Clickstream, 2004. Disponível: www.dc.uel.br/nou-rau/document/?view=201. Acessado em: 08 out.2006.