UFRGS Um estudo sobre a demanda de informações em sites Web: o caso de uma unidade de pesquisa de uma empresa de P&D para o agronegócio brasileiro Aluno: Ricardo Martins Bernardes Orientador: Professor Dr. Henrique Freitas Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Agenda Tema e justificativa Objetivo Geral Objetivos específicos Referencial teórico Método de pesquisa Resultados Conclusões Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Web: um canal de negócios em expansão e-commerce: crescimento exponencial Impacto nas organizações Evolução da mídia Internet & Convergência tecnológica Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Evolução da mídia Internet 6 2 Usuário Web Qualquer dispositivo 9 modem Qualquer meio Usuário Web Aluno: Ricardo Martins Bernardes Internet Internet 9 modem 2 Servidor Web Qualquer meio Servidor Web GESID/PPGA/EA/UFRGS Foco do Estudo Necessidade de estudos de audiência em sites Customização e personalização de conteúdos Análise de aderência site X missão Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Objetivo Geral Compreender a demanda por informações em um site Web, através da análise de registros de acessos (log de transações), visando sua configuração e evolução Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Objetivos Específicos coletar os registros de navegação de usuários através das páginas de conteúdo (clickstream), bem como os registros de palavras-chave (keywords) utilizadas no mecanismo de busca do site Web; aplicar procedimentos quantitativos tradicionais visando elucidar as métricas básicas de acesso ao site Web; analisar e discutir os registros de navegação de usuários através das páginas do site, procurando definir suas preferências de navegação e de conteúdo; analisar e discutir as necessidades explícitas de consumo de informações, contidas no registro de palavras-chave utilizadas pelos visitantes no mecanismo de busca do site; discutir as informações obtidas, verificando sua adeqüabilidade à estratégia da organização em estudo; tecer algumas considerações visando orientar futuros estudos de análise de logs. Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Método de Pesquisa Nível e design de pesquisa Estudo de caso Fontes de evidência Estudo simples & múltiplos sub-estudos Nível exploratório Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Escopo da investigação Mecanismo de Busca/ Outro Site Necessidades de Informação Site Web Visitante Informação acessada Pré-processamento, uso de pacotes estatíst icos e de mineração de dados Análise de padrões de navegação e de preferências Aluno: Ricardo Martins Bernardes Registro de Tr ansações (logs de acesso às páginas, logs de mecanismos de bu sca) Melhor agrupamento de r ecursos, melhoria na recuperação de informações, subsídios para e-estratégia, etc GESID/PPGA/EA/UFRGS Resultados Estatísticas gerais de acesso ao site Preferências e padrões primários de navegação dos visitantes no site Preferências explícitas dos visitantes, simbolizadas pelos termos inseridos no mecanismo de busca do site Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Métricas de freqüência e de tempo de exposição do site: duração da sessão número de pageviews / sessão origem de primeiro e segundo níveis distribuição dos acessos no tempo Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Preferências e padrões primários de navegação (clickstream) primeiras ações ao entrar no site ferramenta utilizada para consultas ex.: A-B*, A*B*... conteúdo preferido no primeiro click atividades P&D, publicações, serviços, ... Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Primeiro click no site Índice de atividades de Pesquisa B Índice de Pu blicações Índice de Serviços D C 407; 13,7% 506; 17,0% 437; 14,7% 343; 11,5% Índice de informações sobre a Unidade J Mecanismo de Busca do Site 126; 4,2% E Home-Page 2973 A Índice de Novidades 261; 8,8% F 171; 5,8% Missão/Ob jetivos da Unidade 199; 6,7% 181; 6,1% Informações sobre a Unidade I Informações sobre a Equipe Técnica H Aluno: Ricardo Martins Bernardes G GESID/PPGA/EA/UFRGS Termos de consulta (keywords) origem freqüência termos mais utilizados pertinência Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Palavras-chave utilizadas pelos visitantes Considerando o contexto Contexto da consulta Freqüência (%) 1.866 64,2 463 15,9 105 3,6 Dúbio ou não identificado 177 6,1 Informações administrativas 128 4,4 Fora do contexto do Agronegócio 94 3,2 Busca por Receitas 72 2,5 2.905 100,0 Dentro do Contexto da Unidade de P&D Fora do contexto da Unidade mas dentro do contexto da Embrapa Fora do contexto da Unidade e da Embrapa, mas dentro do contexto do agronegócio Total Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Conclusões Quanto ao objetivo do estudo: planejamento físico & lógico do site subsídios: fortalecimento de relações articulação com ecossistema demanda por informações aderência com a proposta da organização Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Conclusões Quanto aos aspectos práticos e metodológicos ferramentas e dados desenho prévio do site preparação de dados aspectos dependentes do site aspectos independentes do site potencial para novos estudos potencial para deselvolvimento de métodos estratégia de pesquisa Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS UFRGS Um estudo sobre a demanda de informações em sites Web: o caso de uma unidade de pesquisa de uma empresa de P&D para o agronegócio brasileiro Aluno: Ricardo Martins Bernardes Orientador: Professor Dr. Henrique Freitas Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS FIM DA APRESENTAÇÃO O restante dos slides são para fundamentar respostas à banca Linhas de investigação em Web Mining Mineração Web Mineração de Conteúdo Web Mineração de Conteúdo de Páginas Mineração de Estrutura Web Min eração para Resultado de Buscas Aluno: Ricardo Martins Bernardes Mineração de Uso Web Padrões Gerais de Acesso Customização de uso GESID/PPGA/EA/UFRGS Conjunto de dados Limpeza dos dados e definição da amostra Conjunto 1: clickstream registro de páginas transferidas com sucesso para visitantes não identificados, oriundos do domínio '.br' , que acessaram mais de uma página - diferentes - durante a visita, no período de 2 de fevereiro de 1999 a 30 de abril de 2000. Conjunto 2: keywords palavras-chave inseridas no mecanismo de busca do site entre às 18h25 horas de 08/11/1999 e 11h09 horas de 15/06/2000. Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Conjunto de dados Descrição dos dados dados de navegação do visitante (clickstream): ... scm619.ufrgs.br - - [30/Jun/1999:20:40:01 -0300] "GET /index.html HTTP/1.0" 200 15300 scm619.ufrgs.br - - [30/Jun/1999:20:42:09 -0300] "GET /images/logotipo.gif HTTP/1.0" 200 10234 scm619.ufrgs.br - - [30/Jun/1999:20:44:09 -0300] "GET /unidade/equipe.html HTTP/1.0" 200 37285 ... Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Conjunto de dados Descrição dos dados palavras-chave (keywords) inseridas no mecanismo de busca ... proxie.unesp.br [03/Jan/2000:15:43:44] "a historia da pecuaria" 154020 189 attila.urcamp.tche.br [03/Jan/2000:15:42:09] "pastagem cultivada" 42302 20 attila.urcamp.tche.br [03/Jan/2000:15:30:13] "pastagem" 80003 45 ... Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Fundamentação Teórica Rede, Estratégia e Sobrevivência Internet, Web & convergência tecnológica O fenômeno da rede Web: popularização exponencial A resposta das Empresas Usuários, suas trilhas e comportamento Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Método de Pesquisa Nível e design da pesquisa O Caso - contextualização O Estudo descrição dos dados limites e pressupostos limpeza dos dados e definição da amostra Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS O caso contextualização Empresa de P&D para o agronegócio Mudança orientação produto -> mercado P -> P&D Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Método de Pesquisa O Estudo Limites e pressupostos quanto à origem e identificação dos acessos quanto à estruturação das sessões e visitantes quanto ao tempo de exposição de páginas e do site quanto à ação de robots e spiders outros aspectos Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Ferramentas Windows 98,DOS e Solaris 2,x dbase IV, Basic SAS, stata, C4.5 WUN Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Alguns resultados Em média, o visitante requisitou 5,7 páginas, e ficou conectado aproximadamente 8m:36s no site Instituições de ensino e pesquisa do RS apresentaram uma média de 6,4 pageviews por sessão Apenas 2,8% do total de domínios de terceiro nível registrados (19 organizações), foram responsáveis por 38,9% das sessões realizadas no site. Existe uma predominância de provedores que servem a Região Sul e Sudeste do Brasil Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Alguns resultados Considerando apenas instituições de ensino e pesquisa do RS, a Urcamp foi responsável por 45% das sessões UNISC e UCPEL tiveram o maior número de pageviews por sessão (7,0 e 6,7) 20,1% das sessões ocorreram nos finais-de-semana 46,2% das sessões ocorreram fora do horário de expediente 26,9% das sessões tiveram duração superior a 10 minutos 73,0% das sessões era constituída por 1 a 6 páginas Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Alguns resultados 82,7% da freqüência ao mecanismo de busca, apareceu do quarto click em diante 45,4% do primeiro click recaiu sobre os links "Índice de Atividades de Pesquisa" (17%), "Publicações" (14,7%) e "Serviços" (13,7%) Outras unidades de negócios da organização que mantém o site procuraram, predominantemente, informações sobre a “Equipe Técnica” (66 de 181 casos) os links "Consultoria em Nutrição Animal" e "Laboratório de Nutrição Animal" foram a primeira escolha de 26,4% dos visitantes que acessaram o portfolio de produtos e serviços Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Alguns resultados em média, o tempo entre consultas na mesma sessão ficou 2m:49s o percentual de consultas relacionadas diretamente à missão da unidade de pesquisa foi 64,2% as consultas cobertas pela missão da empresa representaram 80,1%. o percentual das consultas dentro do contexto do agronegócio, totalizou 83,7% Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Alguns resultados 2.362 termos consultados foram reduzidos para 435 termos diferentes após a sumarização 42,5% das consultas giravam em torno de 4,1% dos termos 82,7% das consultas buscavam as espécies animais cobertas pela missão da Unidade (bovinocultura e ovinocultura) Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Palavras-chave utilizadas pelos visitantes Termo utilizado pelo visitante ovinos pecuária ovinocultura confinamento campos pastagens gado de corte pastagem ovino leite bovinos caprinos gado suínos gado de leite história da pecuária suinocultura Sub-total (%) outros (%) Total (%) Aluno: Ricardo Martins Bernardes Freqüência 81 67 58 48 37 29 28 27 17 16 15 14 14 13 11 10 10 495 (20,4) 1.931 (79,6) 2.426 (100,0) GESID/PPGA/EA/UFRGS Palavras-chave utilizadas pelos visitantes, após classificadas pelo Thesagro Termo classificado pelo Thesagro pecuária ovino confinamento pastagem ovinocultura campo gado de corte instalação para animal nutrição animal leite bovino gado leiteiro gado ovelha doenca animal planta forrageira caprino capim Sub-total (%) outros termos (%) Total (%) Aluno: Ricardo Martins Bernardes Freqüência 188 155 89 81 64 62 53 46 32 30 29 28 27 27 26 23 22 22 1.004 (42,5) 1.358 (57,5) 2.362 (100,0) GESID/PPGA/EA/UFRGS Atividades de criação Explícita Implícita Atividade de criação na na consulta sessão Bovinocultura 412 161 Ovinocultura 377 21 Caprinocultura 43 1 Suínocultura 42 6 Avicultura 32 1 Psicultura 23 0 Bubalinocultura 13 1 Eqüinocultura 14 0 Outras atividades 27 0 983 191 Totais Total Geral Aluno: Ricardo Martins Bernardes 1.174 GESID/PPGA/EA/UFRGS Um exemplo de saída do programa c4.5 ... Rule 13: pageviews <= 7 -> class nao acessou o feedback [99.0%] Rule 17: pageviews > 7 tempo > 241 tempo <= 467 -> class nao acessou o feedback [98.4%] Default class: nao acessou o feedback Evaluation on training data (4729 items): Rule Size Error Used ---- ---- ----- ---.......... 13 1 1.0% 3918 17 3 1.6% 86 Wrong ----32 (0.8%) 0 (0.0%) Tested 4729, errors 91 (1.9%) (a) (b) ---- ---51 74 17 4587 Advantage --------0 (0|0) 0 (0|0) nao acessou o feedback nao acessou o feedback << <-classified as (a): class acessou o feedback (b): class nao acessou o feedback Aluno: Ricardo Martins Bernardes GESID/PPGA/EA/UFRGS Um exemplo de saída do programa c4.5 C4.5 [release 5] rule generator Wed Nov 1 13:45:14 2000 ------------------------------Read 2905 cases (3 attributes) from busca2 -----------------Processing tree 0 Final rules from tree 0: ... Rule 88: Termo Thesagro = alimento animal class Apr [41.7%] ... Rule Size Error Used Wrong ---- ---- ----- ---- ----88 1 58.3% 46 24 (52.2%) ... Tested 2905, errors 1974 (68.0%) << Aluno: Ricardo Martins Bernardes Advantage --------12(22|10) Apr GESID/PPGA/EA/UFRGS Estrutura do arquivo de sessões Structure for database: E:\TUDONOVO\FILES\DBF\SESSAOBR.DBF Number of data records: 4968 Date of last update : 13/11/00 Field Field Name Type Width Dec Index NUMEROSESS Character 6 N HOSTACESSO Numeric 5 N NAORESOLV Numeric 1 N DOMNUMERO Numeric 5 N DOMPARTE1 Character 5 N DOMPARTE2 Character 15 N DOMPARTE2R Character 15 N DOMPARTE3 Character 15 N DATAACESSO Date 8 N DIASEMACES Character 3 N HORAACESSO Character 6 N CONTAHOST Numeric 3 N ELAPDAYS Numeric 4 N ROBOTS Numeric 1 N Aluno: Ricardo Martins Bernardes PAGINAS PAGINASS PAGINASST PAGINASSV PAGINASSA TOTSEGSES NUMPAG NUMPAGT PRIMPAG INICIO CATEPOCA CATDIA CATHORA CATPER CATEMPO CATNUMPAG CATNUMPAGR Character Character Character Character Character Numeric Numeric Numeric Character Numeric Numeric Numeric Numeric Numeric Numeric Numeric Numeric 205 254 254 254 70 5 3 3 3 1 1 1 1 1 1 1 1 N N N N N N N N N N N N N N N N N GESID/PPGA/EA/UFRGS