UFRGS
Um estudo sobre a demanda de informações em sites
Web: o caso de uma unidade de pesquisa de uma
empresa de P&D para o agronegócio brasileiro
Aluno: Ricardo Martins Bernardes
Orientador: Professor Dr. Henrique Freitas
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Agenda







Tema e justificativa
Objetivo Geral
Objetivos específicos
Referencial teórico
Método de pesquisa
Resultados
Conclusões
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Web: um canal de negócios em
expansão
e-commerce: crescimento exponencial
 Impacto nas organizações
 Evolução da mídia Internet &
Convergência tecnológica

Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Evolução da mídia Internet
6
2
Usuário Web
Qualquer
dispositivo
9
modem
Qualquer
meio
Usuário Web
Aluno: Ricardo Martins Bernardes
Internet
Internet
9
modem
2
Servidor Web
Qualquer
meio
Servidor Web
GESID/PPGA/EA/UFRGS
Foco do Estudo
 Necessidade
de estudos de
audiência em sites
 Customização e personalização de
conteúdos
 Análise de aderência site X missão
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Objetivo Geral
Compreender a demanda por
informações em um site Web,
através da análise de registros
de acessos (log de transações),
visando sua configuração e
evolução
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Objetivos Específicos

coletar os registros de navegação de usuários através das páginas de conteúdo
(clickstream), bem como os registros de palavras-chave (keywords) utilizadas no
mecanismo de busca do site Web;

aplicar procedimentos quantitativos tradicionais visando elucidar as métricas
básicas de acesso ao site Web;

analisar e discutir os registros de navegação de usuários através das páginas do
site, procurando definir suas preferências de navegação e de conteúdo;

analisar e discutir as necessidades explícitas de consumo de informações, contidas
no registro de palavras-chave utilizadas pelos visitantes no mecanismo de busca do
site;

discutir as informações obtidas, verificando sua adeqüabilidade à estratégia da
organização em estudo;

tecer algumas considerações visando orientar futuros estudos de análise de logs.
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Método de Pesquisa

Nível e design de pesquisa

Estudo de caso
Fontes de evidência
Estudo simples & múltiplos sub-estudos

Nível exploratório
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Escopo da investigação
Mecanismo de
Busca/ Outro
Site
Necessidades de Informação
Site Web
Visitante
Informação acessada
Pré-processamento,
uso de pacotes
estatíst icos e de
mineração de dados
Análise de
padrões de
navegação e de
preferências
Aluno: Ricardo Martins Bernardes
Registro de Tr ansações
(logs de acesso às páginas,
logs de mecanismos de
bu sca)
Melhor agrupamento de
r ecursos, melhoria na
recuperação de informações,
subsídios para e-estratégia, etc
GESID/PPGA/EA/UFRGS
Resultados

Estatísticas gerais de acesso ao site

Preferências e padrões primários de
navegação dos visitantes no site

Preferências explícitas dos visitantes,
simbolizadas pelos termos inseridos no
mecanismo de busca do site
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Métricas de freqüência e de tempo de
exposição do site:

duração da sessão

número de pageviews / sessão

origem de primeiro e segundo níveis

distribuição dos acessos no tempo
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Preferências e padrões primários de
navegação (clickstream)

primeiras ações ao entrar no site
ferramenta utilizada para consultas
ex.: A-B*, A*B*...

conteúdo preferido no primeiro click
atividades P&D, publicações, serviços, ...
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Primeiro click no site
Índice de
atividades de
Pesquisa
B
Índice de
Pu blicações
Índice de Serviços
D
C
407; 13,7%
506; 17,0%
437; 14,7%
343; 11,5%
Índice de
informações
sobre a Unidade
J
Mecanismo de
Busca do Site
126; 4,2%
E
Home-Page
2973
A
Índice de
Novidades
261; 8,8%
F
171; 5,8%
Missão/Ob jetivos
da Unidade
199; 6,7%
181; 6,1%
Informações sobre
a Unidade
I
Informações
sobre a Equipe
Técnica
H
Aluno: Ricardo Martins Bernardes
G
GESID/PPGA/EA/UFRGS
Termos de consulta (keywords)

origem

freqüência

termos mais utilizados

pertinência
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Palavras-chave utilizadas pelos visitantes
Considerando o contexto
Contexto da consulta
Freqüência
(%)
1.866
64,2
463
15,9
105
3,6
Dúbio ou não identificado
177
6,1
Informações administrativas
128
4,4
Fora do contexto do Agronegócio
94
3,2
Busca por Receitas
72
2,5
2.905
100,0
Dentro do Contexto da Unidade de P&D
Fora do contexto da Unidade mas dentro do
contexto da Embrapa
Fora do contexto da Unidade e da Embrapa,
mas dentro do contexto do agronegócio
Total
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Conclusões

Quanto ao objetivo do estudo:

planejamento físico & lógico do site

subsídios:
fortalecimento de relações
articulação com ecossistema

demanda por informações

aderência com a proposta da organização
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Conclusões
 Quanto aos aspectos práticos e metodológicos
ferramentas e dados
 desenho prévio do site
 preparação de dados

aspectos dependentes do site
aspectos independentes do site
potencial para novos estudos
 potencial para deselvolvimento de métodos
 estratégia de pesquisa

Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
UFRGS
Um estudo sobre a demanda de informações em sites
Web: o caso de uma unidade de pesquisa de uma
empresa de P&D para o agronegócio brasileiro
Aluno: Ricardo Martins Bernardes
Orientador: Professor Dr. Henrique Freitas
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
FIM DA APRESENTAÇÃO
O restante dos slides são para
fundamentar respostas à banca
Linhas de investigação em Web Mining
Mineração Web
Mineração de
Conteúdo Web
Mineração de
Conteúdo de
Páginas
Mineração de
Estrutura Web
Min eração para
Resultado de
Buscas
Aluno: Ricardo Martins Bernardes
Mineração de
Uso Web
Padrões Gerais
de Acesso
Customização
de uso
GESID/PPGA/EA/UFRGS
Conjunto de dados

Limpeza dos dados e definição da amostra
Conjunto 1: clickstream

registro de páginas transferidas com sucesso para visitantes não
identificados, oriundos do domínio '.br' , que acessaram mais de
uma página - diferentes - durante a visita, no período de 2 de
fevereiro de 1999 a 30 de abril de 2000.
Conjunto 2: keywords

palavras-chave inseridas no mecanismo de busca do site entre às
18h25 horas de 08/11/1999 e 11h09 horas de 15/06/2000.
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Conjunto de dados

Descrição dos dados
dados de navegação do visitante (clickstream):
...
scm619.ufrgs.br - - [30/Jun/1999:20:40:01 -0300] "GET /index.html HTTP/1.0" 200 15300
scm619.ufrgs.br - - [30/Jun/1999:20:42:09 -0300] "GET /images/logotipo.gif HTTP/1.0" 200 10234
scm619.ufrgs.br - - [30/Jun/1999:20:44:09 -0300] "GET /unidade/equipe.html HTTP/1.0" 200 37285
...
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Conjunto de dados

Descrição dos dados
palavras-chave (keywords) inseridas no mecanismo de busca
...
proxie.unesp.br [03/Jan/2000:15:43:44] "a historia da pecuaria" 154020 189
attila.urcamp.tche.br [03/Jan/2000:15:42:09] "pastagem cultivada" 42302 20
attila.urcamp.tche.br [03/Jan/2000:15:30:13] "pastagem" 80003 45
...
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Fundamentação Teórica

Rede, Estratégia e Sobrevivência

Internet, Web & convergência tecnológica

O fenômeno da rede Web:
popularização exponencial
 A resposta

das Empresas
Usuários, suas trilhas e comportamento
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Método de Pesquisa
Nível e design da pesquisa
 O Caso - contextualização
 O Estudo

descrição dos dados
 limites e pressupostos
 limpeza dos dados e definição da amostra

Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
O caso

contextualização
Empresa de P&D para o agronegócio
 Mudança orientação

produto -> mercado
P -> P&D
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Método de Pesquisa

O Estudo

Limites e pressupostos
quanto à origem e identificação dos acessos
 quanto à estruturação das sessões e visitantes
 quanto ao tempo de exposição de páginas e do
site
 quanto à ação de robots e spiders
 outros aspectos

Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Ferramentas
 Windows
98,DOS e Solaris 2,x
 dbase IV, Basic
 SAS, stata, C4.5
 WUN
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Alguns resultados

Em média, o visitante requisitou 5,7 páginas, e ficou
conectado aproximadamente 8m:36s no site

Instituições de ensino e pesquisa do RS apresentaram
uma média de 6,4 pageviews por sessão

Apenas 2,8% do total de domínios de terceiro nível
registrados (19 organizações), foram responsáveis por
38,9% das sessões realizadas no site.

Existe uma predominância de provedores que servem a
Região Sul e Sudeste do Brasil
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Alguns resultados

Considerando apenas instituições de ensino e pesquisa
do RS, a Urcamp foi responsável por 45% das sessões

UNISC e UCPEL tiveram o maior número de pageviews
por sessão (7,0 e 6,7)

20,1% das sessões ocorreram nos finais-de-semana

46,2% das sessões ocorreram fora do horário de
expediente

26,9% das sessões tiveram duração superior a 10
minutos

73,0% das sessões era constituída por 1 a 6 páginas
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Alguns resultados




82,7% da freqüência ao mecanismo de busca, apareceu do
quarto click em diante
45,4% do primeiro click recaiu sobre os links "Índice de
Atividades de Pesquisa" (17%), "Publicações" (14,7%) e
"Serviços" (13,7%)
Outras unidades de negócios da organização que mantém
o site procuraram, predominantemente, informações sobre
a “Equipe Técnica” (66 de 181 casos)
os links "Consultoria em Nutrição Animal" e "Laboratório de
Nutrição Animal" foram a primeira escolha de 26,4% dos
visitantes que acessaram o portfolio de produtos e serviços
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Alguns resultados




em média, o tempo entre consultas na mesma sessão
ficou 2m:49s
o percentual de consultas relacionadas diretamente à
missão da unidade de pesquisa foi 64,2%
as consultas cobertas pela missão da empresa
representaram 80,1%.
o percentual das consultas dentro do contexto do
agronegócio, totalizou 83,7%
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Alguns resultados



2.362 termos consultados foram reduzidos para 435
termos diferentes após a sumarização
42,5% das consultas giravam em torno de 4,1% dos
termos
82,7% das consultas buscavam as espécies animais
cobertas pela missão da Unidade (bovinocultura e
ovinocultura)
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Palavras-chave utilizadas pelos visitantes
Termo utilizado pelo visitante
ovinos
pecuária
ovinocultura
confinamento
campos
pastagens
gado de corte
pastagem
ovino
leite
bovinos
caprinos
gado
suínos
gado de leite
história da pecuária
suinocultura
Sub-total
(%)
outros
(%)
Total
(%)
Aluno: Ricardo Martins Bernardes
Freqüência
81
67
58
48
37
29
28
27
17
16
15
14
14
13
11
10
10
495
(20,4)
1.931
(79,6)
2.426
(100,0)
GESID/PPGA/EA/UFRGS
Palavras-chave utilizadas pelos visitantes,
após classificadas pelo Thesagro
Termo classificado pelo Thesagro
pecuária
ovino
confinamento
pastagem
ovinocultura
campo
gado de corte
instalação para animal
nutrição animal
leite
bovino
gado leiteiro
gado
ovelha
doenca animal
planta forrageira
caprino
capim
Sub-total
(%)
outros termos
(%)
Total
(%)
Aluno: Ricardo Martins Bernardes
Freqüência
188
155
89
81
64
62
53
46
32
30
29
28
27
27
26
23
22
22
1.004
(42,5)
1.358
(57,5)
2.362
(100,0)
GESID/PPGA/EA/UFRGS
Atividades de criação
Explícita Implícita
Atividade de criação
na
na
consulta
sessão
Bovinocultura
412
161
Ovinocultura
377
21
Caprinocultura
43
1
Suínocultura
42
6
Avicultura
32
1
Psicultura
23
0
Bubalinocultura
13
1
Eqüinocultura
14
0
Outras atividades
27
0
983
191
Totais
Total Geral
Aluno: Ricardo Martins Bernardes
1.174
GESID/PPGA/EA/UFRGS
Um exemplo de saída do programa c4.5
...
Rule 13:
pageviews <= 7
-> class nao acessou o feedback
[99.0%]
Rule 17:
pageviews > 7
tempo > 241
tempo <= 467
-> class nao acessou o feedback [98.4%]
Default class: nao acessou o feedback
Evaluation on training data (4729 items):
Rule Size Error Used
---- ---- ----- ---..........
13
1
1.0% 3918
17
3
1.6%
86
Wrong
----32 (0.8%)
0 (0.0%)
Tested 4729, errors 91 (1.9%)
(a) (b)
---- ---51
74
17 4587
Advantage
--------0 (0|0)
0 (0|0)
nao acessou o feedback
nao acessou o feedback
<<
<-classified as
(a): class acessou o feedback
(b): class nao acessou o feedback
Aluno: Ricardo Martins Bernardes
GESID/PPGA/EA/UFRGS
Um exemplo de saída do programa c4.5
C4.5 [release 5] rule generator Wed Nov 1 13:45:14 2000
------------------------------Read 2905 cases (3 attributes) from busca2
-----------------Processing tree 0
Final rules from tree 0:
...
Rule 88:
Termo Thesagro = alimento animal
class Apr [41.7%]
...
Rule Size Error Used Wrong
---- ---- ----- ---- ----88
1
58.3%
46 24 (52.2%)
...
Tested 2905, errors 1974 (68.0%)
<<
Aluno: Ricardo Martins Bernardes
Advantage
--------12(22|10) Apr
GESID/PPGA/EA/UFRGS
Estrutura do arquivo de sessões
Structure for database:
E:\TUDONOVO\FILES\DBF\SESSAOBR.DBF
Number of data records:
4968
Date of last update
: 13/11/00
Field Field Name Type
Width
Dec
Index
NUMEROSESS Character
6
N
HOSTACESSO Numeric
5
N
NAORESOLV
Numeric
1
N
DOMNUMERO
Numeric
5
N
DOMPARTE1
Character
5
N
DOMPARTE2
Character
15
N
DOMPARTE2R Character
15
N
DOMPARTE3
Character
15
N
DATAACESSO Date
8
N
DIASEMACES Character
3
N
HORAACESSO Character
6
N
CONTAHOST
Numeric
3
N
ELAPDAYS
Numeric
4
N
ROBOTS
Numeric
1
N
Aluno: Ricardo Martins Bernardes
PAGINAS
PAGINASS
PAGINASST
PAGINASSV
PAGINASSA
TOTSEGSES
NUMPAG
NUMPAGT
PRIMPAG
INICIO
CATEPOCA
CATDIA
CATHORA
CATPER
CATEMPO
CATNUMPAG
CATNUMPAGR
Character
Character
Character
Character
Character
Numeric
Numeric
Numeric
Character
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
Numeric
205
254
254
254
70
5
3
3
3
1
1
1
1
1
1
1
1
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
GESID/PPGA/EA/UFRGS
Download

ppt - UFRGS