Detecção de sessões de
utilização nos diários dos
Tumba!
Ideias e Trabalho Preliminar
Knowledge Management and Discovery Group
AGENDA







Apresentação do tumba!
Web-Mining
•
Diferentes perspectivas
Diários do tumba!
Detecção de Sessões
Padrões de utilização
Extracção de relações semânticas
Conclusão
Knowledge Management and Discovery Group
Tumba!
temos um motor bem alternativo!

Motor de pesquisa para a WWW portuguesa.

Desenvolvido pelo grupo XLDB @ fc.ul.pt

Actualmente indexa 10.273.292 documentos.

O “Google” para uma comunidade específica

http://www.tumba.pt
Knowledge Management and Discovery Group
Tumba!
temos um motor bem alternativo!
Knowledge Management and Discovery Group
Web-Mining

Data-Mining para a WWW
• Extracção de conhecimento relevante a partir
de dados obtidos na WWW
Mas que dados poderão ser esses?
Knowledge Management and Discovery Group
Web-Mining



Conteúdo
•
As páginas HTML, imagens, video.... (text mining)
Estrutura
•
Os hyper-links contidos num único sítio web ou em
toda a WWW (algoritmo de page rank)
Utilização
•
Entradas nos diários de servidores e proxies HTTP,
histórico guardado pelo cliente HTTP (personalização,
recomendação)
Knowledge Management and Discovery Group
Extracto do diário do tumba!
21a.13.2lk.abc - -[01/Oct/2003:00:00:07 +0100] "GET /pesquisa?lang=pt&index=sidra&terms=netmeeting
HTTP/1.1" 200 19923 "http://www.tumba.pt/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)“
21a.13.2lk.abc - - [01/Oct/2003:00:00:08 +0100] "GET
/pesquisa?pag=http://ils.telepac.pt&query_id=1064962805716&pos=0&terms=netmeeting&index=sidra&lang=pt
HTTP/1.1" 302 167 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=netmeeting" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1)"
2b3.2a.1w9.7e - - [01/Oct/2003:00:01:51 +0100] "GET
/pesquisa?docs=10&terms=condominio&index=sidra&lang=pt&query_id=1064962635442&pos=hit_2 HTTP/1.1"
200 20025
"http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=condominio&Submit.x=34&Submit.y=18"
"Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; (R1 1.3))"
1oo.23.1ww.1cc - - [01/Oct/2003:00:02:06 +0100] "GET
/pesquisa?lang=pt&index=sidra&terms=descodificador+tvcabo&Submit.x=30&Submit.y=14 HTTP/1.1" 200 19742
"http://www.tumba.pt/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
2xy.2a.2qq.1aa - - [01/Oct/2003:00:02:18 +0100] "GET
/cache?terms=cache:http://cirurgia4.med.up.pt/jornadas3.html+distanasia&query_id=1064962876502 HTTP/1.1"
200 56505 "http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=distanasia&Submit.x=63&Submit.y=5"
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
Knowledge Management and Discovery Group
Informação usual nos diários






hora e data
nome e tamanho do ficheiro a enviar
endereço do cliente (pode ser um proxy!!)
comando HTTP: GET, PUT, POST
resultado: Status Code
QueryID (específico do tumba!)
• Copulado a um mecanismo de re-direct
Knowledge Management and Discovery Group
Preparação e limpeza dos
diários
21a.1sd.227.abc - - [01/Oct/2003:00:00:08 +0100] "GET
pesquisa?pag=http://ils.telepac.pt&query_id=1064962805716&pos=0&terms=netmeeting&i
ndex=sidra&lang=pt HTTP/1.1" 302 167
"http://www.tumba.pt/pesquisa?lang=pt&index=sidra&terms=netmeeting" "Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1)"
Servlet pesquisa, IP 213.13.227.218, Date 1064962808312, Terms netmeeting, Language pt,
Index sidra, Position 0, Page http://ils.telepac.pt, QueryID 1064962805716, Agent Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5
Knowledge Management and Discovery Group
Preparação e limpeza dos
diários

Ignorar as entradas que não
correspondem a pesquisas

Ignorar as pesquisas nulas (sem termos)
• Watchdog
• Erros ou experiências de utilizadores
Knowledge Management and Discovery Group
Preparação e limpeza dos
diários

Os diários estudados correspondem a
período de 6 meses em 2003.

Inicialmente: 1.150.304 entradas

Após limpeza: 1.136.749 entradas
• Re-directs: 678.126 entradas
• Pesquisas: 458.623
Knowledge Management and Discovery Group
Detecção de Sessões de
Utilização

Uma sessão pode ser definida como:
“Um período de tempo durante a qual
existe alguma interactividade com a
WWW por um utilizador”
Knowledge Management and Discovery Group
Detecção de Sessões de
Utilização

5 variáveis foram utilizadas:
• QueryID
• Agent
• Endereço IP
• Date
• Termos da Pesquisa
Knowledge Management and Discovery Group
Detecção de Sessões de
Utilização - Algoritmo

Quando existe QueryID faz parte de
uma sessão de utilização existente.

Quando não existe QueryID
• Inicio de uma nova sessão
• Ou reformulação da pesquisa
Knowledge Management and Discovery Group
Detecção de Sessões de
Utilização - Algoritmo

Assumimos que uma entrada pertence a
uma sessão existente se:
• Têm mesmo agente
• Têm mesmo endereço IP
• O intervalo entre a última entrada e a corrente
•
é menor do que um limiar estabelecido
Pelo menos um termo (após radicalização) na
sessão é utilizado na entrada actual
Knowledge Management and Discovery Group
Detecção de Sessões de
Utilização - Algoritmo

Sessões que após “algum tempo” estão
inactivas
• Expiram e são removidas de memória central
Knowledge Management and Discovery Group
Exemplo de uma Sessão
Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962926312, Terms
descodificador tvcabo, Language pt, Index sidra, Agent Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1)
Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962971328, Terms crack
tvcabo, Language pt, Index sidra, NumberOfDocuments 0, Agent
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
Servlet pesquisa, IP d9e.2a.1cs.159, Date 1064962998328, Terms crack
tvcabo, Language pt, Index sidra, Position 0, Page http://www.esecmadeira-torres.rcts.pt/jornal interactivo 2/sites.htm, QueryID
1064962970178, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
5.1)
Knowledge Management and Discovery Group
Problema com o Algoritmo
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005110937, Terms sumos, Language pt, Site
www.dgcc.pt, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005130937, Terms site:www.dgcc.pt sumos,
Language pt, Index pt, Position 0, Page http://www.dgcc.pt/38.htm, QueryID 1065005104943,
Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005269937, Terms compal, Language pt,
Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005323953, Terms compal sumos, Language
pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT
4.0)
Knowledge Management and Discovery Group
Solução Proposta

Antes de remover uma sessão:
• verificar se essa pode ser “cabeçalho” de
outra já existente.
• Utilizar as regras anteriores mas agora tendo em
conta as sessões já estabelecidas.
Aglomerar Sessões
Knowledge Management and Discovery Group
Aglomeração de Sessões
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005110937, Terms sumos, Language pt, Site
www.dgcc.pt, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005130937, Terms site:www.dgcc.pt sumos,
Language pt, Index pt, Position 0, Page http://www.dgcc.pt/38.htm, QueryID 1065005104943,
Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005269937, Terms compal, Language pt, Index
pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Servlet pesquisa, IP 1y3.ab6.1v1.a, Date 1065005323953, Terms compal sumos, Language pt,
Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Knowledge Management and Discovery Group
Aglomeração de Sessões

4187 aglomerações efectuadas

Inspecção manual preliminar das
aglomerações são favoráveis
Knowledge Management and Discovery Group
Padrões de utilização mais
frequentes
Total de 235.713 sessões detectadas
Sessões
Padrão
60611
PEQUISA
20221
PESQUISA:0
14702
PESQUISA:PESQUISA
5559
PESQUISA:1
5018
PESQUISA:PESQUISA:PESQUISA
3254
PESQUISA:2
2345
PESQUISA:PAG_2
Knowledge Management and Discovery Group
Extracção de Relações
Semânticas
Alguns extractos de sessões....
avaliação carro
avaliação automóvel
coser malhas
tricô
construir instrumentos de música
fabricar instrumentos de música
misturas para aves
misturas para periquitos
purificadores de água
filtros de água
bonecos
desenhos animados
pensões porto
residenciais porto
Knowledge Management and Discovery Group
Extracção de Relações
Semânticas

Não sabemos exactamente que relação
temos.

TALVEZ! Possamos “olhar” para página
que o utilizador consultou e extrair a
relação...
Knowledge Management and Discovery Group
Detecção de sessões de
utilização nos diários dos
Tumba!
Ideias e Trabalho Preliminar
FIM
Knowledge Management and Discovery Group
Download

TumbaSessions