ORKURIOSO
Equipe
Arthur Gonçalves - agc
Fábio Rocha - frp
Hugo Alves - haa
Renato Marcelino rmo
Roteiro








Orkut
Descrição do sistema
Corpus de documentos
Arquitetura do sistema
O Protótipo
Testes e resultados
Conclusão
Referências
Orkut

Maior rede social do país
• 32 Milhões de usuários

Troca de mensagens entre usuários
• scraps

Busca por scraps
• Levantamento de opiniões
• Fiscalização policial
• Curiosidade
• ...
Orkut
Descrição do sistema

Aplicação para consulta de scraps

Consulta palavras desejadas

Resultado
• Ex.: “Boticário”
• Sender - Link
• Receiver - Link
• Scrap
Corpus de documentos

Indexação

Aquisição
• Palavras do scrap
• Crawler
• Busca em largura
• Limite por scraps ou profiles
Documento
1
2
3
Scrap
Olá tudo bem? …
Como vai vc? …
Fala doidao!!! ....
Link Sender
www.orkut.com/profile...
www.orkut.com/profile...
www.orkut.com/profile...
Link Receiver
www.orkut.com/profile...
www.orkut.com/profile...
www.orkut.com/profile...
Corpus de documentos
Arquitetura do sistema
Modelos de RI adotados
• Modelo Booleano
• Simples
• Rápido
• Filtro Primário
• Modelo Vetorial
• Grande uso
• Eficiente
• Score
Pré-processamento dos Documentos

Preparação dos documentos
• Eliminação de stopwords
• Eliminação de tags html
• Conversão do texto para lowercase
• Stemming
Representação Interna dos
Documentos

Base de Índice Invertidos
No
Termo
(Docs; Pos)
1
2
3
4
5
Brother
malice
gatinha
pertubado
orkut
(21; 4), (1; 7)
(3), (1; 8)
(1), (4)
(2), (4)
(3), (1; 8)
Consulta

Busca nos scrapbooks
• Busca booleana
• “?”,”*”,”
• Buscas compostas
• “OR”,”AND”, “palavra composta”
• Score
Protótipo
Avaliação do sistema

Avaliação subjetiva
• 10 usuários (NeuroTech e Cin)

Notas
• Muito Ruim
• Ruim
• Médio
• Bom
• Muito Bom
Muito Ruim
Ruim
Médio
Bom
Muito Bom
0
1
1
4
4
Avaliação do sistema

Corpus

Cobertura máxima

Precisão
• 100 scraps
• 10 consultas
• Etiquetagem
• 63%
Melhorias propostas




Analisador específico do domínio
•
Gírias
Extensão para outras comunidades
•
Facebook
Consultas avançadas
•
Tipos de arquivos
Informações do Sender
Conclusões

Ferramenta inovadora

Ferramenta de busca

•
•
•
Produtos
Policial
Caráter pessoal
Bom desempenho
Referências

YATES, R. B. e NETO, B. R. Modern
Information Retrieval, 1999.

LUCENE. Disponível em:
<http://lucene.apache.org> Acesso em: 6 jun.
2008

ORKUT. Disponível em:
<http://www.orkut.com> Acesso em: 6 jun.
2008
ORKURIOSO
Equipe
Arthur Gonçalves - agc
Fábio Rocha - frp
Hugo Alves - haa
Renato Marcelino rmo
Download

Document