Gerência e Recuperação de Informação
em Documentos Eletrônicos
Objetivo Geral
O projeto visa:
 Desenvolver novos algoritmos para
gerência e recuperação de informação em
documentos
 Gerar novas tecnologias a partir de
resultados de pesquisa
14 de setembro de 2004
Gerindo - Reunião de Avaliação
2
Motivação





Crescimento da Web
Abundância de documentos em instituições
Facilidade de acesso via rede
Crescente demanda por software para prover
acesso eficiente e eficaz à informação
Mercado com forte tendência de crescimento
nos próximos anos
14 de setembro de 2004
Gerindo - Reunião de Avaliação
3
Objetivos Específicos





Desenvolvimento de novos algoritmos em RI
Criação de um repositório central para
software, artigos, dissertações e outras
fontes relacionadas ao projeto
Coleta de páginas da Web brasileira e
disponibilização de estatísticas
Realização de trabalhos integrados com
pesquisadores dos três grupos
Busca de parceiros para a transferência de
novas tecnologias para a sociedade
14 de setembro de 2004
Gerindo - Reunião de Avaliação
4
Participantes

Três Grupos, dez pesquisadores

UFMG






UFAM




Alberto H.F. Laender
Berthier Ribeiro-Neto
Nivio Ziviani (Coordenador)
Renato A. Ferreira
Wagner Meira Jr.
Altigran S. da Silva
Edleno S. de Moura
João M.B. Cavalcanti
UFRGS


Carlos A. Heuser
Mara Abel
14 de setembro de 2004
Gerindo - Reunião de Avaliação
5
Repositório: Savannah


Solução aberta, amplamente usada e ambiente flexível
 Armazenamento e recuperação de software, coleções
teste, produção científica
 Documentação via Internet
 Controle automático de versões
Ambiente de desenvolvimento que favorece:
 Metodologia
 Colaboração
 Publicação externa ao GERINDO
 Adoção de outros padrões de desenvolvimento
(codificação e documentação)
14 de setembro de 2004
Gerindo - Reunião de Avaliação
6
Tópicos de Pesquisa





Categorização de Documentos
Gerência de Dados Semi-Estruturados
Modelos de Recuperação de Informação
Eficiência em Recuperação de Informação
Mineração de Dados
14 de setembro de 2004
Gerindo - Reunião de Avaliação
7
Web Classification
Cade188 Classification
Cade12 Classification
kNN varations (red = baseline)
C
ou
p
lin
g
hu
b
C
F
ID
TF
-
au
th
Am
sl
er
n
oc
i
C
C
ou
p
lin
ta
tio
g
hu
b
C
F
ID
TF
-
au
th
C
er
Am
sl
C
oc
i
ta
tio
n
20
10
0
80
70
60
50
40
30
20
10
0
C
60
50
40
30
Precision
Precision
80
70
kNN varations (red = baseline)
Fonte: Cristo, Calado, Moura, Ziviani and B. Ribeiro-Neto, Link Information as a
Similarity Measure in Web Classification, SPIRE 2003
14 de setembro de 2004
Gerindo - Reunião de Avaliação
8
Web Classification
Cade12
Cade188
Link Similarity
Measures
kNN
SVM
NB
kNN
SVM
NB
B. Coupling
36.31
40.02
39.30
22.32
23.08
22.70
Amsler
81.26
77.65
58.80
70.57
68.91
47.01
Co-citation
81.55
77.89
59.03
71.07
69.53
47.31
Companion
73.00
63.66
42.76
68.54
73.63
29.82
Baseline
39.45
40.86
39.38
24.45
24.31
22.82
Fonte: Calado, Cristo, Moura, Ziviani, Ribeiro-Neto, and Gonçalves, Combining LinkBased and Content-Based Methods for Web Document Classification, ACM CIKM 2003
14 de setembro de 2004
Gerindo - Reunião de Avaliação
9
Conjunctive and Phrase Queries
Fonte: Pôssas, B., Ziviani, N., Ribeiro-Neto, B., and Meira, W. (2004). Processing
conjunctive and phrase queries with the set-based model. In 11th International
Symposium on String Processing and Information Retrieval (SPIRE 2004), Padova,
Itália.
14 de setembro de 2004
Gerindo - Reunião de Avaliação
10
Image Retrieval
Fonte: Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R. (2003). Image
retrieval using multiple evidence ranking. IEEE Transactions on Knowledge and Data
Engineering, 16(4):408–417.
14 de setembro de 2004
Gerindo - Reunião de Avaliação
11
Related Queries
Fonte: Fonseca, B., Golgher, P., Moura, E. S., Pôssas, B. and Ziviani, N. (2004).
Discovering Search Engine Related Queries Using Association Rules. Journal of
Web Engineering (JWE), to appear.
14 de setembro de 2004
Gerindo - Reunião de Avaliação
12
Keyword-based Queries over Web
Databases
Fonte: Calado, Silva, Vieira, Laender and Ribeiro-Neto, A Bayesian Network Approach
Searching Databases Through keyword-based Queries. IP&M, 40(5): 773-790.
14 de setembro de 2004
Gerindo - Reunião de Avaliação
13
Produção Científica
Tipo
Internacional
Nacional
Livros
-
1
Capítulos de livros
3
-
Anais Conferências (Eds.)
2
-
Artigos em Periódicos
9
-
Artigos em Conferências
18
8
TOTAL
32
9
14 de setembro de 2004
Gerindo - Reunião de Avaliação
14
Qualidade dos Trabalhos

Periódicos:









ACM Transactions on Information Systems (TOIS)
Data and Knowledge Engineering
Information Processing and Management (2)
IEEE Transactions on Knowledge and Data Engineering (TKDE)
Journal of Web Engineering (JWE)
Knowledge and Information Systems
Systems, Man and Cybernetics
Theoretical Computer Science
Conferências Internacionais Mais Importantes:





ACM CIKM 2003 e 2004 (Poster)
ACM/IEEE JCDL 2003 e 2004 (Best Student Paper)
Conference on Conceptual Modeling (ER 2004)
Very Large Database (VLDB 2004)
WWW 2004
14 de setembro de 2004
Gerindo - Reunião de Avaliação
15
Formação de Pessoal
Nível
Concluído
Em andamento
Doutorado
1
10
Mestrado
8
20
Graduação
2
10
TOTAL
11
30
14 de setembro de 2004
Gerindo - Reunião de Avaliação
16
Parcerias

Akwan Information Technologies (www.akwan.com.br)


Fabriq



Gestão eletrônica de documentos
Programa de gestão da lei de informática da Zona Franca
de Manaus
Philips MDS


Disponibilidade de dados (logs) reais
Gerente de conteúdos para portais Web
Singol Tecnologia da Informação

Sistema de verificação de plágio em documentos Web
14 de setembro de 2004
Gerindo - Reunião de Avaliação
17
Impacto na Infra-estrutura

UFMG:



UFAM



Máquina paralela com 8 processadores
Renovação do laboratório com aquisição de equipamentos
e discos magnéticos para armazenar grandes coleções
Laboratório suporta o trabalho de mais de 20 alunos
Recursos da Philips-MDS, que serviram para reforçar a
infra-estrutura do laboratório
UFRGS

Renovação do laboratório com aquisição de equipamentos
14 de setembro de 2004
Gerindo - Reunião de Avaliação
18
Próximos Dois Anos



Continuar atividades de pesquisa seguindo
objetivos do projeto
Projeto aprovado para 4 anos
Realizar eventos



Continuar atualizando o repositório





Workshops internos
28th ACM SIGIR (Salvador, 2005), SPIRE (B. Aires, 2005)
Biblioteca de softwares
Coleções teste
Formação de doutores, mestres e bacharéis
Estabelecer novas parcerias com empresas
Atualizar equipamentos dos laboratórios
14 de setembro de 2004
Gerindo - Reunião de Avaliação
19
Download

PPT - DCC