Gerência e Recuperação de Informação em Documentos Eletrônicos Objetivo Geral O projeto visa: Desenvolver novos algoritmos para gerência e recuperação de informação em documentos Gerar novas tecnologias a partir de resultados de pesquisa 14 de setembro de 2004 Gerindo - Reunião de Avaliação 2 Motivação Crescimento da Web Abundância de documentos em instituições Facilidade de acesso via rede Crescente demanda por software para prover acesso eficiente e eficaz à informação Mercado com forte tendência de crescimento nos próximos anos 14 de setembro de 2004 Gerindo - Reunião de Avaliação 3 Objetivos Específicos Desenvolvimento de novos algoritmos em RI Criação de um repositório central para software, artigos, dissertações e outras fontes relacionadas ao projeto Coleta de páginas da Web brasileira e disponibilização de estatísticas Realização de trabalhos integrados com pesquisadores dos três grupos Busca de parceiros para a transferência de novas tecnologias para a sociedade 14 de setembro de 2004 Gerindo - Reunião de Avaliação 4 Participantes Três Grupos, dez pesquisadores UFMG UFAM Alberto H.F. Laender Berthier Ribeiro-Neto Nivio Ziviani (Coordenador) Renato A. Ferreira Wagner Meira Jr. Altigran S. da Silva Edleno S. de Moura João M.B. Cavalcanti UFRGS Carlos A. Heuser Mara Abel 14 de setembro de 2004 Gerindo - Reunião de Avaliação 5 Repositório: Savannah Solução aberta, amplamente usada e ambiente flexível Armazenamento e recuperação de software, coleções teste, produção científica Documentação via Internet Controle automático de versões Ambiente de desenvolvimento que favorece: Metodologia Colaboração Publicação externa ao GERINDO Adoção de outros padrões de desenvolvimento (codificação e documentação) 14 de setembro de 2004 Gerindo - Reunião de Avaliação 6 Tópicos de Pesquisa Categorização de Documentos Gerência de Dados Semi-Estruturados Modelos de Recuperação de Informação Eficiência em Recuperação de Informação Mineração de Dados 14 de setembro de 2004 Gerindo - Reunião de Avaliação 7 Web Classification Cade188 Classification Cade12 Classification kNN varations (red = baseline) C ou p lin g hu b C F ID TF - au th Am sl er n oc i C C ou p lin ta tio g hu b C F ID TF - au th C er Am sl C oc i ta tio n 20 10 0 80 70 60 50 40 30 20 10 0 C 60 50 40 30 Precision Precision 80 70 kNN varations (red = baseline) Fonte: Cristo, Calado, Moura, Ziviani and B. Ribeiro-Neto, Link Information as a Similarity Measure in Web Classification, SPIRE 2003 14 de setembro de 2004 Gerindo - Reunião de Avaliação 8 Web Classification Cade12 Cade188 Link Similarity Measures kNN SVM NB kNN SVM NB B. Coupling 36.31 40.02 39.30 22.32 23.08 22.70 Amsler 81.26 77.65 58.80 70.57 68.91 47.01 Co-citation 81.55 77.89 59.03 71.07 69.53 47.31 Companion 73.00 63.66 42.76 68.54 73.63 29.82 Baseline 39.45 40.86 39.38 24.45 24.31 22.82 Fonte: Calado, Cristo, Moura, Ziviani, Ribeiro-Neto, and Gonçalves, Combining LinkBased and Content-Based Methods for Web Document Classification, ACM CIKM 2003 14 de setembro de 2004 Gerindo - Reunião de Avaliação 9 Conjunctive and Phrase Queries Fonte: Pôssas, B., Ziviani, N., Ribeiro-Neto, B., and Meira, W. (2004). Processing conjunctive and phrase queries with the set-based model. In 11th International Symposium on String Processing and Information Retrieval (SPIRE 2004), Padova, Itália. 14 de setembro de 2004 Gerindo - Reunião de Avaliação 10 Image Retrieval Fonte: Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R. (2003). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowledge and Data Engineering, 16(4):408–417. 14 de setembro de 2004 Gerindo - Reunião de Avaliação 11 Related Queries Fonte: Fonseca, B., Golgher, P., Moura, E. S., Pôssas, B. and Ziviani, N. (2004). Discovering Search Engine Related Queries Using Association Rules. Journal of Web Engineering (JWE), to appear. 14 de setembro de 2004 Gerindo - Reunião de Avaliação 12 Keyword-based Queries over Web Databases Fonte: Calado, Silva, Vieira, Laender and Ribeiro-Neto, A Bayesian Network Approach Searching Databases Through keyword-based Queries. IP&M, 40(5): 773-790. 14 de setembro de 2004 Gerindo - Reunião de Avaliação 13 Produção Científica Tipo Internacional Nacional Livros - 1 Capítulos de livros 3 - Anais Conferências (Eds.) 2 - Artigos em Periódicos 9 - Artigos em Conferências 18 8 TOTAL 32 9 14 de setembro de 2004 Gerindo - Reunião de Avaliação 14 Qualidade dos Trabalhos Periódicos: ACM Transactions on Information Systems (TOIS) Data and Knowledge Engineering Information Processing and Management (2) IEEE Transactions on Knowledge and Data Engineering (TKDE) Journal of Web Engineering (JWE) Knowledge and Information Systems Systems, Man and Cybernetics Theoretical Computer Science Conferências Internacionais Mais Importantes: ACM CIKM 2003 e 2004 (Poster) ACM/IEEE JCDL 2003 e 2004 (Best Student Paper) Conference on Conceptual Modeling (ER 2004) Very Large Database (VLDB 2004) WWW 2004 14 de setembro de 2004 Gerindo - Reunião de Avaliação 15 Formação de Pessoal Nível Concluído Em andamento Doutorado 1 10 Mestrado 8 20 Graduação 2 10 TOTAL 11 30 14 de setembro de 2004 Gerindo - Reunião de Avaliação 16 Parcerias Akwan Information Technologies (www.akwan.com.br) Fabriq Gestão eletrônica de documentos Programa de gestão da lei de informática da Zona Franca de Manaus Philips MDS Disponibilidade de dados (logs) reais Gerente de conteúdos para portais Web Singol Tecnologia da Informação Sistema de verificação de plágio em documentos Web 14 de setembro de 2004 Gerindo - Reunião de Avaliação 17 Impacto na Infra-estrutura UFMG: UFAM Máquina paralela com 8 processadores Renovação do laboratório com aquisição de equipamentos e discos magnéticos para armazenar grandes coleções Laboratório suporta o trabalho de mais de 20 alunos Recursos da Philips-MDS, que serviram para reforçar a infra-estrutura do laboratório UFRGS Renovação do laboratório com aquisição de equipamentos 14 de setembro de 2004 Gerindo - Reunião de Avaliação 18 Próximos Dois Anos Continuar atividades de pesquisa seguindo objetivos do projeto Projeto aprovado para 4 anos Realizar eventos Continuar atualizando o repositório Workshops internos 28th ACM SIGIR (Salvador, 2005), SPIRE (B. Aires, 2005) Biblioteca de softwares Coleções teste Formação de doutores, mestres e bacharéis Estabelecer novas parcerias com empresas Atualizar equipamentos dos laboratórios 14 de setembro de 2004 Gerindo - Reunião de Avaliação 19