Uma Abordagem Flexível para Extração de Metadados de Citações Bibliográficas Dissertação de Mestrado – CTD 2010 Eli Cortez Orientador: Altigran Soares da Silva Programa de Pós-Graduação em Informática Universidade Federal do Amazonas Introdução (I) Gerenciamento de Citações é um aspecto central em Bibliotecas Digitais Modernas Evidência do impacto de um artigo científico Evidência auxiliar em Recuperação de Informação (Classificação) Gerenciamento de Citações envolve: Limpeza nos Dados (Data cleaning); Remoção de Duplicatas; Extração de Citação. Introdução (II) FLUX-CiM: Método de Extração que auxilia na tarefa de extração de componentes das citações bibliográficos em qualquer estilo de apresentação. Estima a probabilidade de um dado termo presente na citação ocorrer como valor de um campo bibliográfico. Utiliza propriedades estruturais presentes em citações bibliográficas. Observações: Flexível: Não considera um estilo de citação em particular Não Supervisionado: Não requer esforço humano na fase de treinamento Resultados (I) ACM/IEEE JCDL Vancouver / CA - 2007 - Artigo em Conferência ACM SIGMOD Vancouver / CA - 2008 – Ganhador Undergrad Poster Competition A Flexible Approach for extracting Metadata from Bibliographic citations SBBD Campinas / SP - 2008 – Sessão de Demos FLUX-CiM: Flexible Unsupervised Extraction of Citation Metada FLUX-CiM: Flexible Unsupervised Extraction of Citation Metada JASIST 2009 – Artigo em Periódico A Flexible Approach for extracting Metadata from Bibliographic citations Resultados (II) Mineração de dados bibliográficos para avaliação trienal (2007 – 2009) CAPES Qualis CC Utilização do método FLUX-CiM para extração de referências do lattes Portal dos INCT’s - INWEB Criação de portal que reune informações bibliográficas de pesquisadores atuantes em Intistutos Nacionais de Pesquisas Trabalhos Relacionados Trabalhos Relacionados [M. Y. Day et al., IEEE IRI/05] [McCallum et al., IPM/06] Extração dos Metadados baseada em ontologias Necessita de ontologias manualmente contruídas Extração de dados bibliográficos utilizando Conditional Random Fields (CRF) Processo de rotulação e segmentação é baseado em um modelo gerado através de instâncias de treino [Cullota et al., Artif. Intell./06] Processo de realimentação em modelos baseados em CRF Usuário manualmente orienta o processo Método FLUX-CiM Visão Geral (I) FLUX-CiM Autor Título Conferência Local Visão Geral (II) Autor Autor Jobim A . C .,Jobim Gilberto Nova A . CJ .., Bossa Gilberto J :. Título Nova Algorithm : A new Harmonic A new Bossa Harmonic . MPB Algorithm Surveys ,. Periódico Vol N Página Página Ano MPB Surveys ( 11 : 1022- -1036 1036 ( ( 1995 1995 )) 26, 26 ( 11 ) : ) 1022 Método FLUX-CiM Conceitos Básicos (I) Base de Conhecimento de Pares BC = {(m1 , O1 ),...,(mn , On )} Processo de construção trivial Conjunto BC= { (Autor, O Autor ), (Título, OTítulo ) } O Autor = { “J. K. Rowling”, “Galadriel Waters”, “Beatrix Potter” } O Título = { “Harry Potter and the Half-Blood Prince ”, “A guide to Harry Potter”, “Petter Rabbit’s Halloween” } Método FLUX-CiM Conceitos Básicos (II) Citação Texto que constitui uma citação bibliográfica completa Jobim A. C., Gilberto J. Bossa Nova: A new Harmonic Algorithm. MPB Surveys, 26(11):1022-1036 (1995) p-delimitadores (delimitadores em potencial) Qualquer caractere que não seja: A,…,Z a,…,z 0,…,9 Método FLUX-CiM Fases Método proposto pode ser dividido em 4 fases: Blocking; Matching; Binding; Joining Método FLUX-CiM Blocking Blocking Dividir uma dada citação em substrings chamadas de blocos; Considera a posição do p-delimiter dentro da citação. Jobim A . C ., Gilberto J . Bossa Nova : A new Harmonic Algorithm . MPB Surveys , 26 ( 11 ) : 1022 - 1036 ( 1995 ) Método FLUX-CiM Matching Matching Associar cada bloco gerado na fase anterior com um campo bibliográfico, de acordo com a Base de Conhecimento; Para computar a probabilidade de um dado termo presente no bloco pertencer a um campo bibliográfico utilizamos: Para Valores Textuais : Função FF (Field Frequency) Similaridade entre os termos da BC e os termos do bloco Para Valores Numéricos: Função NM (Numeric Matching) Similaridade entre o valor no bloco, e a Média e Desvio Padrão de cada Campo Numérico na BC Matching Textual Onde: T(mi) = Conjunto de todos os termos encontrados nas ocorrências do campo bibliográfico mi, T(b) = Conjunto de termos presentes no bloco b. f(t,mi) = número de ocorrências oi,k ∈ Oi associadas com o campo bibliográfico mi que contem o termo t na base de conhecimento, fmax(mi) = maior frequência de um termo entre todas as ocorrências oi,k ∈ Oi, N(t) = total de ocorrências do termo t na base de conhecimento. Matching Numérico onde σ e μ são o desvio padrão e a média, respectivamente, dos valores do campo bibliográfico mi. Método FLUX-CiM Matching (II) Matching Autor ??? Autor ??? Jobim A . C ., Gilberto J . Bossa Nova : Título Periódico A new Harmonic Algorithm . MPB Surveys , Vol N Página Página Ano 26 ( 11 ) : 1022 - 1036 ( 1995 ) Método FLUX-CiM Binding (I) Binding Rotular os blocos que não foram associados a nenhum campo bibliográfico na fase de matching Utiliza informação que foi gerada na fase de matching e informação disponível na base de conhecimento Método FLUX-CiM Binding (II) Binding – Vizinhança Homogênea Blocos não associados entre campos iguais. Autor Autor ??? Autor ??? Jobim A . C ., Gilberto J . Bossa Nova : Título Periódico A new Harmonic Algorithm . MPB Surveys , Vol N Página Página Ano 26 ( 11 ) : 1022 - 1036 ( 1995 ) Método FLUX-CiM Binding (III) Binding – Vizinhança Heterogênea Avaliar os p-delimiters que cercam o bloco Autor Autor Autor ??? Título Jobim A . C ., Gilberto J . Bossa Nova : Título Periódico A new Harmonic Algorithm . MPB Surveys , “.” é um provável delimitador entre Autor e Título “:” é um provável caractere pertencente ao campo Título Método FLUX-CiM Joining (I) Joining Une os blocos pertencetes ao mesmo campo bibliográfico para forma o valor exato de tais campos Solução utiliza informação presente na Base de Conhecimento Utiliza o número médio de termos de cada campo Método FLUX-CiM Joining (II) Joining Autor Autor Autor Autor Título Autor Jobim A . CJobim ., Gilberto A . C J., . Bossa GilbertoNova J . : Título Título Periódico Bossa Nova : AAlgorithm new Harmonic Algorithm A new Harmonic . MPB Surveys. , Periódico Vol Vol NN Página Página Página Página Ano Ano MPB Surveys 26 , 26 ( ( 11 11 )) :: 1022 1022 -- 1036 1036 ( ( 1995 1995) ) Realimentação Realimentação (I) Base de Conhecimento precisa cobrir uma porção representativa do domínio de interesse Novas Características devem ser incorporadas a Base de Conhecimento de tempos em tempos para refletir o domínio alvo Realimentação (II) Solução: Incorporar o resultado da extração diretamente a Base de Conhecimento Isso pode vir a introduzir uma certa quantidade de ruído Porém, de acordo com os experimentos, o resultado da extração não projudica futuras execuções Realimentação (III) Experimentos Experimentos Configurações O método foi testado em 3 diferentes domínios: Ciências da Saúde (CS1) Ciências Sociais (CS2) Ciência da Computação (CORA) Métricas Precisão, Revocação e Medida F Por questão de tempo, apresentamos aqui somente resultados referentes a 2 domínios. Experimentos Configurações Base de Conhecimento Domínio # # Campos Fonte CS1 5000 6 PubMed CORA 350 1…10 CORA Coleção de Teste Domínio # # Campos Fonte CS1 2000 6 PubMed CORA 150 1…10 CORA Experimentos Hipótese de Blocking Contamos quantos valores de um determinado campo eram cercados por algum p-delimitador. Como esperado: 100% dos valores em todas as coleções são delimitados por algum p-delimitador. Experimentos Nível de Campos CORA CS1 Field Field P (%) R (%) F-measure Autor 93.85 95.58 0.94 Título 93.00 93.00 0.93 Periódico 95.71 97.81 0.96 P (%) R (%) Medida F Autor 99.57 99.04 0.98 Título 84.88 85.14 0.85 Periódico 97.23 89.35 0.93 Data 91.75 97.44 0.97 99.50 0.99 Páginas 97.00 97.84 0.97 Páginas 99.70 99.20 0.99 Conferência 100.0 98.25 0.99 Volume 98.20 98.75 0.98 Outros 98.04 97.73 0.97 Média 96.41 95.16 0.95 Média 96.28 95.80 0.96 Data 99.85 Este valor de Medida F para o campo título nos mostra a grande intersecção entre os termos de Título e de Periódico Alto grau de qualidade alcançado após Matching e Binding foi mantido após o Joining Experimentos Nível de Citações Domínio P (%) R (%) Medida F CS1 94.82 95.10 0.94 CORA 92.14 94.78 0.93 Mesmo em diferentes domínios e entre estilos distintos de apresentação, nosso método foi capaz de alcançar bons resultados Comparação Experimental Experimentos Comparação Experimental Domínio FLUX-CiM CRF T-Test CORA 0.9301 0.9254 1.00% CS1 0.9792 0.9498 1.00% Valores de Medida F Experimentos Lidando com Diferentes Estilos • Kerlikowske K, Orel SG, Troupin RH. Nonmammographic imaging. Semin Roentgenol. 1993;28:231-241 • 231-241: Nonmammographic imaging. Kerlikowske K: Orel SG: Troupin RH, 1993; 28. Semin Roentgenol • 1993; Kerlikowske K; Orel SG; Troupin RH; Semin Roentgenol. Nonmammographic imaging. 231-241: 28 • Nonmammographic imaging: 1993, Kerlikowske K, 231-241, Orel SG; Troupin RH. Semin Roentgeno Experimentos Lidando com Diferentes Estilos CS1 Estilos FLUX-CiM CRF T-Test 1 Estilo 0.9792 0.9498 1.00% 2 Estilos 0.9792 0.7065 1.00% 3 Estilos 0.9792 0.4033 1.00% 4 Estilos 0.9792 0.3567 1.00% Valores de Medida F Experimentos Realimentação Processo de Realimentação Conclusões Nova abordagem para extração de componentes bibliográficos em qualquer estilo de apresentação Estado-da-Arte em extração de citação FLUX-CiM Flexível: Não considera um estilo de citação em particular Não Supervisionado: Não requer esforço humano na fase de treinamento Trabalhos Futuros Generalização de método de extração de informação Proposta de Doutorado [Cortez et al.] ACM SIGMOD Indianapolis / IN 2010 – ONDUX: On-Demand Unsupervised Extraction of Citation Metadata - Publicado [Cortez et. al.] IDAR Indianapolis / IN 2010 – Unsupervised Strategies for Information Extraction by Text Segmentation - Publicado [Cortez et al.] VLDB 2011 – A probabilistic approach for automatic form filling - 2nd round review Financiamento FAPEAM Uol Bolsa Pesquisa Perguntas ??? Matching Textual Onde: T(mi) = Conjunto de todos os termos encontrados nas ocorrências do campo bibliográfico mi, T(b) = Conjunto de termos presentes no bloco b. f(t,mi) = número de ocorrências oi,k ∈ Oi associadas com o campo bibliográfico mi que contem o termo t na base de conhecimento, fmax(mi) = maior frequência de um termo entre todas as ocorrências oi,k ∈ Oi, N(t) = total de ocorrências do termo t na base de conhecimento. Matching Numérico onde σ e μ são o desvio padrão e a média, respectivamente, dos valores do campo bibliográfico mi.