Uma Abordagem Flexível para
Extração de Metadados de
Citações Bibliográficas
Dissertação de Mestrado – CTD 2010
Eli Cortez
Orientador: Altigran Soares da Silva
Programa de Pós-Graduação em Informática
Universidade Federal do Amazonas
Introdução (I)

Gerenciamento de Citações é um aspecto
central em Bibliotecas Digitais Modernas
Evidência do impacto de um artigo científico
 Evidência auxiliar em Recuperação de Informação
(Classificação)


Gerenciamento de Citações envolve:



Limpeza nos Dados (Data cleaning);
Remoção de Duplicatas;
Extração de Citação.
Introdução (II)

FLUX-CiM:




Método de Extração que auxilia na tarefa de extração de componentes
das citações bibliográficos em qualquer estilo de apresentação.
Estima a probabilidade de um dado termo presente na citação ocorrer
como valor de um campo bibliográfico.
Utiliza propriedades estruturais presentes em citações bibliográficas.
Observações:


Flexível: Não considera um estilo de citação em particular
Não Supervisionado: Não requer esforço humano na fase de
treinamento
Resultados (I)

ACM/IEEE JCDL Vancouver / CA - 2007 - Artigo em
Conferência


ACM SIGMOD Vancouver / CA - 2008 – Ganhador
Undergrad Poster Competition


A Flexible Approach for extracting Metadata from
Bibliographic citations
SBBD Campinas / SP - 2008 – Sessão de Demos


FLUX-CiM: Flexible Unsupervised Extraction of Citation Metada
FLUX-CiM: Flexible Unsupervised Extraction of Citation Metada
JASIST 2009 – Artigo em Periódico

A Flexible Approach for extracting Metadata from
Bibliographic citations
Resultados (II)

Mineração de dados bibliográficos para avaliação trienal
(2007 – 2009) CAPES Qualis CC
 Utilização do método FLUX-CiM para extração de
referências do lattes

Portal dos INCT’s - INWEB

Criação de portal que reune informações bibliográficas
de pesquisadores atuantes em Intistutos Nacionais de
Pesquisas
Trabalhos Relacionados
Trabalhos Relacionados

[M. Y. Day et al., IEEE IRI/05]



[McCallum et al., IPM/06]



Extração dos Metadados baseada em ontologias
Necessita de ontologias manualmente contruídas
Extração de dados bibliográficos utilizando Conditional Random
Fields (CRF)
Processo de rotulação e segmentação é baseado em um modelo
gerado através de instâncias de treino
[Cullota et al., Artif. Intell./06]


Processo de realimentação em modelos baseados em CRF
Usuário manualmente orienta o processo
Método FLUX-CiM
Visão Geral (I)
FLUX-CiM
Autor
Título
Conferência
Local
Visão Geral (II)
Autor
Autor
Jobim A . C .,Jobim
Gilberto
Nova
A . CJ .., Bossa
Gilberto
J :.
Título
Nova Algorithm
: A new Harmonic
A new Bossa
Harmonic
. MPB Algorithm
Surveys ,.
Periódico
Vol
N
Página
Página
Ano
MPB Surveys
( 11
: 1022- -1036
1036 ( ( 1995
1995 ))
26, 26
( 11
) : ) 1022
Método FLUX-CiM
Conceitos Básicos (I)

Base de Conhecimento
de Pares BC = {(m1 , O1 ),...,(mn , On )}
 Processo de construção trivial
 Conjunto
BC= { (Autor, O Autor ), (Título, OTítulo ) }
O Autor = { “J. K. Rowling”, “Galadriel Waters”, “Beatrix Potter” }
O Título = { “Harry Potter and the Half-Blood Prince ”,
“A guide to Harry Potter”, “Petter Rabbit’s Halloween” }
Método FLUX-CiM
Conceitos Básicos (II)

Citação

Texto que constitui uma citação bibliográfica completa
Jobim A. C., Gilberto J. Bossa Nova: A new Harmonic Algorithm.
MPB Surveys, 26(11):1022-1036 (1995)

p-delimitadores (delimitadores em potencial)

Qualquer caractere que não seja:



A,…,Z
a,…,z
0,…,9
Método FLUX-CiM
Fases

Método proposto pode ser dividido em 4 fases:
 Blocking;
 Matching;
 Binding;
 Joining
Método FLUX-CiM
Blocking

Blocking
 Dividir
uma dada citação em substrings chamadas
de blocos;
 Considera a posição do p-delimiter dentro da
citação.
Jobim A . C ., Gilberto J . Bossa Nova :
A new Harmonic Algorithm . MPB Surveys ,
26 ( 11 ) : 1022 - 1036 ( 1995 )
Método FLUX-CiM
Matching

Matching

Associar cada bloco gerado na fase anterior com um campo
bibliográfico, de acordo com a Base de Conhecimento;

Para computar a probabilidade de um dado termo presente no
bloco pertencer a um campo bibliográfico utilizamos:

Para Valores Textuais : Função FF (Field Frequency)


Similaridade entre os termos da BC e os termos do bloco
Para Valores Numéricos: Função NM (Numeric Matching)

Similaridade entre o valor no bloco, e a Média e Desvio Padrão de
cada Campo Numérico na BC
Matching Textual
Onde:
T(mi) = Conjunto de todos os termos encontrados nas ocorrências do campo
bibliográfico mi,
T(b) = Conjunto de termos presentes no bloco b.
f(t,mi) = número de ocorrências oi,k ∈ Oi associadas com o
campo bibliográfico
mi que contem o termo t na base de conhecimento,
fmax(mi) = maior frequência de um
termo entre todas as ocorrências oi,k ∈ Oi,
N(t) = total de ocorrências do
termo t na base de conhecimento.
Matching Numérico
onde σ e μ são o desvio padrão e a média,
respectivamente, dos valores do campo
bibliográfico mi.
Método FLUX-CiM
Matching (II)

Matching
Autor
???
Autor
???
Jobim A . C ., Gilberto J . Bossa Nova :
Título
Periódico
A new Harmonic Algorithm . MPB Surveys ,
Vol
N
Página
Página
Ano
26 ( 11 ) : 1022 - 1036 ( 1995 )
Método FLUX-CiM
Binding (I)

Binding
 Rotular
os blocos que não foram associados a nenhum
campo bibliográfico na fase de matching
 Utiliza
informação que foi gerada na fase de matching e
informação disponível na base de conhecimento
Método FLUX-CiM
Binding (II)

Binding – Vizinhança Homogênea
 Blocos
não associados entre campos iguais.
Autor
Autor
???
Autor
???
Jobim A . C ., Gilberto J . Bossa Nova :
Título
Periódico
A new Harmonic Algorithm . MPB Surveys ,
Vol
N
Página
Página
Ano
26 ( 11 ) : 1022 - 1036 ( 1995 )
Método FLUX-CiM
Binding (III)

Binding – Vizinhança Heterogênea
 Avaliar
os p-delimiters que cercam o bloco
Autor
Autor
Autor
???
Título
Jobim A . C ., Gilberto J . Bossa Nova :
Título
Periódico
A new Harmonic Algorithm . MPB Surveys ,
“.” é um provável delimitador entre Autor e Título
“:” é um provável caractere pertencente ao campo Título
Método FLUX-CiM
Joining (I)

Joining
 Une
os blocos pertencetes ao mesmo campo
bibliográfico para forma o valor exato de tais campos
 Solução
utiliza informação presente na Base de
Conhecimento
 Utiliza
o número médio de termos de cada campo
Método FLUX-CiM
Joining (II)

Joining
Autor
Autor
Autor
Autor
Título
Autor
Jobim A . CJobim
., Gilberto
A . C J., . Bossa
GilbertoNova
J . :
Título
Título
Periódico
Bossa
Nova : AAlgorithm
new Harmonic
Algorithm
A new
Harmonic
. MPB
Surveys. ,
Periódico
Vol
Vol
NN
Página
Página
Página
Página
Ano
Ano
MPB Surveys 26
, 26 ( ( 11
11 )) :: 1022
1022 -- 1036
1036 ( ( 1995
1995) )
Realimentação
Realimentação (I)


Base de Conhecimento precisa cobrir uma porção
representativa do domínio de interesse
Novas Características devem ser incorporadas a
Base de Conhecimento de tempos em tempos para
refletir o domínio alvo
Realimentação (II)

Solução:
 Incorporar o resultado da extração
diretamente a Base de Conhecimento


Isso pode vir a introduzir uma certa quantidade de
ruído
Porém, de acordo com os experimentos, o resultado da
extração não projudica futuras execuções
Realimentação (III)
Experimentos
Experimentos

Configurações
O
método foi testado em 3 diferentes domínios:
 Ciências
da Saúde (CS1)
 Ciências Sociais (CS2)
 Ciência da Computação (CORA)
 Métricas
Precisão, Revocação e Medida F
Por questão de tempo, apresentamos aqui somente resultados referentes a 2 domínios.
Experimentos

Configurações
Base de Conhecimento
Domínio
#
# Campos
Fonte
CS1
5000
6
PubMed
CORA
350
1…10
CORA
Coleção de Teste
Domínio
#
# Campos
Fonte
CS1
2000
6
PubMed
CORA
150
1…10
CORA
Experimentos
Hipótese de Blocking
 Contamos
quantos valores de um determinado campo
eram cercados por algum p-delimitador.
 Como
esperado:
 100%
dos valores em todas as coleções são delimitados
por algum p-delimitador.
Experimentos
Nível de Campos
CORA
CS1
Field
Field
P
(%)
R
(%)
F-measure
Autor
93.85
95.58
0.94
Título
93.00
93.00
0.93
Periódico 95.71 97.81
0.96
P
(%)
R
(%)
Medida F
Autor
99.57
99.04
0.98
Título
84.88
85.14
0.85
Periódico 97.23
89.35
0.93
Data
91.75
97.44
0.97
99.50
0.99
Páginas
97.00
97.84
0.97
Páginas
99.70 99.20
0.99
Conferência
100.0 98.25
0.99
Volume
98.20
98.75
0.98
Outros
98.04
97.73
0.97
Média
96.41
95.16
0.95
Média
96.28
95.80
0.96
Data
99.85
Este valor de Medida F para o campo título nos
mostra a grande intersecção entre os termos de Título
e de Periódico
Alto grau de qualidade alcançado
após Matching e Binding foi
mantido após o Joining
Experimentos
Nível de Citações
Domínio
P (%)
R (%)
Medida F
CS1
94.82
95.10
0.94
CORA
92.14
94.78
0.93
Mesmo em diferentes domínios e entre estilos distintos de
apresentação, nosso método foi capaz de alcançar bons
resultados
Comparação Experimental
Experimentos
Comparação Experimental
Domínio
FLUX-CiM
CRF
T-Test
CORA
0.9301
0.9254
1.00%
CS1
0.9792
0.9498
1.00%
Valores de Medida F
Experimentos
Lidando com Diferentes Estilos
• Kerlikowske K, Orel SG, Troupin RH. Nonmammographic imaging. Semin Roentgenol.
1993;28:231-241
• 231-241: Nonmammographic imaging. Kerlikowske K: Orel SG: Troupin RH, 1993;
28. Semin Roentgenol
• 1993; Kerlikowske K; Orel SG; Troupin RH; Semin Roentgenol. Nonmammographic
imaging. 231-241: 28
• Nonmammographic imaging: 1993, Kerlikowske K, 231-241, Orel SG; Troupin RH.
Semin Roentgeno
Experimentos
Lidando com Diferentes Estilos
CS1
Estilos
FLUX-CiM
CRF
T-Test
1 Estilo
0.9792
0.9498
1.00%
2 Estilos
0.9792
0.7065
1.00%
3 Estilos
0.9792
0.4033
1.00%
4 Estilos
0.9792
0.3567
1.00%
Valores de Medida F
Experimentos Realimentação
Processo de Realimentação
Conclusões

Nova abordagem para extração de componentes
bibliográficos em qualquer estilo de apresentação

Estado-da-Arte em extração de citação 

FLUX-CiM
Flexível: Não considera um estilo de citação em particular
 Não Supervisionado: Não requer esforço humano na fase de
treinamento

Trabalhos Futuros

Generalização de método de extração de
informação
 Proposta
de Doutorado
[Cortez et al.] ACM SIGMOD Indianapolis / IN 2010 – ONDUX: On-Demand
Unsupervised Extraction of Citation Metadata - Publicado
[Cortez et. al.] IDAR Indianapolis / IN 2010 – Unsupervised Strategies for
Information Extraction by Text Segmentation - Publicado
[Cortez et al.] VLDB 2011 – A probabilistic approach for automatic form
filling - 2nd round review
Financiamento

FAPEAM

Uol Bolsa Pesquisa
Perguntas
???
Matching Textual
Onde:
T(mi) = Conjunto de todos os termos encontrados nas ocorrências do campo
bibliográfico mi,
T(b) = Conjunto de termos presentes no bloco b.
f(t,mi) = número de ocorrências oi,k ∈ Oi associadas com o
campo bibliográfico
mi que contem o termo t na base de conhecimento,
fmax(mi) = maior frequência de um
termo entre todas as ocorrências oi,k ∈ Oi,
N(t) = total de ocorrências do
termo t na base de conhecimento.
Matching Numérico
onde σ e μ são o desvio padrão e a média,
respectivamente, dos valores do campo
bibliográfico mi.
Download

Autor