Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio
Departamento de Informática
Laboratório de Engenharia de Algoritmos e Redes Neurais - LEARN
Reconhecimento de Entidades
Mencionadas Usando Aprendizado
de Transformações Guiado por
Entropia (ETL)
Cícero Nogueira dos Santos
Ruy Luiz Milidiú
Sumário

Reconhecimento de Entidades Mencionadas

Aprendizado Baseado em Transformações
–

Templates de regra
Aprendizado de Transformações guiado por
Entropia
–
Extração de templates a partir de árvores de decisão

Experimentos e resultados

Conclusões
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
2
Reconhecimento de EMs (REM)


Identificar e classificar entidades mencionadas
em um texto escrito em linguagem natural
REM baseado em aprendizado de máquina
–
–
Inglês

CONLL 2002

CONLL 2003

Etc.
Português

2 sistemas participaram do primeiro HAREM

(Milidiú et al, 2006)

HMM, SVM, TBL
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
3
O algoritmo TBL
Corpus de Treino
não etiquetado
Classificador
Inicial
Corpus de Treino
etiquetado corretamente
Corpus de Treino
atual
Derivar e avaliar
regras candidatas
Templates
Selecionar regra
com maior saldo:
acertos - erros
Aplicar regra selecionada
ao corpus de treino
Seqüência de regras
aprendidas
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
4
Templates
pos[-1] pos[0] word[0] pos[1]
O
ART
jovem esqueceu a
caneta
N
V
ART N
ART
ADJ
V
ART
N
Regra:
pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N
Interpretação:
SE pos[-1]=ART E pos[0]=ADJ E
Word[0]=jovem E pos[1]=V ENTÃO pos[0]=N
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
5
Templates
– Combinação de features relevantes
– Construídos manualmente
– Construção depende de um especialista
no domínio
– Trabalho intensivo
– Adaptações podem ser necessárias
quando mudamos de uma língua p/
outra.
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
6
Aprendizado de Transformações guiado por
Entropia (ETL)
Aprendizado de regras de transformação sem
a necessidade de gabaritos feitos à mão

ETL = Decision Trees (DT) + TBL

–
ETL combina as vantagens de DT e TBL
–
Treinar uma árvore de decisão e decompô-la para
extrair gabaritos
–
Especialista no domínio torna-se desnecessário
–
Regras geradas são mais eficazes do que DT
–
Regras geradas são tão boas quanto as geradas
com gabaritos criados manualmente
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
7
Algoritmo ETL (Santos & Milidiú, 2007)
Classificador
Inicial
Corpus de Treino
Rotulado
Aprender Árvore
de Decisão
Corpus de Treino
Corpus de Treino
Não rotulado
Decompor Árvore
de Decisão e
extrair Templates
Templates
Rotulado
Aprender
Regras com
TBL
Regras Aprendidas
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
8
Aprendizado de árvores de decisão
NE_0
PER
O
NE_-1
ORG
Corpus de
Treino
Indução da
DT (C4.5)
CAP_0
FUC
ORG
LOC
PREP
O
WRD_-1
A
LOC
POS_0
ART
POS_0
ADV
O
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
9
Extração de templates a partir de DTs
NE_0
PER
O
NE_0
NE_-1
ORG
CAP_0
FUC
ORG
LOC
PREP
O
WRD_-1
LOC
ADV
NE_0 NE_-1
NE_0 NE_-1 CAP_0
NE_0 NE_-1 CAP_0 POS_0
A
POS_0
ART
POS_0
NE_0 NE_-1 WRD_-1
NE_0 POS_0
O
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
10
Evolução de templates
Evolução de templates
NE_0
PER
O
NE_-1
CAP_0
FUC
ART
ORG
LOC
PREP
O
TBL-2
NE_0 NE_-1 CAP_0
LOC
ADV
NE_0 POS_0
O
WRD_-1
A
POS_0
NE_0 NE_-1
POS_0
Training
ORG
TBL-1
NE_0 NE_-1 WRD_-1
TBL-3
NE_0 NE_-1 CAP_0 POS_0
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
11
EXPERIMENTOS
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
Corpora

Coleção Dourada HAREM I

Coleção Dourada MiniHAREM

Coleção Dourada HAREM II

LearnNEC06 (usado apenas no treinamento)
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
Experimental setup

Preprocessamento
– Geração de novas features com uso de modelos ETL
 Etiquetagem morfossintática
 Identificação de sintagmas nominais

Classificador Inicial (Baseline System - BLS)
– Algumas seções / subseções do almanaque REPENTINO: Seres (Humano), Local
(Terrestre, Cidades, Região, etc.), Organização (Companhias)

TBL
– Usamos os mesmos templates de Milidiú et al (2006)

ETL
– DT checa combinação das features palavra, pos tag, etiqueta de sintagma
nominal e capitalização.

DT
– Usamos apenas as 100 palavras mais frequentes
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
Cross-validation HAREM I + MiniHarem

Tarefa de Identificação

Tarefa de classificação semântica (categorias)
70% - speedup
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
Cross-validation HAREM I + MiniHarem

Classificação semântica – Res. por categoria

Comparação com estado da arte (Class. Sem.)
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
CD MiniHarem como corpus de teste

Tarefa de Identificação

Tarefa de classificação semântica (categorias)
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
CD HAREM II como corpus de teste


Conjunto de treino: CD HAREM I + CD
MiniHAREM
Conjunto de teste: CD HAREM II
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
Conclusões

Reconhecimento de EMs usando ETL
– Efetiva criação de templates
– Resultados melhores do que os do TBL
com templates manualmente construídos
– Resultados estado da arte
– Significante redução do tempo de
treinamento usando Evolução de
Templates
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
19
Referências bibliográficas
BRILL, E. Transformation-based error-driven
learning and natural language processing: A
case study in part-of-speech tagging. Computational
Linguistics, 21(4):543–565, 1995.
CURRAN, J. R. and WONG, R. K. Formalisation of
transformation-based learning. ACSC 2000.
MILIDIÚ et al. Tbl template selection: An
evolutionary approach. CAEPIA 2007
SANTOS, C. N. e MILIDIÚ, R. L. Probabilistic
classifications with tbl. CICLING 2007a
SANTOS, C. N. e MILIDIÚ, R. L. Entropy Guided
Transformation Learning. MCC DI/PUC-Rio. 2007b
Reconhecimento de Entidades Mencionadas usando ETL
HAREM II – 5 de novembro de 2015 – Aveiro, Portugal
20
Download

Templates