Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática Laboratório de Engenharia de Algoritmos e Redes Neurais - LEARN Reconhecimento de Entidades Mencionadas Usando Aprendizado de Transformações Guiado por Entropia (ETL) Cícero Nogueira dos Santos Ruy Luiz Milidiú Sumário Reconhecimento de Entidades Mencionadas Aprendizado Baseado em Transformações – Templates de regra Aprendizado de Transformações guiado por Entropia – Extração de templates a partir de árvores de decisão Experimentos e resultados Conclusões Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 2 Reconhecimento de EMs (REM) Identificar e classificar entidades mencionadas em um texto escrito em linguagem natural REM baseado em aprendizado de máquina – – Inglês CONLL 2002 CONLL 2003 Etc. Português 2 sistemas participaram do primeiro HAREM (Milidiú et al, 2006) HMM, SVM, TBL Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 3 O algoritmo TBL Corpus de Treino não etiquetado Classificador Inicial Corpus de Treino etiquetado corretamente Corpus de Treino atual Derivar e avaliar regras candidatas Templates Selecionar regra com maior saldo: acertos - erros Aplicar regra selecionada ao corpus de treino Seqüência de regras aprendidas Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 4 Templates pos[-1] pos[0] word[0] pos[1] O ART jovem esqueceu a caneta N V ART N ART ADJ V ART N Regra: pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N Interpretação: SE pos[-1]=ART E pos[0]=ADJ E Word[0]=jovem E pos[1]=V ENTÃO pos[0]=N Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 5 Templates – Combinação de features relevantes – Construídos manualmente – Construção depende de um especialista no domínio – Trabalho intensivo – Adaptações podem ser necessárias quando mudamos de uma língua p/ outra. Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 6 Aprendizado de Transformações guiado por Entropia (ETL) Aprendizado de regras de transformação sem a necessidade de gabaritos feitos à mão ETL = Decision Trees (DT) + TBL – ETL combina as vantagens de DT e TBL – Treinar uma árvore de decisão e decompô-la para extrair gabaritos – Especialista no domínio torna-se desnecessário – Regras geradas são mais eficazes do que DT – Regras geradas são tão boas quanto as geradas com gabaritos criados manualmente Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 7 Algoritmo ETL (Santos & Milidiú, 2007) Classificador Inicial Corpus de Treino Rotulado Aprender Árvore de Decisão Corpus de Treino Corpus de Treino Não rotulado Decompor Árvore de Decisão e extrair Templates Templates Rotulado Aprender Regras com TBL Regras Aprendidas Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 8 Aprendizado de árvores de decisão NE_0 PER O NE_-1 ORG Corpus de Treino Indução da DT (C4.5) CAP_0 FUC ORG LOC PREP O WRD_-1 A LOC POS_0 ART POS_0 ADV O Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 9 Extração de templates a partir de DTs NE_0 PER O NE_0 NE_-1 ORG CAP_0 FUC ORG LOC PREP O WRD_-1 LOC ADV NE_0 NE_-1 NE_0 NE_-1 CAP_0 NE_0 NE_-1 CAP_0 POS_0 A POS_0 ART POS_0 NE_0 NE_-1 WRD_-1 NE_0 POS_0 O Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 10 Evolução de templates Evolução de templates NE_0 PER O NE_-1 CAP_0 FUC ART ORG LOC PREP O TBL-2 NE_0 NE_-1 CAP_0 LOC ADV NE_0 POS_0 O WRD_-1 A POS_0 NE_0 NE_-1 POS_0 Training ORG TBL-1 NE_0 NE_-1 WRD_-1 TBL-3 NE_0 NE_-1 CAP_0 POS_0 Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 11 EXPERIMENTOS Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal Corpora Coleção Dourada HAREM I Coleção Dourada MiniHAREM Coleção Dourada HAREM II LearnNEC06 (usado apenas no treinamento) Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal Experimental setup Preprocessamento – Geração de novas features com uso de modelos ETL Etiquetagem morfossintática Identificação de sintagmas nominais Classificador Inicial (Baseline System - BLS) – Algumas seções / subseções do almanaque REPENTINO: Seres (Humano), Local (Terrestre, Cidades, Região, etc.), Organização (Companhias) TBL – Usamos os mesmos templates de Milidiú et al (2006) ETL – DT checa combinação das features palavra, pos tag, etiqueta de sintagma nominal e capitalização. DT – Usamos apenas as 100 palavras mais frequentes Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal Cross-validation HAREM I + MiniHarem Tarefa de Identificação Tarefa de classificação semântica (categorias) 70% - speedup Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal Cross-validation HAREM I + MiniHarem Classificação semântica – Res. por categoria Comparação com estado da arte (Class. Sem.) Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal CD MiniHarem como corpus de teste Tarefa de Identificação Tarefa de classificação semântica (categorias) Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal CD HAREM II como corpus de teste Conjunto de treino: CD HAREM I + CD MiniHAREM Conjunto de teste: CD HAREM II Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal Conclusões Reconhecimento de EMs usando ETL – Efetiva criação de templates – Resultados melhores do que os do TBL com templates manualmente construídos – Resultados estado da arte – Significante redução do tempo de treinamento usando Evolução de Templates Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 19 Referências bibliográficas BRILL, E. Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, 1995. CURRAN, J. R. and WONG, R. K. Formalisation of transformation-based learning. ACSC 2000. MILIDIÚ et al. Tbl template selection: An evolutionary approach. CAEPIA 2007 SANTOS, C. N. e MILIDIÚ, R. L. Probabilistic classifications with tbl. CICLING 2007a SANTOS, C. N. e MILIDIÚ, R. L. Entropy Guided Transformation Learning. MCC DI/PUC-Rio. 2007b Reconhecimento de Entidades Mencionadas usando ETL HAREM II – 5 de novembro de 2015 – Aveiro, Portugal 20