Extração Automática de
Candidatos a Termos:
Uma visão geral sobre os termos e a
extração automática
Leandro Henrique
NILC-ICMC/USP & EMBRAPA
Abril 2009
Roteiro
 Um pouco de Terminologia
 Um breve histórico
 Termos e Terminologia
 O que é um Termo?
 Dimensões dos Termos
 Extração Automática de Candidatos a Termos
 O reconhecimento terminológico
 Método Estatístico
 Método Linguístico
 Método Híbrido
 NSP – N-Gram Statistic Package
 Conclusão
Um pouco de Terminologia
 Breve Histórico (1)
 Subárea do Curso de Letras
 Não existe curso de Terminologia
 É uma área Aplicada e Teórica
 Aplicada: mais antiga, ligada aos saberes técnicos e científicos (séc. XVII)
 Vocabulários específicos e nomenclaturas técnico-científicas
 Teórica: mais recente, estudos dos termos nas comunicações especializadas
(séc. XX)
 Formação dos termos técnico-científicos
 Demarcação do Léxico Geral e Léxico das Ciências
 Terminologia nos aspectos Disciplinar, Social e Político
Um pouco de Terminologia
 Breve Histórico (2)
 A Terminologia:
 estuda os Léxicos Especializados
 relação direta com os avanços da ciência
 denominações das novas descobertas e invenções do homem
 relação com a Globalização
 agente de intercâmbios culturais, científicos e tecnológicos
 tradução e uso correto dos termos
 interesse do Público Geral
 busca e ampliação do conhecimento específico
Um pouco de Terminologia
A Terminologia é fundamental na sociedade atual
pois trabalha na ampliação e difusão do
conhecimento, baseando-se na linguagem
especializada, sobretudo sobre os termos como
veículo transmissor do conhecimento específico.
Um pouco de Terminologia
 Terminologia no Brasil
 Início em 1986
 ANPOLL
 Crescimento de 1990 em diante:
 UnB: Lexterm
 MCT: IBICT
 USP/FFLCH: Citrat
 PUC-Rio
 ABNT
 UFPE
 UFRGS: Termisul
 UFCE
 UFG
 UNESP: Ibilce
 UFSCar: GETerm
 UFU
Termos e Terminologia
 Questões:
 O que é um Termo?
Termo é uma unidade lexical de significação especializada.
 Qual o papel dos Termos?
Expressar e transferir o conhecimento de caráter especializado
 O que diferencia um Termo de uma Palavra?
Propriedades:
da dimensão conceitual e invariabilidade semântica
Termos e Terminologia
 Isso quer dizer que:
Que o significado de uma determinada palavra do léxico geral está
associada, na maioria das vezes, ao contexto discursivo em que está
inserida, diferentemente do que ocorre com os termos, que se limitam
a expressar conceitos específicos.
Termos e Terminologia
 Exemplos:
1
Casa
Língua Geral
João foi para casa depois do trabalho.
Casa
Domínio Jurídico
Casa: Bem inviolável...
A Justiça Federal protege a casa de João.
Termos e Terminologia
 Exemplos:
2
Lençol
Língua Geral
Joana estendeu o lençol de sua cama.
Lençol
Domínio Futebol
Lençol: Lance no qual o jogador encobre o adversário com a bola. O
mesmo que Chapéu.
A torcida vibrou com o lençol do atacante sobre o goleiro.
Termos e Terminologia
 Exemplos:
3
Letra
Língua Geral
Ninguém consegue entender a letra do Francisco.
Letra
Domínio Futebol
Letra: Toque na bola após a mesma passar entre as pernas do jogador .
O Pelé fez um gol de letra.
Termos e Terminologia
 Percepções:
 Os Termos nascem como Palavras
 Antes de ser Termo ele é uma Palavra
 O Termo participa o léxico geral
 Possui contextos linguísticos e pragmáticos
 Processo da “Terminologização”
 Valorização terminológica de uma determinada Palavra
Globalização
PALAVRA
Terminologização
Avanços da Ciência
TERMO
Ampliação do Conhecimento
Termos e Terminologia
Terminologização é processo pelo qual as palavras da língua
geral adquirem significados específicos, pertinentes a uma
determinada área do saber científico, tornando-se então,
elementos integrantes dos repertórios terminológicos. Desse
ponto de vista, uma unidade lexical pode assumir o valor de
termo fazendo parte da representação dos princípios e
propósitos de uma área.
Termos e Terminologia
 Dimensões dos Termos:
Dimensão Conceitual
Representa o conceito e o
conhecimento especializado o qual se
refere.
Termo
Representa a vertente
comunicativa, na tarefa de
comunicar e transmitir o
conhecimento especializado de
forma eficiente.
Dimensão Comunicacional
Dimensão Linguística
Representa a estrutura
morfológica do termo e as
diferentes possibilidades de
formação e combinação
lexical.
Extração Automática de Candidatos a Termos
 A Extração de Termos é:
 Em Terminologia:
É a obtenção do conjunto terminológico que compõe a
nomenclatura do produto terminológico (do glossário,
dicionário ou base de dados).
 Em Computação:
É o processo automático de reconhecer e extrair os
candidatos a termos presentes em um determinado
córpus de especialidade.
Extração Automática de Candidatos a Termos
 Esquema geral
Córpus
Extrator de
Termos
Lista de
Termos
Extração Automática de Candidatos a Termos
 A tarefa de extração de termos é crucial para várias aplicações:
 Recuperação de Informação
 Criação (semi-)automática de ontologias
• OntoLP – dissertação de mestrado (PUC-RS - Junior, 2007)
 Sumarização Automática
 Indexação e Classificação de Textos
 Alinhamento de Textos Bilíngües
 Tradução
 Recursos Básicos de Processamento de Línguas Naturais (PLN)
 Edição Suportada por Computador
 Corretores Gramaticais
 Geração de Língua Natural
Extração Automática de Candidatos a Termos
 Um tema de pesquisa
 área da Linguística (reconhecimento terminológico)
 Termos tridimensionais
 área da Computação (aplicação do conhecimento)
 Gargalo do Trabalho Terminológico
 Trabalho difícil e custoso
 Exige atenção e perspicácia
Extração Automática de Candidatos a Termos
 Problemas
 Silêncio e Ruído
 Verificação das Listas (resultado)
Ruído (falso positivo)
Córpus
Extrator de
Termos
Silêncio (falso negativo)
Lista de
Termos
Extração Automática de Candidatos a Termos

Métodos de Extração Automática

Métodos Estatísticos

Métodos Linguísticos

Geralmente detectam as unidades terminológicas
de acordo com a freqüência em que elas ocorrem
em um córpus.
Detectam padrões de formação morfossintáticos
dos termos tais como “substantivo-adjetivo” e
“substantivo-preposição-substantivo”.
Métodos Híbridos
Utilizam a estatística juntamente com o
conhecimento linguístico.
Extração Automática de Candidatos a Termos
 Método Estatístico
 Puramente estatístico (sem conhecimento linguístico)
 Várias medidas estatísticas
• Frequência Simples
• Informação Mútua
• Coeficiente Dice
• Log-Likelihood
• C-Value
• Teste X2
 Trabalho mais simples/fácil
 Independente de domínio
 Alteração nos Valores de Corte
 Gera muito Ruído
Extração Automática de Candidatos a Termos
 Método Linguístico
 Uso de conhecimento linguístico
• Córpus etiquetado (POS-Tagger), informações lexicográficas, morfológicas e semânticas
• Ferramentas: tokenizador, lematizador, análise sintática
• Definição dos Padrões de Formação de Termos
 Trabalho humano (linguísta)
EXEMPLOS
• Definição dos Padrões
 Trabalho mais elaborado/difícil
 Ajustes nos Padrões
• Dependente de domínio
 Gera muito Ruído ou Silêncio
• Depende da quantidade de padrões aplicados
 Resultados tendem a ser melhores
N / NP / Adj / Verb
N + Adj / N + N / Adj + N / Adj +
Adj / N + Adv
N + Prep + N / N + Prep + NP / N +
N + Adj / N + Adj + Adj / N + Prep
+ Adj
Extração Automática de Candidatos a Termos
Córpus
Extrator de
Termos
Aplicação do Conhecimento Linguístico
Lista de
Termos
Extração Automática de Candidatos a Termos
 Método Híbrido
 Uso da estatística e de conhecimento linguístico
 Tipos:
• Estatístico => Linguístico (Problemas de Ruído)
• Linguístico => Estatístico (Problemas de Silêncio)
 Trabalho humano (linguísta)
• Definição dos Padrões
 Trabalho muito mais elaborado/difícil
 Ajustes nos Padrões
• Dependente de domínio
 Melhores resultados
• Linguístico => Estatístico
Extração Automática de Candidatos a Termos
 Híbrido: Estatístico - Linguístico
Córpus
Extrator de
Termos
Parte
Estatística
Lista de
Termos
Parte
Linguística
Extração Automática de Candidatos a Termos
 Híbrido: Linguístico – Estatístico
Córpus
Extrator de
Termos
Parte
Linguística
Lista de
Termos
Parte
Estatística
NSP – n-Gram Statistics Package
 Pacote estatístico para manipulação de n-Grams
 Ted Pedersen e colaboradores (Universidade de Minnesota)
• http://www.d.umn.edu/~tpederse/nsp.html
 n-Gram
 Unidade Lexical de tamanho n
onde n = tamanho do termo, pode ser n= (1,2,3... n) .
 Exemplos: n = 1: Unigrama, n = 2: Bigramas, n = 3: Trigramas
 Implementado em Perl
 Possui vários programas (9 no total):
count.pl
statistic.pl
combig.pl
huge-combine.pl
huge-count.pl
kocos.pl
rank.pl
sort-bigrams.pl
split-data.pl
NSP – n-Gram Statistics Package
 Estatísticas
para análise de tokens e córpus é o uso mais comum
 Possibilidade de vários outros trabalhos
 Contador de Frequências
 Limpeza de córpus
 Análise estatística e de co-relação de termos
 Extração Automática de Termos
 etc.
NSP – n-Gram Statistics Package
COUNT.PL
Calcula a frequência de n-grams em um texto/córpus.
Textos/Córpus
COUNT.PL
Frequências de
n-Grams
NSP – n-Gram Statistics Package
COUNT.PL
• count.pl –-help
• count.pl [OPCOES] <saida> <entrada>
• Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod
Exemplos:
1) Uso do count.pl (opções)
1)
2)
3)
4)
5)
6)
7)
--ngram
--token
--stop
--remove
--frequency
--window
--histogram
2) Lexia Simples/Complexa
NSP – n-Gram Statistics Package
STATISTIC.PL
Calcula as medidas de associação dos nGrams de texto/córpus.
Frequências de
n-Grams
STATISTIC.PL
Medida de Associação
n-Grams com
medida
NSP – n-Gram Statistics Package
STATISTIC.PL – Medidas de Associação
BRIGRAMAS
TRIGRAMAS
Chi-Squared
• Phi Coeficient
• T-score
• X2
Dice Coeficient
Jaccar Coeficient
Fischer Test
–
Medidas são arquivos com
extensão “ponto PM” (.pm)
Perl Module
–
–
–
Mutual Information
Mutual Information
True Mutual Information
True Mutual Information
Pointwise Mutual Information
Pointwise Mutual Information
Log-likelihood
Log-likelihood
Poison-Stirling
Poison-Stirling
NSP – n-Gram Statistics Package
STATISTIC.PL
• statistic.pl –-help
• statistic.pl [OPCOES] <medida_associacao> <saida> <resultado_count>
• Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod
Exemplos:
1) Uso do statistic.pl (opções)
1)
2)
3)
4)
5)
--ngram
--score
--rank
--frequency
--precision
NSP – N-Gram Statistics Package
Interface Web do NSP – Frequência Simples
Conclusões
 Área de Pesquisa
 melhorar os resultados
 testar novos métodos
 mesclar métodos conhecidos
 Difícil automatização
 reconhecimento terminológico (Como identificar um Termo?)
• Dependente de domínio
 mas tem se desenvolvido
 Usado em várias aplicações e atividades
 Fundamental para Terminologia
 O NSP pode ser uma boa opção para abordagem estatística
 Vários aspectos implementados
• Evita retrabalho
 Precisa de mais documentação oficial
F I M!
Muito Obrigado!
Leandro Henrique
[email protected]
Download

Apresentação