Métodos em lingüistica de corpus e
processamento da língua natural
María Paula Santalla del Río
Pablo Gamallo Otero
TEMA 1
Noções básicas de Extração de
Informação (EI)
Pablo Gamallo Otero
http://gramatica.usc.es/~gamallo/
Bibliografia
Chantal Pérez Hernández, Antonio Moreno (2008), “Lingüística computacional y lingüística de corpus:
Potencialidades para la investigación textual”. Disponível em:
http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/LingCompCorpus.pdf


Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil.
•Marco Baroni (2009), “Distributions in text”. In Anke Lüdeling and Merja Kytö (eds.), Corpus
linguistics: An international handbook, Berlin: Mouton de Gruyter. Disponível em:
http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/Baroni_distributions.pdf
•J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.),
Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y
Universidad Autónoma de Barcelona, págs. 45-77. Disponível em:
http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf
•Pablo Gamallo & Isaac González (2009) "Una gramática de dependencias basada en patrones de
etiquetas", Procesamiento del Lenguaje Natural, 43, pp. 315-324. Disponível em:
http://www.sepln.org/revistaSEPLN/revista/43/articulos/art34.pdf
PLANO
 corpus
e extração
 extração
de frequências de palavras
(tokens e formas)
 lei
de zipf
 extração
de informação léxico-semântica a
partir das frequências
 extrações
básicas: concordâncias
corpus e extração









Características dum corpus:
Deve estar formado por um conjunto de dados lingüísticos naturais (uso
oral ou/e escrito).
O conteúdo do corpus deve ser cuidadosamente escolhido segundo
certos critérios.
O corpus deve ser representativo duma língua ou variedade.
O corpus dever ser vasto para ser representativo.
O corpus deve ter como finalidade ser objecto de estudo linguístico.
Processos computacionais que se podem realizar num
corpus:
Anotação morfológica, sintática e semântica.
Extração de informação
corpus e extração
Tipo de informação extraída:


Frequências de ocorrências de palavras, de tipos, de lemas, ...

Semelhança semântica entre palavras:
se duas palavras aparecem no corpus nos mesmos contextos sintácticos, então
devem ser sinómimos ou estar semanticamente relacionadas.

Equivalentes de tradução
Métodos de extração:



Métodos supervisados
Métodos não supervisados
Extração de frequências de palavras

Contagem de palavras, ocorrências ou itens (tokens)

Contagem de palavras, formas ou tipos (types)
conta-se o número de palavras diferentes.


Contagem de lemas, ou lexemas (lemmas)

Contagem de PoS tags ou categorias: Nomes, verbos...
Os corpus linguísticos contenhem um
grande número de Hapax Legomena:
palavras que ocorrem apenas uma vez (isto é, frequência 1)
Extração de frequências de palavras

Quais são as palavras mais frequentes num corpus
representativo dum domínio específico?
PALAVRA FREQUÊNCIA
PALAVRA FREQUÊNCIA
la
que
en
el
y
a
los
las
del
se
Comisión
the
and
a
to
of
was
it
in
that
Tom
1.204.397
1.007.827
753.944
666.949
648.594
583.111
523.877
370.840
324.619
318.383
125.258
Palavras mais frequêntes de
Europarl (Parlamento Europeu)
7332
2972
1775
1725
1440
1161
1027
906
877
679
Palavras mais frequêntes de
“Tom Sawyer”
Extração de frequências de palavras
69970 the
36410 of
28852 and
26149 to
23326 a
21341 in
10594 that
10102 is
9815 was
9542 he
9488 for
8760 it
7290 with
7251 as
6997 his
6742 on
6376 be
5377 at
5306 by
5178 i
5146 this
5131 had
4609 not
4394 are
4381 but
4370 from
4207 or
3942 have
3748 an
3619 they
3561 which
3297 one
3286 you
3284 were
3037 her
3001 all
2859 she
2725 there
2715 would
2670 their
2653 we
2619 him
2473 been
2439 has
2331 when
2252 who
2244 will
2216 more
2202 no
2199 if
2096 out
1985 so
1961 said
1908 what
1895 up
1858 its
1815 about
1791 into
1790 than
1789 them
1772 can
1747 only
1702 other
1635 new
1617 some
1599 time
1599 could
1573 these
1412 two
1400 may
1377 then
1362 do
1361 first
1345 any
1319 my
1314 now
1303 such
1290 like
1252 our
1237 over
1207 man
Palavras mais frequêntes do
corpus Brown (não específico).
Extração de frequências de palavras

Quantas ocorrências de palavras (tokens ou itens)
tem um corpus?





”Tom Sowyer” tem 71.370 ocorrências de palavras.
“El Quijote” tem 376.509.
“Brown” tem 1 milhão.
“EuroParl” tem 30 milhões 600 mil
Quantas palavras diferentes (tipos ou formas) tem um
corpus?


”Tom Sowyer” tem 8.018 palavras diferentes (8,9 tokens por tipo).
“El Quijote tem 38.552 (9.8 tokens por tipo).
(se consideramos os 71.000 primeiros tokens, extraem-se mais de 12.000 tipos)


“Brown” tem 55.734 (17 tokens por tipo).
“EuroParl” tem 159.211 (192 tokens por tipo).
Extração de frequências de palavras
Corpus Banco do Português:
Banda de
ocorrências
Formas
%
formas
Ocorrências
%
ocorrências
frequência
média
1
186.275
39,65%
186.275
0,15%
1,0
2a9
160.228
34,11%
610.459
0,48%
3,8
10 a 99
82.174
17,49%
2.662.495
2,11%
32,4
100 a 999
31.065
6,61%
9.840.238
7,81%
316,8
1,83%
25.663.321
20,38%
2.930
1.323
0,28%
32.753.032
26,01%
24.756
78
0,02%
18.637.882
14,80%
238.947
> 1.000.000
16
0,00%
35.573.922
28,25%
2.223.370
TOTAL
469.745
100%
125.927.624
100%
268,1
1.000 a 9.999 8.586
10.000 a
99.999
100.000 a
999.999
Modelo de frequências: Lei de Zipf
Dada uma constante K (frequência da palavra mais frequente), e
dado o ranking R duma palavra, podemos predizer a frequência F
da palavra:

F(pal) = K / R(pal)
f
the
that
two
name
comes
R
7732
877
104
21
16
f
F
1
10
100
400
500
7732
773,2
77,3
18,3
15,4
group
friends
family
brushed
Applausive
R
13
10
8
4
1
F
600
800
1000
2000
8000
12,88
9,66
7,3
3,86
0,97
Modelo de frequências: Lei de Zipf
F(pal) = K / R(pal)
f
de
la
los
artículo
artículos
litigio
desplazarse
R
11425
6473
3528
1791
140
13
1
F
1
2
5
10
100
1000
10000
Constituição Europeia
(versão espanhola)
dif (%)
11425
5712
2285
1142
114
11,4
1,1
11%
40%
36%
18%
12%
10%
21% (média)
Modelo de frequências: Lei de Zipf
F(pal) = K / R(pal)
f
of
to
in
or
banks
commitment
1985
R
13328
7425
3260
1394
161
13
1
F
1
2
5
10
100
1000
10000
dif(%)
13328
6664
2665
1332
133
13,3
1,3
Constituição Europeia
(versão inglesa)
10%
21%
4%
17%
2%
30%
14% (média)
Modelo de frequências: Lei de Zipf
 A Lei de Zipf sofreu numerosas correcções. Aqui abaixo,
monstram-se duas modificações da fórmula inicial:
F(pal) = K / Rα
onde α = próximo a 1 (p.e. 0’9)
F(pal) = K / R
donde K = N / 10
onde N = tamanho do corpus (i.e., número total de
ocorrências)
Modelo de frequências: Lei de Zipf
Prácticas com ferramentas estatísticas
cat DonQuijote | ./tokenizer.perl | ./lei_zipf.perl
Extração de informação léxico-semântica

Matrizes “Palavra / Contexto”
procedimento
problemática
problema
princípio
pressuposto
presidente
preço
N_errado
3
0
0
0
1
0
0
resolver_N
0
1
11
0
0
0
0
finalizar_N
21
0
0
0
0
0
0
N_persistir assinar_por_N N_declarar N_complexo
0
0
0
1
2
0
0
0
24
0
0
5
0
0
0
0
0
0
0
0
0
45
34
0
0
0
0
0
Extração de informação léxico-semântica

Listas de palavras semelhantes

procedimento | processo, acção, legislação

problemática | temática, problema, tema

problema | questão, problemática, dificuldade

princípio | regra, norma, critério

pressuposto | requisito, condição, critério

presidente | secretário, membro, director

preço | valor, montante, taxa
Extração de informação léxico-semântica

Equivalentes de tradução
coherence
credibilidad, coherencia, claridad, rigor, visibilidad
2
cohesion
cohesión, integración, solidaridad, estabilidad, igualdad
1
colleague
colega, diputado, amigo, ministro, pueblo
1
comment
comentario, observación, pregunta, reflexión, palabra
1,2
commitment compromiso, obligación, respuesta, responsabilidad, criterio
1,2
committee
grupo, consejo, parlamento, comité, comisión
4
community
unión, comunidad, estado, política, país
2
company
empresa, industria, mercado, economía, sector
1
Extrações básicas:
Concordâncias
A concordância é uma listagem das ocorrências duma forma específica,
dispostas de tal modo que a palavra de busca (aquela que se quere
investigar) aparece centralizada e acompanhada do seu contexto original,
isto é, das palavras que ocorrem junto com ela no corpus.
13 | acordo em nada prejudica os direitos, no
14 | e algumas destas zonas na Bélgica, na Itália e no
15 | e Tournai. Itália: província de Nápoles.
16 | veis; Considerando que algumas destas zonas no
17 | específica diz respeito às seguintes zonas de
18 | grama especial», a apresentar à Comissão pelo
19 | izado a pedido dos governos da Irlanda e do
20 | entre a Comunidade Económica Europeia e o
Reino da Dinamarca, dos nacionais dinamarqueses que res
Reino Unido estão situadas em regiões que têm já
Reino Unido: região de Strathclyde, counties de Clevela
Reino Unido estão situadas em regiões que têm já um elev
Reino Unido: região de Strathclyde, condados de C
Reino Unido. 2. O programa especial terá por fina
Reino Unido, assim como da Comissão, recomendou que a r
Reino da Noruega na sequência da adesão da República Hel
Concordâncias
 Palavra de busca (search word) ou Nódulo: palavra (ou grupo de
palavras) da qual o usuário tem interesse em obter uma concordância.
 Janela (Window): distância máxima entre o nódulo e a primeira palavra
à esquerda (ou a ùltima à direita) dentro duma concordância.
 Palavras de contexto (context words): palavras que estão próximas do
nódulo durante a busca (dentro da mesma janela). São opcionais, ou seja,
é possível fazer uma concordância sem especificá-las.
Download

Extracção automática de informação a partir de corpus