We knew that corpora were “hot”, but didn't appreciate just how hot they would turn out to be.
Kenneth Church, 1993 at WVLC-1
Lingüística de Corpus/Córpus:
disciplina, metodologia ou
abordagem?
histórias de 1993 (Workshop
sobre Very Large Corpora-1) até
2009
Sandra Maria Aluísio
SCE 5869 – Tópicos em Processamento de Língua Natural
1993-2009
Agenda
O que é Córpus?
Tipos de pesquisa com córpus e Tipos de usos de córpus
Critérios para o projeto/design de um córpus
O que é Lingüística de Córpus?
Tipologia de córpus
Tipologia de Textos
Exemplos de córpus desenvolvidos no NILC
Fóruns
Desafios da área Data Resources
Analisem os casos de design
com vistas a uma proposta de córpus.

Critiquem e problematizem os 3 casos.
1.
Córpus de textos jornalísticos, de 12 anos de um dado jornal de
grande circulação, usando amostras dos meses de fevereiro e
dezembro de cada ano para lexicografia. Quais textos/registros
colocar no córpus?
2.
Córpus de teste para a tarefa de simplificação sintática em que um
simplificador trabalha com 22 fenômenos diferentes.
T = 116 sentenças
3. Córpus para a tarefa de terminologia sobre o assunto nanotecnologia, em Português
O que é Córpus?
Existem várias definições de córpus na literatura,
algumas vezes divergentes (seguem 8, de 92 a 2006):
Atkins, Clear & Ostler 1992
A subset of an
electronic text
library, built according
to explicit design
criteria for a specific
purpose, e.g. the
Cobuild corpus, the
Longman/Lancaster
corpus
Terminologia X Lexicografia

Córpus para trabalhos terminológicos irão diferir dos de
trabalhos lexicógraficos, pois os usuários possuem diferentes
necessidades:

Terminólogos precisam adquirir tanto conhecimento lingüístico
como conceitual


Terminólogos tratam com campos especializados


o córpus precisa ser tanto lingüística como conceitualmente rico
especialistas do domínio tem um papel importante na construção
do córpus. Lexicógrafos geralmente não precisam de ajuda
externa
Córpus para terminologia pode ser menor do que para
lexicografia que necessita de grandes córpus


(e.g. o vocabulário do inglês é maior do que 1 milhão de palavras e
a variedade no uso é grande).
Por exemplo, a editora Collins tem um córpus de 450 milhões de
palavras; Cambridge University Press tem 740 milhões; Longman
tem 155 milhões.
Terminologia X Lexicografia (2)

Os textos de um córpus para trabalho terminológico devem
ser completos o que nem sempre acontece para lexicografia

Terminólogos devem delimitar o domínio dos textos do córpus,
o que não acontece com lexicógrafos

Um córpus para terminologia deve ser composto de gêneros
instrucionais, científicos e textos de divulgação/vulgarização
científica (e.g. Revista Pesquisa Fapesp)


para dar conta dos diferentes graus de tecnicalidade, além de
uma variedade de autores de um dado campo
Por fim, terminólogos precisam de textos atuais, pois focam
em novos conceitos e termos que ainda não foram
dicionarizados; os textos precisam ser originais e a maioria
deve ser escrita por nativos.
O que é Córpus?
Existem várias definições de córpus na literatura,
algumas vezes divergentes (seguem 8, de 92 a 2006):
Crystal, David. 1992. An Encyclopedic
McEnery & Wilson 1996
Dictionary of Language and Languages.
"corpus, plural: corpora,
A collection of linguistic data,
either compiled as written texts
or as a transcription of
recorded speech. The main
purpose of a corpus is to verify
a hypothesis about language for example, to determine how
the usage of a particular sound,
word, or syntactic construction
varies. A computer corpus is a
large body of machine-readable
texts."
In principle, any collection of more than one
text can be called a corpus, (corpus being Latin
for "body", hence a corpus is any body of
text). But the term "corpus" when used in the
context of modern linguistics tends most
frequently to have more specific connotations
than this simple definition.
These may be considered under four main
headings:
Sampling and representativeness;
Finite size;
Machine-readable form;
A standard reference
Sampling and representativeness; Finite size;
Machine-readable form; A standard reference
We are therefore interested in creating a corpus which is
maximally representative of the variety under examination, that is,
which provides us with an as accurate a picture as possible of the
tendencies of that variety, as well as their proportions.
With the exception of monitor corpora, it should be noted that it is
more often the case that a corpus consists of a finite number of words.
Nowadays the term "corpus" nearly always implies the additional feature
"machine-readable". This was not always the case as in the past the word
"corpus" was only used in reference to printed text.
There is often a tacit understanding that a corpus constitutes a standard
reference for the language variety that it represents. This presupposes that it
will be widely available to other researchers, which is indeed the case with many
corpora - e.g. the Brown Corpus, the LOB corpus and the London-Lund corpus.
Leech (1992) argues that the corpus is a more powerful methodology from the
point of view of the scientific method, as it is open to objective verification of
results
O que é Córpus?
Garside, Leech &
McEnery 1997:
Traditionally, linguists have used the term corpus
to designate a body of naturally-occurring
(authentic) language data which can be used as
basis for linguistic research. This body of data
may consist of written texts, spoken discourses,
or both. Often it is designed to represent a
particular language or language variety. In the
past 35 years, the term corpus has been
increasingly applied to a body of language material
which exists in electronic form, and which may be
processed by computer for various purposes such
as linguistics research and language engineering.
...the value of a corpus as a research tool cannot
be measured in terms of brute size. The diversity
of the corpus ... can be an equally important
criterion.
Incita a dicotomia: grande vs
balanceado/equilibrado
Biber, Conrad & Reppen 1998
A corpus is not simply a
collection of texts. Rather, a
corpus seeks to represent a
language or some part of a
language. The appropriate
design for a corpus therefore
depends upon what it is meant
to represent.
The representativeness of the
corpus, in turn, determines the
kinds of research questions
that can be addressed and the
generalizability of the results
of the research.
Mostra a importância da
Representatividade do córpus
O que é Córpus?
Kilgarriff & Grefenstette 2003
McEnery and Wilson mix the
question “What is a corpus?”
with “What is a good corpus
(for certain kinds of
linguistic study)?” muddying
the simple question “Is
corpus x good for task y?”
with the semantic question
“Is x a corpus at all?” ...
So the semantic question
may be set aside, the
definition of corpus should
be broad. ...a corpus is a
collection of texts when
considered as an object of
language or literary study.
The answer to the question
“Is the web a corpus?” is yes.
Sardinha 2004
Traz uma definição completa do autor e itemiza os pontos
importantes:
1.
2.
A origem: os dados devem ser autênticos.
O propósito: o corpus deve ter a finalidade de ser
um objeto de estudo lingüístico.
3.
A composição: o conteúdo do corpus deve ser
criteriosamente escolhido
....por exemplo, se é um corpus de português brasileiro que represente a
língua portuguesa, tal qual é escrita no Brasil, em sua totalidade, a
coleta deve ser guiada por um conjunto de critérios que garanta, entre
outras coisas, que o maior número possível de tipos textuais
existentes no português brasileiro esteja representado, que haja uma
quantidade aceitável de cada tipo e que a seleção seja aleatória, a fim
de não contaminar a coleção com variáveis indesejáveis
1.
A formatação: os dados devem ser legíveis por computador
2.
A representatividade: o corpus deve ser representativo de
uma língua ou variedade (do quê? Para quem?)
3.
A extensão: o córpus deve ser vasto para ser representativo
O que é Córpus?
Diana Santos, 2006, na Primeira
Escola de Verão da Linguateca
...um corpo eletrônico, ...a conjunção de três coisas relacionadas: (i) um conjunto de
textos, (ii) um conjunto de informação a marcar/classificar estes textos, e (iii)
uma interface que permitisse consultar os dois primeiros.
...a escolha dos textos e da informação a eles associada tinha que ter um objetivo,
senão estaríamos na presença apenas de uma coleção.
Um corpo é uma coleção classificada de objetos linguísticos para uso em
Processamento de Linguagem Natural/Linguística Computacional/Linguística
em que uso pode ser estudo, medição, teste, ou avaliação, enquanto objetos
linguísticos são textos, frases, palavras, entrevistas, erros ortográficos, entradas
de dicionário, citações, pareceres jurídicos, filmes, imagens com legendas,
traduções, correções (de textos de alunos de língua ou de tradução), telefonemas,
simulações, programas, ...
Diana Santos, 2006, na Primeira
Escola de Verão da Linguateca (2)
A palavra classificada pode-se referir-se a muitas questões diferentes:
 com relação aos parâmetros da coleta: que categorias considerar;

com relação à escolha: todos, alguns, amostra, ...;

com relação aos fenômenos: tipo de erro, tipo de tradução, tipo de texto, ...

com relação aos constituintes: análise sintática, semântica, fonológica,
discursiva, etc.

avaliação (quando existem julgamentos associados, como os de uma
sumarização

quanto a preservação do significado do texto original)
Contudo, o mais importante num corpo é saber o que fazer com ele, como usá-lo, e para
que tarefas ele é útil.
Tipos de pesquisa com córpus

Corpus-driven approaches: hypotheses are drawn from
the corpus


Exploratórios: procura coisas interessantes para mais tarde estudar. Compila
amostras, conta ocorrências, procura correlações, experimenta classificações,
identifica conjuntos. Identifica pontos de interesse. Tecnicamente constrói uma
teoria ou mapa da área.
Corpus-based approaches: hypotheses are checked
against a corpus

Experimentais: já tem uma hipótese ou conjunto de hipóteses que pretende
verificar. Quanto mais precisa a hipótese (estatística), mais dados são precisos
para atestar, devido à necessidade de significância estatística


a probabilidade de um desvio aleatório da média da população aumenta com a
diminuição do tamanho da amostra e diminui com o aumento do tamanho da
amostra.
Na prática, a maior parte dos estudos têm uma
componente exploratória e outra experimental.

Um estudo experimental é geralmente produzido com base nas explorações de
outros pesquisadores. Ou de um piloto.
Tipos de usos de córpus
1. Ter uma idéia do problema
2. Medir um dado fenômeno
3. Avaliar algo (uma hipótese, um sistema, um método, uma teoria, ...)
4. Mais frequente - criar outras coisas: dicionários, materiais de teste de
ensino de língua (CAA), sistemas de aprendizado de língua (CALL),
sistemas de detecção de plágio, de identificação de spam, entre
outros.
Nem todos os córpus são apropriados para todos os usos. Embora
tendem a ser de uso suficientemente geral, há um compromisso
entre o projeto do córpus e os tipos de usos que fazemos deles.
Até agora...


Não disse nada que nos ajudasse a propor o
projeto (design) de um córpus...
Perguntas como:
(1) que “tipos de textos” incluir,
(2) número deles,
(3) seleção de textos,
(4) seleção de uma amostra dentro do
texto (se desejasse)
(5) tamanho de tal amostra ???
Questões/critérios para
informar o projeto de córpus
X
Primeira dicotomia para
projeto de córpus
Maior parte
das
pesquisas
Produção/Recepção de texto VS.
Texto como Produto
Padrões de uso de grupos
Lista de
gêneros e Tipos de
Texto
organizados
demograficamente)
Amostragem Demográfica

Tem sido usada em pesquisas da área de sociologia
e usa amostragem proporcional de um estrato
(sexo, idade, ocupação, ...) na população.


São representativas pois refletem as proporções de uma
população
MAS...córpus precisam de uma noção de
representatividade diferente, pois senão iriam incluir
90% de fala (conversação), 3% cartas/notas/emails, 7% restantes de todo o resto dos gêneros

pois as pesquisas precisam de toda a variação linguística
de uma língua.
Lembrem dos analfabetos
Problemas da amostragem
proporcional

Refletem as frequências numéricas, não a
importância. Livros, jornais, por exemplo, são muito
mais influentes do que sua frequencia indica.

Se o foco da pesquisa for sobre a variação de
características em tipos de textos diferentes, a
amostragem proporcional não fornece uma base
boa de análise:

90% dos textos seriam similares (conversa/fala) e não
teríamos a chance de estudar profundamente o restante
10% que englobaria a maioria dos gêneros/tipos de texto.
Não é fácil...

Entretanto, como nota Biber, 1998:246, embora a
análise da representatividade seja crucial ela é uma
tarefa problemática,

mesmo que o foco seja em partes da linguagem, por
exemplo, um córpus que pretende representar a
linguagem falada (transcrições):

não existe nenhum catálogo de bibliografia de textos
falados e eles estão sendo expandidos diariamente.

Identificar uma amostra da população nesse caso é difícil.
Biber (1993) ... Representatividade no
projeto de corpus

Quando estamos construindo um córpus geral (versus
de linguagem especializada) espera-se que ele seja
uma amostra representativa da língua como um todo,
isto é, que inclua toda a variabilidade que ocorre na
população,


para que generalizações possam ser feitas sobre a língua.
Representatividade
Gênero/
se refere a quanto uma amostra inclui a totalidade da
variabilidade na população.
No projeto de córpus, a variabilidade pode ser considerada de:

registro
Tipo de
Texto

uma perspectiva externa (da situação), isto é, do modo (escrito/falado), dos
participantes (quem fala ou escreve/para quem fala ou escreve), meio de
distribuição (não publicado, publicado como livro, lei, Internet, jornal, revista, etc.),
tópico, da função comunicativa, etc. e
de uma perspectiva interna (ou lingüística), isto é, das distribuições lingüísticas
Há uma ordem para as
perspectivas

A condição da representatividade linguística
depende da representatividade de gêneros.

O design do córpus deve proceder de forma cíclica partindo de um
design inicial de um córpus piloto:
(1o) que deve incluir uma grande variedade de gêneros
(2o) que são avaliados quanto aos tipos de textos presentes (segundo Biber,
isso requer análise das características lingüísticas)
e revisado podendo ser incluídos novos textos

O projeto de um córpus representativo não pára até que o córpus
esteja completo e a análise dos parâmetros de variação se aplique a
todo o córpus.
Quantos textos de cada gênero?



Supor que nosso córpus tenha que ter 200
textos de 3 gêneros:
conversação/ficção/acadêmico.
Cada registro tem que ser representado por
um número X de textos iguais. Suponha 20.
Os 140 restantes serão divididos entre os 3
para termos mais amostras para gêneros
com grande variância para as features de
interesse.
Quantos textos...



Conversas e textos de ficção apresentam
desvios totais similares (37% e 39%), mas
textos acadêmicos têm desvios maiores (49%).
.37x + .39x + .49x = 140
1.25x = 140; x = 112
Amostras: .37 * 112 = 41; .39*112 = 44;
.49*112 = 55
Córpus: 41 + 20 + 44 + 20 + 55 + 20 = 200
O que é a Lingüística de Córpus?

Debate na definição do status da área.

Não é uma disciplina como a Semântica
 pois seu objeto de estudo não é delimitado como em outras áreas.
Não é domínio de estudo.
 Ocupa-se de vários fenômenos enfocados em outras áreas
(morfologia, sintaxe, sociologia, etc.). Combina-se facilmente com
essas divisões da lingüística.

Outra divisão da lingüística que tem status parecido com a L Córpus
é a L Computacional
 Que também é reconhecida como ferramenta ou metodologia;
“investigação da linguagem por meio de computador”
 Existe uma sobreposição ente L Córpus e L Computacional.
Essa última possui interesse em modelos computacionais de vários tipos de
fenômenos lingüísticos.

McEnery & Wilson 1996 afirmam que ela é “apenas uma
metodologia”

Se metodologia for entendida como um instrumental

poderíamos ter uma sintaxe baseada em córpus versus uma sintaxe
tradicional, etc.


Mas os mesmos tipos de problemas, questões, achados, etc. de um
estudo baseado em córpus se aplicaria a um estudo sem córpus???
Ou a L córpus também muda o modo pelo qual se faz pesquisa e
portanto os tipos de resultados???

L Córpus não se resume a um conjunto de ferramentas

Se metodologia for entendida como um modo típico de aplicar um
conjunto de pressupostos de caráter teórico,

então pode ser vista como metodologia, pois traz mais do que o
instrumental computacional

Uma razão pela qual a L Córpus não é uma
metodologia é o fato de seus praticantes
produzirem conhecimento novo


A análise de um córpus pode revelar, e
freqüentemente revela, fatos a respeito de uma língua
que nunca se pensou em procurar.
Assim, uma terceira possibilidade é da L Córpus
não ser nem disciplina nem metodologia



Uma rota para a Lingüística
Uma abordagem
Uma nova empreitada de pesquisa, uma nova
abordagem filosófica
L Córpus = Abordagem baseada em corpus
Abordagem baseada em corpus
(Biber et al 1998)

É empírica,



Utiliza uma grande coleção de textos autênticos conhecida como
córpus
Faz uso extensivo de computadores para análise,


analisa os padrões reais de uso em textos autênticos
usando técnicas automáticas e interativas
Depende de técnicas quantitativas e também qualitativas
 Pois o objetivo de estudos da L Córpus não é somente apresentar
contagem de features lingüísticas e sim dar uma interpretação dos
padrões quantitativos, isto é, a importância dessas descobertas para
o aprendizado sobre os padrões do uso da língua.

Além de contar freqüências há a possibilidade de se estudar
associações lingüísticas (léxicas ou gramaticais).

Por exemplo, se tomarmos as palavras big, large e great, que são
sinônimos, veremos que big co-ocorre com toe, large co-corre com
number. Esses são exemplos de associações léxicas ou colocações.

Estudos da língua:

estudos da estrutura e do uso

Tradicionalmente: identificação das unidades
estruturais e classes de uma língua (morfemas,
palavras, orações, classes gramaticais, etc.)

O enfoque da LC é no uso da língua, como os
usuários da língua (falada ou escrita) exploram
os seus recursos.

Foco no desempenho e não na competência.
 L Córpus estuda o desempenho como um produto,
pois o córpus consiste da manifestação física da
língua independente de processos mentais dos
autores pesquisados

Right is very much more common in spoken
English than in written English. Here's a couple
of different examples in spoken dialogue taken
from the Cambridge International corpus (CIC).
"That's right. Cos they've never seen him."
"Oh well. And it's going all right is it?"

The word that comes
most often after 'worry' is
'about'.

Look at these examples
from the Cambridge
International Corpus.
Concordanciador KWIC
(Keyword in Context)
KWIC foi desenvolvido em 1958 na IBM por Luhn:
Luhn, H. P. (1959). Keyword-in-Context Index for
Technical Literature (KWIC Index). Yorktown
Heights, N. Y.: IBM.
KWIC / KWAC / KWOC
http://lu.com/odlis/
KWOC
An acronym for Keyword out of Context, a variation on
the KWIC (Keyword in Context) index, in which keywords
extracted algorithmically from the title of a document
(and sometimes the text) are printed as headings along
the left-hand margin of the page, with the titles or
portions of text containing each keyword indented under
the corresponding heading. A symbol may be substituted
for the keyword in the string of text. Unlike KWAC
indexing, this method does not preserve multiword
terms and phrases in the alphanumeric sequence of
headings.
KWAC
An acronym for Keyword and Context (also known as
Keyword alongside Context), an algorithmically
generated index in which keywords from the title (and
sometimes the text) of a document are printed as
headings along the left-hand margin of the page, with
the portion of the title or text following each keyword
indented under the heading, followed by the portion of
the title or text preceding the word. Unlike KWOC
indexing, this method preserves multiword terms and
phrases in the alphanumeric sequence of headings.

Flat' is used much more by the British. Both
British and Americans use it when they mean
'smooth and level, with no curved, high or hollow
parts',

but only the British use it to mean 'a set of rooms to
live in with all the rooms on one level of a building'.
Americans use the word 'apartment' for this.
Resumindo

Estudos da L Córpus podem focar na língua (P, I) ou variante da
língua (IA, IB), no modo falado ou escrito

Estudos analisam padrões de uso para uma estrutura

Estudos também podem focar no grupo de falantes/escritores, ou
como a língua falada por mulheres difere da língua usada por
homens, etc.

Áreas de pesquisa em conferências:




Compilação de córpus
Desenvolvimento de ferramentas
Descrição da língua
Aplicação de córpus (ensino, tradução, reconhecimento de voz, etc.)
Existem campos da Lingüística para os
quais a L Córpus é a única opção

Linguística Histórica/Filologia (Historical linguistics)
 Córpus Thycho Brahe - relationship between prosody and syntax
in the process of language change which led from Classical
Portuguese to Modern European Portuguese.

Linguística Diacrônica (Diachronic linguistics)
 The claim (Hilary Putnam, 1962)
The truth value of statements (e.g., "Robots can be conscious.")
can change over time as word use changes, even though the
meaning of such statements remains constant.

Statements that are now false under synchronic linguistics (the
study of language at a given time) may become false, as revealed
by diachronic linguistics (the study of language through time).
Existem campos da Lingüística para os
quais a L Córpus é a única opção (2)

Estudos sobre aquisição de linguagem (Study of child language)


Estudos sobre o Uso da Língua (forensic linguistic, style)


Lingüística forense: identificação de plágio/autoria, profile
de escritores (cartas com antrax), etc.
Modelos Probabilísticos/Estatísticos (Probabilistic linguistics)


Não dá para perguntar para uma criança de 18 meses se
gugu-dada é verbo-nome ou nome-adjetivo.
Modelos para várias tarefas como tagging, parsing,
speech
Linguística Compucional (training/evaluation)

Córpus de treinamento para as tarefas acima; avaliações
conjuntas (TREC´s)
Uso de Córpus
em Estudos da
Língua
Corpora in Speech Research
Corpora in Lexical Studies
Corpora and Grammar
Corpora and Semantics
Corpora and Pragmatics
Corpora and Sociolinguistics
Corpora and Stylistics
Corpora and Language Teaching
Corpora and Historical Linguistics
Corpora in Psycholinguistics
Corpora and Cultural Studies
...
Córpus e
Lingüística
Computacional
Tagging
Parsing
Tagging semântico
Correção Gramatical
Análise do discurso (anáforas)
Análise Retórica
Tradução Automática
Sumarização Automática
Extração Automática de Terminologia
Simplificação Textual
...
Algumas Tipologias de Córpus
Classificação de Atkins et al
(1992)

Um corpus é um conjunto de textos compilado de acordo com
critérios explícitos para um propósito específico e assim, a rica
variedade de córpus reflete a diversidade dos objetivos dos
projetistas.

Se um córpus é criado com o propósito de se estudar
 um único MODO então temos um córpus de fala ou córpus
escritos;
 Um único MEIO podemos ter um córpus de livros, jornais, ou de
aulas.

Vejamos agora os 9 parâmetros contrastivos da tipologia:
1.
Texto inteiro X amostra X monitor
Monitor: textos são filtrados continuamente para se extrair dados para
uma base de dados, mas não são permanentemente arquivados
2.
3.
Fechado X aberto
Sincrônico X diacrônico
Um período específico deve ser projetado para o sincrônico
4.
5.
6.
7.
8.
Geral X terminológico
Mono X bi X plurilíngüe
Línguas
Único X paralelo-2 X paralelo-3 ...
Central X shell
Shell é o restante da biblioteca eletrônica disponível quando necessário
9.
Núcleo X periférico
Conceitos advindos do International Corpus of English (ICE): núcleo
contém tipos de textos comuns a todas as variedades do inglês e
que estão em todos os subcórpus; periférico contém aqueles tipos
específicos de alguns subcórpus.
Classificação de Sardinha
(2004)

Modo



Tempo





Falado: fala transcrita
Escrito: textos escritos, impressos ou não
Sincrônico: um período de tempo
Diacrônico: vários períodos
Contemporâneo: tempo corrente
Histórico: período de tempo passado
Seleção





De amostragem: porções de textos para ser amostra finita da língua
Monitor: composição reciclada para refletir o estado atual de uma língua. Opõe-se a
córpus de amostragem
Dinâmico: crescimento ou diminuição são permitidos; qualifica o córpus monitor
Estático: oposto de dinâmico; qualifica o córpus de amostragem
Equilibrado (Balanced): os componentes (gêneros, tipos de textos, etc) são
distribuídos em quantidades semelhantes; por exemplo, o mesmo número de textos
por gênero.




Conteúdo
 Especializado: textos de tipos específicos
 Regional ou dialetal: textos de uma ou mais variedades
sociolingüísticas específicas
 Multilíngüe: idiomas diferentes
Autoria
 De aprendiz: não são falantes nativos
 De língua nativa
Disposição Interna
 Paralelo: os textos são comparáveis, por exemplo, original e
tradução
 Alinhado: traduções aparecem abaixo de cada linha do original
Finalidade
 De estudo: córpus que se pretende descrever
 De referência: usado para fins de contraste com o córpus de
estudo
 De treinamento ou teste: usado para o desenvolvimento de
aplicações ou ferramentas de PLN.
Tipologia de córpus do Projeto
BALRIC-Ling (14 critérios)
Conteúdo e classificação do
BNC

O BNC foi construído entre 1991 e 1994 por um consórcio entre editoras de dicionários
como a Oxford University Press ( OUP) e Longman, centros de pesquisas acadêmicos como
a University of Lancaster e Oxford e o governo britânico.

Ele foi projetado para conter uma grande variedade de inglês britanico.

O córpus contém ~100 milhões de palavras de inglês moderno, tanto escrito (90%) como
falado (10%).

É mais caro gravar e transcrever discurso do que adquirir material escrito

Possui 4.124 textos dos quais 863 são transcrições de conversações e monólogos.

Tipologia:

Córpus de amostras

Sincrônico


cada amostra não possui mais do que 45.000 palavras.
textos de ficção a partir de 1960 e informativos a partir de 1975

Córpus geral

Monolíngue



não está restrito a qualquer assunto, registro ou gênero
composto de amostras que são produto de falantes do inglês britânico
Misto

contém textos de linguagem escrita e falada.
Tipologia de Textos


Categorias ou atributos com específicos valores usados para

Organizar e balancear córpus (para pesquisa e geração de subcórpus)

Por exemplo: gênero, meio, estilo, tópico, modo (escrito, escrito para
ser lido (dircurso), escrito para ser falado (dialogo/peça), falado, falado
para ser escrito (ditado))

Os valores podem ser definidos usando critérios externos (e.g. tipos
de texto institucionalizados, lista de tópicos, features extra-lingüísticas
ou culturais) e/ou internos (features da linguagem do texto,
compartilhada pelos membros da classe).
Muitos critérios externos e internos estão relacionados, MAS pode
acontecer de textos classificados separadamente por critérios
externos compartilharem mesmas features lingüísticas (Biber).

O que fazer nesse caso???

Análise Multidimensional (Biber), Classificação supervisionada com
nova rotulagem, etc.
Categorias geradoras de
controvérsia

Gênero

A classificação de textos em diferentes gêneros tem sido feita em projetos de córpus
com a ajuda de critérios externos como:




Uma distinção usada pelo BNC em informativo e imaginativo não tem grande validade


informações sobre o falante/escritor e audiência,
objetivos do autor, função
dados históricos, sócio-culturais, filosóficos e ocupacionais.
pois ilude ao perpetuar que muitos textos tem como principal função a transferência de
informação.
Tópico

Tópico é também um assunto controverso em tipologias de texto.

Nenhum sistema de classificação externo parece satisfatório, existem várias
hierarquias que estão sempre mudando

A prática em muitos projetos de córpus é usar uma extensiva lista de valores para
classificação, mas que não é aceita por todos.
Gênero

Atkins et al:

“é impossível balancear um córpus somente com critérios extra-lingüísticos” mas “balancear um córpus
somente com critérios internos não mostraria a relação entre a linguagem e seu contexto (ambiente do
texto)”

No artigo apresenta uma lista de 29 atributos e possíveis valores para eles (critérios externos), que são
relevantes para uma tipologia de textos
Sugere começar com um recorte dos 29 atributos que pode ser expandido mais tarde se os recursos
permitirem



Biber:

Inicialmente selecionar textos com base em critérios externos depois fazer análise com critérios internos
para classificar os textos.

Um processo cíclico de refinamento baseado nos 2 critérios é necessário para construir um córpus,
usando as duas indexações
Eagles:

A classificação de textos em diferentes gêneros tem sido feita nos projetos de córpus com base em
critérios externos, pois esses são aceitos culturalmente, e usados em disciplinas como Teoria Literária,
Retórica e outras.

Entretanto, uma tipologia adequada vai consistir de uma combinação dos 2 critérios (externo e interno)
Tópico/Assunto
EAGLES:

Existe uma categoria entre a externa e interna que é chamada de reflexiva: o texto fala
sobre ele e propõe a sua classificação


Jornais são geralmente divididos em cadernos com tópicos variados
Assim, EAGLES divide os critérios externos em 2 tipos:


Circunstancial (evidência vem de fora do texto) e
Reflexivo (evidência vem do texto: título, subtítulo, prefácio, etc)

Uma classificação melhor de tópico deve ser desenvolvida primeiramente com base
em critérios internos ao texto, como a escolha do vocabulário, através de técnicas de
clusterização, e depois a evidência externa é adicionada

Solução: tratamento objetivo através de softwares de análise (Mineração de Textos)




Projeto Aviator: utiliza levantamento de colocações + técnicas de clusterização
Seleção automática de Keywords
Sumarização automática
Métodos de Extração Automática de Termos (em linguagem especializada)
Estudo de caso: Lácio-Ref

Tipologia quadripartida em gênero, tipo de texto,
domínio e meio de distribuição.

Gênero textual: o gênero discrimina o texto pela intenção
comunicativa, a comunidade (meio) em que circula e as
atividades humanas que o tornam relevante.

(critério externo)

9 gêneros: Científico, De referência, Informativo, Jurídico,
Prosa, Poesia, Drama, Instrucional, Técnico-Administrativo

Tipo textual: considera-se “tipo de texto” o
modo específico de estruturação de um
texto.

Refere-se ao texto visto “de dentro”, ou seja, suas
partes componentes, seu léxico, sua sintaxe, sua
adequação ao tema, etc.

(subjetiva – exige leitura humana, mas termina
com um membro de uma lista = externa)

Domínio: é a “área de conhecimento” que tematiza
a principal informação veiculada pelo texto.

(subjetiva – exige leitura humana, mas termina com um
membro de uma lista = externa)

Meio de distribuição: seleciona o canal através do qual o
texto foi divulgado ao seu público-alvo.

(critério externo)
Córpus construídos no NILC
PLN-BR:
www.nilc.icmc.usp.br:8180/portal/
2 C de Aprendizes:
CORVO - Textos do ENEM de 2002
Lácio-Web:
www.nilc.icmc.usp.br/lacioweb/
19932000
20022004
CEA-STS - Abstracts em inglês
escritos por alunos brasileiros de
pós-graduação
2005
2005
C. NILC
4 Córpus Lácio-Web:
~35 milhões
de tokens e
340.016
tokens
diferentes
MAC-MORPHO
~1.2 milhões de tokens
Lácio-REF: 4278
arquivos, ~8.2 milhões
tokens
Par-C: 646 pares (I/P),
893.283 tokens
Comp-C: pares(I/P),
61.149 tokens
20062007
C. Nano
~2.5 milhões
tokens
2007
Córpus PLN-BR
2007
C. Milênio
2008
2008
CEA: 723
CEA-2: 28 artigos
abstracts pub.
(Referência)
Comp/Est/Mat. Comp.
Física/Farmácia
2008
Comparable
CEA (I/P): 84
pares de abs.
C PorSimples
Estudo de
padrões léxicos. 104 pares textos
jornalísticos
50 pares de textos
científicos
Orig./Simp. (PorSimples
Problemas do C NILC

Classificação


Número de textos em certos subcórpus


Alguns textos se desviam da regra seguida pelo C NILC de incluir textos completos. Alguns
possuem partes do começo, meio e fim de um texto, por exemplo.
Agrupamento e formatação




Alguns subcórpus estão sub-representados, por exemplo, o subcórpus Técnico e Científico possui
somente um pequeno número de textos, dissertações incompletas, sendo a maioria da
Computação
Tamanho das amostras (o critério principal era amostras completas)


Dentro das 3 classes principais os textos foram agrupados de forma ad hoc, ou por domínio (ou
assunto) ou por gênero ou tipo textual.
Não houve preocupação em manter a formação, por exemplo, as marcas de sentença e parágrafo
para muitos textos.
Houve agrupamento de textos pequenos num único, causando problemas para a criação do
cabeçalho do texto
Alguns textos possuem a informação de autoria e detalhes da publicação, mas nada é dito sobre o
seu domínio, gênero ou tipo textual; outros nem tem cabeçalho.
Copyright

Foram obtidos para os subcórpus não corrigidos e semi-corrigidos; os corrigidos não têm permissão
de uso.
Organização do C NILC
Problemas do Lácio-Web

Embora possua uma bem definida tipologia de
textos






Gênero
Tipo de Texto
Domínio
Meio de Distribuição
E seus textos mantiveram a estrutura, possuam
cabeçalho e autorização de uso
Falha em


não usar padrões internacionais de intercâmbio para
facilitar o reuso e
na seleção dos textos (não houve uma amostragem ou
balanceamento).
Tentamos sanar esses
problemas

Em 2 projetos de grande porte: Milênio e
PLN-BR
Arquitetura Geral do PLN-BR
Construção,
Manutenção e
Disponibilização
de Corpora
Representação
do
Conhecimento
Textual
Anotação de
Corpora
CORPUS
Glosagem da
Wordnet.Br e
sua Indexação à
WordNet de
Princeton
Categorização
de Textos
Sumarização
Automática e
Recuperação da
Informação
Textual
Aprendizagem
Automática de
Informações
Lexicais
3 grandes atividades: os córpus
e sua infra-estrutura de acesso
1. Definição dos Protocolos e Padrões de
Representação dos Documentos
XCES
2. Disponibilização dos Córpus de Treinamento


Córpus Gold Standard
Córpus para treinamento de classificadores de conteúdo
3. Construção da Plataforma de Acesso aos Córpus – o Portal
de Córpus (http://www.nilc.icmc.usp.br:8180/portal/)
A plataforma possui:



um Editor Web de Cabeçalhos que preenche um banco de dados
(BD) com informações dos cabeçalhos dos textos. Com os dados
dos textos no BD há a possibilidade de:
várias formas de pesquisa aos textos dos córpus e montagem de
sub-córpus.
O sub-córpus criado com as pesquisas:



é disponibilizado para download seguindo o padrão XCES, a partir
dos dados do banco de dados e em texto crú
pode ainda ser consultado via uma ferramenta de exploração
gráfica – o PEx-Corpus Tool. O PEx-Corpus é uma adaptação do
projeto Projection Explorer (PEx)
(http://www.lcad.icmc.usp.br/~paulovic/pex/) que permite
inspecionar visualmente um subcórpus para explorar o seu
conteúdo e criar outros subcórpus com base numa seleção de
tópicos.
Discussões relacionadas ao
Projeto do Córpus
a) Devíamos usar a infra-estrutura de disponibilização e processamento do projeto LácioWeb, já disponível no NILC?
b) talvez fosse interessante que não houvesse muita variação na forma e domínio dos textos
do córpus;
c) que um critério importante seria a relevância social do córpus;
d) que o córpus devesse ser fechado, com textos mais simples, com estruturas sintáticas
menos sofisticadas, que venham em prosa (e não em verso);
e) que sejam reconhecidos por seu mérito informativo (e não pelo juízo estético); e que,
f) de preferência, não sejam muito longos.
Domínio/Gênero:
1.
2.
3.
4.
5.
6.
7.
8.
9.
textos de patentes;
dos domínios da Nanociência & Nanotecnologia e da bioinformática;
na Bíblia;
no Bulário Eletrônico da Anvisa (http://www.anvisa.gov.br/e-bulas/);
no Guia de Remédios do UOL (http://www1.uol.com.br/remedios/);
em textos relativos a um fato histórico de importância para o Brasil;
em textos de saúde pública, por exemplo, as cartilhas de órgãos governamentais em
contraponto com textos científicos e de divulgação para leitores mais proficientes;
em textos didáticos; e
em textos da Wikipedia (um problema aqui: os textos são encomendados e não naturais)
I Workshop do projeto - 16 e 17
de março de 2006
Todos concordaram que o gênero de textos
informativos, subgênero jornalístico era o que
atenderia melhor a todos os subgrupos.
Embora o NILC tivesse permissão de uso dos textos
de 1994 da Folha de São Paulo (FSP),
partimos para um pedido formal para a Folha, por ser o
maior jornal do Brasil, em busca de dados mais atuais.
Amostragem
Córpus Global (FULL) do PLN-BR
O ano construído
para o projeto
PLN-BR toma os
textos de um mês
aleatório de 1994
até um mês
aleatório de 2005,
totalizando 12
meses diferentes
• A grande base contém 125 mil textos no formato Folio Views.
• Vários textos desta base são compostos somente de informação de
cabeçalho:
estes não foram utilizados no projeto PLN-BR.
Obtenção dos Direitos de Uso
As negociações com a FSP para obtenção da grande
base de textos e de amostras representativas e
balanceadas
começaram em março de 2006 e em janeiro de
2007 o TERMO DE AUTORIZAÇÃO PARA UTILIZAÇÃO DE
OBRA E OUTRAS AVENÇAS entre ICMC-USP
(representando o Projeto PLN-BR) e a FSP foi assinado.
Os 3 córpus do PLN-BR
1.

PLN-BR FULL que contém 103.080 mil textos da FSP e
29.014.089 tokens
foi disponibilizado para download em setembro de 2006,
principalmente para os membros dos subprojetos Glosagem da
Wordnet.Br e sua Indexação à WordNet de Princeton e
Aprendizagem Automática de Informações Lexicais.

este córpus só pode ser acessado na Web com senha
(Portal_Interno), com citação/visualização permitida de 30% de
cada texto via concordâncias, por exemplo, devido à lei de
direitos autorais.

Cada pesquisador que o acessa assina um termo de
compromisso.

o córpus pode ser explorado totalmente pelos participantes do
projeto para tarefas de criação de léxicos, por exemplo, entre
outras.

Foi distribuído em codificação unicode

os textos possuem as informações de título, subtítulo (quando existe), autores, tipo de texto,
caderno, ano, número de palavras, keywords (quando existem), seguido do texto cru.

título, subtítulo e autores não ganham etiquetas e assim colaboram para a contagem de
freqüência quando usados no processador de córpus Unitex.

as outras meta-informações (tipo de texto, caderno, ano, número de palavras e keywords)
utilizam etiquetas Unitex:
Globo News dá um 'furo' mundial
FRANCISCO MARTINS DA COSTA
{tipo de texto Notícia,.N}
{caderno TV FOLHA,.N}
{ano 1999,.N}
{número de palavras 125,.N}
{keywords [TELEVISÃO] [GAFE] [OSCAR, 1999] [GLOBONEWS],.N}
Na madrugada de domingo para segunda-feira passada, o "Em Cima da Hora", da Globo News, deu
em primeira-mão que "O Resgate do Soldado Ryan", de Steven Spielberg, ganhou o Oscar de
melhor filme.
Foi uma notícia literalmente exclusiva, afinal o vencedor para todo o resto da humanidade foi
"Shakespeare Apaixonado". Parabéns Central Globo de Jornalismo! É de "furos" como esse que
o telespectador gosta.
Mas gafes não são exclusividade dos canais de notícia. O cantor Vinny, ao analisar as chances de
"Central do Brasil", na tarde de domingo na MTV, ponderou que a concorrência era forte. "Ouvi
dizer que 'La Dolce Vita' é um ótimo filme", disse. Pena que "A Vida é Bela" em italiano seja "La
Vita È Bella".
(FRANCISCO MARTINS DA COSTA)

O arquivo tem 141MB compactado e 400MB
descompactado.

Estes textos passaram por um novo crivo exigido
pela FSP em dezembro de 2006


para dar acesso somente aos textos cujos créditos eram da
FSP na montagem dos dois outros córpus que prevêem
acesso a textos integrais.
Este novo córpus possui 96.868 textos e 26.425.483 tokens
(mantemos este novo córpus em uma base de dados
diferente, que chamaremos aqui de PLN-BR FULL 2).
2. PLN-BR CATEG que possui 30 mil textos e 9.780.220 tokens.

só pode ser acessado com senha pelos membros, mas o acesso aos
textos é integral.

visa atender o subgrupo Categorização de Textos.
uma amostra aleatória estratificada e proporcional à distribuição do córpus
PLN-BR FULL com relação aos textos dos cadernos do jornal.
formado por 30% dos textos do córpus PLN-BR FULL e possui somente
notícias e reportagens para as quais a Folha de São Paulo possui direitos
de republicação.
contém o córpus PLB-BR GOLD.



3. PLN-BR GOLD que possui 1024 textos e 338.441 tokens.

Pode ser acessado livremente via Web.



O tamanho deste córpus que recebe atenção da maioria dos subgrupos foi
decidido para representar 1% do córpus PLN-BR FULL de forma a
conservar, proporcionalmente, a distribuição deste córpus maior.
Ele é uma amostra aleatória estratificada e proporcional à distribuição do
córpus PLN-BR FULL com relação aos textos dos cadernos do jornal.
Ele é formado por 1% dos textos do córpus PLN-BR FULL, e possui
somente notícias e reportagens para as quais a Folha de São Paulo possui
direitos de republicação.
Padrões Internacionais de
Anotação e Codificação

Como o custo de se criar córpus anotados é muito alto

tanto e termos financeiros como na demanda de trabalho especializado,

pesquisadores amortizam estes custos reusando estes recursos

Este alto custo contribui para o desenvolvimento de padrões de
codificação e anotação


para recursos de língua, que permitem o seu intercâmbio
Exemplos de padrão de anotação:


TEI – mais adaptado para córpus históricos e
XCES – mais adaptado para criação de córpus para PLN

Padrão de codificação de caracteres: Unicode

Vantagens de se usar estes padrões internacionais:
 Facilita o intercâmbio de dados, reuso e extensibilidade
 Evita o desenvolvimento de software, pois podemos usar ferramentas já
desenvolvidas que os atendem
Discussões relacionadas ao padrão a ser
usado para Anotação Estrutural e Lingüística

XML

Padrões atuais: TEI e XCES (há também o padrão XML CDIF, MARTIF, OLIF)

ANC é um córpus de textos contemporâneos do IA, sendo atualmente construído




TEI tem uma massiva documentação
Novidade do XCES:


anotação stand-off (vs anotação intercalada com o texto) e
o uso de schemas XML que fornecem mais controle para a definição do que é valido e mais tipos de
dados (vs o uso de DTD´s)


Criação e aplicação do padrão XCES (http://www.cs.vassar.edu/XCES/)
XCES é a versão XML do padrão CES (Corpus Encoding Standard) que é parte das recomendações do
grupo EAGLES (Expert Advisory Group on Language Engineering Standards) para codificação e anotação
de córpus que segue as recomendações do TEI (Text Encoding Initiative)
Mas nem todo este poder vem de graça....é uma nova tecnologia, vários parsers não o analisam, já há
muito feito em DTD, então não estaríamos reusando o que está pronto
Como decidir?


Inovação versus segurança e reuso
XCES fornece uniformidade para representação estrutural e lingüística: Feature Structure
<struct type="p" from="3" to="219">
<feat name="id" value="p1" />
</struct>

Discussão sobre padrões: www.gslt.hum.gu.se/~leifg/gslt/doc/lingres.ps
Anotação XCES Básica:
PLN-BR GOLD e PLN-BR CATEG
Anotação Stand-off:
flexibilidade

O texto primário pode ser usado sem anotações ou com anotações se
necessário.

O usuário pode escolher trabalhar com uma anotação em particular
independente do textos.

O córpus pode conter anotações de diferentes tipos,


ou várias versões de um único tipo de anotação (por exemplo, múltiplas
marcações de etiquetadores morfossintáticos (taggers)) sem problemas de
compatibilidade.
O projeto pode distribuir anotações independentes do texto para
download,

porque as anotações possuem links para os dados originais (conteúdo),
assim qualquer usuário que já fez download do córpus pode posteriormente
somente baixar as novas anotações.
Exemplo: ESPORTE_1997_640.txt
(15 par.)
ESPORTE_1997_640-logical.xml
<?xml version="1.0" encoding="UTF-8" ?>
- <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4">
- <struct type="cesDoc" from="0" to="2193">
<feat name="version" value="1.0.4" />
<feat name="id" value="ESPORTE_1997_640" />
<feat name="xmlns:xsi" value="http://www.w3.org/2001/XMLSchema-instance" />
<feat name="xmlns:xlink" value="http://www.w3.org/1999/xlink" />
<feat name="xmlns" value="http://www.xces.org/schema/2003" />
</struct>
<struct type="text" from="0" to="2192" />
<struct type="body" from="1" to="2191" />
- <struct type="div" from="2" to="2190">
<feat name="type" value="materia" />
</struct>
- <struct type="p" from="3" to="219">
<feat name="id" value="p1" />
</struct>
- <struct type="p" from="220" to="413">
<feat name="id" value="p2" />
</struct>
- …- <struct type="p" from="1834" to="2119">
<feat name="id" value="p14" />
</struct>
- <struct type="p" from="2120" to="2189">
<feat name="id" value="p15" />
</struct>
</cesAna>
ESPORTE_1997_640-s.xml
(20 sentenças)
<?xml version="1.0" encoding="UTF-8" ?>
- <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4">
- <struct type="s" from="3" to="219">
<feat name="id" value="p1s1" />
</struct>
- <struct type="s" from="220" to="413">
<feat name="id" value="p2s1" />
</struct>
- <struct type="s" from="414" to="538">
<feat name="id" value="p3s1" />
- <struct type="s" from="1834" to="1901">
<feat name="id" value="p14s1" />
</struct>
- <struct type="s" from="1902" to="1971">
<feat name="id" value="p14s2" />
</struct>
- <struct type="s" from="1972" to="2119">
<feat name="id" value="p14s3" />
</struct>
- <struct type="s" from="2120" to="2179">
<feat name="id" value="p15s1" />
O Senter erra aqui
</struct>
- <struct type="s" from="2180" to="2189">
<feat name="id" value="p15s2" />
</struct>
</cesAna>
ESPORTE_1997_640.xml (merged)
<?xml version="1.0" encoding="UTF-8" ?>
- <cesDoc version="1.0.4" id="ESPORTE_1997_640" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:xlink="http://www.w3.org/1999/xlink" xmlns="http://www.xces.org/schema/2003">
- <text>
- <body>
- <div type="materia">
- <p id="p1">
<s id="p1s1">Membros de torcidas uniformizadas do Corinthians emboscaram na madrugada de ontem o ônibus em que a
delegação do clube viajava para São Paulo, após a derrota por 1 a 0 para o Santos, na Vila Belmiro, pelo Brasileiro.</s>
</p>
- <p id="p2">
<s id="p2s1">No km 45, após o trecho de serra da rodovia dos Imigrantes (sentido São Paulo), torcedores com camisa da
Gaviões atravessaram um ônibus em que viajavam na pista, transformando-o numa barricada.</s>
</p>
...
- <p id="p14">
<s id="p14s1">O ataque surge em hora crítica para o Corinthians e para a Gaviões.</s>
<s id="p14s2">O time está em 20º lugar no Brasileiro e corre risco de rebaixamento.</s>
<s id="p14s3">Já a Gaviões, proibida como todas as uniformizadas de frequentar estádios paulistas, negociava com a PM e o
Ministério Público um modo de retornar.</s>
</p>
- <p id="p15">
<s id="p15s1">LEIA mais sobre o ataque ao ônibus do Corinthians nas págs.</s>
<s id="p15s2">4-3 e 4-4</s>
</p>
</div>
</body>
</text>
</cesDoc>
O cabeçalho segue o TEI
<fileDesc>
Contém informações sobre o texto
codificado (distribuição, fonte,
etc.).
<encodingDesc>
Contém informações sobre a
maneira como o texto foi
codificado.
<profileDesc>
Contém informações sobre vários
aspectos do texto (língua usada,
classificação do texto segundo a
sua tipologia, os participantes de
um texto falado e sua situação,
anotações, etc.).
<revisionDesc>
Resume o histórico de revisão
(cabeçalho, segmentação e
lingüística) de um documento.
Tipologia do Lácio-Web
Proposta: utilizar tipologia
quadripartida do Lácio-Web
Tipologia do LW
3 anotações estruturais +
3 anotações lingüísticas
Anotação lingüística - sintática
Tokens
<struct type=”token” from=”0” to=”1”>
<feat name=”id”
value=”t1”/>
<feat name= “base” value=”A”/>
</struct>
<struct type=”token” from=”2” to=”8”>
<feat name=”id”
value=”t2”/>
<feat name=”base” value=”universidade”/>
</struct>
….
Pos
<struct type=”pos”>
<feat name=”id” value=”pos1”/>
<feat name=”class” value=”art”/>
<feat name=”gender” value=”F”/>
<feat name=”number” value=”S”/>
<feat name=”canon” value=”o”/>
<feat name=”complement” value=”artd”/>
<feat name=”tokenref” value=”t1”/>
</struct>
…
Phrases
<struct type=”phrase” from=”t1” to=”t2”>
<feat name=”id” value=”phr1”/>
<feat name=”cat” value=”NP”/>
<feat name=”function” value=”subj/>
<feat name=”head” value=”t2”/>
</struct>
…
Tokens are
linked to the
main text
through the
attributes from
and to in the
structures of
type token.
For each token
there is a
corresponding
POS structure.
Phrases are
identified for
group of
tokens.
Fóruns


Conferência Lingüística de Córpus:
 Internacional: 2001 a 2009, bianual
http://www.liv.ac.uk/english/CL2009/
 Brasil de 1999 a 2009, 8 eventos:
http://www.nilc.icmc.usp.br/EncontroCorpora/index.htm
Special Interest Group on Linguistic data and corpus-based
approaches to NLP (SIGDAT): http://www.aclweb.org/anthologynew/sigdat.html com as conferências WVLC (de 1993 até 2000)
e Empirical Methods in Natural Language Processing (de 1996
até 2008)
International Journal of Corpus Linguistics
(http://www.benjamins.com/cgi-bin/t_seriesview.cgi?series=Ijcl )
 Language Resources and Evaluation
(http://www.springer.com/linguistics/computational+linguistics/journa
l/10579)

Desafios da área Data Resources
1) Necessidade
de uma Ciência
da Anotação de
Córpus
http://www-nlpir.nist.gov/MINDS/FINAL/data.web.pdf
2) Necessidade de uma infra-estrutura de
anotação robusta e extensível
Along with a better understanding of a
methodology for annotation there should be a
set of public domain tools and interfaces that
can support, and to a certain degree enforce,
“best practice” annotation guidelines.
Exemplo:
WYNNE, M. (Ed). Developing Linguistic Corpora: a Guide to Good Practice.
Disponível em: http://ota.ahds.ac.uk/documents/creating/dlc/index.htm . Acesso
em14/10/2008. (Produced by AHDS Literature, Languages and Linguistics)
3) Necessidade de integração de tecnologias
para acelerar e produzir melhores anotações
There is considerable evidence that the productivity
of manual annotation can be speeded up by preprocessing the data with sufficiently accurate
automatic taggers (Chiou, et al., 2001).
However, current annotation practices frequently fail
to take advantage of this approach, possibly
because of the difficulty of integrating these systems
into new annotation tasks.
4) Necessidade da Criação de anotações
mais ricas (informações lingüísticas)
5) Necessidade da criação de Kits de
Língua
There has long been recognition of the need to have
basic language processing resources available for a
broad spectrum of languages:
monolingual text, parallel text, part-of-speech taggers,
morphological analyzers, and Named Entity annotation.
Este será o assunto da próxima aula...
6) Necessidade da criação de
recursos léxicos de grande cobertura
In the quest for improving the portability of
supervised stochastic systems, one underutilized resource is the lexicon.
Many supervised approaches depend heavily
on lexical cues, and balk when given data
with out-of-vocabulary lexical items.
Perguntas




Qual a população de que seu córpus é uma
amostra?
Qual a melhor maneira de lidar com o problema da
representatividade? Que conselho você daria a
alguém para se precaver das críticas relativas à
falta de representatividade de corpus?
Quais as diferenças entre Linguística de Córpus e
PLN?
Qual das 8 definições de córpus que lhe parece
mais adequada/útil ao seu contexto de pesquisa?
Perguntas




Quais as vantagens e desvantagens de se usar a
Web como córpus?
Qual a diferença de se usar a Web como córpus e
como fonte de córpus?
Você já usou a Web como fonte de córpus? Como
córpus? Quais desafios você enfrentou/prevê?
Que ferramentas você usa para análise de córpus?
Você já notou problemas de aferição de frequência
com esta ferramenta?
Textos de Suporte

MORRISON, Alan; POPHAM, Michael; WIKANDER, Karen. Creating and
Documenting Electronic Texts: A Guide to Good Practice. Disponível em:
http://ota.ahds.ac.uk/documents/creating/cdet/index.html
Acesso em 14/10/2008. (Produced by AHDS Literature, Languages and
Linguistics)

WYNNE, M. (Ed). Developing Linguistic Corpora: a Guide to Good Practice.
Disponível em: http://ota.ahds.ac.uk/documents/creating/dlc/index.htm . Acesso
em14/10/2008. (Produced by AHDS Literature, Languages and Linguistics)

ALUÍSIO, S. M., ALMEIDA, G. M. de B. O que é e como se constrói um
corpus? Lições aprendidas na compilação de vários corpora para
pesquisa lingüística. Calidoscópio (UNISINOS). , v.4, p.155 - 177, 2006.
Disponível em:
http://www.unisinos.br/publicacoes_cientificas/images/stories/pdfs_calidoscopio/
vol4n3/art04_aluisio.pdf

Martha Palmer, Randee Tangi, Stephanie Strassel, Christiane Fellbaum, Eduard
Hovy. Historical Development and Future Directions in Data Resource
Development. Relato do da área de Recursos Lingüísticos do Workshop
MINDS. Disponível em: http://www-nlpir.nist.gov/MINDS/FINAL/data.web.pdf
Referências
McENERY T. & WILSON A. (1996) Corpus linguistics, Edinburgh: Edinburgh
University Press.
BERBER SARDINHA, T. (2004) Lingüística de Corpus. São Paulo: Manole.
GARSIDE, R.; LEECH, G.; MCENERY, A.M. (eds.) (1997). Corpus Annotation.
Longman.
BIBER, D.; S. Conrad; R. Reppen. (1998). Corpus linguistics: Investigating
language structure and use. Cambridge University Press, Cambridge.
ATKINS, S.; CLEAR, J.; OSTLER, N. (1992). Corpus design criteria. Journal of
Literary and Linguistic Computing 7(1).
CHURCH, K. and MERCER, R. (1993) Introduction to the Special Issue on
Computational Linguistics using Large Corpora, Computational Linguistics
Volume 19, Number 1, 1-24.
KILGARIFF, A. and GREFENSTETTE, G. (2003) Introduction to the Special Issue
on the Web as a Corpus, Computational Linguistics Volume 2, Number 3,
333-347
LEECH, G. (1992) "Corpora and theories of linguistic performance", in Svartvik, J.
Directions in Corpus Linguistics, pp 105-22. Berlin: Mouton de Gruyter.
SANTOS, Diana. "Corporizando algumas questões". In Stella E. O. Tagnin & Oto
Araújo Vale (orgs.), Avanços da Lingüística de Corpus no Brasil, Editora
Humanitas/FFLCH/USP, São Paulo, 2008, pp.41-66.
Download

O que é Córpus? - Portal da Escrita Científica