Corpus: definição e coleta
Tradução Técnica 2008
Stella E. O. Tagnin
O que é um corpus? (cf. Aurélio
Eletrônico)
(1) Conjunto de documentos,
dados e informações
sobre determinada matéria.
(3) Conjunto de materiais significantes
(enunciados lingüísticos, capas de revistas)
constituído com vistas à análise
semiológica.
O que é um corpus hoje?
Uma coletânea de textos
em formato eletrônico,
compilada segundo critérios específicos,
considerada representativa de uma língua
(ou da parte que se pretende estudar),
destinada à pesquisa
Critérios de compilação
Origem: textos autênticos
Objetivo: pesquisa
População: seleção
Formato: eletrônico
Representatividade: de que, para
quem?
Extensão: de acordo com objetivos
A História dos Corpora
Década de 60 – corpora de
1 milhão de palavras!
Brown – inglês americano
–200 textos de 5.000 palavras cada
–15 categorias distintas
LOB (Lancaster/Oslo/Bergen) –
contrapartida em inglês britânico
Os Corpora Atuais
BNC – 1995 – 100 milhões de
palavras
– 90% língua escrita
– 10% língua falada
Bank of English (Cobuild)
– Birmingham 1987 – 20 milhões de
palavras
– Hoje perto de 500 milhões de palavras
– corpus aberto – em constante
Qual a grande vantagem dos
corpora?
Observação da
linguagem em uso
- natural contrapõe-se à introspecção
Chomskyana
- gramatical -
Qual é a diferença?
Chomsky
Competência
Universais
lingüísticos
Racionalismo
Intuição introspecção
Possibilidade
Halliday
Desempenho
Descrição
lingüística
Empirismo
Observação
Probabilidade
Corpus linguist vs armchair linguist
“... I don’t think there can be any
corpora, however large, that contain
information about all of the areas of
English lexicon and grammar that I
want to explore...”
Corpus linguist vs armchair linguist
“... Every corpus [...] however small,
has taught me facts that I couldn’t
imagine finding out about in any
other way.”
(Fillmore, C.J. “Corpus linguistics” or “Computer-aided armchair
linguistics”. In Svartvik, Jan (ed.) Directions in Corpus Linguistics,
Proceedings of Nobel Symposium 82, Stockholm, 4-8 August
1991, Berlin/NY: Mouton de Gruyter, 1992, 35-60)
Lembrando...
Na tradução técnica o que se
almeja é um
texto natural
fluente
Para que servem os corpora?
Detectar padrões lexicais
– Fraseológicos (colocações):
palavras que co-ocorrem em
freqüência maior do que esperada:
sweeping victory, high and low >
search high and low
– Terminológicos: lucros e perdas,
controle de qualidade, plantas
geneticamente modificadas
(alteradas??)
Compilação de dicionários e
glossários
Para que servem os corpora?
Detectar padrões
gramaticais
–“coligações”: verbos
seguidos de infinitivo ou
gerúndio:
–begin + to vs. start + -ing
Detectar a prosódia
semântica:
cause vs causar
Concordância
family thinks Vicki Rock's former job at the plant
caused her son's cancer.
but he denies that the plant caused leukemia in
families that have brought suits against the company
One of two things could have caused this error: The
Pobox.com user whose web site you
Ok: BM caused TONS of problems over last few
weeks…31: Holes that caused fuel leak on shuttle
located in nozzle July 28: Columbia
reduce deaths, injuries, property damage, economic
losses and human suffering caused by natural
disasters.
ventos mais fortes do oeste e aumento de tempestades
violentas, causou danos sem precedentes nas
propriedades situadas na costa
de 1992 na região central dos Estados Unidos. Por isso,
causou grande impacto a descoberta do oceanógrafo
americano Dudley Chelton
membro do conselho executivo deve fazer é "A nossa
empresa causou uma primeira boa impressão em
consumidores potenciais suficientes para garantir
de 1995, quando já assumira a presidência do Banco
Central, causou repercussão na imprensa o fato de ter
passado o carnaval fato teve não teve a repercussão
equivalente ao prejuízo que causou a centenas de
empresas que hoje dependem prioritariamente da rede
Áreas de Pesquisa
Lexicologia e lexicografia
Estudos lexicais
Compilação de dicionários
Estudos contrastivos
Tradução
Naturalidade da língua
Áreas de Pesquisa
–Tradução
–Normalização/
Simplificação/
Explicitação
–Estratégias de tradução
–Normas de tradução
–Ensino e treinamento
–Fontes de referência
Corpora Online
Inglês
BNC:
http://sara.natcorp.ox.ac.uk/lookup.html
COBUILD:
http://www.collins.co.uk/Corpus/Cor
pusSearch.aspx
WebCorp:
http://www.webcorp.org.ul/webcorp.html
Corpora Online
Português
COMPARA:
http://www.linguateca.pt/COMPARA
Lácio-Web:
http://www.nilc.icmc.usp.br/lacioweb
Dicionários baseados em
corpora
Oxford English Dictionary (2nd ed.),
1989
Longman Dictionary of Contemporary
English (1980s)
Macmillan English Dictionary (2002)
Os corpora quanto à língua
–monolíngües
–bilíngües
–multilíngües
Corpora monolíngües
língua geral: jornalísticos e literários
língua de especialidade: técnicos
mistos
traduções
– TEC - Translation English Corpus
corpus de referência (depende da
pesquisa)
–língua geral
–variedade de gêneros
–variedade de registros
Corpora multilíngüe
comparáveis:
–originais em duas ou mais
línguas
paralelos:
originais +
tradução/traduções
COMPARA
Extratos de Ficção
Português  Inglês
Inglês Português
Textos alinhados
Português
Inglês
Total
Originais
26
15
41
Traduções
Palavras
Originais
Traduções
Português
Inglês
Ptg & Ing
395244
456075
851319
452763
439083
891846
17
27
44
O &T
848013
895158
1743171
Then – Então – Aí – Daí - Depois
EBJB1(1018):
Then there are the three live parrots, two at Trouville and
one at Venice; plus the sick parakeet at Antibes.
Há depois os três papagaios vivos, dois em Trouville e um em
Veneza; mais o periquito doente em Antibes.
EBJB1(1033):
Then the parrot, returning its master's gaze with an
unflinching eye, would murmur the cabbalistic word, and
Henri's soul would be filled with the memory of his lost
happiness.
Então o papagaio, retribuindo o olhar ao dono com um olho
inflexível, murmurava a palavra cabalística e a alma de
Henri enchia-se com a memória da sua felicidade perdida.
ESNG1(496):
Then there was the matter of her job.
Daí vinha a questão do seu emprego
Alguns sites úteis
Corpus Linguistics:
http://www.humcorp.bham.ac.uk/
Bibliography
http://www.athel.com/corpus_bibliography.html
Text Corpora
http://www.athel.com/corpus.html
David Lee’s Bookmarks for Corpus-based
Linguists:
http://devoted.to/corpora
Projeto e Compilação de um
Corpus
1. Objetivo do corpus
perguntas de pesquisa
2. Projeto do corpus
a. estático ou dinâmico
b. falado ou escrito
c. monolíngüe ou multilíngüe
(comparável ou paralelo)
d. gêneros e tipos de textos a
serem incluídos
Projeto e Compilação de um
Corpus
2. Projeto do corpus
e.
f.
g.
h.
i.
j.
k.
domínios a serem incluídos
proporção dos textos
quantidade de textos
completos ou trechos
extensão dos textos
fonte dos textos
tamanho do corpus
Projeto e Compilação de um
Corpus
3. Cabeçalho
• quais informações são relevantes
para o projeto?
• que outras informações poderiam
interessar a outros pesquisadores? -
reusabilidade
Cabeçalho
<Header>
<title>
<filename> </filename>
</title>
<author>
<name></name>
</author>
<sourceText>
<language></language>
<mode>[mode of delivery of textual
content]</mode>
<publisher></publisher>
<pubPlace>[place of publication]</pubPlace>
<date></date>
<copyright>[copyrights holder]</copyright>
</sourceText>
</Header>
<text>
<header>
<title>
<fileName> JO-IF-ESP-esp_01 </fileName>
<corpus> futebol </corpus>
<nPages> 2 </nPages>
<nWords> 935 </nWords>
<sample> íntegra </sample>
</title>
<sourceText>
<titleOfText> Santos no caminho certo </titleOfText>
<language> PB </language>
<source> O Estado de São Paulo </source>
<pubPlace> http://www.estado.com.br </pubPlace>
<date> 03.08.2004 </date>
<status> Original </status>
</sourceText>
<author>
<name> Válter Casagrande Júnior </name>
<gender> Masculino </gender>
<type> Individual </type>
</author>
<textClassification>
<textGenre>
<genre> informativo </genre>
</textGenre>
<textType> Editorial </textType>
<domain>
<generalDomain defined="auto-def"> Generalidades
</generalDomain>
<specificDomain> Esporte </specificDomain>
</domain>
<distribution> Internet </distribution>
</textClassification>
</header>
Projeto e Compilação de um Corpus
4. Código de nomeação
(Manual Lácio-Web)
Meio de Divulgação, Gênero Textual, Fonte, Data
JO-IF-FSP-mu-05fev99_01
Meio de divulgação: jornal
Gênero textual: informativo
Fonte: nome do periódico: Jornal “Folha de São
Paulo”
Caderno: “Mundo”
Data: 05 de fevereiro de 1999
Primeiro texto (deste caderno, nesta data
Projeto e Compilação de um
Corpus
4. Código de nomeação
RE-IF-NE-cea-mar01_05
Meio de divulgação: revista
Gênero textual: informativo
Fonte: Revista “Nova Escola”
Caderno: “Cresça e Aconteça”
Data: mês de março de 2001
Quinto texto (deste caderno, nesta data
de publicação)
Projeto e Compilação de um
Corpus
4. Código de nomeação
RE-IF-CI-#-nov00_03
Meio de divulgação: revista
Gênero textual: informativo
Fonte: Revista “Cerâmica Industrial”
Caderno: não há subdivisões no periódico
Data: mês de novembro de 2000
Terceiro texto (deste caderno, nesta data
de publicação)
Projeto e Compilação de um
Corpus
4. Código de nomeação
RE-IF-CI-#-agodez01_02
Meio de divulgação: revista
Gênero textual: informativo
Fonte: Revista “Cerâmica Industrial”
Caderno: não há subdivisões no periódico
Data: período compreendendo os meses de agosto a
dezembro de 2001
Segundo texto (deste caderno, nesta data de
publicação)
Projeto e Compilação de um
Corpus
5. Etiquetagem
morfossintática
tagging)
(POS-
sintática (parsing)
semântica
discursiva
terminológica
Etiquetagem morfossintática
<s>
Foi_VAUX
cercada_PCP
de_PREP|+
o_ART
maior_ADJ
sigilo_N
a_ART
chegada_N
de_PREP|+
a_ART
agência=de=publicidade_N
Saatchi_NPROP
$&_NPROP
Saatchi_NPROP
a_PREP|+
o_ART
Brasil_NPROP
._.
</s>
Etiquetagem semântica
For the soup, preheat the oven to 160ºC (350ºF / moderate /
Gas 4). <cut>Cut</cut> <veg>tomatoes</veg>
lengthwise, discard seeds, place in a medium heatproof dish
with <season>garlic</season>, olive oil,
<season>salt</season>, <season>pepper</season>,
and <herb>parsley</herb> and <herb>basil</herb>
sprigs tied by the stems. <cook>Bake</cook> for
approximately 1 hour, until <veg>tomatoes</veg> are soft
and fragrant, let cool and refrigerate for 2 hours, or up to 2
days. Discard wilted herbs and blistered tomato skin and
puree in a <appl>blender</appl> until a smooth paste is
obtained (if you want a soup with a more delicate texture,
press mixture through a sieve). Complete with cold water
as to obtain 1 L (1 qt) of soup, adjust
<season>salt</season> and
<season>pepper</season>, correct the acidity by adding
a pinch of <season>sugar</season>, and refrigerate for
at least 1 hour, or overnight.
Etiquetagem
semântica/terminológica
Caponata (1 hour and 30
1 teaspoon oregano
minutes)
¼ cup <term>red wine
1 onion
vinegar</term>
2 <term>celery stalks</term> 1 tablespoon sugar
1 <term>red bell pepper
2 tablespoons capers
</term>
2 tablespoons <term>dark
4 fully ripe tomatoes, peeled
raisins</term>
and seeded
½ cup slivered green olives
1 small deep green zucchini
1 cup flat-leaf parsley leaves
(courgette)
½ cup basil leaves
2 medium eggplants
olive oil
(aubergines)
salt and black pepper
2 tablespoons <term>pine
<term>to taste</term>
nuts</term>
2 garlic cloves, <term>finely
chopped</term>
1 <term>bay leaf</term>
Etiquetagem discursiva
<titRec> Pudim de Leite Condensado </titRec>
<coment> Pudim de leite condensado é uma sobremesa
que dispensa elogios, ou qualquer palavra para definí-lo. É
simplesmente o máximo!! </coment>
<ingr> Ingredientes:
1 lata de leite condensado
1 lata de leite
3 ovos
essência de baunilha
3 colheres de açúcar </ingr>
<modFaz> Modo de Preparo:
Coloque o açúcar numa forma própria para pudim e leve ao
fogo brando para caramelizar a forma. Bater todos os outros
ingredientes no liqüidificador. Despeje o conteúdo na forma
caramelizada. Levar ao forno em banho-maria. </modFaz>
<coment> Dica: para verificar se o pudim esta pronto, fure
o pudim com um palito de dente, se o palito sair limpo, é
que esta pronto, espere esfriar, desenforme e sirva.
</coment>
Etiquetadores do Lácio-Web
MXPOST (não está funcionando)
TreeTagger
Brill
Corpora de Aprendizes
Aprendizes de Língua Estrangeira
Aprendizes de Tradução
Aprendizes de Língua Materna
O Projeto ICLE (International Corpus of
Learner English)
http://cecl.fltr.ucl.ac.be/Cecl-
Download

Corpus: definição e coleta