Visão geral da Lingüística
de Corpus
Discente: Flávia Orci Fernandes
Docente: Prof. Dr. Roberto Gomes
Camacho
Introdução
Primeiro corpus lingüístico eletrônico:
 Brown University Standard Corpus of
Present-day American English
 1964
 1 milhão de palavras
 Primeiro corpus eletrônico de linguagem
falada:
 220 mil palavras – atribuído a Sinclair
Objetivos do texto

Apresentar uma retrospectiva da
Lingüística de Corpus

Apresentar os principais marcos de sua
história

Discutir algumas questões teóricas e
práticas subjacentes à área
1.1. A Lingüística de Corpus e seu
histórico

Ocupação: coleta e exploração de corpora
com o propósito de servirem para a
pesquisa de uma língua ou variedade
lingüística.

Exploração da linguagem por meio de
evidências empíricas, extraídas por
computador.
Sentido original de “corpus”: CORPO
 Grécia antiga: definição do Corpus
Helenístico por Alexandre, o Grande
 Antigüidade e Idade Média: produção de
corpora de citações bíblicas
 Século XX: corpus coletados, mantidos e
analisados manualmente, com ênfase no
ensino de línguas

Corpus não-computadorizado que deu
feição aos atuais:
 SEU (Survey of English Usage)
 Londres, a partir de 1959
 1 milhão de palavras
 Organizado em fichas de papel
 Base para o desenvolvimento dos
etiquetadores computadorizados
contemporâneos
 1989: London-Lund Corpus – parte falada
computadorizada

Anos 50: teorias racionalistas da linguagem
 Críticas à LC: corpora “gigantescos” não
eram confiáveis
 Invenção do computador tornou possível a
compilação de maior quantidade de dados
 1960: mainframe
 1980: fitas magnéticas e
microcomputadores pessoais

Atualidade:
 Grã-Bretanha – um dos centros de
pesquisa mais desenvolvidos (Birminghan,
Brighton, Lancaster, Liverpool, Londres)
 Países escandinavos
 Fora da Europa a LC não está tão
desenvolvida
 EUA: força da lingüística
gerativa-transformacional

EUA: desenvolvimento avançado na
pesquisa em Processamento de
Linguagem Natural (PLN)
 Brasil: estágios iniciais voltados à PLN e à
Lingüística Compuatacional
 Parcerias entre empresas (finalidades
comerciais) e universidades: pesquisas em
LC ligadas à editoras
 Pioneiro: Cobuild – Universidade de
Birmingham com a editora Collins

1.2. Corpora de língua inglesa
Corpus
Ano
Palavras
Composição
Corpus of Spoken
American English
1991
2 milhões
Inglês
americano
falado
BCN (British National
Corpus)
1995
100 milhões Inglês britânico,
escrito e falado
Longman Written
American Corpus
1997
100 milhões Inglês
americano
escrito (jornais
e livros)
Bank of English
1987
450
milhões
Inglês
britânico
1.3. Corpora de língua portuguesa
Corpus
Palavras
Comp.
Loc.
Corpus UNESP/Araraquara
Usos do Português
200
milhões
PB escrito
UNESP,
Araraquara
NURC (Projeto de Estudo da
Norma Lingüística e Letras)
570 mil
PB falado
USP, UFRJ,
UFBA, UFPE,
UFRGS
PHPB (Projeto para a
História do Português
Brasileiro)
Não
disponível
Port.
Escrito
UFPE, UFPBA,
UFMG, UFRJ,
EFSC, UFPB,
USP
Tycho Brahe Parsed Corpus
of Historical Portuguese
1,o milhão
Port.
Antigo
(1550 a
1850)
Unicamp
Port.
Falado
UFSC, UFRGS,
UFPR
VARSUL (Variação
Não
Lingüística Urbana da Região disponível
Sul)
Corpus
Ano
Palavras
Composição
IBORUNA
2007
Aprox.
1 milhão
Português
falado
riopretano
1.4. Corpora de outras línguas
Corpus
Língua
Palavras
COSMAS (corpus Access
Storage and Maintenance
System)
Alemão
1, 7 bilhão
Frantext
Francês
3.500 obras, do
século XVI ao
século XX, 80%
literatura
1.5. Marcos da Lingüística de Corpus

“A história da Lingüística de Corpus está
condicionada à tecnologia, que permite
não somente o armazenamento de
corpora, mas também a sua exploração e,
por isso, está relacionada à disponibilidade
de ferramentas computacionais para
análise de corpus, dentre as quais se
destacam as seguintes.” (p. 15)
1.6. Definição de corpus
Nem todo conjunto de dados é
considerado corpus
 Arquivo
 Biblioteca eletrônica
 Corpus: uma parte da biblioteca
eletrônica, construído a partir de um
desenho explícito, com objetivos
específicos
 Subcorpus: uma parte do corpus


“Um conjunto de dados lingüísticos
(pertencentes ao uso oral ou escrito da
língua, ou a ambos), sistematizados
segundo determinados critérios,
suficientemente extensos em amplitude e
profundidade, de maneira que sejam
representativos da totalidade do uso
lingüístico ou de algum de seus âmbitos,
dispostos de tal modo que possam ser
processados por computador, com a
finalidade de propiciar resultados vários e
úteis para a descrição e análise” (p. 18)
Origem
 Propósito
 Composição
 Formatação
 Representatividade
 Extensão

Quatro pré-requisitos para a formação de
um corpus computadorizado:
 1) O corpus deve ser composto de textos
autênticos, em linguagem natural.
 2) Autenticidade dos textos subentende
textos escritos por falantes nativos.
 3) O conteúdo do corpus deve ser
escolhido criteriosamente.
 4) Representatividade.

1.7. Tipologia de Corpus







MODO: falado; escrito
TEMPO: sincrônico; diacrônico; contemporâneo;
histórico
SELEÇÃO: de amostragem; monitor; dinâmico ou
orgânico; estático; equilibrado
CONTEÚDO: especializado; regional ou dialetal;
multilíngüe
AUTORIA: de aprendiz; de língua nativa
DISPOSIÇÃO INTERNA: paralelo; alinhado
FINALIDADE: de estudo; de referência; de
treinamento ou teste












Pluralidade de autoria
Origem da autoria
Meio
Integralidade
Especificidade
Dialeto
Equilíbrio
Fechamento
Renovação
Temporalidade
Tradução
Intercalação
1.8. Representatividade de corpus
“Não há critérios para a determinação da
representatividade.” (p. 23)
 “A representatividade está ligada à
questão da probabilidade.” (p. 23)
 Número de palavras
 Número de textos
 Número de gêneros

1.9. Extensão do corpus
Abordagens:
 1) Impressionística
 2) Histórica
 3) Estatística

1.10. Especificidade do corpus
“Um modo de atingir a representatividade
total de um corpus é incluir nele toda a
linguagem.” (p. 27)
 “Os corpora gerais podem ser usados
como fonte para criação de corpora
especializados.” (p. 28)
 “(...) normalmente, corpora compilados
em pequena escala por pesquisadores
individuais acabam sendo mais
representativos do que os respectivos
subcorpora dos corpora gerais.” (p. 28)

1.11. Adequação do corpus
“A adequação do corpus é tomada como
dada. Assume-se que o corpus com o qual
se esteja lidando e as perguntas feitas
sejam adequados aos propósitos da
investigação. Sem isso, a pesquisa não
tem sentido.” (p. 29)
 Questionamento da validade de corpora
gerais.

1.12. Teorias de linguagem e Lingüística
de Corpus
Lingüística Empírica = Abordagem
empirista + linguagem como sistema
probabilístico
 Oposição entre Halliday (probabilidade) e
Chomsky (possibilidade)
 “A visão da linguagem como sistema
probabilístico pressupõe que, embora
muitos traços lingüísticos sejam possíveis
teoricamente, ocorrem com a mesma
freqüência.” (p. 31)
 Padronização

1.12. Teorias de linguagem e Lingüística
de Corpus
Lingüística de Corpus x lingüística
chomskyana:
 Foco no desempenho lingüístico, em vez
de competência
 Foco na descrição lingüística, em vez de
universais lingüísticos
 Foco numa visão mais empirista do que
racionalista da pesquisa científica

1.13. Estatuto da Lingüística de Corpus
A LC é uma disciplina ou uma
metodologia?
 Não se dedica a um assunto definido e
não se resume a um conjunto de
ferramentas: assim poderíamos classificála como PERSPECTIVA:
 “(...) é uma maneira de se checar a
linguagem, e faz alusão ao conceito de
teoria lingüística como janela que molda
como enxergamos a linguagem.” (p. 37)

1.14. Tipos de pesquisa privilegiados
São empíricos e analisam os padrões reais
de uso em textos naturais.
 Utilizam coletâneas grandes e criteriosas
de textos naturais, conhecidas por corpus,
como a base da análise.
 Fazem uso extensivo de computadores na
análise, empregando técnicas automáticas
e interativas.
 Dependem de técnicas quantitativas e
qualitativas.

1.14. Tipos de pesquisa privilegiados
1)
 2)
 3)
 4)

Compilação de corpus
Desenvolvimento de ferramentas
Descrição da linguagem
Aplicação de corpora
1.15. Padrões de linguagem
Quais os padrões lexicais dos quais a
palavra faz parte?
 Em que estruturas ela aparece?


Padronização como regularidade expressa
na recorrência sistemática de unidades
coocorrentes de várias ordens (lexical,
gramatical, sintática, etc). Podem ser
formalizados em colocação, coligação,
prosódia semântica.
1.16. Comentários finais
Painel geral do campo de investigação da
Lingüística de Corpus
 Dificuldades: quantidades de trabalhos
novos e debate de cunho teórico
 Proposta da Psicologia Cognitiva de
Langacker – alternativa para explicação da
padronização
 “todo corpus me ensinou coisas sobre a
linguagem que eu não teria descoberto de
nenhum outro modo” (FILLMORE, p. 35)
