357
GLOSSÁRIO DE LINGUÍSTICA DE CORPUS
Stella E. O. Tagnin (usp)
Alinhamento: processo semiautomático pelo qual são colocados lado a lado o
original e uma ou mais de suas traduções. Por ora, o alinhamento pode ser
feito por parágrafo ou por sentença. Diz-se que o processo é semiautomático
porque, embora o primeiro alinhamento seja feito de modo automático, ele
exige uma revisão manual.
Balanceamento: processo pelo qual se garante que dois corpora sejam
construídos de maneira similar quanto a origem, gênero, extensão, período
de produção dos textos, ou quaisquer outros critérios que sejam relevantes
para a pesquisa a que se destinam.
Base (de uma colocação): refere-se ao elemento conhecido – aquele que faz
parte do nosso universo –, em geral um substantivo ou verbo, de acordo
com a terminologia de cunho semântico de Hausmann (1989). Por exemplo,
conhece-se a palavra ‘dúvida’, mas não se sabe qual o verbo adequado para
exprimir a resolução de uma dúvida, que seria ‘dirimir’. Outros exemplos
seriam ‘televisão’ em ‘televisão educativa’ e ‘chorar’ em ‘chorar copiosamente’.
Ver palavra de busca e colocado.
Candidato a termo: palavra-chave com possibilidade de ser um termo no
domínio em estudo. Ver palavra-chave.
Coligação: co-ocorrência de um item lexical com uma categoria ou padrão
gramatical.
Colocação: co-ocorrência de duas (ou mais) palavras numa frequência maior
do que seria de se esperar caso a co-ocorrência fosse aleatória.
Colocado: (a) na terminologia de Hausmann (1989), de cunho semântico, o
elemento desconhecido de uma colocação tal como ‘dirimir’ em ‘dirimir
358 | Stella e. o. Tagnin (usp)
uma dúvida’, ‘educativa’ em ‘televisão educativa’ ou ‘copiosamente’ em
‘chorar copiosamente’. Ver base. | (b) qualquer elemento que co-ocorra de
forma significativa com uma palavra de busca. Ver palavra de busca.
Concordância: relação de todas as ocorrências de uma palavra de busca em
um corpus junto com seu cotexto. Em geral, apresenta a palavra de busca
em posição central, cuja formatação é denominada de kwic. Ver kwic.
Concordanciador: programa que extrai todas as ocorrências de uma palavra
de busca num corpus juntamente com seu cotexto, apresentando-as na
forma de uma concordância. Ver concordância.
Corpus (pl. corpora; também córpus sg. e pl.): coletânea de textos entendidos
num sentido amplo, em formato eletrônico, compilados segundo critérios
específicos para o estudo a que se propõem.
• Corpus comparável bi- ou multilíngue: corpus composto por dois ou
mais subcorpora com textos originais nas respectivas línguas.
• Corpus comparável monolíngue: corpus composto por textos originais
numa língua e traduções nessa mesma língua. Tem por objetivo comparar
a linguagem produzida por falantes nativos ou fluentes e por tradutores.
• Corpus de estudo: o corpus em que se baseia a pesquisa a ser desenvolvida.
• Corpus de referência: corpus que serve de termo de comparação para
o corpus de estudo. Em geral, deve ter três a cinco vezes o tamanho do
corpus de estudo.
• Corpus monitor: corpus que é constantemente atualizado a fim de
representar a evolução da língua.
• Corpus paralelo: corpus constituído de originais e suas respectivas
traduções.
• Corpus estático: corpus que não permite acrescentar material novo.
• Corpus dinâmico: corpus que permite o acréscimo de material novo.
ddl: sigla para data driven learning, termo criado por Tim Johns (1991)
para designar o ensino, especialmente de línguas estrangeiras, em que o
aprendiz tem acesso a dados linguísticos (concordâncias) extraídos de
linguagem autêntica, para examiná-los, levantar hipóteses, fazer inferências
e generalizações. É o que se denomina ‘aprendizado por descoberta’.
Estudo baseado em corpus: estudo em que o corpus é usado (a) para comprovar
(ou não) uma hipótese ou (b) para extrair exemplos.
Glossário de Linguística de Corpus | 359
Estudo direcionado pelo corpus: estudo que se desenvolve conforme dados
apresentados pelo corpus, sem pressuposições teóricas.
Etiquetagem: processo pelo qual o conteúdo do corpus é marcado.
• Etiquetagem morfossintática (em inglês
pos-tagging): processo pelo
qual o conteúdo do corpus recebe etiquetas morfológicas, isto é, de
categorias gramaticais (por exemplo, substantivo, adjetivo, verbo etc.).
• Etiquetagem sintática: processo pelo qual o conteúdo do corpus recebe
etiquetas sintáticas (por exemplo, sujeito, predicado, objeto direto etc.).
• Etiquetagem semântica: processo pelo qual o conteúdo do corpus recebe
etiquetas semânticas (por exemplo, cor, roupa, tempero, utensílio etc.).
• Etiquetagem discursiva: processo pelo qual o conteúdo do corpus recebe
etiquetas que demarcam as partes de um texto (por exemplo, ingredientes,
modo de fazer, resumo, introdução, materiais e métodos etc.)
Fraseologia: estudo de qualquer tipo de ocorrência fraseológica de uma
língua como, por exemplo, as colocações, os binômios, as expressões
idiomáticas etc.
Horizonte: distância entre a palavra de busca e o colocado, à direita e
à esquerda.
kwic (do inglês keyword in context / palavra-chave no contexto): formato
de concordância em que a palavra de busca aparece centralizada. Ver
concordância e palavra de busca.
Lista de palavras: lista de todas as palavras do corpus.
• Lista de palavras por ordem alfabética: lista em que as palavras são
apresentadas em ordem alfabética. Em geral, permite também a ordem
reversa, ou seja, a listagem alfabética pelo final da palavra, o que é muito
conveniente para o estudo de sufixos.
• Lista de palavras por ordem de frequência: lista em que as palavras são
apresentadas a partir das mais frequentes até as menos frequentes.
Nódulo: Ver palavra de busca.
Palavra de busca: palavra a partir da qual é gerada uma concordância.
Palavras-chave: resultados da comparação entre o corpus de estudo e um corpus
de referência. Essa comparação elimina palavras com frequência relativa
similar nos dois corpora de modo que restem as palavras cuja frequência
é estatisticamente significativa. As que restam no corpus de estudo são
360 | Stella e. o. Tagnin (usp)
denominadas ‘palavras-chave positivas’, enquanto as que sobram no corpus
de referência, ‘palavras-chave negativas’.
Representatividade: conceito sobre o qual ainda não há consenso, mas que
pretende garantir que um corpus seja representativo daquilo que pretende
estudar. Cabe ao criador do corpus estabelecer os critérios que garantam essa
representatividade. Como disse Leech (1991, p. 27), a representatividade “é
um ato de fé”.
Testes estatísticos: medidas de significância empregadas para determinar,
entre outras coisas, os colocados de uma palavra de busca.1
• Escore t (em inglês t-score): medida de significância que mede a certeza
de que há alguma associação entre as palavras, ou seja, a frequência com
que as palavras co-ocorrem elimina a possibilidade de essa co-ocorrência
resultar de mero acaso. Para ser computada como uma ‘colocação’,
costuma-se considerar um escore mínimo de dois.
• Informação mútua (em inglês mutual information): medida de
significância que mede a força de associação entre as palavras e privilegia
palavras menos frequentes. Como co-ocorrências pouco frequentes
podem resultar de usos idiossincráticos, é praxe considerar-se ‘colocação’
apenas co-ocorrências com um escore mínimo de três.
WordSmith Tools: conjunto de ferramentas para a análise linguística de corpora.
Consiste de três ferramentas principais: Concord, um concordanciador,
WordList, um gerador de lista de palavras, e Keywords, um extrator de
palavras-chave. Conta também com outros utilitários como Collocates,
que apresenta os colocados da palavra de busca; Clusters, que relaciona
os agrupamentos em que aparece a palavra de busca; Aligner, que alinha
dois textos, dentre outros. Foi desenvolvido por Mike Scott em 1996 e está
atualmente na sua quinta versão (scott, 2008).2
1
Maiores detalhes em Clear (1993).
2
Observe-se, no entanto, que o programa sofre pequenas atualizações quase que
semanais.
Download

GLOSSÁRIO DE LINGUÍSTICA DE CORPUS