Análise de Gênero e Lingüística de Corpus: Identificação das unidades internas do
gênero por meio da padronização lexical
Tony Berber Sardinha*
Pontifical Catholic University of São Paulo (PUCSP)
DIRECT Papers 51
2003
ISSN 1413-442x
Publicado por
LAEL, Pontifícia Universidade Católica de São Paulo, Brasil, e
AELSU, University of Liverpool, United Kingdom.
http://lael.pucsp.br/direct
1. Introdução
Duas áreas dos estudos lingüísticos que cresceram muito desde a década de 1990 são a
Análise de Gênero e a Lingüística de Corpus. Cada uma duas áreas possui hoje um
corpo de trabalho volumoso, que mostra como elas são importantes, cada uma a seu
modo, no cenário da lingüística contemporânea. A pesquisa na Análise de Gênero revela
muitos aspectos importantes da comunicação humana, tais como a constituição de
vários tipos de texto (Barbara & Scott, 1999; Batista, 1998; Freitas, A. C. de, 1997;
Glaeser, 1995; Gledhill, 1995, 2000b; Harris, 1988; Hasan, 1984b; Henry & Roseberry,
2001; Hopkins & Dudley-Evans, 1988; Hyland, 1990; Lima-Lopes, 2001; Lopes, 2000;
Luzon Marco, 1998; Macedo, 1999; Nwogu, 1991; Oliveira e Silva, 2000; SalagerMeyer et al., 1989; Santos, V. B. M. P. dos, 1998; Silva, 1999; Ventura, 2000; Vian Jr,
1997), o ensino da escrita e de línguas para fins específicos (Dudley-Evans, 1994;
Marshall, 1991; Paltridge, 1996; além das várias contribuições neste volume), a
interação entre falantes em organizações (Batista, 1998; Freire, 1995), entre outros.
Pesquisadores no âmbito da Lingüística de Corpus, em seu turno, trazem evidências
cada vez maiores que muitas das concepções sobre a linguagem tidas como verdades
absolutas, em realidade, não se sustentam face aos dados que os corpora trazem
(Sampson, 1987, 2001). A conjugação de computadores a corpora eletrônicos permitenos ver, como nunca antes, a linguagem sob um novo prisma, expandindo os limites do
nosso conhecimento empírico da língua, tal qual aconteceu em outras épocas com outras
disciplinas, como a biologia e a astronomia, quando da introdução de instrumentos
como o microscópio e o telescópio (Hoey, 1993; Stubbs, 1996). Essa verdadeira
revolução tem como epicentro a evidência de que a linguagem é organizada em padrões
(patterns) recorrentes, cujo alcance e abundância passam despercebidos ao analista
munido apenas de sua intuição ou de pequenas amostras de língua. A feição da
lingüística, em suma, mudou muito em razão da pesquisa feita no âmbito dessas duas
áreas, na última década.
A Análise de Gênero e a Lingüística de Corpus têm olhado a língua, tradicionalmente,
por ângulos diferentes. Na primeira, considera-se gêneros tipos ou classes relativamente
*
Agradeço ao CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) pelo apoio
mediante a bolsa Produtividade em Pesquisa número 350455/2003-1.
1
estáveis de fala ou escrita com propósito social distinto, reconhecidos como tais por
grupos de usuários da língua:
Different genres are different ways of using language to achieve different
culturally established tasks, and texts of different genres are texts which are
achieving different purposes in the culture. (Eggins & Martin, 1997, p.236).
Nessa visão, os gêneros são estudados normalmente em quantidades pequenas de
exemplares, em análises ‘manuais’ ou com algum computacional (na forma de análises
de suporte, como listas de palavras ou palavras-chave).
Já a Lingüística de Corpus enfoca, normalmente, gêneros na forma de grandes conjuntos
de exemplares na forma de um corpus em formato legível por computador (e.g. Biber,
1988). Um corpus é uma coletânea de textos ou transcrições de fala, reunidos com o
propósito de tornar acessível à investigação uma língua ou variedade dela. Muitas vezes,
o corpus é criado com a finalidade de ser representativo da língua ou da variedade
lingüística contida nele. É notória, entretanto, a dificuldade de definição objetiva de
representatividade de corpus; por isso, muitos corpora podem ser encarados apenas
como adequados para os propósitos da investigação (Berber Sardinha, 2004).
Seria muito benéfico para ambas as áreas se houvesse uma maior aproximação entre
elas1. A Lingüística de Corpus poderia, então, lidar mais diretamente com aspectos
discursivos da língua, área em que é notadamente mais deficitária (McEnery & Wilson,
1996). Isso levaria os corpora a serem desenhados com mais cuidado em relação à
questão genérica – muitos corpora recentes, como o BNC, oferecem um tratamento
equivocado de gênero na sua composição (Lee, 1999), ao passo que outros estudos com
corpora confundem registro e assunto com gênero (Mauranen, 1998). A Análise de
Gênero, por sua vez, poderia lançar mão de programas computadorizados para
identificar a extensão da padronização lingüística em gêneros e dar conta do que essa
padronização pode representar em nível discursivo. Dar conta da padronização
lingüística no nível da descrição genérica parece ser uma progressão natural, visto que,
segundo a Lingüística de Corpus, a padronização é elemento fundamental da linguagem,
e segundo a Análise de Gênero, a linguagem é formada por gêneros.
Há várias tentativas de aproximação nesse sentido. Muitos estudos descrevem a léxicogramática típica de gêneros. Quando o objetivo é descrever a estruturação interna dos
gêneros, o procedimento mais comum não inclui o uso de programas de computador.
Em geral, a estrutura interna, formada normalmente pelos movimentos (moves) e passos
(steps), é demarcada por meio da observação, leitura detalhada, inspeção ou análise
manual. Uma razão que leva a esse estado de coisas é o fato de haver programas
disponíveis e fáceis de usar para a investigação da léxico-gramática, como listadores de
palavras, comparadores de lista de palavras e concordanceadores, mas não para o estudo
da estrutura interna, ou segmentação. Os programas disponíveis para segmentação, em
geral, requerem um conhecimento computacional que está muito além da maioria dos
analistas de gênero; além disso, são produzidos por lingüistas ou programadores que
não possuem interesse na Análise de Gênero, o que faz com que não possuam
características que os tornem atraentes e úteis para o analista de gênero.
1
O presente volume traz exemplos de análise de gêneros com corpora eletrônicos.
2
Do lado da Lingüística de Corpus, alguns estudos investigam aspectos discursivos e
genéricos. Scott (2000b), por exemplo, observou a relação entre palavras-chave e a
organização discursiva em torno do padrão Problema-Solução, em corpora eletrônicos,
usando o programa WordSmith Tools de análise de freqüências; concluiu que o
mapeamento entre léxico e estrutura interna mostrou-se fraco:
The key words procedure used here does not appear to pick many instances of
text-structure signals. Instead it tends to identify ideationally and interpersonally
important elements and at present does not operate at the level of text division.
(p.125)
Esse tipo de estudo é caracterizado por Scott (2000a) como tendo um foco no texto (text
focus), ao invés de um foco na língua (language focus). O foco no texto permite ao
analista de corpus lidar com questões de ordem textual, como a organização genérica, a
léxico-gramática típica de gêneros específicos e a temática (aboutness), entre outros:
‘What is it about?’ is the primary question language users routinely ask of a text;
indeed it distinguishes a text from other objects of the world (…) A text is
usually ‘about’ something, and its aboutness can be perceived by the intended
readership or audience in a way that a smaller or larger item will not. (p.107)
Uma maneira pela qual podemos fazer uma aproximação entre a Lingüística de Corpus
com foco no texto e a Análise de Gênero é por meio da investigação das divisões
internas do texto (staging ou segmentação2), com o instrumental típico da Lingüística de
Corpus (freqüência de palavras e observação de padrões com concordância,
principalmente). Esse é o objetivo desse trabalho, cuja metodologia, que inclui os
procedimentos necessários para atingir essa meta, será detalhada mais abaixo. Por
enquanto, torna-se necessário fazer uma discussão a respeito da problematização
inerente à questão da identificação de unidades internas de gêneros.
2. Identificação de unidades internas na Análise de Gênero
O trabalho de identificação de elementos estruturais de gêneros diversos, a partir da
observação da manifestação de itens lingüísticos, vem de longa data.
Dentro do Contextualismo Britânico, como é assim chamada a vertente da lingüística
fundada por John Rupert Firth, podemos encontrar um exemplo de Análise de Gênero já
em 1957, no trabalho de Mitchell. Ele analisou interações de compra e venda em
mercados Marroquinos e propôs uma seqüência de estágios para esse gênero (vide
Eggins & Martin, 1997, p.240). Outro estudo clássico da organização interna de
gêneros é o trabalho de Sinclair e Coulthard (1975), com análise da interação em sala de
aula. Mais recentemente, Swales (1990) e Bhatia (1993), apresentando análises
aprofundadas de vários gêneros, estabeleceram princípios da Análise de Gênero que se
tornaram linhas mestras para a disciplina.
Outro grande expoente da área é Ruqaya Hasan que propôs que as divisões internas de
gêneros fossem baseadas em aspectos da coesão do texto (Hasan, 1984a). Entretanto,
2
Os termos tendem a ser empregados por grupos distintos. ‘Staging’ é mais empregado na Análise de
Gênero, enquanto segmentação é mais comum em estudos computacionais.
3
suas análises demonstraram que muitas cadeias coesivas cruzavam ou cruzam? as
divisões internas dos textos, não demarcando claramente as fronteiras entre as unidades
estruturais. Outras de suas análises passaram, então, a utilizar conceitos semânticos,
derivados das cadeias coesivas, como base para a identificação das unidades internas
dos gêneros. Tais conceitos eram os ‘atributos semânticos’, que podiam ser ‘nucleares’
(obrigatórios ou típicos) e os ‘elaborativos’ (opcionais). Por exemplo, numa análise de
interações de serviços (service encounters) (Halliday & Hasan, 1985), Hasan usou
atributos semânticos como ‘demand’, ‘reference to goods’ e ‘quantity of goods’ para
caracterizar a estrutura do componente ‘sales request’ (‘I’ll have tem oranges and a kilo
of bananas please’).
Para Paltridge (1994), as unidades internas devem ser norteadas por critérios
semânticos, cognitivos e de conteúdo, e não puramente lingüísticos.
Apart from physical indicators of boundaries, such as gaps on pages,
paragraph divisions, and chapters, indicators of boundaries are most clearly
seen in terms of content; that is, it a cognitive rather than linguistic sense
that guides our perception of textual division. … The conclusion to be
reached here, then, is that the search for structural divisions in texts should
be seen as a search for cognitive boundaries in terms of convention,
appropriacy, and content rather than as a search for linguistically defined
boundaries; that is, there are non-linguistics, rather than linguistic, reasons
for generic staging in texts. (p.295; ênfase no original)
Contudo, os aspectos cognitivos, de conteúdo e de adequação não podem ser totalmente
desvinculados da expressão lingüística, caso contrário não teriam relevância para
entender um objeto que é materializado na língua, como o texto. Uma análise que não se
sirva do elemento lingüístico corre o risco de ser um conjunto de impressões que o
analista possui diante do texto a partir de uma leitura particular (que por sua vez tende a
ser volátil, isto é, mutante de acordo com a leitura que faz a cada momento). Conforme
lembra Halliday (1985, p.xvii), ‘a discourse analysis that is not based on grammar is not
analysis at all’. Aqui, ‘grammar’ é entendida como realização lingüística, e não como o
sistema de relações sintáticas, formais, da língua.
Uma conseqüência do fato de as análises de gênero se firmarem no conteúdo e demais
aspectos mencionados acima por Paltridge para atribuição das fronteiras entre as
unidades estruturais internas do texto é que a análise tende a ser menos objetiva:
divisions … are often intuitive: it is by no means always the case that
headings and other lexical indicators are found to be present. (Paltridge,
1994, p.295; ênfase no original).
O processo de identificação de fronteiras internas é notoriamente complexo. Uma das
razões para isso está na própria constituição do texto: o texto é uma unidade integrada,
cujos elementos devem possuir ligações entre si. Caso contrário, o que existe não é um
texto, propriamente dito, mas uma coleção de pedaços reunidos em um mesmo
documento. Alguns textos, porém, tem nessa característica de justaposição de elementos
um elemento definidor – e o caso dos textos-colônia (‘colony texts’) (Hoey, 1986,
2001). Nesses textos, as unidades podem ser lidas independentemente uma das outras,
sem que o todo perca o sentido. De qualquer modo, os textos-colônia são um tipo
especial de texto, daí receberam até um nome diferente. Para os demais, a unidade
4
interna é um critério definidor.
A unidade interna, por sua vez, é apenas um dos lados da dualidade sobre a qual se
assenta a constituição textual. A outra é a segmentação. Essa propriedade retrata o fato
de os textos serem constituídos de partes distintas, que podem ser percebidas. A
segmentação, por sua vez, é fruto dos processos de composição e processamento do
texto. Durante a leitura, por exemplo, o leitor interage com o texto também de forma
modular, processando-o em partes, mas buscando relações entre essas partes, de tal
forma que ele lhe pareça coerente.
O ‘staging’ dos textos pode ser marcado de diversas maneiras. Uma delas, a mais
visível, é por meio de intertítulos, que separam e rotulam partes de textos. Este é um
recurso usado principalmente em gêneros que tenham atingido um nível considerável de
complexidade (Martin, 1992, p.443). A divisão dos textos em seções segue muitos
critérios diferentes, entre eles o da exigência genérica (alguns gêneros devem possuir
certas seções, como o artigo acadêmico), o da representação do conteúdo (para sinalizar
ao leitor uma mudança significativa de assunto), o de despertar a curiosidade do leitor
(comum em ensaios jornalísticos), entre outros. Por isso mesmo, a relação entre as
seções e sua composição lexical não tende a ser expressiva (Berber Sardinha, 1997a): a
coesão lexical chega, no máximo, a responder por 40% das divisões entre seções de
vários gêneros.
Outro fator complicador é a própria tendência de certas fronteiras serem ‘incertas’
(‘fuzzy edged’). Segundo Hunston (1989), alguns textos tendem a obscurecer as
fronteiras, por várias razões, de modo deliberado, como, por exemplo, quando há a
intenção de tornar o texto mais fluente, ou de modo acidental, quando problemas de
redação tornam o texto menos claro.
Um dos problemas encontrados pela Análise de Gênero, na identificação de unidades
internas, decorre justamente da definição de unidade interna adotada. Tipicamente, o
que se entende por unidade estrutural interna (no texto escrito) é uma seqüência
contígua de sentenças (no mínimo duas), sem interrupções ou sobreposições (Berber
Sardinha, 1997a). Ou seja, para que uma nova unidade se inicie, a anterior deve acabar.
Esta visão é válida para unidades que se expressam tipograficamente, como capítulos,
seções e parágrafos. Mas além dessas unidades ‘formais’, não há razão para que as
unidades continuem sendo assim, seqüenciais, idealizadas até. É perfeitamente possível
supor que unidades funcionais (segmentos internos) sejam sobrepostas, interrompidas,
corram em paralelo, enfim, que possuam uma organização muito mais variada e
complexa do que se supõe por analogia aos capítulos, seções e parágrafos. Isso está de
acordo com o entendimento do texto como sendo algo dinâmico, portador de múltiplos
sentidos que se interligam:
a text is the weaving together simultaneously of several different strands of
meanings. If we ask, for example, what [a text] ‘is about’ (that is, what it
means), we need to recognize that is about more than one thing at a time.
(Eggins & Martin, 1997, p.233)
Essa visão não seqüencial do texto encontra suporte no trabalho de Michael Hoey
(1991) com a coesão textual. Sua pesquisa mostra que as sentenças do texto (não
narrativo) encontram-se ligadas por laços lexicais que operam ao longo do texto todo,
formando vários agrupamentos não discretos. Esses agrupamentos possuem unidade
5
semântica, revelada pela proximidade lexical dos elementos que os formam. Além
disso, os agrupamentos são móveis, pois podem ser re-arranjados em conjuntos maiores
ou menores, de acordo com a quantidade de laços coesivos que são utilizados para a sua
formação.
3. Proposta metodológica
A fim de identificar as divisões internas de um gênero (ou exemplar dele) usando a
Lingüística de Corpus é necessário enfocar o léxico do texto, mais especificamente,
como ele co-ocorre, recorre e é distribuído em grupos identificáveis. Os pontos
norteadores da proposta aparecem sintetizados abaixo.
•
•
•
•
•
•
O léxico co-ocorre em grupos fixos, formando pacotes lexicais (lexical bundles),
que refletem o princípio idiomático (Sinclair, 1991).
A recorrência desse tipo de unidade lexical estabelece coesão entre sentenças,
criando segmentos (‘blocos’) de texto que possuem unidade interna.
Os segmentos exibem unidade de sentido (‘preferência semântica’) em torno de um
campo, tema, assunto, ou tópico.
A preferência semântica dos segmentos é especificada ou realçada por conjuntos
lexicais formados por palavras que se repetem no segmento.
Os limites desses segmentos podem ser mapeados no texto, mostrando, assim, as
fronteiras entre as divisões internas do texto.
As divisões internas não são necessariamente contíguas, pois o léxico recorrente
normalmente estabelece relações ao longo do texto inteiro.
Esses pontos serão discutidos em mais detalhe a seguir.
3.1.
Pacotes lexicais
Um pacote lexical (lexical bundle, Biber & Conrad, 1999; Biber, Johansson, Leech,
Conrad, & Finegan, 1999, p.990ff), ou simplesmente ‘pacote’, no contexto desse estudo
refere-se a uma seqüência recorrente de palavras de um tamanho determinado, retirada
do texto ou corpus por um programa de computador3. Pacotes não possuem,
necessariamente, estrutura interna bem definida; muitos podem ser fragmentos de partes
de colocações ou de expressões idiomáticas:
Lexical bundles are recurrent expressions, regardless of their idiomaticity,
and regardless of their structural status. That is, lexical bundles are simply
sequences of word forms that commonly go together in natural discourse
…and they are not expressions that speakers would recognize as idioms or
other fixed lexical expressions. (Biber, Johansson, Leech, Conrad, &
Finegan, 1999, p.990)
Devido ao fato de o único pré-requisito para a existência dos pacotes é que haja coocorrência de palavras, o número de pacotes que existe em um texto ou corpus é grande.
Por isso, para levá-los em conta na análise é preciso estabelecer limites para a sua
3
Outro termo que designa esse tipo de unidade é 3-grama, ou ‘threegram’, em inglês, que comumente
empregado em estudos de Processamento de Linguagem Natural.
6
identificação. Um dos critérios é considerar apenas pacotes formados por três ou mais
palavras; esse critério foi usado por Biber et al (1999, p.990):
To make the scope of the investigation more manageable, a lexical bundles
is defined here as a recurring sequence of three or more words.
Uma grande proporção de pacotes de duas palavras tende a ser ‘fragmentos’, partes de
pacotes maiores; a quantidade desses fragmentos diminui à medida que os pacotes
crescem de tamanho. Por exemplo, na sentença anterior, encontramos vários pacotes de
duas palavras como ‘composição dos’, ‘dos pacotes’ e ‘pacotes varia’ que não são muito
informativos. Por outro lado, se levarmos em conta pacotes de três palavras,
encontraremos ‘a composição dos’, ‘composição dos pacotes’, ‘em relação ao’, etc., que
são, pode-se dizer, mais informativas.
A freqüência dos pacotes varia consideravelmente em relação ao seu tamanho: a
freqüência de cada tende a diminuir à medida que sua extensão aumenta. Segundo Biber
et al. (1999), a quantidade de pacotes contendo quatro palavras (no inglês
contemporâneo) é cerca de 10 vezes menor do que os que contêm três palavras. Por sua
vez, os pacotes de cinco palavras também são aproximadamente dez vezes menos
freqüentes do que os de quatro palavras. Isso acontece naturalmente porque diminui a
probabilidade de as palavras ocorrerem em ordem fixa à medida em que as seqüências
se tornam maiores (Santos, V. P. dos, in prep). Uma conseqüência disso é que pacotes
maiores acabam sendo menos representativos, porque deixam de incluir uma porção
crescente das palavras do texto ou corpus.
Fica claro que é necessário encontrar um meio termo entre informatividade e freqüência
do pacote em relação ao seu tamanho. Pacotes maiores tendem a ser mais informativos,
mas são menos freqüentes, e vice-versa. Uma posição intermediária é considerar os
pacotes de três palavras – estes parecem ser um ponto de partida adequado para a
análise, pois não são tão pequenos que venham a conter muitos fragmentos pouco
informativos, nem tão grandes que venham a limitar a quantidade de pacotes extraíveis.
3.2.
Coesão lexical
Uma outra razão importante para levar em conta pacotes de três palavras é que três
ligações representam o número mínimo de elos (links) necessários para unir (bond) duas
sentenças, segundo Hoey (1991). Para Hoey, as sentenças de textos escritos nãonarrativos podem ser unidas em blocos quando compartilham três ou mais ligações
lexicais. Uma ligação é um elo formado por dois itens (ou palavras) de classe gramatical
plena (substantivo, verbo, adjetivo, advérbio, numeral, interjeição) que estão em
sentenças diferentes4. Por exemplo, nas duas sentenças abaixo há cinco ligações:
carbureto à carbureto, cidade à cidade, cálcio à cálcio, fábrica à fábrica e Iguatama
à Iguatama5. As palavras ligadas aparecem sublinhadas; os algarismos no início dos
trechos indicam seu número seqüencial no texto.
77
A inauguração da fábrica de carbureto de cálcio de Iguatama, em Minas
4
Mais de uma ocorrência de um mesmo item em uma sentença conta como apenas uma ligação.
O exemplo aqui é de a ligações formadas por repetição simples, mas há outros tipos de repetição que
realizam ligações (vide Hoey, 1991).
5
7
Gerais, marcou o ano de 06 - o evento teve ampla ressonância nos meios sociais,
econômicos e políticos, tendo levado até a cidade de Iguatama cerca de 0
visitantes, entre empresários, políticos e jornalistas.
127 Em 0 sua tecnologia foi amplamente modernizada, paralelamente ao
aumento de produção, de 0 mil ton /mês para 0 mil ton /mês, em decorrência da
entrada em operação da fábrica de carbureto de cálcio de Iguatama, cidade
próxima a Arcos.
Devido a essas cinco ligações, as duas sentenças podem ser consideradas unidas
(bonded), o que significa que formam um bloco coeso que pode ser lido como uma
unidade textual. De fato, ao ler o par de sentenças acima, fica claro que as duas
sentenças possuem conteúdo em comum (a ‘fábrica de carbureto de cálcio de
Iguatama’), muito embora sejam necessários alguns ajustes na sua redação para
melhorar sua legibilidade e realçar as semelhanças entre elas. As uniões entre sentenças
podem ocorrer mesmo há que haja? muitas sentenças de distância entre uma e outra. No
exemplo acima, as duas sentenças estavam a 50 sentenças de distância uma da outra.
A semelhança entre as sentenças unidas é maior quanto mais as ligações sejam entre
palavras que estão próximas, preferivelmente em seqüência. Assim, no exemplo acima,
‘fábrica de carbureto de cálcio de Iguatama’ contribui com muito mais coesão do que
‘cidade’. A fraseologia de ‘cidade’ na primeira sentença é ‘tendo levado até a cidade de
Iguatama cerca de 0 visitantes...’, enquanto na segunda sentença a fraseologia é
‘Iguatama, cidade próxima a Arcos’. Ou seja, ‘cidade’ na verdade se refere a municípios
diferentes: Iguatama e Arcos, o que enfraquece o papel dessa ligação no
estabelecimento da coesão lexical entre as duas sentenças.
As ligações que fazem parte do mesmo padrão, portanto, realçam mais ainda a coesão
do conjunto do que aquelas que aparecem em ordem livre dentro da sentença. Por isso,
os pacotes são maneiras adequadas de localizar a coesão entre pares de sentenças, pois
os itens neles contidos fazem parte, necessariamente, do mesmo padrão, já que estão
arranjados na mesma ordem. Ao mesmo tempo, é necessário admitir que a coesão entre
as sentenças não será feita exclusivamente por itens lexicais plenos (content words),
porque os pacotes podem possuir itens gramaticais (function words) também. Dessa
forma, no exemplo anterior, a ligação entre as duas sentenças é feita pelo pacote por
inteiro, contando seus sete itens (‘fábrica de carbureto de cálcio de Iguatama’); já a
ligação proporcionada por ‘cidade’ é desconsiderada, pois ela não faz parte de um
pacote. Na verdade, porém, como o tamanho do pacote, para a análise, foi restrito a três
palavras, no exemplo anterior há cinco pacotes desmembrados: fábrica de carbureto, de
carbureto de, carbureto de cálcio, de cálcio de, cálcio de Iguatama’; entretanto, eles
foram considerados como um único item lexical.
Quanto maior o número de ligações, mais forte é a união entre as sentenças. O número
mínimo, contudo, conforme colocado acima, é três, segundo Hoey. Por isso, qualquer
um dos pacotes de três palavras mencionados acima seria suficiente para estabelecer
uma união entre as duas sentenças, admitindo-se, como é feito aqui, que as ligações não
precisem ser de caráter exclusivamente lexical.
6
Nos exemplos retirados do texto analisado, ‘0’ significa qualquer algarismo, de qualquer extensão.
8
A coesão lexical é um componente importante na identificação de segmentos em textos
escritos. Berber Sardinha (1997a) usou um procedimento baseado na análise de ligações
e uniões proposta por Hoey (1991) para localizar, por meio de computador, as divisões
internas de três corpora de textos (formados por textos de negócio, de prosa acadêmica e
de enciclopédia). Seus resultados indicaram que a coesão lexical é responsável por até
40% das divisões entre seções que ocorrem nesses textos. Muitos trabalhos aproveitam
a coesão lexical de alguma forma, em conjunção com outras características textuais ou
tipográficas, para localizar elementos da estrutura interna dos textos (Beeferman,
Berger, & Lafferty, 1997; Flammia, 1996; Freitas, S. A. de & Lopes, 1994; Hearst,
1993; Heinonen, 1998; Kan, Klavans, & McKeown, 1997; Kozima, 1993; Litman &
Passonneau, 1994, 1995; Morris & Hirst, 1991; Passonneau & Litman (s.d.; Yaari,
1997). A maioria usa métodos que não leva em conta a aparição dos itens em sentenças,
ao contrário de Hoey (1991) e deste estudo, computando as repetições em blocos de
texto de tamanho fixo, muitas vezes arbitrário (vide Berber Sardinha, 1997a, para uma
resenha crítica desses procedimentos).
3.3.
Conjuntos lexicais
Além da coesão lexical propiciada pela recorrência de pacotes lexicais, outro elemento
que evidencia a unidade do segmento é o conjunto de palavras compartilhadas pelas
sentenças do segmento. Stubbs (2001) chama de lexical sets as palavras que tipicamente
acompanham os nódulos de colocações. Aqui, os conjuntos lexicais não são restritos aos
nódulos das colocações, ou a uma posição específica em relação aos pacotes – eles
podem, sim, ocorrer em qualquer posição da sentença. Os conjuntos lexicais, segundo
Stubbs, mostram a preferência semântica (semantic preference) da colocação, indicando
as palavras que mais co-ocorrem com um determinado item; algumas indicam
preferências por palavras de cunho positivo, outras de cunho negativo, outras por
associações de caráter ideológico, outras ainda se associam ao redor dos diversos
sentidos do item. Os conjuntos lexicais oferecem evidências claras do conteúdo
ideacional do texto, indicando o campo (field), que é uma das variáveis do registro,
segundo a Lingüística Sistêmico-Funcional. Halliday (1989) define campo assim:
The field of discourse refers to what is happening, to the nature of the social
action that is taking place; what is it that the participants are engaged in, in
which the language figures as some essential component. (p. 12)
O campo fica visível nas escolhas lexicais. Essas escolhas podem ser naturalmente
agrupadas em conjuntos lexicais que revelam a preferência semântica do texto, de parte
dele ou mesmo de uma palavra. Assim, por exemplo, Eggins e Martin (Eggins &
Martin, 1997, p.249), ao analisarem um texto, chamaram de ‘qualidades pessoais’ um
conjunto lexical (lexical strings)7 que continha palavras como ‘kindness, patience,
confidence, respect’ e de ‘controle’ um outro que possuía os itens ‘authority, firm,
harsh, command, permission’.
Assim, resumindo a discussão acima, do ponto de vista metodológico:
•
7
Serão retirados do texto pacotes lexicais de três palavras, pois eles são
Chamados por eles de lexical strings.
9
•
•
•
•
•
freqüentes o bastante para serem abundantes, mas ao mesmo tempo não são
pequenos demais para atrair fragmentos não informativos em demasia.
Três ligações lexicais (links) entre sentenças são suficientes para uni-las (bond)
(Hoey, 1991). Sentenças unidas tendem a formar um conjunto de texto coeso,
mesmo que estejam originariamente muito distantes uma das outras.
Os pacotes de três palavras criam três ligações, não necessariamente de cunho
lexical (content words), entre sentenças. Em analogia ao fenômeno discutido em
Hoey (1991), podemos considerá-las unidas.
A coesão forma blocos de texto que possuem relação com as divisões internas
do texto (Berber Sardinha, 1997a). A identificação dessa coesão permite a
localização de segmentos no texto.
Blocos de sentenças que compartilhem pacotes entre si podem se considerados
um segmento coeso.
Os conjuntos lexicais, que são formados pelas palavras constantes no segmento,
são indicativos da preferência semântica do segmento.
4. Metodologia
4.1.
Texto para análise
O texto analisado é um relatório anual de negócios publicado na década de 1990 por
uma empresa de grande porte localizada no Brasil. O relatório foi retirado do corpus do
projeto DIRECT. A escolha desse tipo de texto se deu porque os relatórios são objetos
importantes da comunicação empresarial, que refletem o desempenho da empresa
durante o ano. O texto possui 5019 palavras (tokens) e 1532 formas (types). É assumido
aqui que o texto selecionado é um exemplar típico do gênero a que pertence.
4.2.
Extração dos pacotes e dos conjuntos lexicais
Os pacotes, os conjuntos e os segmentos foram extraídos usando rotinas para utilitários
Unix, como grep, tr, sed, além de programas em perl e awk, que são linguagens de
programação específicas para lidar com texto. Todas as rotinas foram executadas no
ambiente Windows, usando um emulador de Unix (cygwin; vide Berber Sardinha, 2004
para uma explicação desse emulador e de alguns utilitários na pesquisa com corpora
eletrônicos). Basicamente, os procedimentos foram os seguintes:
•
•
•
•
Pré-processamento do texto: várias tarefas, tais como: eliminação de pontuação de
siglas e abreviaturas, eliminação de espaços em branco seguidos, formatação do
texto de tal forma que cada sentença ocupe apenas uma linha do arquivo.
Identificação dos pacotes: Listagem de todos os pacotes de três palavras do texto.
Segmentação: Identificação das sentenças em que ocorriam os pacotes.
Exame dos segmentos: Concordância dos pacotes, para observação dos padrões
formados por eles e listagem dos conjuntos lexicais presentes nos segmentos.
5. Análise e interpretação
No total, foram identificadas 83 pacotes com freqüência igual ou maior do que três.
Destes, apenas 72 ocorriam em duas sentenças ou mais (algumas ocorriam mais de uma
vez por sentença). A posição de cada um dos 72 pacotes foi mapeada, o que permitiu
localizar 72 segmentos no texto. A listagem das sentenças em que ocorrem cada um dos
10
segmentos aparece no anexo C.
A listagem abaixo traz os 72 segmentos identificados no texto. A coluna de números
indica o tamanho do segmento, isto é, em quantas sentenças o pacote ocorreu.
Fazer em 3 colunas com linhas verticais separando as colunas
11
Freq. Pacote
11 0 0 0
7 milhares de cruzeiros
7 em milhares de
7 de 0 a
7 carbureto de cálcio
6 0 milhões de
5 white martins nordeste
5 sociedade anônima white
5 rio de janeiro
5 período de 0
5 milhões de dólares
5 de carbureto de
5 de 0 milhões
5 anônima white martins
5 0a0
4 real de 0
4 poder aquisitivo da
4 para os exercícios
4 os exercícios findos
4 no período de
4 moeda em 0
4 imposto de renda
4 igp
4 evolução do lucro
4 em 0 0
Freq. Pacote
4 de acordo com
4 da white martins
4 da sociedade anônima
4 da moeda em
4 da fábrica de
4 aquisitivo da moeda
4 a white martins
4 a longo prazo
3 s a white
3 realizável a longo
3 que a empresa
3 prevenção de acidentes
3 por valores traduzidos
3 plano de expansão
3 países da américa
3 para os estados
3 para o país
3 os estados unidos
3 origens e aplicações
3 o montante de
3 o lucro líquido
3 no realizável a
3 nas demonstrações financeiras
Freq. Pacote
3 montante de cr
3 mesmo poder aquisitivo
3 líquido do exercício
3 lucro líquido do
3 geral de preços
3 fábrica de carbureto
3 e aplicações de
3 dos financiamentos em
3 do lucro líquido
3 do capital social
3 de cálcio de
3 crescimento real de
3 conselho de administração
3 com base na
3 ao mesmo poder
3 ano de 0
3 a evolução do
2 de produção de
2 age de 0
2 0 0 em
3 índice geral de
2 00e
Pode-se perceber que alguns dos pacotes são na verdade desmembramentos de um
pacote maior. Por exemplo, ‘milhares de cruzeiros’ e ‘em milhares de cruzeiros’
aparecem, no texto, juntas na forma do pacote ‘em milhares de cruzeiros’. A razão pela
qual esse pacote não foi capturado por inteiro é porque os pacotes extraídos estavam
restritos à extensão de três palavras. Levando-se isso em conta, vários pacotes poderiam
ser combinados desse modo, o que reduziria o total de segmentos do texto. Entretanto,
caso se tivesse optado por retirar colocações maiores, muitas das menores seriam
perdidas. Por isso, é melhor retirar colocações menores e depois recombiná-las, se for o
caso, do que retirar colocações maiores e perder as menores.
O maior segmento é o formado pelo pacote ‘0 0 0’, que é na verdade uma seqüência de
três números ou conjuntos de números. O segmento aparece abaixo (os números no
início de cada sentença representam o número da sentença dentro do texto):
20 * capital social no ano de 0 apresentou um crescimento da ordem de cr$ 0 0
milhões em decorrência de aumento aprovado na ago/age de 0 0 0 e na age de 0 0 0,
mediante incorporação de reservas e lucros acumulados.
21 em assembléia geral ordinária/extraordinária a ser aproximadamente realizada,
será proposto aumento de capital social de cr$ 0 0 0 aprovado na age de 0 0 0, cuja
homologação deverá ocorrer no mesmo dia da ago/age marcada para abril) para cr$ 0 0 0 0
0 mediante incorporação de reservas e lucros acumulados, com elevação do valor nominal
da ação para cr$ 0,0 e subseqüente redução para cr$ 0 0, sendo esta levada a efeito
através do sistema de desdobramento de ações, ensejando que cada grupo de 0 ações se
transforme em 0 ações. desdobramento em questão gerará um razoável acréscimo de ações
para negociação no mercado de capitais propiciando, assim, um considerável aumento da
base acionária da empresa.
23 cr$ 0 0 milhões relativos ao lucro apurado no primeiro semestre e cr$ 0,0 por
ação do capital de cr$ 0 0 0 0 propostos pelo conselho de administração, em reunião
realizada em 0 0 0
27 as vendas brutas, durante o exercício de 0, atingiram o montante de cr$ 0 0 0
milhões, enquanto que no exercício anterior apresentaram um total de cr$ 0 0 milhões.
12
29 apresentamos, a seguir, a evolução das vendas brutas, no período de 0 a 0,
representadas por valores traduzidos ao mesmo poder aquisitivo da moeda em 0 0 0,
tomando-se por base o índice geral de preços (i g p ).
32 a evolução do lucro bruto no período de 0 a 0, representada por valores
traduzidos, pela aplicação do índice geral de preços - i g p , ao mesmo poder aquisitivo
da moeda em 0 0 0, pode ser demonstrada como segue:
37 demonstra-se, a seguir, a evolução do lucro operacional e do lucro líquido no
período de 0 a 0, ambos representados por valores traduzidos ao mesmo poder aquisitivo
da moeda em 0 0 0, também com base no índice geral de preços - i g p
185 o capital da sociedade, subscrito e integralizado é representado por 0 0 0 0 (0 0
0 0 em 0 de dezembro de 0) ações ordinárias normativas e ao portador, de valor nominal
de cr$ 0,0 cada uma.
190 na qualidade de uma das patrocinadoras da prevuniâo, a sociedade registrou a
título de contribuições a quantia de 0 0 0 (0 0 em 0).
204 em dezembro de 0, foi concluída a fase de construção da fábrica em iguatama - mg,
cujo custo final objeto de arrendamento mercantil, atingiu a quantia de 0 0 0
206 no realizável a longo prazo e ativo circulante encontram-se registrados 0 0 0 e 0
0 0 respectivamente, relativos ao montante ainda não recebido do valor negociado das
parcelas de arrendamento mencionadas no parágrafo anterior, de vez que de cada parcela a
ser paga já se encontra deduzida parte dos valores a receber.
A segmentação mostra o texto é na verdade formado por duas partes, uma que vai da
sentença 20 à 37 e outra que vai da 185 à 206. Para os propósitos da análise levada a
cabo aqui isso não apresenta um problema, pois os segmentos, por definição, não
precisam ser contíguos.
A unidade do segmento é fornecida, em primeiro lugar, naturalmente, pela presença do
pacote ‘0 0 0’. Mas, além dela, há recorrência de vários outros itens lexicais que lhe
emprestam coesão. Os dez itens mais freqüentes dentro do segmento são:
10
5
4
4
cr$
ações
valores
milhões
4
4
4
mesmo
lucro
geral
4
4
3
capital
age
índice
Esse conjunto lexical remete ao domínio semântico das contabilidade da empresa,
reforçando a unidade do segmento??. Note que esse domínio semântico prevalece
mesmo quando algumas das ocorrências do pacote não se referem às finanças, mas a
uma data, como é o caso de ‘em reunião realizada em 0 0 0’ (sentença 23) e ‘ao mesmo
poder aquisitivo da moeda em 0 0 0’ (sentença 32).
É importante observar, também, a padronização exibida pelos itens do conjunto lexical
dentro do segmento. O primeiro item, ‘cr$’, que representa o cruzeiro, moeda brasileira
em vigor na época em que o relatório foi publicado, ocorre em dois padrões bem
nítidos: ora precedido de ‘de’, ora de ‘para’. Quatro das dez ocorrências de ‘cr$’ são
como colocado imediato de ‘0 0 0’. Nas outras seis ocorrências, ‘cr$’ está associado a
outros valores formados por dois dígitos (com ou sem vírgula), denotando valores
menores do que os expressos por ‘0 0 0’. Isso sugere que mesmo quando o colocado não
está associado diretamente ao pacote central do segmento, ele assume um sentido que é
compatível com a unidade semântica que permeia o segmento. A concordância abaixo
mostra as suas ocorrências dentro do segmento.
m crescimento da ordem de
ento de capital social de
marcada para abril) para
alor nominal da ação para
subseqüente redução para
do no primeiro semestre e
,0 por ação do capital de
cr$
cr$
cr$
cr$
cr$
cr$
cr$
0 0 milhões em decor
0 0 0 aprovado na ag
0 0 0 0 0 mediante i
0,0 e subseqüente re
0 0, sendo esta leva
0,0 por ação do capi
0 0 0 0 propostos pe
13
, atingiram o montante de cr$ 0 0 0 milhões, enqua
apresentaram um total de cr$ 0 0 milhões.
ador, de valor nominal de cr$ 0,0 cada uma.
O segundo e o terceiro segmentos são formados pelo mesmo conjunto de palavras, ‘em
milhares de cruzeiros’:
139
142
145
148
151
212
215
(em milhares de cruzeiros)
(em milhares de cruzeiros, exceto o lucro por ação)
(em milhares de cruzeiros)
(em milhares de cruzeiros, exceto os dividendos por ação)
(em milhares de cruzeiros)
(valores em milhares de cruzeiros)
(em milhares de cruzeiros)
Este segmento é formado por trechos que acompanhavam tabelas e gráficos, que foram
retirados do texto anteriormente à análise. Cada trecho foi considerado uma sentença,
para fins da análise. A consistência do segmento é facilmente notada, pois o pacote
aparece quase sempre sozinho na sentença. Por isso mesmo, o conjunto lexical contido
nele é curto e recursivo:
7
7
2
2
1
1
1
milhares
cruzeiros
exceto
ação
valores
lucro
dividendos
Claramente, o conjunto lexical remete ao domínio semântico das finanças corporativas,
devido à expressão de grandes quantidades de moeda.
O quarto segmento é aquele formado pelo pacote ‘de 0 a’, onde ‘0’ significa qualquer
número: meu problema é o mesmo com respeito ao anterior
7 no exercício encerrado em 0 de dezembro de 0 a empresa levou a efeito, a exemplo
do ano anterior, um desempenho excepcional.
21 em assembléia geral ordinária/extraordinária a ser aproximadamente realizada,
será proposto aumento de capital social de cr$ 0 0 0 aprovado na age de 0 0 0, cuja
homologação deverá ocorrer no mesmo dia da ago/age marcada para abril) para cr$ 0 0 0 0
0 mediante incorporação de reservas e lucros acumulados, com elevação do valor nominal
da ação para cr$ 0,0 e subseqüente redução para cr$ 0 0, sendo esta levada a efeito
através do sistema de desdobramento de ações, ensejando que cada grupo de 0 ações se
transforme em 0 ações. desdobramento em questão gerará um razoável acréscim de ações
para negociação no mercado de capitais propiciando, assim, um considerável aumento da
base acionária da empresa.
24 a seguir, demonstramos a evolução do capital social e dividendos pagos e
propostos, relativos ao período de 0 a 0, em valores nominais.
29 apresentamos, a seguir, a evolução das vendas brutas, no período de 0 a 0,
representadas por valores traduzidos ao mesmo poder aquisitivo da moeda em 0 0 0,
tomando-se por base o índice geral de preços (i g p ).
32 a evolução do lucro bruto no período de 0 a 0, representada por valores
traduzidos, pela aplicação do índice geral de preços - i g p , ao mesmo poder aquisitivo
da moeda em 0 0 0, pode ser demonstrada como segue:
37 demonstra-se, a seguir, a evolução do lucro operacional e do lucro líquido no
período de 0 a 0, ambos representados por valores traduzidos ao mesmo poder aquisitivo
da moeda em 0 0 0, também com base no índice geral de preços - i g p
72 * placa extraordinária, do consejo interamericano de seguridad, "por seu notável
desempenho na prevenção de acidentes"quando atingiu o índice de 0% na redução de lesões
incapacitantes no período de 0 a 0;
14
O pacote ‘de 0 a’ faz parte de um padrão maior, ‘ao/no período de 0 a 0’, conforme
mostra a concordância abaixo. O domínio semântico expresso por ele é auto-evidente,
qual seja, o de referência a um período de tempo.
os, relativos
endas brutas,
o lucro bruto
lucro líquido
ncapacitantes
ao
no
no
no
no
período
período
período
período
período
de
de
de
de
de
0
0
0
0
0
a
a
a
a
a
0,
0,
0,
0,
0;
em valores nomi
representadas p
representada po
ambos represent
O conjunto lexical que predomina no segmento é mostrado na listagem abaixo. O
conjunto indica a expressão de período de tempo associada a indicadores econômicos e
de mercado, além de valores.
5
4
4
4
4
4
4
4
3
3
período
índice
valores
mesmo
geral
evolução
cr$
ações
traduzidos
seguir
O próximo segmento tem como eixo o pacote ‘carbureto de cálcio’8. O domínio
semântico expresso nele é auto-explicativo: carbureto de cálcio, que é um dos produtos
manufaturados pela empresa. O pacote está associado a outros padrões maiores, como
‘fábrica de carbureto de cálcio em Iguatama’ e ‘substantivo + de/do carbureto de
cálcio’, conforme mostra a concordância abaixo. Isso indica o campo expresso aí
relaciona-se a uma fábrica de carbureto de cálcio, que foi inaugurada durante o período
coberto pelo relatório, e ao manejo desse produto.
inda destacar a crescente utilização
oldagem para os estados unidos, além
a inauguração da fábrica
s, a fábrica aumentou nossa produção
getal, constituem as máterias-primas
ia da entrada em operação da fábrica
0) arrendamento mercantil da fábrica
do
de
de
de
do
de
de
carbureto
carbureto
carbureto
carbureto
carbureto
carbureto
carbureto
de
de
de
de
de
de
de
cálcio como agente dessulfu
cálcio para o caribe, paíse
cálcio de iguatama, em mina
cálcio de 0 para 0 mil tone
cálcio, a empresa está loca
cálcio de iguatama, cidade
cálcio em iguatama - mg
O conjunto lexical predominante no segmento reforça essa impressão, conforme mostra
a listagem abaixo. O único item em aparente dissonância no conjunto é ‘políticos’. Na
verdade, ele foi usado ainda para se referir à presença de políticos na inauguração da
fábrica (‘visitantes, entre empresários, políticos e jornalistas’) e para se referir à
repercussão da inauguração da fábrica na imprensa (‘meios sociais, econômicos e
políticos’).
8
Devido a restrições de espaço neste artigo, os segmentos, a partir deste, não serão mais mostrados na
íntegra.
15
7
7
4
4
3
3
3
2
cálcio
carbureto
iguatama
fábrica
sua
produção
empresa
políticos
O segmento seguinte, na lista, é o formado pelo pacote ‘0 milhões de’, que indica (com
uma única exceção) grandes quantidades de dinheiro, mais especificamente, de dólares,
conforme mostra a concordância abaixo. Note que o pacote faz parte de um padrão que
contém expressões de estimativa, como ‘em torno de’ e ‘da ordem de’.
ue significou um investimento global
com um investimento global em torno
duas unidades, investimento em torno
ompletou, neste exercício, o plantio
o valor deste projeto é
são previstos investimentos da ordem
de
de
de
de
de
de
0
0
0
0
0
0
milhões
milhões
milhões
milhões
milhões
milhões
de
de
de
de
de
de
dólares, trazendo inúmeros
dólares, a fábrica aumentou
dólares.
árvores em 0 fazendas, que
dólares.
dólares.
O domínio semântico presente nele é o de expressão de grandes volumes de
investimento, conforme indica o conjunto lexical que compõe o segmento, mostrado
abaixo. Os investimentos estão associados a projetos de fábricas, usinas e outros
projetos:
6
5
3
3
2
2
2
2
2
2
milhões
dólares
investimento
fábrica
usina
torno
projeto
neste
mil
iguatama
O segmento a seguir, na lista, é formado em torno do pacote ‘white martins nordeste’,
que é uma subsidiária da empresa. A concordância abaixo ilustra as ocorrências desse
pacote no segmento.
unidos e países da américa do sul, e a
cial e técnica, bem como na subsidiária
significativo aumento de produtividade.
ite martins nordeste outra conquista da
com a sua controlada sociedade anônima
white
white
white
white
white
martins
martins
martins
martins
martins
nordeste, que exportou ele
nordeste, com significativ
nordeste outra conquista d
nordeste, em 0, foi o merc
nordeste, através de contr
O domínio semântico expresso no segmento é o das atividades, produtos e
circunstâncias relacionadas a essa subsidiária, em nível nacional e internacional,
conforme mostra o conjunto lexical abaixo:
16
6
6
5
2
2
2
2
2
2
2
white
martins
nordeste
uruguai
recursos
grafita
exportou
empréstimos
como
cilindros
O segmento a seguir é o que se centra no pacote ‘sociedade anônima white’. A
concordância abaixo ilustra suas ocorrências no segmento.
éstimos contraídos com a sua controlada
cientes. o conselho de administração da
o exercício. aos senhores acionistas da
examinamos os balanços patrimoniais da
com propriedade a posição financeira da
sociedade
sociedade
sociedade
sociedade
sociedade
anônima
anônima
anônima
anônima
anônima
white
white
white
white
white
martins nordeste
martins, dando c
martins: examina
martins levantad
martins em 0 de
Como se percebe, o pacote faz parte da expressão formal do nome da empresa, que por
sua vez, está ligada a atributos da empresa (administração, acionistas, balanços, posição
financeira). O conjunto lexical presente no segmento, mostrado abaixo, reforça essa
idéia.
5
5
5
5
5
2
2
2
2
2
2
white
sociedade
martins
dezembro
anônima
senhores
resultados
referentes
recursos
acionistas
origens
Além disso, o conjunto indica a expressão de um domínio semântico voltado à
prestação formal de contas (‘resultados referentes...’) a um grupo de pessoas (‘senhores
acionistas’). Essa prestação de conta é relacionada a um período circunscrito na
legislação (‘exercício/s findo/s em ... de dezembro de ...’) , conforme mostra a
concordância abaixo. Na concordância, percebe-se ainda o emprego de itens como
‘artigo 0, item v da lei ...’, ‘devidamente auditado’ e ‘respectivas demonstrações’, que
remetem, novamente, à prestação de contas dentro das exigências legais.
o artigo 0, item v da lei no 0,
s referentes ao exercício findo
nônima white martins levantados
ursos para os exercícios findos
sociedade anônima white martins
de
em
em
em
em
0
0
0
0
0
de
de
de
de
de
dezembro
dezembro
dezembro
dezembro
dezembro
17
de 0, examinou o relatório da a
de 0, tudo devidamente auditado
0 e 0 e as respectivas demonstr
de 0 e 0 os nossos exames foram
de 0 e 0, e os resultados das s
Esse segmento ilustra o fato de o domínio semântico contido nele não ser diretamente
sinalizado a partir do pacote central. A prestação formal de contas, que é claramente
expressa no segmento, não é concretizada exatamente no nome da empresa. Juntamente
a ela, contudo, há toda uma série de recursos lexicais recorrentes que indicam,
claramente, o domínio semântico presente no segmento.
O segmento seguinte, formado pelo pacote ‘Rio de Janeiro’, indica o uso do nome da
cidade, que é onde fica a sede da empresa, principalmente em conjunção à expressão de
uma data no mês de fevereiro (que é quando ocorre a divulgação do relatório). O
domínio semântico constante no segmento é o de datar o relatório. A concordância
abaixo mostra as ocorrências do pacote:
o e modernização das sedes das divisões
calizadas nos estados de minas gerais e
gerando novos empregos em suas regiões.
es. rio de janeiro, 0 de fevereiro de 0
rio
rio
rio
rio
rio
de
de
de
de
de
janeiro,
janeiro,
janeiro,
janeiro,
janeiro,
0 de fevereiro de
são paulo, recife
vêm gerando novos
0 de fevereiro de
0 de janeiro de 0
0 * am
e port
empreg
0 rio
O conjunto lexical do segmento é bastante curto, com apenas três itens com freqüência
igual ou superior a dois. Ele corrobora os pontos levantados acima.
6 janeiro
5 rio
2 fevereiro
A análise apresentada até este ponto deu conta dos oito primeiros segmentos contidos na
lista. Entretanto, ela cobre, na verdade, os 15 primeiros segmentos (até ‘0 a 0’), já que
os outros segmentos (do 10º ao 15º) ocorrem nas mesmas posições dos já discutidos.
Removidas as redundâncias, esses 15 primeiros segmentos resultam em oito. O
mapeamento dos segmentos é apresentado na tabela abaixo, juntamente com os
domínios semânticos expressos neles, conforme discutidos acima. A tabela 1 apresenta
os segmentos ordenados por ordem de primeira ocorrência no texto. Isso dá uma idéia
da seqüência da demarcação dos segmentos ao longo do texto.
Domínio semântico
Período de tempo
Volume de investimentos, projetos
Datação do relatório
Contabilidade da empresa
Produto
Subsidiária
Finanças corporativas
Prestação formal de contas
Início
do Término do
segmento
segmento
(sentença)
(sentença)
7
72
9
116
15
235
20
234
50
203
60
182
139
215
182
234
18
Esses oito segmentos atuam em 48 das 238 sentenças do texto9, o que equivale a 20%
do total. Se todos os 72 segmentos forem computados, a abrangência dos segmentos
passa a 95 sentenças, ou 40% do total. Isso significa que 50% (48/95) da abrangência
total possível já foi atingida com a análise mostrada aqui. Além disso, significa que
menos da metade das sentenças (95/238) pertencem a um segmento qualquer. Isso
ocorre porque muitas sentenças tendem a pertencer a mais de um segmento. Os oito
segmentos mostrados na tabela, somados, equivalem a 90 sentenças10, o que dá um
índice de compartilhamento de 1,9 (90/45) segmento por sentença. Levando-se em
conta todos os 72 segmentos, esse índice cai para 1,2 11. Isso significa que os segmentos
mais extensos (os discutidos aqui) são menos sobrepõem-se mais freqüentemente a
outros. Os menores, por sua vez, tendem a ocupar trechos do texto que são
independentes de outros segmentos.
6. Discussão
Os segmentos, no seu conjunto, indicam a progressão dos elementos internos do texto.
Antes de mais nada, o relatório situa seu conteúdo num período de tempo definido.
Logo depois, trata dos investimentos e dos projetos da empresa. A datação do relatório é
imprimida logo depois. A contabilidade da empresa, em termos de quantias de dinheiro
gastas e aplicadas, surge a seguir. Depois, é introduzido um dos produtos principais da
empresa, que recebeu relevância no ano anterior. Segue-se a isso um destaque a uma
nova fábrica inaugurada pela empresa. O relatório encerra-se com um retrato das
finanças corporativas e prestação formal de contas ao acionistas das empresas. Essa
visão geral dos segmentos é congruente com o que se espera de um relatório anual de
negócios. Cada uma das partes contribui para a expressão dos assuntos principais do
ano empresarial.
É importante realçar que o encadeamento dos segmentos, na descrição acima, não é
linear. Quando se diz que ‘o segmento vem a seguir’, na verdade a intenção é exprimir
que o segmento ‘se inicia a seguir’, mas não que ele termine naquele ponto onde o
próximo se inicia: cada um dos segmentos distribui-se ao longo do texto
compartilhando espaço, interrompendo, e retomando o conteúdo em outra oportunidade.
Essa concepção de segmento é condizente com a experiência dos usuários da língua,
que sabem que vários trechos de um mesmo texto podem lidar com o mesmo conteúdo,
não de forma redundante, mas complementar, elaborando, expandindo, retomando, etc.
o mesmo ponto: numa mesma área do texto (sentença, parágrafo, seção, etc.) são
realizados diversos sentidos. Segundo Martin e Eggins essa pluralidade sugere que:
a text is the weaving together of different strands of meaning’ if we ask ... what
[a text] ‘is about’ (that is, what it means), we need to recognize that it is about
more than one thing at a time. (p.233)
O panorama revelado pela análise empreendida aqui é mais condizente com a
organização do texto, do que com a sua estrutura: a organização do texto é um nível de
arranjo dos elementos que permite variação e que não impõe ordenação pré-estabelecida
9
Isto é, 48 ‘sentence types’; não se trata, portanto, da soma da extensão de todos os segmentos.
Aqui, sim, trata-se de ‘sentence tokens’, isto é, o total da soma das sentenças de cada segmento,
independente do fato de serem compartilhadas por mais de um segmento ou não.
11
Ou seja, 277/238, donde 277 são as sentenças somadas nos 72 segmentos e 238 é o total de sentenças
do texto.
10
19
ou suposição de um arranjo ideal de segmentos (Berber Sardinha, 1997a; Hoey, 1991).
É muito mais fruto da descrição ‘ascendente’ do texto (bottom up) do que ‘descendente’
(top-down).
Por isso, os segmentos não podem ser equacionados aos ‘movimentos’ (moves) e passos
(steps) da Análise de Gênero (eg. Swales, 1990). Os movimentos e passos são unidades
que possuem uma função retórica em termos das estratégias de desenvolvimento do
texto em direção ao seu propósito comunicativo. Eles possuem, portanto, uma
ordenação explícita, que não deve, normalmente, ser rompida para que o intenção
comunicativa não seja prejudicada. Essa noção poderia modificar o conceito de passo e
movimento enquanto como blocos fechados: podemos passar a vê-los como elementos
que ocorrem em vários locais, sem fronteiras mas com uma unidade temática garantida
pela repetição lexical. Os segmentos, com sua unidade semântica e conceitual, não
possuem tais características. Não há nada que impeça, a priori, por exemplo, que a
apresentação das finanças ocorra antes da apresentação dos destaques dos produtos.
Contudo, apenas uma análise mais ampla, com mais textos do mesmo gênero, poderia
dizer se há uma ordenação típica desse segmentos (além de dizer se há segmentos
comuns a vários textos do mesmo gênero).
As preferências semânticas indicadas na tabela remetem-se, além da variável do campo
do registro, também às relações (tenor), tocando em aspectos interpessoais. Por
exemplo, o segmento que faz uma prestação formal de contas revela um posicionamento
em relação aos interlocutores pretendidos, que são os investidores da empresa (e
também seus funcionários). A presença de elementos da legislação nos conjuntos
lexicais indica também uma referência ao mundo da auditoria fiscal, fazendo com que a
empresa se mostre preocupada com a lisura de seu comportamento perante as suas
finanças, dando segurança ao investidor.
Em relação a uma maior aproximação entre Análise de Gênero e Lingüística de Corpus,
a pesquisa relatada aqui tem a dizer que a busca de evidências lexicais e do mapeamento
de sua distribuição só pode ser benéfica para dar mais solidez às descrições de gênero.
Isso não precisa ficar restrito à maneira mostrada nessa pesquisa. A repetição lexical
que suscita os segmentos pode servir para uma análise de gênero baseada em ‘moves’ e
‘steps’ pode ser usada como um meio de identificar fronteiras internas para serem
classificadas funcionalmente. Outros modos de identificar relações lexicais e atribuirlhes significância genérica são benvindos e devem ser tentados. Gledhill (1995) e Luzon
Marco (1998), por exemplo identificaram a padronização típica (em torno de itens
gramaticais) de gêneros da área médica. Gledhill (2000a), com base nos seus achados,
propõe que a fraseologia seja um elemento constitutivo do discurso, num nível retórico,
pois ela organiza a representação dos conteúdo e do sentido do texto. Segundo ele, a
fraseologia, ao contrário do que se supõe, não é uma manifestação de um nível ‘baixo’
da linguagem, que atua na léxico-gramática e no fraseado (wording) apenas, mas
revelador da própria cultura:
‘We can conceive of collocations as cultural pieces of information, Dawkins ‘memes’
transmitted from one researcher to the next. (…) ‘Memes’ take the form of any small
cultural entity that can be remembered as a unit such as a snatch of song, a recipe, a
proverb. We would argue that just like memes, collocations can suggest larger units and
they are usually transmitted whole from one speaker to the next.’ (p.132)
De forma geral, a formação dos segmentos pode ser vista como um processo de coesão
20
em torno do padrão. Isso já foi antecipado pelos vários estudos que trataram do papel da
coesão lexical (e de outros tipos) na formação do texto (Berber Sardinha, 1995, 1997b,
c, 1999; Halliday & Hasan, 1985). Mas uma diferença importante entre aqueles estudos
e o presente é que naqueles os itens lexicais podiam estar em qualquer posição em
relação aos demais na formação dos elos coesivos. Ou seja, podiam ou não estar unidos
na forma de pacote ou padrão recorrente. Aqui, pelo contrário, os itens estavam
próximos uns aos outros, formando pacotes.
A inspeção do ambiente ao redor dos pacotes, contudo, revelou que a padronização
existente no segmento não se restringe somente ao pacote. Há, na verdade, uma
padronização recorrente, com outros itens lexicais, capturada na forma de conjuntos
lexicais, que se associam ao pacote de modo mais ou menos próximo.
7. Comentários finais
O objetivo da pesquisa relatada aqui foi o de localizar os segmentos, ou elementos da
estrutura interna de um texto de um gênero específico, com base em evidência lexical. A
evidência lexical utilizada foi a presença de pacotes lexicais (seqüências recorrentes e
fixas de palavras) e de conjuntos lexicais (palavras que recorrem sem posição fixa
dentro do segmento). Ambos propiciam o estabelecimento de unidade interna no
segmento, que é notada pela preferência semântica indicada pelo léxico. Os segmentos
assim identificados parecem ser indicativos da estrutura interna (staging) do gênero
‘relatório anual de negócios’. Durante a interpretação dos resultados, foi apresentada
evidência de que esse parece ser o caso. Entretanto, somente uma análise de mais
exemplares do mesmo gênero, formando um corpus maior, poderá confirmar isso. Pelo
menos um dos segmentos, ‘subsidiária’, não é, claramente, aplicável à realidade de
todas as empresas, portanto não pode ser um segmento canônico ao gênero.
Os analista de gênero podem se servir dos recursos apresentados neste trabalho a fim de
obter mais subsídios lingüísticos para efetuar a demarcação das unidades internas
genéricas. É preciso aceitar, contudo, uma visão organizacional não linear do texto,
conforme discutido acima.
Uma objeção que se pode fazer em relação ao tipo de análise apresentada aqui é que ela
apresenta apenas a temática dos segmentos, enquanto a Análise de Gênero ocupa-se de
outros aspectos além da temática, notadamente com a função retórica ou estratégica
representada nas unidades estruturais do gênero. De fato, o componente mais saliente da
segmentação, conforme tratada aqui, é o campo (field), mas não é o único. Os
segmentos podem ser interpretados de outras maneiras, realçando seu conteúdo
interpessoal, por exemplo.
A proposta colocada em prática aqui pretende ter feito uma contribuição no sentido de
aproximar a Lingüística de Corpus e a Análise de Gênero. A padronização já está
amplamente documentada como um elemento fundamental da organização da língua.
Aqui, foi relatada evidência que sugere a sua relação também com o texto e o gênero,
demarcando os estágios (stages) do desenvolvimento genérico. O argumento defendido
no trabalho é que embora tenham crescido em separado, sem muito contato entre si, as
duas áreas têm muito a beneficiar uma da outra. A Lingüística de Corpus, aproximandose do texto, e a Análise de Gênero, da padronização.
21
8. Anexos
(1) Extração de abreviaturas
#programa: findabbrevs
grep -w -o -e '[A-Z][a-z]\.' -e '[A-Z][a-z][a-z]\.' -e '[A-Z][a-z][a-z][a-z]\.' white |
sort | uniq > abbrevs
grep -o -e ' [a-z][a-z]\.' -e ' [a-z][a-z][a-z]\.' -e ' [a-z][a-z][a-z][a-z]\.' white |
sort | uniq > abbrevs-possible
(2) Rotina em perl para itemização do texto
#!/usr/bin/perl
#rotina perl para itemização
#token.pl
while (<>) {
$text .= $_; #reads the text and stores it in a variable
}
$_ = $text;
s/([A-Z])\.([A-Z])/$1 $2/g;
s/([A-Z])\./$1 /g;
s/([0-9])\.([0-9])/$1 $2/g;
s/([0-9])\./$1 /g;
s/Cia\./Cia /g;
s/Ltda\./Ltda /g;
s/ ton\./ton /g;
#s:\n: :g; #switches all newlines for spaces
s/\./\.\n/g; #switches all the periods for newlines
s/\n\s+/\n/g; #limpar espaços no início das linhas
s/\n([a-záéíóúãõàâêô])/ $1/g; #juntar linhas que começam com letras minúscula
#s/ / /g;#squeeze multiple spaces
print;
exit(0);
(3) Itemização do texto com a rotina acima, para colocar cada sentença numa linha
#arquivo: itemizar
#Itemização do arquivo ‘texto’
perl token.pl texto > texto.tok.0
(4) Eliminação de números do texto
#arquivo: numeros
# eliminação de números do texto
tr '[0-9]' '0' < texto.tok | sed -e 's/0[0]*/0/g' > texto.tok.0
(5) Extração de pacotes de três palavras
#arquivo: threegrams
#Adaptado de:
#Autor: Ken Church, em ‘Unix for poets’:
# www.stanford.edu/class/cs224n/handouts/kwc-unix-for-poets.pdf
#-------# lista os pacotes de três palavras do texto itemizado e
# filtra lista para exibir apenas aqueles pacotes que
# tenham freqüência maior do que um número mínimo.
# As freqüências que são ignoradas devem ser digitadas
# no espaço [12] na penúltima linha.
# [12] significa ‘ignore freqüência 1 e freqüência 2’
tr -sc 'a-zA-ZáéíóúãõâêôçàüÁÉÍÓÚÃÕÂÊÔÇÀÜ0$' '\012' < texto.tok.0 > temp.words
tail +2 temp.words > temp.nextwords
tail +3 temp.words > temp.3nextwords
paste temp.words temp.nextwords temp.3nextwords | sort | uniq -c > temp.threegrams
sort -nr < temp.threegrams | tr '\t' ' ' | grep -v -e '[12]' > list.threegrams
wc -l list.threegrams >> list.threegrams
(6) Segmentação do texto
22
#arquivo: segmentar
# faz segmentação do texto. O arquivo que contém o texto deve se chamar ‘texto’
# o resultado é salvo em dois arquivos: texto.segmented e texto.segmented.list,
# que trazem a mesma informação com formatação diferente
tr -s " " < texto.tok.0 > temp
tr "[A-ZÃÕÁÉÍÓÚÀÂÊÔÇÜ]" "[a-zãõáéíóúàâêôçü]" < temp > texto.tok.0
nl texto.tok.0 > texto.nl
cut -c9- list.threegrams | sed '$d' > list.threegrams.temp
sed
-e
's:^\(.*\):grep
texto.linefreqs
-c
"\1\"
texto.nl
>>
temp3:g'
list.threegrams.temp
>
rm temp3
sh texto.linefreqs
paste temp3 list.threegrams.temp | sort -nr > list.threegrams.tab
tr "\t" "=" < list.threegrams.tab > list.threegrams.2
sed 's/\#/[0-9]*/g' list.threegrams.2 |
sed -e 's:^\(.*\):echo \"===== \1\ =====" >> texto.segmented:g' > temp1
cut -f2 list.threegrams.tab |
sed 's/\#/[0-9]*/g' |
sed -e 's:^\(.*\):grep -iw "\1\" texto.nl >> texto.segmented:g' > temp2
rm texto.segmented
paste temp1 temp2 > temp
tr "\t" "\n" < temp > dosegmentation.3
sh dosegmentation.3
head texto.segmented
cut -f1 texto.segmented | sed 's/^====/\%====/g' | tr '\n' '\t' | tr "%" "\n" | sed
's/=====/
/g' |
tr "=" "\t" | sed 's/^\t//' > texto.segmented.list
(7) Rotina para fazer concordâncias dos segmentos
#arquivo: concord
#Autor: Ken Church, em ‘Unix for poets’:
# www.stanford.edu/class/cs224n/handouts/kwc-unix-for-poets.pdf
#faz concordância do arquivo ‘texto.segmento’
#palavra ou expressão deve ser digitada no espaço ‘xxx’ abaixo
cut -f2 texto.segmento | tr '\n' ' ' | tr -s ' ' |
awk '{i=0;
while (m=match(substr($0, i+1), "xxx")){
i+=m
printf("%40s%s\n",
substr($0, i-40, i<=40 ? i-1 : 40),
substr($0, i, 40))}}'
(8) Listador de palavras do arquivo texto.segmento
#arquivo: wordlist
#Adaptado de:
#Autor: Ken Church, em ‘Unix for poets’:
# www.stanford.edu/class/cs224n/handouts/kwc-unix-for-poets.pdf
#faz lista de palavras do arquivo ‘texto.segmento’
#e salva resultado no arquivo texto.segmento.wl
tr -sc 'a-zA-ZáéíóúãõâêôçàüÁÉÍÓÚÃÕÂÊÔÇÀÜ$' '\012' < texto.segmento | sort | uniq -c
| sort –nr > texto.segmento.wl
(9) Listador de palavras com filtro que retira palavras gramaticais
#arquivo: wordlist2
#faz lista de palavras do arquivo ‘texto.segmento’, retira palavras gramaticais
#e salva resultado no arquivo texto.segmento.wl
sh wordlist | sed -f stoplist.sed |head > texto.segmento.wl
23
(10) Arquivo com palavras gramaticais usado por wordlist2 acima
#arquivo: stoplist.sed
#cada longo espaço em branco abaixo é uma marca de tabulação: pressionar tecla Tab
/
a$/d
/
ao$/d
/
as$/d
/
aos$/d
/
com$/d
/
da$/d
/
das$/d
/
de$/d
/
do$/d
/
dos$/d
/
e$/d
/
em$/d
/
na$/d
/
nas$/d
/
no$/d
/
nos$/d
/
o$/d
/
os$/d
/
para$/d
/
por$/d
/
pelo$/d
/
pelos$/d
/
que$/d
/
se$/d
/
um$/d
/
uma$/d
/
à$/d
/
à$/d
/
é$/d
# a partir daqui, aparece o alfabeto todo, de ‘a’ a ‘z’
/
a$/d
/
b$/d
# trecho omitido por motivo de espaço; usuário deve digitar os elementos faltantes
# usando padrão dos anteriores
/
y$/d
/
z$/d
(B) Resultado da segmentação – Sentenças em que cada segmento ocorre (arquivo
texto.segmented; apenas trecho do arquivo é reproduzido aqui):
===== 11=0 0 0 =====
20 * capital social no ano de 0 apresento
21 em assembléia geral ordinária/extraord
23 cr$ 0 0 milhões relativos ao lucro apu
27 as vendas brutas, durante o exercício
29 apresentamos, a seguir, a evolução das
32 a evolução do lucro bruto no período d
37 demonstra-se, a seguir, a evolução do
185 o capital da socieda, subscrito e inte
190 na qualidade de uma das patrocinadoras
204 em dezembrode 0, foi concluída a fase
206 no realizável a longo prazo e ativo ci
===== 7=milhares de cruzeiros =====
139 (em milhares de cruzeiros)
142 (em milhares de cruzeiros, exceto o lu
145 (em milhares de cruzeiros)
148 (em milhares de cruzeiros, exceto os d
151 (em milhares de cruzeiros)
212 (valores em milhares de cruzeiros)
215 (em milhares de cruzeiros)
===== 7=em milhares de =====
139 (em milhares de cruzeiros)
142 (em milhares de cruzeiros, exceto o lu
145 (em milhares de cruzeiros)
148 (em milhares de cruzeiros, exceto os d
151 (em milhares de cruzeiros)
212 (valores em milhares de cruzeiros)
215 (em milhares de cruzeiros)
===== 7=de 0 a =====
24
7 no exercício encerrado em 0 de dezembr
(C) Resultado da segmentação – Sentenças em que cada segmento ocorre (arquivo
texto.segmented.list):
0 0 0 20 21 23 27 29 32 37 185 190 204 206 234
milhares de cruzeiros 139 142 145 148 151 212 215
em milhares de 139 142 145 148 151 212 215
de 0 a 7 21 24 29 32 37 72
carbureto de cálcio 50 59 77 78 126 127 203
0 milhões de 9 78 82 95 113 116
white martins nordeste 60 109 111 118 182
sociedade anônima white 182 220 232 233 234
rio de janeiro 15 81 96 221 235
período de 0 24 29 32 37 72
milhões de dólares 9 78 82 113 116
de carbureto de 59 77 78 127 203
de 0 milhões 78 82 95 113 116
anônima white martins 182 220 232 233 234
0 a 0 24 29 32 37 72
real de 0 28 31 34 36
poder aquisitivo da 29 32 37 168
para os exercícios 141 144 147 233
os exercícios findos 141 144 147 233
no período de 29 32 37 72
moeda em 0 29 32 37 168
imposto de renda 36 102 164 165
i g p 28 29 32 37
findos em 0 141 144 147 233
exercícios findos em 141 144 147 233
evolução do lucro 30 32 33 37
em 0 0 23 29 32 37
de acordo com 153 186 233 234
da white martins 60 118 125 129
da sociedade anônima 220 232 233 234
da moeda em 29 32 37 168
da fábrica de 9 77 127 203
aquisitivo da moeda 29 32 37 168
a white martins 14 60 132 199
a longo prazo 157 165 170 206
índice geral de 29 32 37
s a white 14 132 199
realizável a longo 157 170 206
que a empresa 53 93 95
prevenção de acidentes 70 72 74
por valores traduzidos 29 32 37
plano de expansão 76 80 178
países da américa 59 60 120
para os estados 59 60 120
para o país 9 41 122
os estados unidos 59 60 120
origens e aplicações 144 233 234
o montante de 22 27 36
o lucro líquido 36 167 186
no realizável a 157 170 206
nas demonstrações financeiras 167 199 209
montante de cr 22 27 36
mesmo poder aquisitivo 29 32 37
líquido do exercício 22 167 186
lucro líquido do 22 167 186
25
geral de preços 29 32 37
fábrica de carbureto 77 127 203
e aplicações de 144 233 234
dos financiamentos em 179 180 211
do lucro líquido 22 33 37
do capital social 19 24 187
de cálcio de 77 78 127
crescimento real de 28 31 34
conselho de administração 17 23 219
com base na 158 160 207
ao mesmo poder 29 32 37
ano de 0 20 77 205
a evolução do 24 32 37
de produção de 108 112
age de 0 20 21
0 0 em 185 190
0 0 e 20 206
Referências bibliográficas
Barbara, L., & Scott, M. (1999). Homing on a genre: invitations for bids. In F. BargielaChiapini & C. Nickerson (Orgs.), Writing Business: Genres, media and
discourse (pp. 227-254). New York: Longman.
Batista, M. E. (1998). E-Mails na troca de informação numa multinacional: o gênero e
as escolhas léxico-gramaticais. Dissertação de Mestrado Inédita, LAEL,
PUC/SP (Disponível online em http://lael.pucsp.br/lael)
Beeferman, D., Berger, A., & Lafferty, J. (1997). Text segmentation using exponential
models. Unpublished Manuscript, School of Computer Science, Carnegie
Mellon University, Available from cmp-lg archive.
Berber Sardinha, A. P. (1995). A preliminary study into patterns of lexis of business
texts. In B. Warvik, S.-K. Tanskanen, & R. Hiltunen (Orgs.), Organization in
Discourse. Proceedings from the Turku Conference (pp. 157-166). Turku: Abo
Akademi/University of Turku.
Berber Sardinha, A. P. (1997a). Automatic identification of segments in written texts.
Tese de Doutoramento, AELSU/English Department, University of Liverpool,
UK. Disponível em http://lael.pucsp.br/~tony .
Berber Sardinha, A. P. (1997b). Lexical co-occurrence: A preliminary investigation into
business English phraseology. Letras & Letras, 13, 15-24.
Berber Sardinha, A. P. (1997c). Lexical cohesion and segmentation. Paper presented at
the 24th International Systemic Functional Congress. University of Toronto,
Toronto, Canada, 21 July 1997.
Berber Sardinha, A. P. (1999). Looking at discourse in a corpus: The role of lexical
cohesion. Proceedings of AILA 2000 on CD-ROM (Program No -157-4), 12th
World Congress of Applied Linguistics (Available online at arxiv.org/ pdf/
cs.CL/ 0004016).
Berber Sardinha, A. P. (2004). Lingüística de Corpus. São Paulo: Editoria Manole.
Bhatia, V. K. (1993). Analysing Genre: Language Use in Professional Settings.
London: Longman.
Biber, D. (1988). Variation across Speech and Writing. Cambridge: Cambridge
University Press.
Biber, D., & Conrad, S. (1999). Lexical bundles in conversation and academic prose. In
H. Hasselgard & S. Oksefjell (Orgs.), Out of Corpora - Studies in Honour of Stig
26
Johansson (pp. 181-190). Amsterdam/Atlanta,GA: Rodopi.
Biber, D., & Conrad, S. (2000). What you need to know about academic writing Corpus data reveals the truth behind the genre. EL Gazette, 244, 8.
Biber, D., Johansson, S., Leech, G., Conrad, S., & Finegan, E. (1999). Longman
Grammar of Spoken and Written English. Harlow: Longman.
Dudley-Evans, T. (1994). Genre Analysis: An approach to text analysis for ESP. In M.
Coulthard (Org.), Advances in written text analysis (pp. 219-228). London:
Routledge.
Eggins, S., & Martin, J. R. (1997). Genres and registers of discourse. In T. A. van Dijk
(Org.), Discourse as Structure and Process (pp. 230-256). London: Sage.
Flammia, G. (1996). Corpus-based discourse segmentation of spoken dialogue. Doctoral
Thesis Outline.
Freire, M. M. (1995). Computer-mediated communication in the workplace. DIRECT
Papers 22, São Paulo (Disponível online em http://lael.pucsp.br/direct).
Freitas, A. C. de. (1997). América mágica, Grã-Bretanha real e Brasil tropical: um
estudo lexical de panfletos de hotéis. Tese de Doutorado Inédita, LAEL,
PUC/SP (Disponível online em http://lael.pucsp.br/lael)
Freitas, S. A. de, & Lopes, J. G. (1994). Discourse Segmentation: Extending the
Centering Theory. Paper presented at the Conferencia Brasileira de Inteligencia
Artificial 1994.
Gerbig, A. (1996). Lexical and grammatical variation in a corpus. Frankfurt am Main:
Peter Lang.
Glaeser, R. (1995). Linguistic Features and Genre Profiles of Scientific English.
Frankfurt am Main: Peter Lang.
Gledhill, C. (1995). Collocation and genre analysis – The phraseology of grammatical
items in cancer research abstracts and articles. ZAA (Zeitschrift fuer Anglistik
und Amerikanistik), 1, 11-36.
Gledhill, C. (2000a). Collocations in Science Writing. Tuebingen: Gunter Narr.
Gledhill, C. (2000b). The discourse function of collocation in research article
introductions. English for Specific Purposes, 19, 115-135.
Halliday, M. A. K. (1985). An Introduction to Functional Grammar. London: Arnold.
Halliday, M. A. K. (1989). Spoken and written language. Oxford: OUP.
Halliday, M. A. K., & Hasan, R. (1985). Language, context, and text: aspects of
language in a social-semiotic perspective. Oxford: Oup.
Harris, S. (1988). Court discourse as genre: some problems and issues. In R. P. Fawcett
& D. Young (Orgs.), New developments in systemic linguistics (Vol. 2 - Theory
and application, pp. 94-115). London / New York: Pinter.
Hasan, R. (1984a). Coherence and cohesive harmony. In J. Flood (Org.), Understanding
Reading Comprehension: Cognition, Language and the Structure of Prose (pp.
181-219). Newark, Delaware: International Reading Association.
Hasan, R. (1984b). The nursery tale as a genre. Nottingham Linguistic Circular, 13, 71102.
Hearst, M. (1993). Texttiling: A quantitative approach to discourse segmentation.
Project Sequoia technical Report 24/93; University of California at Berkeley.
(Disponível online em cs-tr.cs.berkeley.edu)
Heinonen, O. (1998). Optimal Multi-Paragraph Text Segmentation by Dynamic
Programming. Proceedings of COLING-ACL '98, pp. 1484-1486, Montreal,
Canada.
Henry, A., & Roseberry, R. L. (2001). A narrow-angled corpus analysis of moves and
strategies of the genre: 'Letter of Application'. English for Specific Purposes, 20,
27
153-167.
Hoey, M. (1986). The discourse colony: A preliminary study of a neglected discourse
type. In M. Coulthard (Org.), Talking about Text - Studies Presented to David
Brazil on his Retirement (Discourse Analysis Monographs 13, pp. 1-26).
Birmingham: ELR/University of Birmingham.
Hoey, M. (1991). Patterns of Lexis in Text. Oxford: Oxford University Press.
Hoey, M. (1993). Introduction. In M. Hoey (Org.), Data, Description, Discourse -Papers on the English Language in Honour of John McH Sinclair on his Sixtieth
Birthday (pp. v-ix). London: HarperCollins.
Hoey, M. (2001). Textual Interaction - An Introduction to Written Discourse Analysis.
London: Routledge.
Hopkins, A., & Dudley-Evans, T. (1988). A genre-based investigation of the discussion
sections in articles and dissertations. English for Specific Purposes, 7, 113-120.
Hyland, K. (1990). A genre description of the argumentative essay. RELC Journal, 21,
66-78.
Kan, M.-Y., Klavans, J. L., & McKeown, K. (1997). Linear segmentation and segment
significance. Unpublished manuscript. Dept of Computer Science and Center for
Research on Information Access, Columbia University, NY, USA. (Disponível
online em http:// xxx.lanl.gov/ file 9809020 v2)
Kozima, H. (1993). Text segmentation based on similarity between words. Unpublished
manuscript, University of Electro-Communications, Tokyo, Japan.
Lee, D. Y. W. (1999). Modelling Variation in Spoken and Written Language: the MultiDimensional Approach Revisited. Dissertation de Ph.D. Inédita, Department of
Linguistics and Modern English Language, Lancaster University, UK.
Lima-Lopes, R. E. (2001). Estudos de transitividade em Língua Portuguesa: O perfil do
gênero cartas de venda. LAEL, PUC/SP (Disponível online em
http://lael.pucsp.br/lael)
Litman, D. J., & Passonneau, R. J. (1994). Empirical evidence for intention-based
discourse segmentation. AT&T Bell Laboratories, Murray Hill, NJ, USA, and
Department of Computer Science, Columbia University, USA, unpublished
manuscript.
Litman, D. J., & Passonneau, R. J. (1995). Combining multiple knowledge sources for
discourse segmentation. Manuscript available from cmp-lg archive number
9505025.
Lopes, M. C. (2000). Homepages institucionais em português e suas versões para o
inglês: Uma análise baseada em corpus de aspectos lexicais e discursivos.
Dissertação de Mestrado Inédita, LAEL, PUC/SP (Disponível online em
http://lael.pucsp.br/lael).
Luzon Marco, M. J. (1998). Phraseological patterns in medical discourse. The
ESPecialist, 19, 41-57.
Macedo, C. M. M. de. (1999). A reclamação e o pedido de desculpas: Uma análise
semântico-pragmática de cartas no contexto empresarial. Tese de Doutorado
Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael)
Marshall, S. (1991). A genre-based approach to the teaching of report-writing. English
for Specific Purposes, 10, 3-13.
Martin, J. R. (1992). English Text. Philadelphia/Amsterdam: John Benjamins.
Mauranen, A. (1998). Another look at genre: Corpus Linguistics vs Genre Analysis.
Studia Anglica Posnaniensia, 32, 303-315.
McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh
University Press.
28
Morris, J., & Hirst, G. (1991). Lexical cohesion computed by thesaural relations as an
indicator of the structure of text. Computational Linguistics, 17, 21-48.
Nwogu, K. N. (1991). Structure of science popularizations: a genre-analysis approach to
the schema of popularized medical texts. English for Specific Purposes, 10, 111123.
Oliveira e Silva, A. L. de. (2000). A Interação escritor-leitor através de escolhas
lingüísticas: Um estudo em textos de espiritualidade, auto-ajuda e de Chiara
Lubich. Thesis de MA Inédita, LAEL, PUC/SP (Disponível online em
http://lael.pucsp.br/lael)
Paltridge, B. (1994). Genre analysis and the identification of textual boundaries. Applied
Linguistics, 15, 288-299.
Paltridge, B. (1996). Genre, text type, and the language learning classroom. ELT
Journal, 50, 237-243.
Passonneau, R. J., & Litman, D. J. (unknown year). Intention-based segmentation:
Human reliability and correlation with linguistic cues. Department of Computer
Science, Columbia University, USA, and AT&T Bell Laboratories, Murray Hill,
NJ, USA, unpublished manuscript.
Salager-Meyer, F. et al. (1989). Principal components analysis and Medical English
discourse: an investigation into genre analysis. System, 17, 21-34.
Sampson, G. (1987). Evidence against the 'grammatical/ungrammatical' distinction. In
W. Meijs (Org.), Corpus linguistics and beyond - Proceedings of the 7th
International Conference on English Language Research on Computerized
Corpora (pp. 219-226). Amsterdam: Rodopi.
Sampson, G. (2001). Empirical Linguistics. London: Continuum.
Santos, V. A. dos. (in prep). Fraseologia dos manuais de informática. Tese de
Doutorado Inédita, LAEL, PUC/SP.
Santos, V. B. M. P. dos. (1998). Padrões interpessoais no gênero de cartas de
negociação. Dissertação de Mestrado Inédita, LAEL, PUC/SP (Disponível
online em http://lael.pucsp.br/lael)
Scott, M. (2000a). Focusing on the text and its key words. In L. Burnard & T. McEnery
(Orgs.), Rethinking Language Pedagogy from a Corpus Perspective - Papers
from the Third International Conference on Teaching and Language Corpora
(pp. 103-122). Frankfurt am Main: Peter Lang.
Scott, M. (2000b). Mapping key words to problem and solution. In M. Scott & G.
Thompson (Orgs.), Patterns of Text? In Honour of Michael Hoey (pp. 109-128).
Amsterdam: John Benjamins.
Silva, M. S. F. da. (1999). Análise lexical de folhetos de propagandas de escolas de
línguas e as representaçÓes de ensino. Dissertação de MA Inédita, LAEL,
PUC/SP (Disponível online em http://lael.pucsp.br/lael)
Sinclair, J. McH. (1991). Corpus Concordance Collocation. Oxford: Oxford University
Press.
Sinclair, J. McH., & Coulthard, R. M. (1975). Towards and Analysis of Discourse - The
English Used by Teachers and Pupils. Oxford: Oxford University Press.
Stubbs, M. (1996). Text and Corpus Analysis -- Computer-Assisted Studies of Language
and Culture. Oxford: Blackwell.
Stubbs, M. (2001). Words and Phrases - Corpus-based studies of lexical semantics.
Oxford: Routledge.
Swales, J. M. (1990). Genre Analysis - English in Academic and Research Settings.
Cambridge: Cambridge University Press.
Ventura, C. (2000). Análise temática em estudos de tradução: O caso dos relatórios
29
anuais de empresas brasileiras. Dissertação de MA, LAEL, PUC/SP
(Disponível online em http://lael.pucsp.br/lael)
Vian Jr, O. (1997). Conceito de gênero e análise de textos de vídeos institucionais.
Dissertação de MA Inédita, LAEL, PUC/SP (Disponível online em
http://lael.pucsp.br/lael)
Yaari, Y. (1997). Segmentation of expository texts by hierarchical agglomerative
clustering. Faculty of Mathematics and Computer Science, Bar-Ilan University,
Israel. (Disponível online em http:// xxx.lanl.gov/ cmp-lg file 9709015).
30