Análise de Gênero e Lingüística de Corpus: Identificação das unidades internas do gênero por meio da padronização lexical Tony Berber Sardinha* Pontifical Catholic University of São Paulo (PUCSP) DIRECT Papers 51 2003 ISSN 1413-442x Publicado por LAEL, Pontifícia Universidade Católica de São Paulo, Brasil, e AELSU, University of Liverpool, United Kingdom. http://lael.pucsp.br/direct 1. Introdução Duas áreas dos estudos lingüísticos que cresceram muito desde a década de 1990 são a Análise de Gênero e a Lingüística de Corpus. Cada uma duas áreas possui hoje um corpo de trabalho volumoso, que mostra como elas são importantes, cada uma a seu modo, no cenário da lingüística contemporânea. A pesquisa na Análise de Gênero revela muitos aspectos importantes da comunicação humana, tais como a constituição de vários tipos de texto (Barbara & Scott, 1999; Batista, 1998; Freitas, A. C. de, 1997; Glaeser, 1995; Gledhill, 1995, 2000b; Harris, 1988; Hasan, 1984b; Henry & Roseberry, 2001; Hopkins & Dudley-Evans, 1988; Hyland, 1990; Lima-Lopes, 2001; Lopes, 2000; Luzon Marco, 1998; Macedo, 1999; Nwogu, 1991; Oliveira e Silva, 2000; SalagerMeyer et al., 1989; Santos, V. B. M. P. dos, 1998; Silva, 1999; Ventura, 2000; Vian Jr, 1997), o ensino da escrita e de línguas para fins específicos (Dudley-Evans, 1994; Marshall, 1991; Paltridge, 1996; além das várias contribuições neste volume), a interação entre falantes em organizações (Batista, 1998; Freire, 1995), entre outros. Pesquisadores no âmbito da Lingüística de Corpus, em seu turno, trazem evidências cada vez maiores que muitas das concepções sobre a linguagem tidas como verdades absolutas, em realidade, não se sustentam face aos dados que os corpora trazem (Sampson, 1987, 2001). A conjugação de computadores a corpora eletrônicos permitenos ver, como nunca antes, a linguagem sob um novo prisma, expandindo os limites do nosso conhecimento empírico da língua, tal qual aconteceu em outras épocas com outras disciplinas, como a biologia e a astronomia, quando da introdução de instrumentos como o microscópio e o telescópio (Hoey, 1993; Stubbs, 1996). Essa verdadeira revolução tem como epicentro a evidência de que a linguagem é organizada em padrões (patterns) recorrentes, cujo alcance e abundância passam despercebidos ao analista munido apenas de sua intuição ou de pequenas amostras de língua. A feição da lingüística, em suma, mudou muito em razão da pesquisa feita no âmbito dessas duas áreas, na última década. A Análise de Gênero e a Lingüística de Corpus têm olhado a língua, tradicionalmente, por ângulos diferentes. Na primeira, considera-se gêneros tipos ou classes relativamente * Agradeço ao CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) pelo apoio mediante a bolsa Produtividade em Pesquisa número 350455/2003-1. 1 estáveis de fala ou escrita com propósito social distinto, reconhecidos como tais por grupos de usuários da língua: Different genres are different ways of using language to achieve different culturally established tasks, and texts of different genres are texts which are achieving different purposes in the culture. (Eggins & Martin, 1997, p.236). Nessa visão, os gêneros são estudados normalmente em quantidades pequenas de exemplares, em análises ‘manuais’ ou com algum computacional (na forma de análises de suporte, como listas de palavras ou palavras-chave). Já a Lingüística de Corpus enfoca, normalmente, gêneros na forma de grandes conjuntos de exemplares na forma de um corpus em formato legível por computador (e.g. Biber, 1988). Um corpus é uma coletânea de textos ou transcrições de fala, reunidos com o propósito de tornar acessível à investigação uma língua ou variedade dela. Muitas vezes, o corpus é criado com a finalidade de ser representativo da língua ou da variedade lingüística contida nele. É notória, entretanto, a dificuldade de definição objetiva de representatividade de corpus; por isso, muitos corpora podem ser encarados apenas como adequados para os propósitos da investigação (Berber Sardinha, 2004). Seria muito benéfico para ambas as áreas se houvesse uma maior aproximação entre elas1. A Lingüística de Corpus poderia, então, lidar mais diretamente com aspectos discursivos da língua, área em que é notadamente mais deficitária (McEnery & Wilson, 1996). Isso levaria os corpora a serem desenhados com mais cuidado em relação à questão genérica – muitos corpora recentes, como o BNC, oferecem um tratamento equivocado de gênero na sua composição (Lee, 1999), ao passo que outros estudos com corpora confundem registro e assunto com gênero (Mauranen, 1998). A Análise de Gênero, por sua vez, poderia lançar mão de programas computadorizados para identificar a extensão da padronização lingüística em gêneros e dar conta do que essa padronização pode representar em nível discursivo. Dar conta da padronização lingüística no nível da descrição genérica parece ser uma progressão natural, visto que, segundo a Lingüística de Corpus, a padronização é elemento fundamental da linguagem, e segundo a Análise de Gênero, a linguagem é formada por gêneros. Há várias tentativas de aproximação nesse sentido. Muitos estudos descrevem a léxicogramática típica de gêneros. Quando o objetivo é descrever a estruturação interna dos gêneros, o procedimento mais comum não inclui o uso de programas de computador. Em geral, a estrutura interna, formada normalmente pelos movimentos (moves) e passos (steps), é demarcada por meio da observação, leitura detalhada, inspeção ou análise manual. Uma razão que leva a esse estado de coisas é o fato de haver programas disponíveis e fáceis de usar para a investigação da léxico-gramática, como listadores de palavras, comparadores de lista de palavras e concordanceadores, mas não para o estudo da estrutura interna, ou segmentação. Os programas disponíveis para segmentação, em geral, requerem um conhecimento computacional que está muito além da maioria dos analistas de gênero; além disso, são produzidos por lingüistas ou programadores que não possuem interesse na Análise de Gênero, o que faz com que não possuam características que os tornem atraentes e úteis para o analista de gênero. 1 O presente volume traz exemplos de análise de gêneros com corpora eletrônicos. 2 Do lado da Lingüística de Corpus, alguns estudos investigam aspectos discursivos e genéricos. Scott (2000b), por exemplo, observou a relação entre palavras-chave e a organização discursiva em torno do padrão Problema-Solução, em corpora eletrônicos, usando o programa WordSmith Tools de análise de freqüências; concluiu que o mapeamento entre léxico e estrutura interna mostrou-se fraco: The key words procedure used here does not appear to pick many instances of text-structure signals. Instead it tends to identify ideationally and interpersonally important elements and at present does not operate at the level of text division. (p.125) Esse tipo de estudo é caracterizado por Scott (2000a) como tendo um foco no texto (text focus), ao invés de um foco na língua (language focus). O foco no texto permite ao analista de corpus lidar com questões de ordem textual, como a organização genérica, a léxico-gramática típica de gêneros específicos e a temática (aboutness), entre outros: ‘What is it about?’ is the primary question language users routinely ask of a text; indeed it distinguishes a text from other objects of the world (…) A text is usually ‘about’ something, and its aboutness can be perceived by the intended readership or audience in a way that a smaller or larger item will not. (p.107) Uma maneira pela qual podemos fazer uma aproximação entre a Lingüística de Corpus com foco no texto e a Análise de Gênero é por meio da investigação das divisões internas do texto (staging ou segmentação2), com o instrumental típico da Lingüística de Corpus (freqüência de palavras e observação de padrões com concordância, principalmente). Esse é o objetivo desse trabalho, cuja metodologia, que inclui os procedimentos necessários para atingir essa meta, será detalhada mais abaixo. Por enquanto, torna-se necessário fazer uma discussão a respeito da problematização inerente à questão da identificação de unidades internas de gêneros. 2. Identificação de unidades internas na Análise de Gênero O trabalho de identificação de elementos estruturais de gêneros diversos, a partir da observação da manifestação de itens lingüísticos, vem de longa data. Dentro do Contextualismo Britânico, como é assim chamada a vertente da lingüística fundada por John Rupert Firth, podemos encontrar um exemplo de Análise de Gênero já em 1957, no trabalho de Mitchell. Ele analisou interações de compra e venda em mercados Marroquinos e propôs uma seqüência de estágios para esse gênero (vide Eggins & Martin, 1997, p.240). Outro estudo clássico da organização interna de gêneros é o trabalho de Sinclair e Coulthard (1975), com análise da interação em sala de aula. Mais recentemente, Swales (1990) e Bhatia (1993), apresentando análises aprofundadas de vários gêneros, estabeleceram princípios da Análise de Gênero que se tornaram linhas mestras para a disciplina. Outro grande expoente da área é Ruqaya Hasan que propôs que as divisões internas de gêneros fossem baseadas em aspectos da coesão do texto (Hasan, 1984a). Entretanto, 2 Os termos tendem a ser empregados por grupos distintos. ‘Staging’ é mais empregado na Análise de Gênero, enquanto segmentação é mais comum em estudos computacionais. 3 suas análises demonstraram que muitas cadeias coesivas cruzavam ou cruzam? as divisões internas dos textos, não demarcando claramente as fronteiras entre as unidades estruturais. Outras de suas análises passaram, então, a utilizar conceitos semânticos, derivados das cadeias coesivas, como base para a identificação das unidades internas dos gêneros. Tais conceitos eram os ‘atributos semânticos’, que podiam ser ‘nucleares’ (obrigatórios ou típicos) e os ‘elaborativos’ (opcionais). Por exemplo, numa análise de interações de serviços (service encounters) (Halliday & Hasan, 1985), Hasan usou atributos semânticos como ‘demand’, ‘reference to goods’ e ‘quantity of goods’ para caracterizar a estrutura do componente ‘sales request’ (‘I’ll have tem oranges and a kilo of bananas please’). Para Paltridge (1994), as unidades internas devem ser norteadas por critérios semânticos, cognitivos e de conteúdo, e não puramente lingüísticos. Apart from physical indicators of boundaries, such as gaps on pages, paragraph divisions, and chapters, indicators of boundaries are most clearly seen in terms of content; that is, it a cognitive rather than linguistic sense that guides our perception of textual division. … The conclusion to be reached here, then, is that the search for structural divisions in texts should be seen as a search for cognitive boundaries in terms of convention, appropriacy, and content rather than as a search for linguistically defined boundaries; that is, there are non-linguistics, rather than linguistic, reasons for generic staging in texts. (p.295; ênfase no original) Contudo, os aspectos cognitivos, de conteúdo e de adequação não podem ser totalmente desvinculados da expressão lingüística, caso contrário não teriam relevância para entender um objeto que é materializado na língua, como o texto. Uma análise que não se sirva do elemento lingüístico corre o risco de ser um conjunto de impressões que o analista possui diante do texto a partir de uma leitura particular (que por sua vez tende a ser volátil, isto é, mutante de acordo com a leitura que faz a cada momento). Conforme lembra Halliday (1985, p.xvii), ‘a discourse analysis that is not based on grammar is not analysis at all’. Aqui, ‘grammar’ é entendida como realização lingüística, e não como o sistema de relações sintáticas, formais, da língua. Uma conseqüência do fato de as análises de gênero se firmarem no conteúdo e demais aspectos mencionados acima por Paltridge para atribuição das fronteiras entre as unidades estruturais internas do texto é que a análise tende a ser menos objetiva: divisions … are often intuitive: it is by no means always the case that headings and other lexical indicators are found to be present. (Paltridge, 1994, p.295; ênfase no original). O processo de identificação de fronteiras internas é notoriamente complexo. Uma das razões para isso está na própria constituição do texto: o texto é uma unidade integrada, cujos elementos devem possuir ligações entre si. Caso contrário, o que existe não é um texto, propriamente dito, mas uma coleção de pedaços reunidos em um mesmo documento. Alguns textos, porém, tem nessa característica de justaposição de elementos um elemento definidor – e o caso dos textos-colônia (‘colony texts’) (Hoey, 1986, 2001). Nesses textos, as unidades podem ser lidas independentemente uma das outras, sem que o todo perca o sentido. De qualquer modo, os textos-colônia são um tipo especial de texto, daí receberam até um nome diferente. Para os demais, a unidade 4 interna é um critério definidor. A unidade interna, por sua vez, é apenas um dos lados da dualidade sobre a qual se assenta a constituição textual. A outra é a segmentação. Essa propriedade retrata o fato de os textos serem constituídos de partes distintas, que podem ser percebidas. A segmentação, por sua vez, é fruto dos processos de composição e processamento do texto. Durante a leitura, por exemplo, o leitor interage com o texto também de forma modular, processando-o em partes, mas buscando relações entre essas partes, de tal forma que ele lhe pareça coerente. O ‘staging’ dos textos pode ser marcado de diversas maneiras. Uma delas, a mais visível, é por meio de intertítulos, que separam e rotulam partes de textos. Este é um recurso usado principalmente em gêneros que tenham atingido um nível considerável de complexidade (Martin, 1992, p.443). A divisão dos textos em seções segue muitos critérios diferentes, entre eles o da exigência genérica (alguns gêneros devem possuir certas seções, como o artigo acadêmico), o da representação do conteúdo (para sinalizar ao leitor uma mudança significativa de assunto), o de despertar a curiosidade do leitor (comum em ensaios jornalísticos), entre outros. Por isso mesmo, a relação entre as seções e sua composição lexical não tende a ser expressiva (Berber Sardinha, 1997a): a coesão lexical chega, no máximo, a responder por 40% das divisões entre seções de vários gêneros. Outro fator complicador é a própria tendência de certas fronteiras serem ‘incertas’ (‘fuzzy edged’). Segundo Hunston (1989), alguns textos tendem a obscurecer as fronteiras, por várias razões, de modo deliberado, como, por exemplo, quando há a intenção de tornar o texto mais fluente, ou de modo acidental, quando problemas de redação tornam o texto menos claro. Um dos problemas encontrados pela Análise de Gênero, na identificação de unidades internas, decorre justamente da definição de unidade interna adotada. Tipicamente, o que se entende por unidade estrutural interna (no texto escrito) é uma seqüência contígua de sentenças (no mínimo duas), sem interrupções ou sobreposições (Berber Sardinha, 1997a). Ou seja, para que uma nova unidade se inicie, a anterior deve acabar. Esta visão é válida para unidades que se expressam tipograficamente, como capítulos, seções e parágrafos. Mas além dessas unidades ‘formais’, não há razão para que as unidades continuem sendo assim, seqüenciais, idealizadas até. É perfeitamente possível supor que unidades funcionais (segmentos internos) sejam sobrepostas, interrompidas, corram em paralelo, enfim, que possuam uma organização muito mais variada e complexa do que se supõe por analogia aos capítulos, seções e parágrafos. Isso está de acordo com o entendimento do texto como sendo algo dinâmico, portador de múltiplos sentidos que se interligam: a text is the weaving together simultaneously of several different strands of meanings. If we ask, for example, what [a text] ‘is about’ (that is, what it means), we need to recognize that is about more than one thing at a time. (Eggins & Martin, 1997, p.233) Essa visão não seqüencial do texto encontra suporte no trabalho de Michael Hoey (1991) com a coesão textual. Sua pesquisa mostra que as sentenças do texto (não narrativo) encontram-se ligadas por laços lexicais que operam ao longo do texto todo, formando vários agrupamentos não discretos. Esses agrupamentos possuem unidade 5 semântica, revelada pela proximidade lexical dos elementos que os formam. Além disso, os agrupamentos são móveis, pois podem ser re-arranjados em conjuntos maiores ou menores, de acordo com a quantidade de laços coesivos que são utilizados para a sua formação. 3. Proposta metodológica A fim de identificar as divisões internas de um gênero (ou exemplar dele) usando a Lingüística de Corpus é necessário enfocar o léxico do texto, mais especificamente, como ele co-ocorre, recorre e é distribuído em grupos identificáveis. Os pontos norteadores da proposta aparecem sintetizados abaixo. • • • • • • O léxico co-ocorre em grupos fixos, formando pacotes lexicais (lexical bundles), que refletem o princípio idiomático (Sinclair, 1991). A recorrência desse tipo de unidade lexical estabelece coesão entre sentenças, criando segmentos (‘blocos’) de texto que possuem unidade interna. Os segmentos exibem unidade de sentido (‘preferência semântica’) em torno de um campo, tema, assunto, ou tópico. A preferência semântica dos segmentos é especificada ou realçada por conjuntos lexicais formados por palavras que se repetem no segmento. Os limites desses segmentos podem ser mapeados no texto, mostrando, assim, as fronteiras entre as divisões internas do texto. As divisões internas não são necessariamente contíguas, pois o léxico recorrente normalmente estabelece relações ao longo do texto inteiro. Esses pontos serão discutidos em mais detalhe a seguir. 3.1. Pacotes lexicais Um pacote lexical (lexical bundle, Biber & Conrad, 1999; Biber, Johansson, Leech, Conrad, & Finegan, 1999, p.990ff), ou simplesmente ‘pacote’, no contexto desse estudo refere-se a uma seqüência recorrente de palavras de um tamanho determinado, retirada do texto ou corpus por um programa de computador3. Pacotes não possuem, necessariamente, estrutura interna bem definida; muitos podem ser fragmentos de partes de colocações ou de expressões idiomáticas: Lexical bundles are recurrent expressions, regardless of their idiomaticity, and regardless of their structural status. That is, lexical bundles are simply sequences of word forms that commonly go together in natural discourse …and they are not expressions that speakers would recognize as idioms or other fixed lexical expressions. (Biber, Johansson, Leech, Conrad, & Finegan, 1999, p.990) Devido ao fato de o único pré-requisito para a existência dos pacotes é que haja coocorrência de palavras, o número de pacotes que existe em um texto ou corpus é grande. Por isso, para levá-los em conta na análise é preciso estabelecer limites para a sua 3 Outro termo que designa esse tipo de unidade é 3-grama, ou ‘threegram’, em inglês, que comumente empregado em estudos de Processamento de Linguagem Natural. 6 identificação. Um dos critérios é considerar apenas pacotes formados por três ou mais palavras; esse critério foi usado por Biber et al (1999, p.990): To make the scope of the investigation more manageable, a lexical bundles is defined here as a recurring sequence of three or more words. Uma grande proporção de pacotes de duas palavras tende a ser ‘fragmentos’, partes de pacotes maiores; a quantidade desses fragmentos diminui à medida que os pacotes crescem de tamanho. Por exemplo, na sentença anterior, encontramos vários pacotes de duas palavras como ‘composição dos’, ‘dos pacotes’ e ‘pacotes varia’ que não são muito informativos. Por outro lado, se levarmos em conta pacotes de três palavras, encontraremos ‘a composição dos’, ‘composição dos pacotes’, ‘em relação ao’, etc., que são, pode-se dizer, mais informativas. A freqüência dos pacotes varia consideravelmente em relação ao seu tamanho: a freqüência de cada tende a diminuir à medida que sua extensão aumenta. Segundo Biber et al. (1999), a quantidade de pacotes contendo quatro palavras (no inglês contemporâneo) é cerca de 10 vezes menor do que os que contêm três palavras. Por sua vez, os pacotes de cinco palavras também são aproximadamente dez vezes menos freqüentes do que os de quatro palavras. Isso acontece naturalmente porque diminui a probabilidade de as palavras ocorrerem em ordem fixa à medida em que as seqüências se tornam maiores (Santos, V. P. dos, in prep). Uma conseqüência disso é que pacotes maiores acabam sendo menos representativos, porque deixam de incluir uma porção crescente das palavras do texto ou corpus. Fica claro que é necessário encontrar um meio termo entre informatividade e freqüência do pacote em relação ao seu tamanho. Pacotes maiores tendem a ser mais informativos, mas são menos freqüentes, e vice-versa. Uma posição intermediária é considerar os pacotes de três palavras – estes parecem ser um ponto de partida adequado para a análise, pois não são tão pequenos que venham a conter muitos fragmentos pouco informativos, nem tão grandes que venham a limitar a quantidade de pacotes extraíveis. 3.2. Coesão lexical Uma outra razão importante para levar em conta pacotes de três palavras é que três ligações representam o número mínimo de elos (links) necessários para unir (bond) duas sentenças, segundo Hoey (1991). Para Hoey, as sentenças de textos escritos nãonarrativos podem ser unidas em blocos quando compartilham três ou mais ligações lexicais. Uma ligação é um elo formado por dois itens (ou palavras) de classe gramatical plena (substantivo, verbo, adjetivo, advérbio, numeral, interjeição) que estão em sentenças diferentes4. Por exemplo, nas duas sentenças abaixo há cinco ligações: carbureto à carbureto, cidade à cidade, cálcio à cálcio, fábrica à fábrica e Iguatama à Iguatama5. As palavras ligadas aparecem sublinhadas; os algarismos no início dos trechos indicam seu número seqüencial no texto. 77 A inauguração da fábrica de carbureto de cálcio de Iguatama, em Minas 4 Mais de uma ocorrência de um mesmo item em uma sentença conta como apenas uma ligação. O exemplo aqui é de a ligações formadas por repetição simples, mas há outros tipos de repetição que realizam ligações (vide Hoey, 1991). 5 7 Gerais, marcou o ano de 06 - o evento teve ampla ressonância nos meios sociais, econômicos e políticos, tendo levado até a cidade de Iguatama cerca de 0 visitantes, entre empresários, políticos e jornalistas. 127 Em 0 sua tecnologia foi amplamente modernizada, paralelamente ao aumento de produção, de 0 mil ton /mês para 0 mil ton /mês, em decorrência da entrada em operação da fábrica de carbureto de cálcio de Iguatama, cidade próxima a Arcos. Devido a essas cinco ligações, as duas sentenças podem ser consideradas unidas (bonded), o que significa que formam um bloco coeso que pode ser lido como uma unidade textual. De fato, ao ler o par de sentenças acima, fica claro que as duas sentenças possuem conteúdo em comum (a ‘fábrica de carbureto de cálcio de Iguatama’), muito embora sejam necessários alguns ajustes na sua redação para melhorar sua legibilidade e realçar as semelhanças entre elas. As uniões entre sentenças podem ocorrer mesmo há que haja? muitas sentenças de distância entre uma e outra. No exemplo acima, as duas sentenças estavam a 50 sentenças de distância uma da outra. A semelhança entre as sentenças unidas é maior quanto mais as ligações sejam entre palavras que estão próximas, preferivelmente em seqüência. Assim, no exemplo acima, ‘fábrica de carbureto de cálcio de Iguatama’ contribui com muito mais coesão do que ‘cidade’. A fraseologia de ‘cidade’ na primeira sentença é ‘tendo levado até a cidade de Iguatama cerca de 0 visitantes...’, enquanto na segunda sentença a fraseologia é ‘Iguatama, cidade próxima a Arcos’. Ou seja, ‘cidade’ na verdade se refere a municípios diferentes: Iguatama e Arcos, o que enfraquece o papel dessa ligação no estabelecimento da coesão lexical entre as duas sentenças. As ligações que fazem parte do mesmo padrão, portanto, realçam mais ainda a coesão do conjunto do que aquelas que aparecem em ordem livre dentro da sentença. Por isso, os pacotes são maneiras adequadas de localizar a coesão entre pares de sentenças, pois os itens neles contidos fazem parte, necessariamente, do mesmo padrão, já que estão arranjados na mesma ordem. Ao mesmo tempo, é necessário admitir que a coesão entre as sentenças não será feita exclusivamente por itens lexicais plenos (content words), porque os pacotes podem possuir itens gramaticais (function words) também. Dessa forma, no exemplo anterior, a ligação entre as duas sentenças é feita pelo pacote por inteiro, contando seus sete itens (‘fábrica de carbureto de cálcio de Iguatama’); já a ligação proporcionada por ‘cidade’ é desconsiderada, pois ela não faz parte de um pacote. Na verdade, porém, como o tamanho do pacote, para a análise, foi restrito a três palavras, no exemplo anterior há cinco pacotes desmembrados: fábrica de carbureto, de carbureto de, carbureto de cálcio, de cálcio de, cálcio de Iguatama’; entretanto, eles foram considerados como um único item lexical. Quanto maior o número de ligações, mais forte é a união entre as sentenças. O número mínimo, contudo, conforme colocado acima, é três, segundo Hoey. Por isso, qualquer um dos pacotes de três palavras mencionados acima seria suficiente para estabelecer uma união entre as duas sentenças, admitindo-se, como é feito aqui, que as ligações não precisem ser de caráter exclusivamente lexical. 6 Nos exemplos retirados do texto analisado, ‘0’ significa qualquer algarismo, de qualquer extensão. 8 A coesão lexical é um componente importante na identificação de segmentos em textos escritos. Berber Sardinha (1997a) usou um procedimento baseado na análise de ligações e uniões proposta por Hoey (1991) para localizar, por meio de computador, as divisões internas de três corpora de textos (formados por textos de negócio, de prosa acadêmica e de enciclopédia). Seus resultados indicaram que a coesão lexical é responsável por até 40% das divisões entre seções que ocorrem nesses textos. Muitos trabalhos aproveitam a coesão lexical de alguma forma, em conjunção com outras características textuais ou tipográficas, para localizar elementos da estrutura interna dos textos (Beeferman, Berger, & Lafferty, 1997; Flammia, 1996; Freitas, S. A. de & Lopes, 1994; Hearst, 1993; Heinonen, 1998; Kan, Klavans, & McKeown, 1997; Kozima, 1993; Litman & Passonneau, 1994, 1995; Morris & Hirst, 1991; Passonneau & Litman (s.d.; Yaari, 1997). A maioria usa métodos que não leva em conta a aparição dos itens em sentenças, ao contrário de Hoey (1991) e deste estudo, computando as repetições em blocos de texto de tamanho fixo, muitas vezes arbitrário (vide Berber Sardinha, 1997a, para uma resenha crítica desses procedimentos). 3.3. Conjuntos lexicais Além da coesão lexical propiciada pela recorrência de pacotes lexicais, outro elemento que evidencia a unidade do segmento é o conjunto de palavras compartilhadas pelas sentenças do segmento. Stubbs (2001) chama de lexical sets as palavras que tipicamente acompanham os nódulos de colocações. Aqui, os conjuntos lexicais não são restritos aos nódulos das colocações, ou a uma posição específica em relação aos pacotes – eles podem, sim, ocorrer em qualquer posição da sentença. Os conjuntos lexicais, segundo Stubbs, mostram a preferência semântica (semantic preference) da colocação, indicando as palavras que mais co-ocorrem com um determinado item; algumas indicam preferências por palavras de cunho positivo, outras de cunho negativo, outras por associações de caráter ideológico, outras ainda se associam ao redor dos diversos sentidos do item. Os conjuntos lexicais oferecem evidências claras do conteúdo ideacional do texto, indicando o campo (field), que é uma das variáveis do registro, segundo a Lingüística Sistêmico-Funcional. Halliday (1989) define campo assim: The field of discourse refers to what is happening, to the nature of the social action that is taking place; what is it that the participants are engaged in, in which the language figures as some essential component. (p. 12) O campo fica visível nas escolhas lexicais. Essas escolhas podem ser naturalmente agrupadas em conjuntos lexicais que revelam a preferência semântica do texto, de parte dele ou mesmo de uma palavra. Assim, por exemplo, Eggins e Martin (Eggins & Martin, 1997, p.249), ao analisarem um texto, chamaram de ‘qualidades pessoais’ um conjunto lexical (lexical strings)7 que continha palavras como ‘kindness, patience, confidence, respect’ e de ‘controle’ um outro que possuía os itens ‘authority, firm, harsh, command, permission’. Assim, resumindo a discussão acima, do ponto de vista metodológico: • 7 Serão retirados do texto pacotes lexicais de três palavras, pois eles são Chamados por eles de lexical strings. 9 • • • • • freqüentes o bastante para serem abundantes, mas ao mesmo tempo não são pequenos demais para atrair fragmentos não informativos em demasia. Três ligações lexicais (links) entre sentenças são suficientes para uni-las (bond) (Hoey, 1991). Sentenças unidas tendem a formar um conjunto de texto coeso, mesmo que estejam originariamente muito distantes uma das outras. Os pacotes de três palavras criam três ligações, não necessariamente de cunho lexical (content words), entre sentenças. Em analogia ao fenômeno discutido em Hoey (1991), podemos considerá-las unidas. A coesão forma blocos de texto que possuem relação com as divisões internas do texto (Berber Sardinha, 1997a). A identificação dessa coesão permite a localização de segmentos no texto. Blocos de sentenças que compartilhem pacotes entre si podem se considerados um segmento coeso. Os conjuntos lexicais, que são formados pelas palavras constantes no segmento, são indicativos da preferência semântica do segmento. 4. Metodologia 4.1. Texto para análise O texto analisado é um relatório anual de negócios publicado na década de 1990 por uma empresa de grande porte localizada no Brasil. O relatório foi retirado do corpus do projeto DIRECT. A escolha desse tipo de texto se deu porque os relatórios são objetos importantes da comunicação empresarial, que refletem o desempenho da empresa durante o ano. O texto possui 5019 palavras (tokens) e 1532 formas (types). É assumido aqui que o texto selecionado é um exemplar típico do gênero a que pertence. 4.2. Extração dos pacotes e dos conjuntos lexicais Os pacotes, os conjuntos e os segmentos foram extraídos usando rotinas para utilitários Unix, como grep, tr, sed, além de programas em perl e awk, que são linguagens de programação específicas para lidar com texto. Todas as rotinas foram executadas no ambiente Windows, usando um emulador de Unix (cygwin; vide Berber Sardinha, 2004 para uma explicação desse emulador e de alguns utilitários na pesquisa com corpora eletrônicos). Basicamente, os procedimentos foram os seguintes: • • • • Pré-processamento do texto: várias tarefas, tais como: eliminação de pontuação de siglas e abreviaturas, eliminação de espaços em branco seguidos, formatação do texto de tal forma que cada sentença ocupe apenas uma linha do arquivo. Identificação dos pacotes: Listagem de todos os pacotes de três palavras do texto. Segmentação: Identificação das sentenças em que ocorriam os pacotes. Exame dos segmentos: Concordância dos pacotes, para observação dos padrões formados por eles e listagem dos conjuntos lexicais presentes nos segmentos. 5. Análise e interpretação No total, foram identificadas 83 pacotes com freqüência igual ou maior do que três. Destes, apenas 72 ocorriam em duas sentenças ou mais (algumas ocorriam mais de uma vez por sentença). A posição de cada um dos 72 pacotes foi mapeada, o que permitiu localizar 72 segmentos no texto. A listagem das sentenças em que ocorrem cada um dos 10 segmentos aparece no anexo C. A listagem abaixo traz os 72 segmentos identificados no texto. A coluna de números indica o tamanho do segmento, isto é, em quantas sentenças o pacote ocorreu. Fazer em 3 colunas com linhas verticais separando as colunas 11 Freq. Pacote 11 0 0 0 7 milhares de cruzeiros 7 em milhares de 7 de 0 a 7 carbureto de cálcio 6 0 milhões de 5 white martins nordeste 5 sociedade anônima white 5 rio de janeiro 5 período de 0 5 milhões de dólares 5 de carbureto de 5 de 0 milhões 5 anônima white martins 5 0a0 4 real de 0 4 poder aquisitivo da 4 para os exercícios 4 os exercícios findos 4 no período de 4 moeda em 0 4 imposto de renda 4 igp 4 evolução do lucro 4 em 0 0 Freq. Pacote 4 de acordo com 4 da white martins 4 da sociedade anônima 4 da moeda em 4 da fábrica de 4 aquisitivo da moeda 4 a white martins 4 a longo prazo 3 s a white 3 realizável a longo 3 que a empresa 3 prevenção de acidentes 3 por valores traduzidos 3 plano de expansão 3 países da américa 3 para os estados 3 para o país 3 os estados unidos 3 origens e aplicações 3 o montante de 3 o lucro líquido 3 no realizável a 3 nas demonstrações financeiras Freq. Pacote 3 montante de cr 3 mesmo poder aquisitivo 3 líquido do exercício 3 lucro líquido do 3 geral de preços 3 fábrica de carbureto 3 e aplicações de 3 dos financiamentos em 3 do lucro líquido 3 do capital social 3 de cálcio de 3 crescimento real de 3 conselho de administração 3 com base na 3 ao mesmo poder 3 ano de 0 3 a evolução do 2 de produção de 2 age de 0 2 0 0 em 3 índice geral de 2 00e Pode-se perceber que alguns dos pacotes são na verdade desmembramentos de um pacote maior. Por exemplo, ‘milhares de cruzeiros’ e ‘em milhares de cruzeiros’ aparecem, no texto, juntas na forma do pacote ‘em milhares de cruzeiros’. A razão pela qual esse pacote não foi capturado por inteiro é porque os pacotes extraídos estavam restritos à extensão de três palavras. Levando-se isso em conta, vários pacotes poderiam ser combinados desse modo, o que reduziria o total de segmentos do texto. Entretanto, caso se tivesse optado por retirar colocações maiores, muitas das menores seriam perdidas. Por isso, é melhor retirar colocações menores e depois recombiná-las, se for o caso, do que retirar colocações maiores e perder as menores. O maior segmento é o formado pelo pacote ‘0 0 0’, que é na verdade uma seqüência de três números ou conjuntos de números. O segmento aparece abaixo (os números no início de cada sentença representam o número da sentença dentro do texto): 20 * capital social no ano de 0 apresentou um crescimento da ordem de cr$ 0 0 milhões em decorrência de aumento aprovado na ago/age de 0 0 0 e na age de 0 0 0, mediante incorporação de reservas e lucros acumulados. 21 em assembléia geral ordinária/extraordinária a ser aproximadamente realizada, será proposto aumento de capital social de cr$ 0 0 0 aprovado na age de 0 0 0, cuja homologação deverá ocorrer no mesmo dia da ago/age marcada para abril) para cr$ 0 0 0 0 0 mediante incorporação de reservas e lucros acumulados, com elevação do valor nominal da ação para cr$ 0,0 e subseqüente redução para cr$ 0 0, sendo esta levada a efeito através do sistema de desdobramento de ações, ensejando que cada grupo de 0 ações se transforme em 0 ações. desdobramento em questão gerará um razoável acréscimo de ações para negociação no mercado de capitais propiciando, assim, um considerável aumento da base acionária da empresa. 23 cr$ 0 0 milhões relativos ao lucro apurado no primeiro semestre e cr$ 0,0 por ação do capital de cr$ 0 0 0 0 propostos pelo conselho de administração, em reunião realizada em 0 0 0 27 as vendas brutas, durante o exercício de 0, atingiram o montante de cr$ 0 0 0 milhões, enquanto que no exercício anterior apresentaram um total de cr$ 0 0 milhões. 12 29 apresentamos, a seguir, a evolução das vendas brutas, no período de 0 a 0, representadas por valores traduzidos ao mesmo poder aquisitivo da moeda em 0 0 0, tomando-se por base o índice geral de preços (i g p ). 32 a evolução do lucro bruto no período de 0 a 0, representada por valores traduzidos, pela aplicação do índice geral de preços - i g p , ao mesmo poder aquisitivo da moeda em 0 0 0, pode ser demonstrada como segue: 37 demonstra-se, a seguir, a evolução do lucro operacional e do lucro líquido no período de 0 a 0, ambos representados por valores traduzidos ao mesmo poder aquisitivo da moeda em 0 0 0, também com base no índice geral de preços - i g p 185 o capital da sociedade, subscrito e integralizado é representado por 0 0 0 0 (0 0 0 0 em 0 de dezembro de 0) ações ordinárias normativas e ao portador, de valor nominal de cr$ 0,0 cada uma. 190 na qualidade de uma das patrocinadoras da prevuniâo, a sociedade registrou a título de contribuições a quantia de 0 0 0 (0 0 em 0). 204 em dezembro de 0, foi concluída a fase de construção da fábrica em iguatama - mg, cujo custo final objeto de arrendamento mercantil, atingiu a quantia de 0 0 0 206 no realizável a longo prazo e ativo circulante encontram-se registrados 0 0 0 e 0 0 0 respectivamente, relativos ao montante ainda não recebido do valor negociado das parcelas de arrendamento mencionadas no parágrafo anterior, de vez que de cada parcela a ser paga já se encontra deduzida parte dos valores a receber. A segmentação mostra o texto é na verdade formado por duas partes, uma que vai da sentença 20 à 37 e outra que vai da 185 à 206. Para os propósitos da análise levada a cabo aqui isso não apresenta um problema, pois os segmentos, por definição, não precisam ser contíguos. A unidade do segmento é fornecida, em primeiro lugar, naturalmente, pela presença do pacote ‘0 0 0’. Mas, além dela, há recorrência de vários outros itens lexicais que lhe emprestam coesão. Os dez itens mais freqüentes dentro do segmento são: 10 5 4 4 cr$ ações valores milhões 4 4 4 mesmo lucro geral 4 4 3 capital age índice Esse conjunto lexical remete ao domínio semântico das contabilidade da empresa, reforçando a unidade do segmento??. Note que esse domínio semântico prevalece mesmo quando algumas das ocorrências do pacote não se referem às finanças, mas a uma data, como é o caso de ‘em reunião realizada em 0 0 0’ (sentença 23) e ‘ao mesmo poder aquisitivo da moeda em 0 0 0’ (sentença 32). É importante observar, também, a padronização exibida pelos itens do conjunto lexical dentro do segmento. O primeiro item, ‘cr$’, que representa o cruzeiro, moeda brasileira em vigor na época em que o relatório foi publicado, ocorre em dois padrões bem nítidos: ora precedido de ‘de’, ora de ‘para’. Quatro das dez ocorrências de ‘cr$’ são como colocado imediato de ‘0 0 0’. Nas outras seis ocorrências, ‘cr$’ está associado a outros valores formados por dois dígitos (com ou sem vírgula), denotando valores menores do que os expressos por ‘0 0 0’. Isso sugere que mesmo quando o colocado não está associado diretamente ao pacote central do segmento, ele assume um sentido que é compatível com a unidade semântica que permeia o segmento. A concordância abaixo mostra as suas ocorrências dentro do segmento. m crescimento da ordem de ento de capital social de marcada para abril) para alor nominal da ação para subseqüente redução para do no primeiro semestre e ,0 por ação do capital de cr$ cr$ cr$ cr$ cr$ cr$ cr$ 0 0 milhões em decor 0 0 0 aprovado na ag 0 0 0 0 0 mediante i 0,0 e subseqüente re 0 0, sendo esta leva 0,0 por ação do capi 0 0 0 0 propostos pe 13 , atingiram o montante de cr$ 0 0 0 milhões, enqua apresentaram um total de cr$ 0 0 milhões. ador, de valor nominal de cr$ 0,0 cada uma. O segundo e o terceiro segmentos são formados pelo mesmo conjunto de palavras, ‘em milhares de cruzeiros’: 139 142 145 148 151 212 215 (em milhares de cruzeiros) (em milhares de cruzeiros, exceto o lucro por ação) (em milhares de cruzeiros) (em milhares de cruzeiros, exceto os dividendos por ação) (em milhares de cruzeiros) (valores em milhares de cruzeiros) (em milhares de cruzeiros) Este segmento é formado por trechos que acompanhavam tabelas e gráficos, que foram retirados do texto anteriormente à análise. Cada trecho foi considerado uma sentença, para fins da análise. A consistência do segmento é facilmente notada, pois o pacote aparece quase sempre sozinho na sentença. Por isso mesmo, o conjunto lexical contido nele é curto e recursivo: 7 7 2 2 1 1 1 milhares cruzeiros exceto ação valores lucro dividendos Claramente, o conjunto lexical remete ao domínio semântico das finanças corporativas, devido à expressão de grandes quantidades de moeda. O quarto segmento é aquele formado pelo pacote ‘de 0 a’, onde ‘0’ significa qualquer número: meu problema é o mesmo com respeito ao anterior 7 no exercício encerrado em 0 de dezembro de 0 a empresa levou a efeito, a exemplo do ano anterior, um desempenho excepcional. 21 em assembléia geral ordinária/extraordinária a ser aproximadamente realizada, será proposto aumento de capital social de cr$ 0 0 0 aprovado na age de 0 0 0, cuja homologação deverá ocorrer no mesmo dia da ago/age marcada para abril) para cr$ 0 0 0 0 0 mediante incorporação de reservas e lucros acumulados, com elevação do valor nominal da ação para cr$ 0,0 e subseqüente redução para cr$ 0 0, sendo esta levada a efeito através do sistema de desdobramento de ações, ensejando que cada grupo de 0 ações se transforme em 0 ações. desdobramento em questão gerará um razoável acréscim de ações para negociação no mercado de capitais propiciando, assim, um considerável aumento da base acionária da empresa. 24 a seguir, demonstramos a evolução do capital social e dividendos pagos e propostos, relativos ao período de 0 a 0, em valores nominais. 29 apresentamos, a seguir, a evolução das vendas brutas, no período de 0 a 0, representadas por valores traduzidos ao mesmo poder aquisitivo da moeda em 0 0 0, tomando-se por base o índice geral de preços (i g p ). 32 a evolução do lucro bruto no período de 0 a 0, representada por valores traduzidos, pela aplicação do índice geral de preços - i g p , ao mesmo poder aquisitivo da moeda em 0 0 0, pode ser demonstrada como segue: 37 demonstra-se, a seguir, a evolução do lucro operacional e do lucro líquido no período de 0 a 0, ambos representados por valores traduzidos ao mesmo poder aquisitivo da moeda em 0 0 0, também com base no índice geral de preços - i g p 72 * placa extraordinária, do consejo interamericano de seguridad, "por seu notável desempenho na prevenção de acidentes"quando atingiu o índice de 0% na redução de lesões incapacitantes no período de 0 a 0; 14 O pacote ‘de 0 a’ faz parte de um padrão maior, ‘ao/no período de 0 a 0’, conforme mostra a concordância abaixo. O domínio semântico expresso por ele é auto-evidente, qual seja, o de referência a um período de tempo. os, relativos endas brutas, o lucro bruto lucro líquido ncapacitantes ao no no no no período período período período período de de de de de 0 0 0 0 0 a a a a a 0, 0, 0, 0, 0; em valores nomi representadas p representada po ambos represent O conjunto lexical que predomina no segmento é mostrado na listagem abaixo. O conjunto indica a expressão de período de tempo associada a indicadores econômicos e de mercado, além de valores. 5 4 4 4 4 4 4 4 3 3 período índice valores mesmo geral evolução cr$ ações traduzidos seguir O próximo segmento tem como eixo o pacote ‘carbureto de cálcio’8. O domínio semântico expresso nele é auto-explicativo: carbureto de cálcio, que é um dos produtos manufaturados pela empresa. O pacote está associado a outros padrões maiores, como ‘fábrica de carbureto de cálcio em Iguatama’ e ‘substantivo + de/do carbureto de cálcio’, conforme mostra a concordância abaixo. Isso indica o campo expresso aí relaciona-se a uma fábrica de carbureto de cálcio, que foi inaugurada durante o período coberto pelo relatório, e ao manejo desse produto. inda destacar a crescente utilização oldagem para os estados unidos, além a inauguração da fábrica s, a fábrica aumentou nossa produção getal, constituem as máterias-primas ia da entrada em operação da fábrica 0) arrendamento mercantil da fábrica do de de de do de de carbureto carbureto carbureto carbureto carbureto carbureto carbureto de de de de de de de cálcio como agente dessulfu cálcio para o caribe, paíse cálcio de iguatama, em mina cálcio de 0 para 0 mil tone cálcio, a empresa está loca cálcio de iguatama, cidade cálcio em iguatama - mg O conjunto lexical predominante no segmento reforça essa impressão, conforme mostra a listagem abaixo. O único item em aparente dissonância no conjunto é ‘políticos’. Na verdade, ele foi usado ainda para se referir à presença de políticos na inauguração da fábrica (‘visitantes, entre empresários, políticos e jornalistas’) e para se referir à repercussão da inauguração da fábrica na imprensa (‘meios sociais, econômicos e políticos’). 8 Devido a restrições de espaço neste artigo, os segmentos, a partir deste, não serão mais mostrados na íntegra. 15 7 7 4 4 3 3 3 2 cálcio carbureto iguatama fábrica sua produção empresa políticos O segmento seguinte, na lista, é o formado pelo pacote ‘0 milhões de’, que indica (com uma única exceção) grandes quantidades de dinheiro, mais especificamente, de dólares, conforme mostra a concordância abaixo. Note que o pacote faz parte de um padrão que contém expressões de estimativa, como ‘em torno de’ e ‘da ordem de’. ue significou um investimento global com um investimento global em torno duas unidades, investimento em torno ompletou, neste exercício, o plantio o valor deste projeto é são previstos investimentos da ordem de de de de de de 0 0 0 0 0 0 milhões milhões milhões milhões milhões milhões de de de de de de dólares, trazendo inúmeros dólares, a fábrica aumentou dólares. árvores em 0 fazendas, que dólares. dólares. O domínio semântico presente nele é o de expressão de grandes volumes de investimento, conforme indica o conjunto lexical que compõe o segmento, mostrado abaixo. Os investimentos estão associados a projetos de fábricas, usinas e outros projetos: 6 5 3 3 2 2 2 2 2 2 milhões dólares investimento fábrica usina torno projeto neste mil iguatama O segmento a seguir, na lista, é formado em torno do pacote ‘white martins nordeste’, que é uma subsidiária da empresa. A concordância abaixo ilustra as ocorrências desse pacote no segmento. unidos e países da américa do sul, e a cial e técnica, bem como na subsidiária significativo aumento de produtividade. ite martins nordeste outra conquista da com a sua controlada sociedade anônima white white white white white martins martins martins martins martins nordeste, que exportou ele nordeste, com significativ nordeste outra conquista d nordeste, em 0, foi o merc nordeste, através de contr O domínio semântico expresso no segmento é o das atividades, produtos e circunstâncias relacionadas a essa subsidiária, em nível nacional e internacional, conforme mostra o conjunto lexical abaixo: 16 6 6 5 2 2 2 2 2 2 2 white martins nordeste uruguai recursos grafita exportou empréstimos como cilindros O segmento a seguir é o que se centra no pacote ‘sociedade anônima white’. A concordância abaixo ilustra suas ocorrências no segmento. éstimos contraídos com a sua controlada cientes. o conselho de administração da o exercício. aos senhores acionistas da examinamos os balanços patrimoniais da com propriedade a posição financeira da sociedade sociedade sociedade sociedade sociedade anônima anônima anônima anônima anônima white white white white white martins nordeste martins, dando c martins: examina martins levantad martins em 0 de Como se percebe, o pacote faz parte da expressão formal do nome da empresa, que por sua vez, está ligada a atributos da empresa (administração, acionistas, balanços, posição financeira). O conjunto lexical presente no segmento, mostrado abaixo, reforça essa idéia. 5 5 5 5 5 2 2 2 2 2 2 white sociedade martins dezembro anônima senhores resultados referentes recursos acionistas origens Além disso, o conjunto indica a expressão de um domínio semântico voltado à prestação formal de contas (‘resultados referentes...’) a um grupo de pessoas (‘senhores acionistas’). Essa prestação de conta é relacionada a um período circunscrito na legislação (‘exercício/s findo/s em ... de dezembro de ...’) , conforme mostra a concordância abaixo. Na concordância, percebe-se ainda o emprego de itens como ‘artigo 0, item v da lei ...’, ‘devidamente auditado’ e ‘respectivas demonstrações’, que remetem, novamente, à prestação de contas dentro das exigências legais. o artigo 0, item v da lei no 0, s referentes ao exercício findo nônima white martins levantados ursos para os exercícios findos sociedade anônima white martins de em em em em 0 0 0 0 0 de de de de de dezembro dezembro dezembro dezembro dezembro 17 de 0, examinou o relatório da a de 0, tudo devidamente auditado 0 e 0 e as respectivas demonstr de 0 e 0 os nossos exames foram de 0 e 0, e os resultados das s Esse segmento ilustra o fato de o domínio semântico contido nele não ser diretamente sinalizado a partir do pacote central. A prestação formal de contas, que é claramente expressa no segmento, não é concretizada exatamente no nome da empresa. Juntamente a ela, contudo, há toda uma série de recursos lexicais recorrentes que indicam, claramente, o domínio semântico presente no segmento. O segmento seguinte, formado pelo pacote ‘Rio de Janeiro’, indica o uso do nome da cidade, que é onde fica a sede da empresa, principalmente em conjunção à expressão de uma data no mês de fevereiro (que é quando ocorre a divulgação do relatório). O domínio semântico constante no segmento é o de datar o relatório. A concordância abaixo mostra as ocorrências do pacote: o e modernização das sedes das divisões calizadas nos estados de minas gerais e gerando novos empregos em suas regiões. es. rio de janeiro, 0 de fevereiro de 0 rio rio rio rio rio de de de de de janeiro, janeiro, janeiro, janeiro, janeiro, 0 de fevereiro de são paulo, recife vêm gerando novos 0 de fevereiro de 0 de janeiro de 0 0 * am e port empreg 0 rio O conjunto lexical do segmento é bastante curto, com apenas três itens com freqüência igual ou superior a dois. Ele corrobora os pontos levantados acima. 6 janeiro 5 rio 2 fevereiro A análise apresentada até este ponto deu conta dos oito primeiros segmentos contidos na lista. Entretanto, ela cobre, na verdade, os 15 primeiros segmentos (até ‘0 a 0’), já que os outros segmentos (do 10º ao 15º) ocorrem nas mesmas posições dos já discutidos. Removidas as redundâncias, esses 15 primeiros segmentos resultam em oito. O mapeamento dos segmentos é apresentado na tabela abaixo, juntamente com os domínios semânticos expressos neles, conforme discutidos acima. A tabela 1 apresenta os segmentos ordenados por ordem de primeira ocorrência no texto. Isso dá uma idéia da seqüência da demarcação dos segmentos ao longo do texto. Domínio semântico Período de tempo Volume de investimentos, projetos Datação do relatório Contabilidade da empresa Produto Subsidiária Finanças corporativas Prestação formal de contas Início do Término do segmento segmento (sentença) (sentença) 7 72 9 116 15 235 20 234 50 203 60 182 139 215 182 234 18 Esses oito segmentos atuam em 48 das 238 sentenças do texto9, o que equivale a 20% do total. Se todos os 72 segmentos forem computados, a abrangência dos segmentos passa a 95 sentenças, ou 40% do total. Isso significa que 50% (48/95) da abrangência total possível já foi atingida com a análise mostrada aqui. Além disso, significa que menos da metade das sentenças (95/238) pertencem a um segmento qualquer. Isso ocorre porque muitas sentenças tendem a pertencer a mais de um segmento. Os oito segmentos mostrados na tabela, somados, equivalem a 90 sentenças10, o que dá um índice de compartilhamento de 1,9 (90/45) segmento por sentença. Levando-se em conta todos os 72 segmentos, esse índice cai para 1,2 11. Isso significa que os segmentos mais extensos (os discutidos aqui) são menos sobrepõem-se mais freqüentemente a outros. Os menores, por sua vez, tendem a ocupar trechos do texto que são independentes de outros segmentos. 6. Discussão Os segmentos, no seu conjunto, indicam a progressão dos elementos internos do texto. Antes de mais nada, o relatório situa seu conteúdo num período de tempo definido. Logo depois, trata dos investimentos e dos projetos da empresa. A datação do relatório é imprimida logo depois. A contabilidade da empresa, em termos de quantias de dinheiro gastas e aplicadas, surge a seguir. Depois, é introduzido um dos produtos principais da empresa, que recebeu relevância no ano anterior. Segue-se a isso um destaque a uma nova fábrica inaugurada pela empresa. O relatório encerra-se com um retrato das finanças corporativas e prestação formal de contas ao acionistas das empresas. Essa visão geral dos segmentos é congruente com o que se espera de um relatório anual de negócios. Cada uma das partes contribui para a expressão dos assuntos principais do ano empresarial. É importante realçar que o encadeamento dos segmentos, na descrição acima, não é linear. Quando se diz que ‘o segmento vem a seguir’, na verdade a intenção é exprimir que o segmento ‘se inicia a seguir’, mas não que ele termine naquele ponto onde o próximo se inicia: cada um dos segmentos distribui-se ao longo do texto compartilhando espaço, interrompendo, e retomando o conteúdo em outra oportunidade. Essa concepção de segmento é condizente com a experiência dos usuários da língua, que sabem que vários trechos de um mesmo texto podem lidar com o mesmo conteúdo, não de forma redundante, mas complementar, elaborando, expandindo, retomando, etc. o mesmo ponto: numa mesma área do texto (sentença, parágrafo, seção, etc.) são realizados diversos sentidos. Segundo Martin e Eggins essa pluralidade sugere que: a text is the weaving together of different strands of meaning’ if we ask ... what [a text] ‘is about’ (that is, what it means), we need to recognize that it is about more than one thing at a time. (p.233) O panorama revelado pela análise empreendida aqui é mais condizente com a organização do texto, do que com a sua estrutura: a organização do texto é um nível de arranjo dos elementos que permite variação e que não impõe ordenação pré-estabelecida 9 Isto é, 48 ‘sentence types’; não se trata, portanto, da soma da extensão de todos os segmentos. Aqui, sim, trata-se de ‘sentence tokens’, isto é, o total da soma das sentenças de cada segmento, independente do fato de serem compartilhadas por mais de um segmento ou não. 11 Ou seja, 277/238, donde 277 são as sentenças somadas nos 72 segmentos e 238 é o total de sentenças do texto. 10 19 ou suposição de um arranjo ideal de segmentos (Berber Sardinha, 1997a; Hoey, 1991). É muito mais fruto da descrição ‘ascendente’ do texto (bottom up) do que ‘descendente’ (top-down). Por isso, os segmentos não podem ser equacionados aos ‘movimentos’ (moves) e passos (steps) da Análise de Gênero (eg. Swales, 1990). Os movimentos e passos são unidades que possuem uma função retórica em termos das estratégias de desenvolvimento do texto em direção ao seu propósito comunicativo. Eles possuem, portanto, uma ordenação explícita, que não deve, normalmente, ser rompida para que o intenção comunicativa não seja prejudicada. Essa noção poderia modificar o conceito de passo e movimento enquanto como blocos fechados: podemos passar a vê-los como elementos que ocorrem em vários locais, sem fronteiras mas com uma unidade temática garantida pela repetição lexical. Os segmentos, com sua unidade semântica e conceitual, não possuem tais características. Não há nada que impeça, a priori, por exemplo, que a apresentação das finanças ocorra antes da apresentação dos destaques dos produtos. Contudo, apenas uma análise mais ampla, com mais textos do mesmo gênero, poderia dizer se há uma ordenação típica desse segmentos (além de dizer se há segmentos comuns a vários textos do mesmo gênero). As preferências semânticas indicadas na tabela remetem-se, além da variável do campo do registro, também às relações (tenor), tocando em aspectos interpessoais. Por exemplo, o segmento que faz uma prestação formal de contas revela um posicionamento em relação aos interlocutores pretendidos, que são os investidores da empresa (e também seus funcionários). A presença de elementos da legislação nos conjuntos lexicais indica também uma referência ao mundo da auditoria fiscal, fazendo com que a empresa se mostre preocupada com a lisura de seu comportamento perante as suas finanças, dando segurança ao investidor. Em relação a uma maior aproximação entre Análise de Gênero e Lingüística de Corpus, a pesquisa relatada aqui tem a dizer que a busca de evidências lexicais e do mapeamento de sua distribuição só pode ser benéfica para dar mais solidez às descrições de gênero. Isso não precisa ficar restrito à maneira mostrada nessa pesquisa. A repetição lexical que suscita os segmentos pode servir para uma análise de gênero baseada em ‘moves’ e ‘steps’ pode ser usada como um meio de identificar fronteiras internas para serem classificadas funcionalmente. Outros modos de identificar relações lexicais e atribuirlhes significância genérica são benvindos e devem ser tentados. Gledhill (1995) e Luzon Marco (1998), por exemplo identificaram a padronização típica (em torno de itens gramaticais) de gêneros da área médica. Gledhill (2000a), com base nos seus achados, propõe que a fraseologia seja um elemento constitutivo do discurso, num nível retórico, pois ela organiza a representação dos conteúdo e do sentido do texto. Segundo ele, a fraseologia, ao contrário do que se supõe, não é uma manifestação de um nível ‘baixo’ da linguagem, que atua na léxico-gramática e no fraseado (wording) apenas, mas revelador da própria cultura: ‘We can conceive of collocations as cultural pieces of information, Dawkins ‘memes’ transmitted from one researcher to the next. (…) ‘Memes’ take the form of any small cultural entity that can be remembered as a unit such as a snatch of song, a recipe, a proverb. We would argue that just like memes, collocations can suggest larger units and they are usually transmitted whole from one speaker to the next.’ (p.132) De forma geral, a formação dos segmentos pode ser vista como um processo de coesão 20 em torno do padrão. Isso já foi antecipado pelos vários estudos que trataram do papel da coesão lexical (e de outros tipos) na formação do texto (Berber Sardinha, 1995, 1997b, c, 1999; Halliday & Hasan, 1985). Mas uma diferença importante entre aqueles estudos e o presente é que naqueles os itens lexicais podiam estar em qualquer posição em relação aos demais na formação dos elos coesivos. Ou seja, podiam ou não estar unidos na forma de pacote ou padrão recorrente. Aqui, pelo contrário, os itens estavam próximos uns aos outros, formando pacotes. A inspeção do ambiente ao redor dos pacotes, contudo, revelou que a padronização existente no segmento não se restringe somente ao pacote. Há, na verdade, uma padronização recorrente, com outros itens lexicais, capturada na forma de conjuntos lexicais, que se associam ao pacote de modo mais ou menos próximo. 7. Comentários finais O objetivo da pesquisa relatada aqui foi o de localizar os segmentos, ou elementos da estrutura interna de um texto de um gênero específico, com base em evidência lexical. A evidência lexical utilizada foi a presença de pacotes lexicais (seqüências recorrentes e fixas de palavras) e de conjuntos lexicais (palavras que recorrem sem posição fixa dentro do segmento). Ambos propiciam o estabelecimento de unidade interna no segmento, que é notada pela preferência semântica indicada pelo léxico. Os segmentos assim identificados parecem ser indicativos da estrutura interna (staging) do gênero ‘relatório anual de negócios’. Durante a interpretação dos resultados, foi apresentada evidência de que esse parece ser o caso. Entretanto, somente uma análise de mais exemplares do mesmo gênero, formando um corpus maior, poderá confirmar isso. Pelo menos um dos segmentos, ‘subsidiária’, não é, claramente, aplicável à realidade de todas as empresas, portanto não pode ser um segmento canônico ao gênero. Os analista de gênero podem se servir dos recursos apresentados neste trabalho a fim de obter mais subsídios lingüísticos para efetuar a demarcação das unidades internas genéricas. É preciso aceitar, contudo, uma visão organizacional não linear do texto, conforme discutido acima. Uma objeção que se pode fazer em relação ao tipo de análise apresentada aqui é que ela apresenta apenas a temática dos segmentos, enquanto a Análise de Gênero ocupa-se de outros aspectos além da temática, notadamente com a função retórica ou estratégica representada nas unidades estruturais do gênero. De fato, o componente mais saliente da segmentação, conforme tratada aqui, é o campo (field), mas não é o único. Os segmentos podem ser interpretados de outras maneiras, realçando seu conteúdo interpessoal, por exemplo. A proposta colocada em prática aqui pretende ter feito uma contribuição no sentido de aproximar a Lingüística de Corpus e a Análise de Gênero. A padronização já está amplamente documentada como um elemento fundamental da organização da língua. Aqui, foi relatada evidência que sugere a sua relação também com o texto e o gênero, demarcando os estágios (stages) do desenvolvimento genérico. O argumento defendido no trabalho é que embora tenham crescido em separado, sem muito contato entre si, as duas áreas têm muito a beneficiar uma da outra. A Lingüística de Corpus, aproximandose do texto, e a Análise de Gênero, da padronização. 21 8. Anexos (1) Extração de abreviaturas #programa: findabbrevs grep -w -o -e '[A-Z][a-z]\.' -e '[A-Z][a-z][a-z]\.' -e '[A-Z][a-z][a-z][a-z]\.' white | sort | uniq > abbrevs grep -o -e ' [a-z][a-z]\.' -e ' [a-z][a-z][a-z]\.' -e ' [a-z][a-z][a-z][a-z]\.' white | sort | uniq > abbrevs-possible (2) Rotina em perl para itemização do texto #!/usr/bin/perl #rotina perl para itemização #token.pl while (<>) { $text .= $_; #reads the text and stores it in a variable } $_ = $text; s/([A-Z])\.([A-Z])/$1 $2/g; s/([A-Z])\./$1 /g; s/([0-9])\.([0-9])/$1 $2/g; s/([0-9])\./$1 /g; s/Cia\./Cia /g; s/Ltda\./Ltda /g; s/ ton\./ton /g; #s:\n: :g; #switches all newlines for spaces s/\./\.\n/g; #switches all the periods for newlines s/\n\s+/\n/g; #limpar espaços no início das linhas s/\n([a-záéíóúãõàâêô])/ $1/g; #juntar linhas que começam com letras minúscula #s/ / /g;#squeeze multiple spaces print; exit(0); (3) Itemização do texto com a rotina acima, para colocar cada sentença numa linha #arquivo: itemizar #Itemização do arquivo ‘texto’ perl token.pl texto > texto.tok.0 (4) Eliminação de números do texto #arquivo: numeros # eliminação de números do texto tr '[0-9]' '0' < texto.tok | sed -e 's/0[0]*/0/g' > texto.tok.0 (5) Extração de pacotes de três palavras #arquivo: threegrams #Adaptado de: #Autor: Ken Church, em ‘Unix for poets’: # www.stanford.edu/class/cs224n/handouts/kwc-unix-for-poets.pdf #-------# lista os pacotes de três palavras do texto itemizado e # filtra lista para exibir apenas aqueles pacotes que # tenham freqüência maior do que um número mínimo. # As freqüências que são ignoradas devem ser digitadas # no espaço [12] na penúltima linha. # [12] significa ‘ignore freqüência 1 e freqüência 2’ tr -sc 'a-zA-ZáéíóúãõâêôçàüÁÉÍÓÚÃÕÂÊÔÇÀÜ0$' '\012' < texto.tok.0 > temp.words tail +2 temp.words > temp.nextwords tail +3 temp.words > temp.3nextwords paste temp.words temp.nextwords temp.3nextwords | sort | uniq -c > temp.threegrams sort -nr < temp.threegrams | tr '\t' ' ' | grep -v -e '[12]' > list.threegrams wc -l list.threegrams >> list.threegrams (6) Segmentação do texto 22 #arquivo: segmentar # faz segmentação do texto. O arquivo que contém o texto deve se chamar ‘texto’ # o resultado é salvo em dois arquivos: texto.segmented e texto.segmented.list, # que trazem a mesma informação com formatação diferente tr -s " " < texto.tok.0 > temp tr "[A-ZÃÕÁÉÍÓÚÀÂÊÔÇÜ]" "[a-zãõáéíóúàâêôçü]" < temp > texto.tok.0 nl texto.tok.0 > texto.nl cut -c9- list.threegrams | sed '$d' > list.threegrams.temp sed -e 's:^\(.*\):grep texto.linefreqs -c "\1\" texto.nl >> temp3:g' list.threegrams.temp > rm temp3 sh texto.linefreqs paste temp3 list.threegrams.temp | sort -nr > list.threegrams.tab tr "\t" "=" < list.threegrams.tab > list.threegrams.2 sed 's/\#/[0-9]*/g' list.threegrams.2 | sed -e 's:^\(.*\):echo \"===== \1\ =====" >> texto.segmented:g' > temp1 cut -f2 list.threegrams.tab | sed 's/\#/[0-9]*/g' | sed -e 's:^\(.*\):grep -iw "\1\" texto.nl >> texto.segmented:g' > temp2 rm texto.segmented paste temp1 temp2 > temp tr "\t" "\n" < temp > dosegmentation.3 sh dosegmentation.3 head texto.segmented cut -f1 texto.segmented | sed 's/^====/\%====/g' | tr '\n' '\t' | tr "%" "\n" | sed 's/=====/ /g' | tr "=" "\t" | sed 's/^\t//' > texto.segmented.list (7) Rotina para fazer concordâncias dos segmentos #arquivo: concord #Autor: Ken Church, em ‘Unix for poets’: # www.stanford.edu/class/cs224n/handouts/kwc-unix-for-poets.pdf #faz concordância do arquivo ‘texto.segmento’ #palavra ou expressão deve ser digitada no espaço ‘xxx’ abaixo cut -f2 texto.segmento | tr '\n' ' ' | tr -s ' ' | awk '{i=0; while (m=match(substr($0, i+1), "xxx")){ i+=m printf("%40s%s\n", substr($0, i-40, i<=40 ? i-1 : 40), substr($0, i, 40))}}' (8) Listador de palavras do arquivo texto.segmento #arquivo: wordlist #Adaptado de: #Autor: Ken Church, em ‘Unix for poets’: # www.stanford.edu/class/cs224n/handouts/kwc-unix-for-poets.pdf #faz lista de palavras do arquivo ‘texto.segmento’ #e salva resultado no arquivo texto.segmento.wl tr -sc 'a-zA-ZáéíóúãõâêôçàüÁÉÍÓÚÃÕÂÊÔÇÀÜ$' '\012' < texto.segmento | sort | uniq -c | sort –nr > texto.segmento.wl (9) Listador de palavras com filtro que retira palavras gramaticais #arquivo: wordlist2 #faz lista de palavras do arquivo ‘texto.segmento’, retira palavras gramaticais #e salva resultado no arquivo texto.segmento.wl sh wordlist | sed -f stoplist.sed |head > texto.segmento.wl 23 (10) Arquivo com palavras gramaticais usado por wordlist2 acima #arquivo: stoplist.sed #cada longo espaço em branco abaixo é uma marca de tabulação: pressionar tecla Tab / a$/d / ao$/d / as$/d / aos$/d / com$/d / da$/d / das$/d / de$/d / do$/d / dos$/d / e$/d / em$/d / na$/d / nas$/d / no$/d / nos$/d / o$/d / os$/d / para$/d / por$/d / pelo$/d / pelos$/d / que$/d / se$/d / um$/d / uma$/d / à$/d / à$/d / é$/d # a partir daqui, aparece o alfabeto todo, de ‘a’ a ‘z’ / a$/d / b$/d # trecho omitido por motivo de espaço; usuário deve digitar os elementos faltantes # usando padrão dos anteriores / y$/d / z$/d (B) Resultado da segmentação – Sentenças em que cada segmento ocorre (arquivo texto.segmented; apenas trecho do arquivo é reproduzido aqui): ===== 11=0 0 0 ===== 20 * capital social no ano de 0 apresento 21 em assembléia geral ordinária/extraord 23 cr$ 0 0 milhões relativos ao lucro apu 27 as vendas brutas, durante o exercício 29 apresentamos, a seguir, a evolução das 32 a evolução do lucro bruto no período d 37 demonstra-se, a seguir, a evolução do 185 o capital da socieda, subscrito e inte 190 na qualidade de uma das patrocinadoras 204 em dezembrode 0, foi concluída a fase 206 no realizável a longo prazo e ativo ci ===== 7=milhares de cruzeiros ===== 139 (em milhares de cruzeiros) 142 (em milhares de cruzeiros, exceto o lu 145 (em milhares de cruzeiros) 148 (em milhares de cruzeiros, exceto os d 151 (em milhares de cruzeiros) 212 (valores em milhares de cruzeiros) 215 (em milhares de cruzeiros) ===== 7=em milhares de ===== 139 (em milhares de cruzeiros) 142 (em milhares de cruzeiros, exceto o lu 145 (em milhares de cruzeiros) 148 (em milhares de cruzeiros, exceto os d 151 (em milhares de cruzeiros) 212 (valores em milhares de cruzeiros) 215 (em milhares de cruzeiros) ===== 7=de 0 a ===== 24 7 no exercício encerrado em 0 de dezembr (C) Resultado da segmentação – Sentenças em que cada segmento ocorre (arquivo texto.segmented.list): 0 0 0 20 21 23 27 29 32 37 185 190 204 206 234 milhares de cruzeiros 139 142 145 148 151 212 215 em milhares de 139 142 145 148 151 212 215 de 0 a 7 21 24 29 32 37 72 carbureto de cálcio 50 59 77 78 126 127 203 0 milhões de 9 78 82 95 113 116 white martins nordeste 60 109 111 118 182 sociedade anônima white 182 220 232 233 234 rio de janeiro 15 81 96 221 235 período de 0 24 29 32 37 72 milhões de dólares 9 78 82 113 116 de carbureto de 59 77 78 127 203 de 0 milhões 78 82 95 113 116 anônima white martins 182 220 232 233 234 0 a 0 24 29 32 37 72 real de 0 28 31 34 36 poder aquisitivo da 29 32 37 168 para os exercícios 141 144 147 233 os exercícios findos 141 144 147 233 no período de 29 32 37 72 moeda em 0 29 32 37 168 imposto de renda 36 102 164 165 i g p 28 29 32 37 findos em 0 141 144 147 233 exercícios findos em 141 144 147 233 evolução do lucro 30 32 33 37 em 0 0 23 29 32 37 de acordo com 153 186 233 234 da white martins 60 118 125 129 da sociedade anônima 220 232 233 234 da moeda em 29 32 37 168 da fábrica de 9 77 127 203 aquisitivo da moeda 29 32 37 168 a white martins 14 60 132 199 a longo prazo 157 165 170 206 índice geral de 29 32 37 s a white 14 132 199 realizável a longo 157 170 206 que a empresa 53 93 95 prevenção de acidentes 70 72 74 por valores traduzidos 29 32 37 plano de expansão 76 80 178 países da américa 59 60 120 para os estados 59 60 120 para o país 9 41 122 os estados unidos 59 60 120 origens e aplicações 144 233 234 o montante de 22 27 36 o lucro líquido 36 167 186 no realizável a 157 170 206 nas demonstrações financeiras 167 199 209 montante de cr 22 27 36 mesmo poder aquisitivo 29 32 37 líquido do exercício 22 167 186 lucro líquido do 22 167 186 25 geral de preços 29 32 37 fábrica de carbureto 77 127 203 e aplicações de 144 233 234 dos financiamentos em 179 180 211 do lucro líquido 22 33 37 do capital social 19 24 187 de cálcio de 77 78 127 crescimento real de 28 31 34 conselho de administração 17 23 219 com base na 158 160 207 ao mesmo poder 29 32 37 ano de 0 20 77 205 a evolução do 24 32 37 de produção de 108 112 age de 0 20 21 0 0 em 185 190 0 0 e 20 206 Referências bibliográficas Barbara, L., & Scott, M. (1999). Homing on a genre: invitations for bids. In F. BargielaChiapini & C. Nickerson (Orgs.), Writing Business: Genres, media and discourse (pp. 227-254). New York: Longman. Batista, M. E. (1998). E-Mails na troca de informação numa multinacional: o gênero e as escolhas léxico-gramaticais. Dissertação de Mestrado Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Beeferman, D., Berger, A., & Lafferty, J. (1997). Text segmentation using exponential models. Unpublished Manuscript, School of Computer Science, Carnegie Mellon University, Available from cmp-lg archive. Berber Sardinha, A. P. (1995). A preliminary study into patterns of lexis of business texts. In B. Warvik, S.-K. Tanskanen, & R. Hiltunen (Orgs.), Organization in Discourse. Proceedings from the Turku Conference (pp. 157-166). Turku: Abo Akademi/University of Turku. Berber Sardinha, A. P. (1997a). Automatic identification of segments in written texts. Tese de Doutoramento, AELSU/English Department, University of Liverpool, UK. Disponível em http://lael.pucsp.br/~tony . Berber Sardinha, A. P. (1997b). Lexical co-occurrence: A preliminary investigation into business English phraseology. Letras & Letras, 13, 15-24. Berber Sardinha, A. P. (1997c). Lexical cohesion and segmentation. Paper presented at the 24th International Systemic Functional Congress. University of Toronto, Toronto, Canada, 21 July 1997. Berber Sardinha, A. P. (1999). Looking at discourse in a corpus: The role of lexical cohesion. Proceedings of AILA 2000 on CD-ROM (Program No -157-4), 12th World Congress of Applied Linguistics (Available online at arxiv.org/ pdf/ cs.CL/ 0004016). Berber Sardinha, A. P. (2004). Lingüística de Corpus. São Paulo: Editoria Manole. Bhatia, V. K. (1993). Analysing Genre: Language Use in Professional Settings. London: Longman. Biber, D. (1988). Variation across Speech and Writing. Cambridge: Cambridge University Press. Biber, D., & Conrad, S. (1999). Lexical bundles in conversation and academic prose. In H. Hasselgard & S. Oksefjell (Orgs.), Out of Corpora - Studies in Honour of Stig 26 Johansson (pp. 181-190). Amsterdam/Atlanta,GA: Rodopi. Biber, D., & Conrad, S. (2000). What you need to know about academic writing Corpus data reveals the truth behind the genre. EL Gazette, 244, 8. Biber, D., Johansson, S., Leech, G., Conrad, S., & Finegan, E. (1999). Longman Grammar of Spoken and Written English. Harlow: Longman. Dudley-Evans, T. (1994). Genre Analysis: An approach to text analysis for ESP. In M. Coulthard (Org.), Advances in written text analysis (pp. 219-228). London: Routledge. Eggins, S., & Martin, J. R. (1997). Genres and registers of discourse. In T. A. van Dijk (Org.), Discourse as Structure and Process (pp. 230-256). London: Sage. Flammia, G. (1996). Corpus-based discourse segmentation of spoken dialogue. Doctoral Thesis Outline. Freire, M. M. (1995). Computer-mediated communication in the workplace. DIRECT Papers 22, São Paulo (Disponível online em http://lael.pucsp.br/direct). Freitas, A. C. de. (1997). América mágica, Grã-Bretanha real e Brasil tropical: um estudo lexical de panfletos de hotéis. Tese de Doutorado Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Freitas, S. A. de, & Lopes, J. G. (1994). Discourse Segmentation: Extending the Centering Theory. Paper presented at the Conferencia Brasileira de Inteligencia Artificial 1994. Gerbig, A. (1996). Lexical and grammatical variation in a corpus. Frankfurt am Main: Peter Lang. Glaeser, R. (1995). Linguistic Features and Genre Profiles of Scientific English. Frankfurt am Main: Peter Lang. Gledhill, C. (1995). Collocation and genre analysis – The phraseology of grammatical items in cancer research abstracts and articles. ZAA (Zeitschrift fuer Anglistik und Amerikanistik), 1, 11-36. Gledhill, C. (2000a). Collocations in Science Writing. Tuebingen: Gunter Narr. Gledhill, C. (2000b). The discourse function of collocation in research article introductions. English for Specific Purposes, 19, 115-135. Halliday, M. A. K. (1985). An Introduction to Functional Grammar. London: Arnold. Halliday, M. A. K. (1989). Spoken and written language. Oxford: OUP. Halliday, M. A. K., & Hasan, R. (1985). Language, context, and text: aspects of language in a social-semiotic perspective. Oxford: Oup. Harris, S. (1988). Court discourse as genre: some problems and issues. In R. P. Fawcett & D. Young (Orgs.), New developments in systemic linguistics (Vol. 2 - Theory and application, pp. 94-115). London / New York: Pinter. Hasan, R. (1984a). Coherence and cohesive harmony. In J. Flood (Org.), Understanding Reading Comprehension: Cognition, Language and the Structure of Prose (pp. 181-219). Newark, Delaware: International Reading Association. Hasan, R. (1984b). The nursery tale as a genre. Nottingham Linguistic Circular, 13, 71102. Hearst, M. (1993). Texttiling: A quantitative approach to discourse segmentation. Project Sequoia technical Report 24/93; University of California at Berkeley. (Disponível online em cs-tr.cs.berkeley.edu) Heinonen, O. (1998). Optimal Multi-Paragraph Text Segmentation by Dynamic Programming. Proceedings of COLING-ACL '98, pp. 1484-1486, Montreal, Canada. Henry, A., & Roseberry, R. L. (2001). A narrow-angled corpus analysis of moves and strategies of the genre: 'Letter of Application'. English for Specific Purposes, 20, 27 153-167. Hoey, M. (1986). The discourse colony: A preliminary study of a neglected discourse type. In M. Coulthard (Org.), Talking about Text - Studies Presented to David Brazil on his Retirement (Discourse Analysis Monographs 13, pp. 1-26). Birmingham: ELR/University of Birmingham. Hoey, M. (1991). Patterns of Lexis in Text. Oxford: Oxford University Press. Hoey, M. (1993). Introduction. In M. Hoey (Org.), Data, Description, Discourse -Papers on the English Language in Honour of John McH Sinclair on his Sixtieth Birthday (pp. v-ix). London: HarperCollins. Hoey, M. (2001). Textual Interaction - An Introduction to Written Discourse Analysis. London: Routledge. Hopkins, A., & Dudley-Evans, T. (1988). A genre-based investigation of the discussion sections in articles and dissertations. English for Specific Purposes, 7, 113-120. Hyland, K. (1990). A genre description of the argumentative essay. RELC Journal, 21, 66-78. Kan, M.-Y., Klavans, J. L., & McKeown, K. (1997). Linear segmentation and segment significance. Unpublished manuscript. Dept of Computer Science and Center for Research on Information Access, Columbia University, NY, USA. (Disponível online em http:// xxx.lanl.gov/ file 9809020 v2) Kozima, H. (1993). Text segmentation based on similarity between words. Unpublished manuscript, University of Electro-Communications, Tokyo, Japan. Lee, D. Y. W. (1999). Modelling Variation in Spoken and Written Language: the MultiDimensional Approach Revisited. Dissertation de Ph.D. Inédita, Department of Linguistics and Modern English Language, Lancaster University, UK. Lima-Lopes, R. E. (2001). Estudos de transitividade em Língua Portuguesa: O perfil do gênero cartas de venda. LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Litman, D. J., & Passonneau, R. J. (1994). Empirical evidence for intention-based discourse segmentation. AT&T Bell Laboratories, Murray Hill, NJ, USA, and Department of Computer Science, Columbia University, USA, unpublished manuscript. Litman, D. J., & Passonneau, R. J. (1995). Combining multiple knowledge sources for discourse segmentation. Manuscript available from cmp-lg archive number 9505025. Lopes, M. C. (2000). Homepages institucionais em português e suas versões para o inglês: Uma análise baseada em corpus de aspectos lexicais e discursivos. Dissertação de Mestrado Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael). Luzon Marco, M. J. (1998). Phraseological patterns in medical discourse. The ESPecialist, 19, 41-57. Macedo, C. M. M. de. (1999). A reclamação e o pedido de desculpas: Uma análise semântico-pragmática de cartas no contexto empresarial. Tese de Doutorado Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Marshall, S. (1991). A genre-based approach to the teaching of report-writing. English for Specific Purposes, 10, 3-13. Martin, J. R. (1992). English Text. Philadelphia/Amsterdam: John Benjamins. Mauranen, A. (1998). Another look at genre: Corpus Linguistics vs Genre Analysis. Studia Anglica Posnaniensia, 32, 303-315. McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. 28 Morris, J., & Hirst, G. (1991). Lexical cohesion computed by thesaural relations as an indicator of the structure of text. Computational Linguistics, 17, 21-48. Nwogu, K. N. (1991). Structure of science popularizations: a genre-analysis approach to the schema of popularized medical texts. English for Specific Purposes, 10, 111123. Oliveira e Silva, A. L. de. (2000). A Interação escritor-leitor através de escolhas lingüísticas: Um estudo em textos de espiritualidade, auto-ajuda e de Chiara Lubich. Thesis de MA Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Paltridge, B. (1994). Genre analysis and the identification of textual boundaries. Applied Linguistics, 15, 288-299. Paltridge, B. (1996). Genre, text type, and the language learning classroom. ELT Journal, 50, 237-243. Passonneau, R. J., & Litman, D. J. (unknown year). Intention-based segmentation: Human reliability and correlation with linguistic cues. Department of Computer Science, Columbia University, USA, and AT&T Bell Laboratories, Murray Hill, NJ, USA, unpublished manuscript. Salager-Meyer, F. et al. (1989). Principal components analysis and Medical English discourse: an investigation into genre analysis. System, 17, 21-34. Sampson, G. (1987). Evidence against the 'grammatical/ungrammatical' distinction. In W. Meijs (Org.), Corpus linguistics and beyond - Proceedings of the 7th International Conference on English Language Research on Computerized Corpora (pp. 219-226). Amsterdam: Rodopi. Sampson, G. (2001). Empirical Linguistics. London: Continuum. Santos, V. A. dos. (in prep). Fraseologia dos manuais de informática. Tese de Doutorado Inédita, LAEL, PUC/SP. Santos, V. B. M. P. dos. (1998). Padrões interpessoais no gênero de cartas de negociação. Dissertação de Mestrado Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Scott, M. (2000a). Focusing on the text and its key words. In L. Burnard & T. McEnery (Orgs.), Rethinking Language Pedagogy from a Corpus Perspective - Papers from the Third International Conference on Teaching and Language Corpora (pp. 103-122). Frankfurt am Main: Peter Lang. Scott, M. (2000b). Mapping key words to problem and solution. In M. Scott & G. Thompson (Orgs.), Patterns of Text? In Honour of Michael Hoey (pp. 109-128). Amsterdam: John Benjamins. Silva, M. S. F. da. (1999). Análise lexical de folhetos de propagandas de escolas de línguas e as representaçÓes de ensino. Dissertação de MA Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Sinclair, J. McH. (1991). Corpus Concordance Collocation. Oxford: Oxford University Press. Sinclair, J. McH., & Coulthard, R. M. (1975). Towards and Analysis of Discourse - The English Used by Teachers and Pupils. Oxford: Oxford University Press. Stubbs, M. (1996). Text and Corpus Analysis -- Computer-Assisted Studies of Language and Culture. Oxford: Blackwell. Stubbs, M. (2001). Words and Phrases - Corpus-based studies of lexical semantics. Oxford: Routledge. Swales, J. M. (1990). Genre Analysis - English in Academic and Research Settings. Cambridge: Cambridge University Press. Ventura, C. (2000). Análise temática em estudos de tradução: O caso dos relatórios 29 anuais de empresas brasileiras. Dissertação de MA, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Vian Jr, O. (1997). Conceito de gênero e análise de textos de vídeos institucionais. Dissertação de MA Inédita, LAEL, PUC/SP (Disponível online em http://lael.pucsp.br/lael) Yaari, Y. (1997). Segmentation of expository texts by hierarchical agglomerative clustering. Faculty of Mathematics and Computer Science, Bar-Ilan University, Israel. (Disponível online em http:// xxx.lanl.gov/ cmp-lg file 9709015). 30