Informatividade, interatividade e narratividade na reunião de negócios – Análise Multidimensional e palavras-chave i Tony Berber Sardinha* Pontifical Catholic University of São Paulo (PUCSP) DIRECT Papers 52 2004 ISSN 1413-442x Publicado por LAEL, Pontifícia Universidade Católica de São Paulo, Brasil, e AELSU, University of Liverpool, United Kingdom. http://lael.pucsp.br/direct 1. Introdução O objetivo deste trabalho é apresentar uma metodologia para análise de discurso por meio de computador. A metodologia consiste da identificação de palavras-chave (Scott, 1998) e da interpretação destas palavras segundo as dimensões de variação propostas por Douglas Biber segundo o procedimento conhecido por Análise Multidimensional (Biber, 1988, 1995). O objeto de estudo é uma reunião de negócios, escolhida porque é um gênero que embora tenha recebido considerável atenção na literatura, ainda não foi investigado segundo a proposta delineada aqui. Primeiramente é apresentada uma revisão da literatura voltada a reuniões de negócio, seguida de uma discussão acerca de palavras-chave e análise multidimensional. Seguem detalhes sobre o corpus, os procedimentos de análise, a apresentação e interpretação dos resultados e comentários finais. 2. Pesquisa em reunião de negócios A reunião de negócios é um dos gêneros empresariais mais investigados. Vários trabalhos foram publicados descrevendo a reunião por meio de uma ampla gama de métodos (Bargiela Chiappini e Harris, 1997; Berber Sardinha, 1991; Collins e Scott, 1997; Schwartzman, 1989; Williams, 1988; Barbara, 2000; Atkinson et al., 1978; Berber Sardinha, 1993; Souza e Silva, 1994; Yamada, 1997; Grindsted, 1997). A reunião insere-se num tipo mais geral de evento, a negociação oral. Assim, além desta literatura específica voltada a reuniões, há ainda uma produção significativa centrada na análise da interação oral em negociações (Boden, 1994; Fant, 1990; Graham, 1979; Graham e Andrews, 1987; Graham et al., 1992; Yamada, 1992; Drew e Heritage, 1992; Kimura, 1998). Apesar desta variedade, com algumas exceções, a tônica destes estudos é na aplicação de * Agradeço ao CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) pelo apoio mediante a bolsa Produtividade em Pesquisa número 350455/2003-1. metodologias de análise de discurso de cunho descendente. Há basicamente dois tipos de orientação para análise de dados na investigação do discurso: descendente e ascendente. Na primeira, o procedimento geral consiste da elaboração (ou adoção) de um repertório de categorias que será aplicado aos dados, de tal modo que os dados devam ser encaixados dentro destas categorias prévias. O procedimento básico do analista é a de buscar nos dados exemplos que ilustrem e/ou validem as categorias previamente elencadas. Já no segundo tipo de orientação, a ascendente, não há uma categorização a priori; a interpretação dos dados segue outros procedimentos, tais como o estabelecimento de relações entre unidades de análise, a observação de padrões recorrentes e a partição dos dados em unidades maiores, coerentes. A análise ascendente é menos freqüente do que a descendente. Dentre os trabalhos disponíveis nesta linha, um que se destaca é Collins e Scott (1997). Eles analisaram cinco reuniões, duas em português e três em inglês, totalizando um corpus de 26 mil palavras. A análise centrou-se na descrição da temática (aboutness) e foi conduzida por meio da identificação de palavras-chave (aquelas cuja freqüência é significativamente diferente em relação a uma referência; vide discussão abaixo), as quais foram extraídas a partir do contraste com corpora de referência. As palavras-chave foram depois filtradas, para eliminar palavras gramaticais, interpessoais e deslexicalizadas (‘get’, ‘make’, etc.). As palavras restantes então tiveram seus colocados identificados, o que permitiu aos autores desenhar redes, chamadas de ‘paisagens lexicais’, que indicavam graficamente a distribuição e inter-relação entre as palavras-chave em cada reunião. Os resultados permitiram aos autores tecer generalizações acerca dos temas e das preferências de cada reunião. Por exemplo, a paisagem lexical de uma reunião de negócios em português revelou duas redes de palavras-chave, uma centrada na palavra ‘fornecedor’ e os participantes da reunião, e a outra girando em torno de conceitos relacionados a ‘treinamento’ (suporte, informação, qualidade, etc.). A escassez de trabalhos na linha ascendente de análise de dados deve-se a vários fatores. O principal deles refere-se à dificuldade em identificar de modo abrangente as unidades iniciais da análise. Por exemplo, se as unidades iniciais de análise são os verbos modais, é necessário um levantamento minucioso de todas as ocorrências deste tipo de verbo no corpus. Se o corpus for grande, os problemas são evidentes. Um aliado da análise de discurso ascendente é o computador. A contrário do analista humano, o computador não se cansa; uma vez programado, ele fará a busca das unidades de análise no corpus até que todas sejam encontradas, não importando a extensão dos dados (descontados os problemas de memória e capacidade de processamento e armazenamento, naturalmente). Há, contudo, vários problemas que concorrem para a falta de aplicações do computador na Análise de Discurso, todos relacionados com o simples fato de que o computador não entende a linguagem humana, e, portanto, não consegue interpretá-la. Deste modo, o analista continua sendo indispensável, mesmo na análise de cunho ascendente. Enquanto os computadores não entenderem a linguagem e serem capazes de interpretá-la, o analista de discurso que quiser se valer de computadores terá de fazê-lo através de ferramentas, entre as quais, uma das mais comuns é a lista de palavras. A lista é comum porque é tida como fonte rica de informação e catalogação ordenada de dados provenientes de textos escritos e transcrições de fala (Barnbrook, 1996). Também é comum porque é produzida facilmente pelo computador com um mínimo de programação; a arquitetura do computador torna a identificação, contagem, e listagem de elementos discretos, tais como palavras, uma tarefa trivial. Para o ser humano, ao contrário, a produção de listas ordenadas é uma tarefa laboriosa. Estudos anteriores à era computacional chegavam a empregar milhares de pessoas na produção de listas de palavras (Thorndike, 1921). Mesmo sendo trivial para o computador, a lista de palavras não é inútil para o analista de discurso. Ela permite acesso organizado às escolhas lexicais presentes no corpus de estudo e, desse modo, é de valia para a investigação de vários aspectos discursivos (vide discussão abaixo). 3. Palavras-chave Um tipo de lista de palavras que demonstra grande potencial para a Análise de Discurso é a lista de palavras-chave. Palavras-chave são aquelas cujas freqüências são estatisticamente diferentes no corpus de estudo em relação ao corpus de referência. As palavras-chave são escolhidas dentre as formas constantes do vocabulário total do corpus de estudo, ou seja, nenhuma palavra é chave se não tiver ocorrido no corpus de estudo (mas pode não ter ocorrido no corpus de referência). Um termo mais preciso seria ‘formas chave’, pois dois itens (‘tokens’) da mesma forma (‘type’) apresentam-se como a mesma palavra chave. As palavras-chave constituem-se num meio computacional de identificação das escolhas lexicais relevantes presentes no corpus de estudo, e como estas escolhas permitem a caracterização do mesmo. O conceito de escolha é vital para a caracterização textual, conforme afirma Halliday (Halliday, 1975, p.123): ‘What are the essential properties of text? It is meaning, and it is choice’ A lista de palavras-chave é, portanto, um registro ordenado e extensivo das escolhas lexicais estatisticamente significativas presentes no corpus de estudo, que podem levar a uma caracterização do texto por meio da identificação das escolhas lexicais presentes nele. Contudo, conforme dito acima, o analista desempenha um papel indispensável na Análise de Discurso de cunho ascendente, pois cabe a ele interpretar os resultados oferecidos pelo computador. Neste sentido, abordagens ascendentes envolvem tanto aspectos quantitativos quanto qualitativos de análise, visto que a análise ascendente não se encerra com o levantamento das características lingüísticas iniciais pelo computador. No caso das palavras-chave, compete ao analista interpretar a lista em busca de regularidades, o que inclui, entre outras, as seguintes operações: classificar as palavras em categorias de certa natureza (estruturais, funcionais, discursivas, etc.) estabelecer relações entre as categorias identificar padrões de co-ocorrência e recorrência interpretar tais padrões à luz de uma ou mais teorias Não há um modelo pronto que leve em conta as operações elencadas acima. No presente, os analistas de discurso que se empenhem numa análise ascendente terão de desenvolver suas próprias categorias. O resultado dessa diversidade é que torna-se difícil a comparação de resultados e mesmo a cooperação entre analistas diferentes (Biber, 1988; Stubbs, 1996). 4. Análise Multidimensional A Análise Multidimensional foi criada por Douglas Biber com o objetivo de permitir a descrição de uma grande quantidade de textos objetivamente por meio estatísticos. Anteriormente à Análise Multimensional, a tendência era de que se estudasse a coocorrência de poucos traços e que se fizesse a interpretação de modo intuitivo. A variação entre registros era investigada comumente por meio de poucos parâmetros, por exemplo, ‘formalidade’ ou ‘planejamento’, e por conseguinte a distinção que se fazia entre textos era incompleta pois privilegiava apenas uma das muitas diferenças que podem existir entre os textos. Essa ênfase no emprego de poucos parâmetros também tinha o efeito de polarizar a descrição de cada parâmetro; assim, havia uma tendência para se descrever textos através de dois opostos, por exemplo, formal x informal, ou planejado x espontâneo. Por último, a descrição da co-ocorrência feita através de meios intuitivos podia ser falha já que o analista não oferecia uma descrição objetiva dos traços que supostamente ocorriam. A análise Multidimensional propõe alternativas para esse cenário. Em primeiro lugar, ela reconhece que a análise deve utilizar-se de uma quantidade maior de parâmetros para permitir uma comparação mais abrangente. Características como formalidade, planejamento, oralidade, referencialidade, entre outras, devem ser possíveis de serem incluídas. Além disso, o analista deve dispor de um arsenal que inclua o maior número possível de características lingüísticas, já que o aumento da quantidade parâmetros implica em número maior de traços lingüísticos necessários para cobrir a maior gama de parâmetros. Segundo, as categorias a serem empregadas não necessitam ser limitadas. As categorias podem exibir uma gama maior de possibilidades de variação, por exemplo através de uma escala que vá, no caso da ‘formalidade’, de ‘mais formal’ para ‘menos formal’. Por fim, a descrição dos textos dentro destes aspectos mais abrangentes é feita de maneira objetiva por meio de técnicas estatísticas multivariadas, o que evita erros na especificação dos traços coocorrentes. A abordagem Multidimensional possui várias características que no seu conjunto distinguem essa metodologia de outros sistemas analíticos de descrição. Primeiramente, ela baseia-se em corpora, isto é, ela pretende descrever um grande número de textos autênticos. Outra característica é que ela é essencialmente computacional, fazendo uso de ferramentas automáticas e semi-automáticas para rotulação das características de interesse nos textos. Além disso, ela se presta à descrição de conjuntos de textos ou registros, ao invés de textos individuais. Ela também tem um caráter essencialmente comparativo, pois promove o contraste entre os textos ou registros. Como diz seu rótulo, ela é multidimensional, ao reconhecer que a variação entre textos e registros pode ser mais adequadamente descrita por meio de múltiplos parâmetros. Uma outra marca característica é a utilização de um aparato quantitativo de descrição, o qual permite a especificação da co-ocorrência dos traços lingüísticos de modo objetivo. Porém, a abordagem não descarta a utilidade de técnicas qualitativas de interpretação, pois as dimensões são rotuladas seguindo a interpretação qualitativa dos fatores. Por fim, a abordagem Multidimensional combina análises de nível macro com análises de nível micro, já que a micro-descrição dos traços de cada texto permite a indução dos macro-agrupamentos textuais ou genéricos. Outra característica importantíssima da abordagem Multidimensional que vale ressaltar é seu caráter cumulativo. A descrição de um corpus de uma certa variedade multidimensionalmente permite a comparação desta descrição com a descrição de outros variedades posteriormente, por exemplo, o contraste entre textos de negócio e textos jornalísticos. A comparação posterior é feita por meio do contraste das dimensões finais obtidas em cada análise separadamente, não havendo necessidade de se promover uma outra análise por completo para fins comparativos. Além da comparação de variedades diferentes, as análises individuais também se prestam para a comparação da descrição de corpora de línguas diferentes, por exemplo, a comparação das características multidimensionais de textos de negócios escritos em português e inglês. Desse modo, é possível empreender-se uma análise de larga escala de um corpus fazendo-se descrições individuais ao longo do tempo, combinando-se posteriormente as análises para fins comparativos. Por isso, a abordagem Multidimensional se adequa perfeitamente a projetos de descrição de bancos de dados em crescimento, ou seja, aquelas bases de dados lingüísticas que estão em processo de coleta. Por fim, a abordagem Multidimensional é flexível, podendo acomodar diversos tipos de traços lingüísticos. Tradicionalmente, tem-se utilizado características lexicais e gramaticais (Biber 1988, 1995), entretanto é possível incluir características de cunho mais discursivo (Pacheco 1997) e funcionais (Shimazumi, 1998). Além disso, as próprias dimensões não são definitivas, podendo ser modificadas com a inclusão de novas características lingüísticas. 4.1. Descrição Multidimensional da língua inglesa O trabalho pioneiro de Douglas Biber se baseou na descrição das dimensões subjacentes à língua inglesa. Para tanto, inicialmente ele selecionou um corpus de textos que representasse a variedade de registros encontrada no inglês. Os corpora escolhidos foram o LOB, de textos escritos em inglês britânico, e o London-Lund, de transcrições de eventos falados, também da variedade britânica. Foram retiradas porções destes corpora e adicionados outros dois registros (variedades de cartas), e obteve-se um total de 481 textos, somando 960 mil palavras. A seguir, foi feito um levantamento das principais características que, segundo a literatura existente na época, seriam relevantes para a descrição da língua inglesa. Elencou-se 67 características, todas de cunho lexical e estrutural (vide seção ‘críticas’ abaixo). Todos os 481 textos foram codificados levando-se em conta estas variáveis. A codificação foi feita tanto manual quanto automaticamente. Para a análise manual foram desenvolvidos programas de computador interativos para facilitar a codificação. Em seguida, partiu-se para a Análise Fatorial, a qual identificou sete fatores como sendo a melhor solução. Fez-se então o mapeamento de quais textos estavam presentes em cada fator. Os fatores foram inspecionados um por um, e decidiu-se eliminar o sétimo fator porque era composto de variáveis cujo peso era maior em outros fatores. Cada fator era composto de variáveis que ocorriam positiva e negativamente. As primeiras são aquelas que tendiam a co-ocorrer, enquanto as últimas são aquelas que tendiam a não ocorrer caso as primeiras estivessem presentes. Por exemplo, as variáveis positivas de maior peso do primeiro fator são: verbos ‘particulares’ (‘private verbs’, e.g. doubt, forget, guess), apagamento de ‘that’, e contrações. E as principais negativas são: substantivos, palavras longas, e proposições. Desse modo, nos textos em que ocorriam verbos ‘particulares’, e apagamento de ‘that’, havia uma tendência de aparecimento também de contrações. Por outro lado, nos textos em que havia verbos ‘particulares’, apagamento de ‘that’, e contrações, havia uma tendência de escassez de substantivos, palavras longas, e proposições. A etapa seguinte consistiu da interpretação funcional do conjunto de características lingüísticas de cada fator, levando ao estabelecimento das dimensões. Isto permitiu que se fizesse a rotulação dos fatores de acordo com a função comunicativa que as características lingüísticas pareciam exprimir. Os rótulos indicam uma polaridade entre dois traços comunicativos complementares. Por exemplo, em relação ao fator 1, decidiu-se que as características lingüísticas com peso positivo (vide tabela abaixo) tinham subjacente um traço comunicativo que indicava ‘produção interativa’. Já o conjunto de características com peso negativo revelavam um traço comunicativo comum que se poderia chamar de ‘produção informacional’. Por isso, o rótulo adotado para a dimensão 1 foi ‘produção com interação ou produção informacional’. O mesmo procedimento foi levado a cabo em relação aos outros fatores. Mas embora as dimensões tenham rótulos que indiquem uma polaridade entre duas características comunicativas básicas, as dimensões não são dicotômicas. Pelo contrário, elas exprimem um contínuo. Em cada dimensão, os textos podem se situar ao longo de uma escala que vai de ‘mais’ a ‘menos’ em relação a cada traço comunicativo. Assim, na dimensão 1 podem haver textos que se situem em qualquer posição ao longo da escala entre ‘mais interativo’ e ‘mais informacional’ (ou ‘menos informacional’ e ‘menos interativo’). Peso das variáveis que compõem o fator 1 – as de maior peso aparecem primeiro Peso Positivo – Verbos pessoais – Apagamento de ‘that’ – Contrações – Verbos no tempo presente – Pronomes pessoais da 2ª pessoa – ‘Do’ como verbo auxiliar – Negação analítica – Pronomes demonstrativos – Enfatizadores em geral Negativo – Substantivos – Tamanho das palavras – Preposições – Razão forma / palavra – Adjetivos atributivos – – – – – – – – – – – – – – Pronomes de 1ª pessoa Pronome ‘it’ ‘Be’ como verbo principal Subordinação causativa Partículas discursivas Pronomes indefinidos ‘Hedges’ em geral Amplificadores Pronomes relativos Perguntas WH Modais de possibilidade Coordinação não-frasal Orações WH Preposições finais O resultado da interpretação e nomeação dos fatores foi a identificação de seis dimensões. As seis dimensões apontadas foram: 1. 2. 3. 4. 5. 6. produção com interação vs. produção informacional; preocupações narrativas vs. não-narrativas; referências explícitas vs. referências dependente do contexto; expressão explícita de persuasão vs. não-explícita; informação abstrata vs. não-abstrata; elaboração informacional ‘on-line’1. Fez-se, então, a computação dos escores de cada texto em cada dimensão. Os escores consistiam de somas relativas às quantidades das variáveis existentes em cada fator2. Desse modo, cada texto possuía um valor que indicava sua participação em cada dimensão. Depois fez-se o cálculo dos escores médios para cada registro em cada dimensão3. Os escores médios de cada registro nas seis dimensões é apresentado no apêndice. Abaixo é apresentado o elenco de registros ordenados de acordo com seus escores em cada 1 Termos traduzidos por Pacheco (1997:.66). Para exemplificar o método de cálculo, tomemos o fator 2. Este fator inclui como variáveis de peso positivo as seguintes características: verbos no tempo passado, verbos no aspecto perfeito, pronomes pessoais de terceira pessoa, verbos ‘públicos’, orações reduzidas, e negações sintética. Supondo-se que um dos textos tenha a seguinte contagem destas características: 113 verbos no tempo passado, 124 verbos no aspecto perfeito, 30 pronomes pessoais de terceira pessoa, 14 verbos ‘públicos’, 5 orações reduzidas, e 3 negações sintéticas, seu escore no fator 2 seria 289, isto é, a soma de 113 + 124 + 30 + 14 + 5 + 3. Na verdade, a computação dos escores não foi feita por meio das contagens brutas, mas sim através de contagens padronizadas com base na média e desvio padrão, a fim de se evitar que o tamanho diferente dos textos influísse nos escores. Estes valores padronizados podem assumir valores negativos, pois indicam quão acima ou abaixo da média cada valor está. Por isso, os escores dos textos podem ser negativos também. 3 Este cálculo é feito por uma média aritmética. Por exemplo, se houvesse três textos de um registro específico na dimensão 2, e eles tivessem os escores 16, 12, e 11, somariam-se os três valores, o que resultaria em 39, e dividiria-se este total por 3, o que daria 13. O valor 13 seria então o escore médio deste registro na dimensão 2. É possível ter-se escores médios negativos. Isto acontece quando há uma maioria de escores negativos de cada texto individual. 2 dimensão; os registros mais acima são os que obtiveram escore mais alto. Finalmente, chegou-se à identificação de seis dimensões para a língua inglesa: – – – – – – Dimensão 1 - produção com interação vs. produção informacional: os registros que melhor representam o modo de produção com interação são as conversas, tanto ao telefone quanto cara a cara; os registros que melhor representam a produção informacional são documentos oficiais, reportagem jornalística, e prosa acadêmica. Dimensão 2 - preocupações narrativas vs. não-narrativas: os registros que melhor demonstram uma preocupação com a narração são os registros de ficção, enquanto que os que melhor exprimem uma orientação não narrativa são os registros de rádio e TV, passatempos, e documentos oficiais. Dimensão 3 - referências explícitas vs. referências dependente do contexto: os registros que apresentam referência explícita em maior grau são documentos oficiais, cartas profissionais, resenhas jornalísticas, e prosa acadêmica. Já os registros de rádio e TV, conversas telefônicas e cara a cara, e ficção romântica exprimem referência dependente da situação. Dimensão 4 - expressão explícita de persuasão vs. não-explícita: os registros de caráter mais persuasivo são as cartas profissionais, os editorias, e a ficção romântica. Por outro lado, os registros nos quais a persuasão é menos explícita são os de rádio e TV, resenhas jornalísticas, e ficção de aventura. Dimensão 5 - informação abstrata vs. não-abstrata: os registros que veiculam informação mais abstrata são os acadêmicos, os documentos oficiais, e os religiosos. Já as conversas telefônicas, face a face, e ficção romântica apresentam informação menos abstrata. Dimensão 6 - elaboração informacional ‘on-line’: os registros nos quais a elaboração da informação é mais imediata são palestras preparadas, entrevistas, e palestras espontâneas, enquanto que os registros nos quais a informação é elaborada de antemão são os de ficção (mistério, aventura, científica, e geral.) As dimensões mostram uma inter-relação entre registros escritos e falados. Alguns registros escritos possuem características em comum com registros falados e vice-versa. Por exemplo, de acordo com a dimensão 1, cartas pessoais, palestras espontâneas, e entrevistas possuem como característica comum o fato de serem produzidas com interação entre escritor ou falante de um lado e leitor ou ouvinte do outro. Apesar disso, persiste uma diferenciação básica entre os registros falados e escritos na metade das dimensões. Nas dimensões 1, 3 e 5, os registros escritos ocupam majoritariamente um dos pólos e os registros falados o outro. O registro que predomina no pólo onde se concentram os textos escritos é a escrita acadêmica. Já os registros que se concentram no pólo falado destas dimensões são os conversacionais. Em conclusão, a grande contribuição da Análise Multidimensional para a descrição textual da língua inglesa é permitir uma visão mais abrangente da variação entre textos falados e escritos. A classificação foi obtida com base na presença, ausência, e co-ocorrência de traços lingüísticos, e não em categorizações a priori. Até então, as inter-relações entre registros escritos e falados eram assumidas, mas não haviam sido descritas formalmente com tanto rigor e abrangência. Os esquemas classificatórios existentes baseados em categorias restritas como ‘fala’ e ‘escrita’ ou ‘oral’ e ‘letrado’ não comportam este cenário amplo revelado pela Análise Multidimensional. O mesmo arcabouço empregado para a descrição multidimensional do inglês foi aplicado a uma série de outras línguas. Até o presente, foram descritas multidimensionalmente por Biber e outros pesquisadores os seguintes idiomas: nukulaelae tuvalan, coreano, e somali. Não existe ainda uma descrição abrangente da língua portuguesa. Pacheco de Oliveira (1997), contudo, apresenta uma análise de um corpus de composições escritas em português por alunos. 4.2. Análise com Classificação Multidimensional O tipo de Análise Multidimensional descrita acima refere-se à proposta original de Biber (Biber, 1988), na qual os dados são submetidos a todas as etapas da análise com o objetivo de se chegar às dimensões de variação existentes no corpus. Um outro tipo de análise é possível, desta vez partindo-se das dimensões. Este tipo de análise, que é chamado aqui de Análise com Classificação Multidimensional, tem-se as dimensões pré-existentes como ponto-de-partida da análise. Assim, pode-se caracterizar um corpus por meio de referência aos traços lingüísticos presentes na Análise Multidimensional. A Análise Multidimensional neste caso funciona como um metro (‘yardstick’) para desenhar uma planta dos dados. Alguns trabalhos já utilizaram-se deste procedimento. Tribble (1998) fez uma análise de um sub-corpus de literatura de romance por meio de palavras-chave. Usando uma seleção das dez primeiras palavras-chave, o autor fez uma classificação dessas palavras segundo as dimensões que elas indicavam na classificação original de Biber (1988). As palavras-chave obtidas por Tribble (1998) são: N WORD FREQ. 1 SHE 566 2 HER 559 3 I 656 4 HE 575 5 YOU 512 6 N'T 266 7 HAD 373 8 HIM 180 9 WAS 530 10 NIGEL 45 Segundo o autor, os pronomes de primeira e segunda pessoas (‘I’, ‘you’) remetem-se à dimensão 1 de Biber ("Involved versus Informational Production"), indicando mais ênfase nas relações interpessoais do que na apresentação de informação. Os pronomes de terceira pessoa (‘she’, ‘her’, ‘he’, ‘him’), a negação sintética (“n’t”) e os verbos no passado (‘had’, ‘was’) associam-se à dimensão 2 ("Involved versus Informational Production"). Deste modo, os dados analisados indicam uma relação com a dimensão 2, a qual não foi notada na análise original de Biber. Tribble conclui que um traço predominante na literatura de romance é a quantidade de diálogos, o que indica uma semelhança deste tipo de texto com a linguagem oral. A ênfase do trabalho de Tribble é na aplicabilidade da comparação com as dimensões de Biber para fins pedagógicos, e não na descrição exaustiva de listas de palavras-chave. Segundo ele: ‘A pedagogic procedure for writing instruction which focuses on these kinds of linguistic features in the target texts can move from the identification of the features, through to an account of the impact that they have on the reader, and thence to practical exercises in text transformation and text editing (working with the texts of other learners or their own texts). Such an approach can have a major impact on apprentice writers' capacity to identify salient stylistic features of texts in which they are interested and to address inadequacies in their own written performance.’ii Um outro trabalho que utilizou as dimensões de Biber para classificar dados foi Shimazumi e Berber-Sardinha (1996). Os autores apresentam uma análise gramatical e lexical de um corpus de escrita de pré-adolescentes britânicos, a qual inclui a identificação de palavraschave por comparação a um corpus de textos jornalísticos, representando a variedade ‘escrita adulta’. Os autores concluem que a dimensão mais representada nos dados é a primeira ("Involved versus Informational Production"), mais especificamente na direção do pólo ‘envolvido’. As características lingüísticas que se associaram a essa dimensão foram: • • • • • • • contrações ('don't', 'can't') pronomes de primeira pessoa ('I' and 'I think') pronomes de segunda pessoa ('you') verbos no presente ‘be’ como verbo principal subordinação causative ('because') negação analítica ('not'). Outra dimensão representada nos dados foi a quarta ('Overt Expression of Persuasion'), principalmente por causa de: • • modal de necessidade ('should') subordinação condicional ('if') Os autores concluem que as composições dos alunos possuem orientação interpessoal e afetiva (dimensão 1), além de teor argumentativo com vistas à persuasão do leitor (dimensão 4). 4.3. Resumo Em resumo, foi sugerido que a orientação ascendente na análise de dados discursivos é pouco utilizada, principalmente no estudo do gênero reunião de negócios, o qual, de outro modo, é bem representado na literatura de análise de discurso, de gênero e da conversação. Foi sugerido também que uma maneira de fazer análise ascendente é utilizando-se listas de palavras-chave, o que, entretanto, esbarra no problema de classificação das palavras. Foi proposto que uma classificação centrada nas dimensões de variação da Análise Multidimensional (Biber, 1988) seria uma saída, pois as dimensões encerram uma variedade ampla característica lingüísticas organizadas coerentemente segundo sua função do ponto de vista textual e discursivo. A seguir será apresentada a análise de uma reunião de negócios seguindo os princípios descritos acima para combinação de análise por palavras-chave com a classificação posterior das palavras segundo as dimensões apresentadas por Biber. Desta forma, o estudo pretende oferecer um exemplo de condução de análise de discurso ascendente, por meio de computador, com apoio interpretativo na Análise Multidimensional. A ênfase do trabalho é portanto na apresentação e aplicação da metodologia e não na descrição detalhada do evento. Para uma descrição mais detalhada, seria necessário um corpus maior, a fim de garantir a representatividade dos dados. 5. Corpus O corpus de estudo consiste de uma reunião de negócios, falada em português, gravada em uma empresa brasileiraiii, com 5355 itens. Este total está abaixo do mínimo necessário sugerido na literatura. Segundo Berber Sardinha (1999b), o valor mínimo para um corpus especializado é de cerca de 91 mil palavras, abrangendo todas características morfossintáticas. Em relação ao número de textos, o mínimo sugerido é 10 textos (Biber, 1993). O tamanho reduzido do corpus estudado aqui, tanto em quantidade de palavras quanto de textos, implica na impossibilidade de generalização dos resultados para outras reuniões. Como corpus de referência, foi empregada uma coletânea de transcrições de conversas em português (diálogos e entrevistas), provenientes dos projetos NURC-SP (63.044 itens), PORCUFORT (Teresina, 489.515 itens), e VARSUL (Paraná, Santa Catarina e Rio Grande do Sul, 2.478.518 itens), totalizando 3.031.074 itens. O tamanho do corpus de referência excede o número mínimo igual a cinco vezes o tamanho do corpus de estudo, por isso pode ser considerado adequado do ponto-de-vista da extensão (Berber Sardinha, 1999a). Quanto à composição, o corpus de referência neutraliza o aspecto ‘oral’ do corpus de estudo, visto que o mesmo é compartilhado pelos dois corpora (Berber Sardinha, 1999c), deixando mais proeminentes aqueles traços indicativos da oralidade específica presente na reunião, incluindo elementos topicais, organizacionais e estilísticos, e menos salientes os traços relativos à oralidade em geral. 6. Procedimentos de análise Primeiramente, foi feita a extração das palavras-chave do corpus de estudo, com o programa KeyWords, do pacote WordSmith Tools, versão 3 (Scott, 1998). Os ajustes do programa foram: Ajuste Valor Procedimento Loglikelyhood Max p. value 0.05 Max wanted 16000* Min frequency 2 * máximo permitido Foram retornadas 270 palavras-chave positivas. O ponto-de-corte geral sugerido para listas de palavras-chave é de no mínimo 53% para probabilidade alta de inclusão de todas as palavras-chave exclusivas do gênero (para max. p value=0.000000). Segundo esse valor, o ponto-de-corte sugerido para a lista obtida neste estudo estaria na palavra de número 81, numa lista classificada por chavicidade (‘keyness’). Optou-se, entretanto, por uma banda maior, de tal modo que fossem abrangidas também palavras de max. p value=0.00001. Chegou-se assim ao ponto-de-corte em 65% da lista, resultando em 100 palavras-chave (as 100 primeiras, por ordem decrescente de chavicidade). As 100 palavras-chave extraídas para o estudo foram então categorizadas segundo um guia de classificação que consistia de um elenco das categorias usadas por Biber (1988), traduzidas para o português. O guia encontra-se nos anexos. A seguir foi feita a contagem das categorias para se saber quais dimensões estavam mais representadas, o que permitiu, por fim, partir para a interpretação dos dados segundo as dimensões mais representativas. Em termos comparativos com a Análise Multidimensional em si, a Análise com Classificação Dimensional proposta aqui funciona na direção oposta. A Análise Multidimensional parte das características lingüísticas para a identificação das dimensões, enquanto a proposta deste trabalho parte das dimensões pré-existentes para as unidades lingüísticas, para classificar as palavras-chave, partindo daí para a observação das dimensões existentes no corpus. Graficamente, os dois procedimentos podem ser resumidos assim: Análise Multidimensional Categorias → Fatores → Dimensões Completa (Biber) Análise com Classificação Dimensões → Categorias → Palavras-chave → Dimensões Dimensional (proposta deste trabalho) Além disso, a presente proposta restringe-se a itens lexicais, mais especificamente à palavra ortográfica, sem lematização. A Análise Multidimensional, por sua vez, usa estruturas gramaticais e sintáticas, além de contagens de classes morfo-sintáticas. 7. Resultados A relação das palavras-chave juntamente com a categorização feita segundo o guia de classificação aparece na tabela abaixo. A lista está ordenada alfabeticamente para facilitar a consulta. A coluna N indica a ordem original de chavicidade (1=mais chave, 100=menos chave). As freqüências brutas em cada corpus aparecem nas colunas ‘Reunião’ e ‘Conversa’, enquanto as freqüências relativas ao total de palavras de cada corpus aparecem nas colunas encabeçadas por %. Por fim, a coluna ‘Categorias’ indica a classificação da palavra segundo o guia. As palavras classificadas como ‘?’ são aquelas que poderiam fazer parte de mais de uma categoria no guia. Além das categorias presentes no guia, foram empregadas ainda ‘Sigla’ e ‘Código’. A primeira indica uma abreviatura, e o segundo um item usado na transcrição dos dados, mas não necessariamente utilizado pelos falantes durante a reunião. N Palavra 58 A Reunião % 201 3,75 Conversa % Categorias 77.882 2,57 Referência explícita 35 ABORDAGEM 5 0,09 10 99 ABRANGENTE 2 0,04 2 75 AFETA 3 0,06 13 Verbo presente 41 ALCOOLISMO 4 0,07 4 Nominalização 15 AMBIENTAL 8 0,15 4 Adjetivo 5 AMBIENTE 30 0,56 99 18 ÁREA 30 ARTICULAÇÃO 11 BE 17 0,32 Nominalização Adjetivo Substantivo 489 0,02 Substantivo 4 0,07 1 Nominalização ? 12 0,22 17 86 CAPACITAÇÃO 2 0,04 1 50 CENTRAL 7 0,13 120 88 COLETIVOS 2 0,04 1 ? 98 COLOCÁ 2 0,04 2 Infinitivo 72 COMPLEXA 3 0,06 10 Adjetivo 94 COMPLEXO 3 0,06 20 Adjetivo 38 CONCEITO 6 0,11 33 Substantivo 85 CONQUISTAS 2 0,04 1 Substantivo 96 CONTRATAR 3 0,06 21 37 COORDENADORIA 4 0,07 2 Substantivo 0 Sigla 68 COSIPA 13 DA 2 0,04 110 2,05 Nominalização Adjetivo Infinitivo 19.638 0,65 Preposição 82 DEMONSTROU 2 0,04 1 Verbo passado 84 DESCENTRALIZAÇÃO 2 0,04 1 Nominalização 24 DESENVOLVIMENTO 10 0,19 144 Nominalização 44 DESQUALIFICAÇÃO 3 0,06 0 76 DIREITOS 4 0,07 49 Substantivo 26 DIRETAMENTE 8 0,15 78 Amplificador 32 DISCUSSÃO 6 0,11 26 Nominalização 17 DISCUTIR 10 0,19 52 Infinitivo 45 DISCUTIU 3 0,06 0 21 DO 90 DOS 49 É 97 1,81 21 0,39 207 3,87 Nominalização Verbo passado 22.261 0,73 Preposição 3.594 0,12 Preposição 75.609 2,49 Verbo ser presente 34 ECONOMIA 9 0,17 154 Substantivo 16 EIXO 9 0,17 25 Substantivo 25 ELÔ 4 0,07 0 89 EMPRESA 8 0,15 491 0,02 Substantivo 95 ENCONTRO 5 0,09 144 56 ENFOQUE 3 0,06 4 55 ESSA 30 0,56 4 0,07 11 97 EXPLORADA 2 0,04 2 64 IMCOMPREENSÍVEL 65 1,21 2 0,04 Substantivo Nominalização 5.236 0,17 Demonstrativo 51 ETAPA 79 GENTE Código Substantivo Particípio 19.330 0,64 Pronome 1 pessoa 0 Código 48 INDÚSTRIA 10 0,19 40 INDUSTRIAL 7 0,13 84 Adjetivo 81 INSTITUIÇÃO 3 0,06 15 Substantivo 46 INVESTIGAR 4 0,07 7 52 ISSO 52 0,97 368 0,01 Substantivo Infinitivo 11.718 0,39 Demonstrativo 73 JORNADA 3 0,06 11 Substantivo 42 LEGISLAÇÃO 4 0,07 4 Substantivo 20 LITROQUÍMICA 5 0,09 0 Nome 30 0,56 14 Código 2 0,04 0 Código 3 LU 69 MAURICIO 78 MEIO 16 0,3 2.092 0,07 Substantivo 93 MESMO 30 0,56 6.492 0,21 Enfatizador 65 MONTORO 59 NÓS 2 0,04 33 0,62 0 Código 6.583 0,22 Pronome 1 pessoa 57 OBJETIVO 5 0,09 71 Substantivo 77 OBJETIVOS 3 0,06 14 Substantivo 83 OUVÍAMOS 2 0,04 1 Verbo Imperfeito 63 PAULINIA 2 0,04 0 Substantivo 62 POGRAFIA 2 0,04 0 ? 20 0,37 60 8 PRÁ Contração 19 PROBLEMA 26 0,49 12 PROPOSTA 14 0,26 51 87 PROPOSTO 2 0,04 1 36 QUALIDADE 8 0,15 104 27 QUALIFICAÇÃO 5 0,09 6 80 QUERENDO 6 0,11 211 4 QUESTÃO 47 0,88 29 QUESTÕES 6 0,11 24 31 REGINALDO 4 0,07 1 Código 47 RITA 5 0,09 27 Código 1 RO 85 1,59 28 Código 6 0,11 93 Código 54 ROBERTO 7 SAÚDE 32 0,6 1.631 0,05 Substantivo Substantivo Particípio Substantivo Nominalização Gerúndio 470 0,02 Substantivo Substantivo 443 0,01 Substantivo 39 SECRETARIA 8 0,15 119 Substantivo 9 SEMINÁRIO 17 0,32 74 Substantivo 74 SERIA 11 0,21 70 SETOR 6 0,11 160 Substantivo 92 SOCIAL 6 0,11 235 Adjetivo 66 SONIA 2 0,04 0 91 SUGESTÃO 3 0,06 18 22 TÁ 34 0,63 923 0,03 Verbo Ser Futuro Imperfeito Código Substantivo 3.552 0,12 Contração 28 TEMA 9 0,17 144 Substantivo 23 TEMAS 7 0,13 29 Substantivo 53 TENDÊNCIA 6 0,11 91 Substantivo 23 0,43 86 Substantivo 57 Substantivo 6 TRABALHADOR 14 TRABALHADORES 13 0,24 10 TRABALHO 41 0,77 43 UNICAMP 71 VAI 3 0,06 2.051 0,07 Substantivo 0 Sigla 41 0,77 9.482 0,31 Verbo presente 60 VAMO 8 0,15 351 0,01 Verbo presente 61 VERSÃO 3 0,06 7 Substantivo 100 VINCULADA 2 0,04 2 Particípio 67 WORD 2 0,04 0 Código 33 ZE 5 0,09 9 Código 2 ZÉ 82 1,53 43 Código A freqüência das 18 categorias presentes, por dimensão, aparece na tabela abaixo. A coluna ‘Freq’ mostra o total de palavras diferentes, e não o total das freqüências somadas para cada categoria. Assim, por exemplo, o total de 37 informa que há 37 substantivos diferentes. Dimensão Pólo Produção 1 informacional Produção 1 informacional Produção 1 informacional Produção 1 informacional Produção 1 informacional 1 Envolvimento Categoria Freq. Função Substantivo 37 Conteúdo informacional Adjetivo 6 Preposição 3 Expansão ideacional Sigla 2 Conteúdo informacional Nome 1 Conteúdo informacional Verbo presente 3 Relevância imediata Elaboração / Expansão informacional 1 Envolvimento Pronome 1 pessoa 2 Envolvimento pessoal 1 Envolvimento Amplificador 1 Ênfase 1 Envolvimento Contração 2 Produção online 1 Envolvimento Enfatizador 1 Ênfase 1 Envolvimento Verbo ser presente 1 Expansão ideacional 2 Discurso narrado Verbo passado 2 Ação narrativa 2 Discurso narrado Gerúndio 1 Foco na ação (minha interpretação) 2 Discurso narrado 1 Ação narrativa / descritiva 3 Referência elaborada 11 Conteúdo informacional 4 Argumentação Verbo Imperfeito Nominalização e referência explícita Infinitivo 5 Estilo abstrato Particípio 3 Integração da elaboração estrutural 6 Produção online Demonstrativo 2 Referência imediata / coesiva 4 Expansão ideacional 8. Interpretação A dimensão mais representada pelas palavras-chave é a primeira, ‘produção com interação vs. produção informacional’, com 11 categorias (61%). A reunião apresenta traços variados de ambos os pólos desta dimensão, ‘produção informacional’ e ‘envolvimento’. Isto sugere a conclusão de que a reunião esteja numa posição intermediária na dimensão, não sendo, portanto, estritamente informacional nem interacional. Esta caracterização faz sentido, pois no pólo informacional encontram-se gêneros como documentos oficiais, reportagem jornalística, e prosa acadêmica, enquanto no interacional aparecem as conversas presenciais e por telefone. A reunião de fato apresenta aspectos de vários destes gêneros: a reunião é uma interação face-a-face, mas seus participantes têm como objetivo lidar com informações. Daí a grande concentração de substantivos, que indicam o nível alto de conteúdo informacional, bem como os adjetivos e proposições, que expandem o grupo nominal e tornam mais específica e densa a informação. Por outro lado, aparecem com proeminência os pronomes de primeira pessoa, as marcas de ênfase, as contrações e o verbo no tempo presente, indicando a ação imediata. O trecho a seguir ilustra os pontos acima. Ro: Então a proposta é que vamos discutir mesmo isto né, investigar como é que o modo de produção e a qualidade do trabalho afeta diretamente a própria saúde do trabalhador. Isto seria um objetivo 1 né, o segundo objetivo seria é investigar como é que é como é que se dá a qualificação dos profissionais estão é atuando é, é, com os diversos tipos de produção e, como é que tá a consciência dele em relação ah, ah, como é que isso afeta diretamente a ele como é que tá a participação dele na gestão dessas questão do meio ambiente né. No exemplo, nota-se grande quantidade de substantivos (proposta, produção, ambiente, etc) e de proposições ‘de’ (modo de produção, qualidade do trabalho, qualificação dos profissionais), indicando ‘produção informacional’. Há ainda emprego de um amplificador (diretamente), contrações (né, tá) e verbos no tempo presente (afeta, dá, é), que são marcas indicativas de interação. O grande número de substantivos poderia significar um peso maior para o pólo informacional. Entretanto, é preciso lembrar que os substantivos são uma classe gramatical numerosa, daí a probabilidade grande de figurarem na lista de palavras-chave. Segundo Hudson, 1994, 37% das palavras são substantivos. Além disso, o procedimento de palavraschave por si só tende a tornar mais elegíveis os substantivos, pela própria natureza do procedimento. Ao comparar dois corpora, há uma probabilidade grande de haver diferenças de freqüência entre os substantivos de um corpus e de outro. Assim, muitos substantivos tornam-se chave, provavelmente em proporção maior do que originalmente no corpus de estudo. A dimensão 2, ‘preocupações narrativas vs. não-narrativas’, é a segunda mais freqüente, com quatro categorias (36%). Ao contrário da dimensão anterior, todas as categorias situam-se no mesmo pólo desta dimensão, nomeadamente ‘discurso narrado’. Este aspecto retrata um traço importante da composição lingüística da reunião, visto que os participantes de fato narram eventos relacionados à empresa. A concordância abaixo mostra todas as ocorrências das palavras-chave desta dimensão. As demais dimensões são minoritárias e por isso não fornecem dados seguros para a caracterização da reunião. De qualquer modo, vale interpretar a dimensão 3, ‘referências explícitas vs. referências dependente do contexto’, visto que há muitas ocorrências do artigo definido ‘a’, um traço indicativo desta dimensão. Em conjunto com o artigo, esta dimensão é representada por meio da categoria de nominalização (e por extensão pela de referência explícita, referente ao artigo ‘a’). O pólo em que se concentram as palavraschave é o ‘referência elaborada’. Este pólo indica uma preferência pelo uso de referências que não são dependentes do contexto temporal imediato da reunião. As ocorrências das nominalizações aparecem na concordância abaixo. Embora constem exemplos de referência genérica (com o artigo ‘um/uma’), a grande maioria das nominalizações faz uso de referência explícita, tais como ‘a qualificação’, ‘a discussão’, ‘a descentralização’, todas entidades nomeadas. Uma questão que se apresenta é se as dimensões são válidas para a caracterização da reunião como um todo ou apenas parte dela. A resposta está no exame da distribuição das palavras-chave de cada dimensão na reunião. Os gráficos abaixo foram produzidos com o programa Concord (WordSmith Tools, Scott, 1998). Cada traço vertical representa a ocorrência de pelo menos uma das palavras-chave da dimensão em questão. Dimensão 1: informatividade Dimensão 1: interatividade Dimensão 2: narratividade Como se pode notar, as palavras-chave de cada dimensão estão distribuídas consistentemente ao longo da reunião, não havendo lacunas significativas. Desta forma, não há indícios de que certas partes da reunião sejam mais informativas enquanto outras mais interativas, ou narrativas. Estas características estão integradas ao longo da reunião. 9. Discussão As duas primeiras dimensões são as mais representativas para a caracterização da reunião. Desse modo, os resultados indicam que a reunião pode ser caracterizada como sendo um evento de cunho informacional e interativo, de essência narrativa. A reunião de negócios investigada aqui poderia ser considerada, assim, distinta dos demais gêneros orais investigados por Biber. Na dimensão 1, os gêneros orais concentram-se no pólo ‘interativo’ (‘involved’), enquanto os escritos aparecem consistentemente no pólo informacional. Na dimensão 2, os gêneros orais aparecem distante de ambos os pólos, mas com maior concentração do lado ‘não-narrativo’. Dessa forma, assumindo que a reunião de negócios, numa análise multidimensional completa, ocuparia a posição intermediária entre os pólos informacional e interativo, na dimensão 1, e uma posição polarizada em ‘narratividade’ na dimensão 2, a reunião em questão quebraria o padrão encontrado por Biber. Até que ponto a reunião de negócios descrita aqui pode ser considerada típica deste gênero é uma questão em aberto. Se houvessem mais exemplares do gênero no corpus, a análise seria mais robusta e portanto poderia-se fazer uma generalização mais segura para o gênero como um todo. De qualquer modo, caso os resultados se mantivessem numa análise multidimensional completa com um corpus mais amplo, isto significaria que a reunião de negócios é um evento muito distinto da conversação, das palestras e dos programas de rádio e TV (noticiários, entrevistas, etc.). A reunião é um evento interessante na medida em que combina elementos da oralidade, da escrita e de estórias. A Análise com Classificação Dimensional apresentada aqui permitiu localizar as dimensões que mais se destacavam na reunião. A metodologia deu mostras de ser informativa, na medida em que permitiu identificar os traços lingüísticos mais salientes, bem como categorizar esses mesmos traços de modo consistente. Desta forma, o procedimento geral de classificação de listas de palavras-chave segundo as categorias empregadas por Biber (1988, 1995) na Análise Multidimensional completa parece satisfatória. Há algumas limitações. Em primeiro lugar, obviamente, a Análise com Classificação Dimensional não substitui uma análise multidimensional completa, a qual permite ao analista extrair as verdadeiras dimensões existentes nos dados. O que se fez aqui foi utilizar as dimensões previamente identificadas para classificação de palavras. Em segundo lugar, as dimensões utilizadas haviam sido retiradas de um corpus variado. Provavelmente, a análise multidimensional de um corpus somente de reuniões resultaria em dimensões diferentes daquelas propostas para a língua em geral. Em terceiro lugar, a Análise com Classificação Dimensional não é puramente ascendente. A fase de extração de palavraschave é um tipo de análise de discurso ascendente, entretanto a classificação das palavraschave segundo as categorias dimensionais é descendente. A presença de um sistema classificatório posterior, como o empregado aqui, não invalida o procedimento, pois as características identificadas inicialmente foram de fato fruto de uma análise ascendente, muito embora as categorias de classificação fossem pré-existentes. Por fim, as dimensões usadas para a análise da reunião foram extraídas do inglês, o que levanta a possibilidade de as dimensões do português serem diferentes. Não há uma análise multidimensional equivalente do português que pudesse ter servido de guia. Contudo, uma Análise Multidimensional de um corpus variado de espanhol indica que os as dimensões desta língua não diferem muito daquelas do inglês (Saiz, 1999). Assim, a julgar pelos resultados do espanhol, possivelmente as dimensões de um corpus geral de português também não estariam muito distantes daquelas do inglês, o que não afetaria muito a classificação efetuada aqui. 10.Referências ATKINSON, M. A. ET AL. (1978). The recommencement of a meeting as a member's accomplishment. IN: J. SCHENKEIN (org.). Studies in the Organization of Conversational Interaction. New York: Academic Press. BARBARA, L. (2000). Reuniões de negócios entre Brasileiros e Portugueses: análise preliminar. Trabalho apresentado no 10 InPLA. PUC/SP, São Paulo, 14 e 15 de abril de 2000. BARGIELA CHIAPPINI, F. & S. J. HARRIS (Orgs.) (1997). Managing language - The discourse of corporate meetings. Amsterdam/Philadelphia, PA: John Benjamins. BARNBROOK, G. (1996). Language and Computers - A Practical Introduction to the Computer Analysis of Language (Edinburgh Textbooks in Empirical Linguistics). Edinburgh: Edinburgh University Press. BERBER SARDINHA, A. P. (1991) A move analysis of an engineering project updating meeting. The ESPecialist, 12: 1-18. ---. (1993). Mapa lexical de uma reunião de negócios em inglês. DIRECT Papers 3. CEPRIL, PUC-SP, Brazil, and AELSU, Liverpool University, England. BERBER SARDINHA, A. P. (1999a) A influência do tamanho do corpus de referência na obtenção de palavras-chave. DIRECT Papers, 38. ---. (1999b). O que é um corpus representativo. Trabalho apresentado no IME, USP, maio de 1999. ---. (1999c) Usando WordSmith Tools na pesquisa linguistica. DIRECT Papers, 40. BIBER, D. (1988). Variation across Speech and Writing. Cambridge: Cambridge University Press. ---. (1993) Representativeness in corpus design. Literary and Linguistic Computing, 8: 243257. --- (1995). Dimensions of Register Variation - A Cross-Linguistic Comparison. Cambridge: Cambridge University Press. BODEN, D. (1994). The business of talk - Organizations in action. Oxford: Polity Press. COLLINS, H. & M. SCOTT. (1997). Lexical landscaping in business meetings. IN: F. BARGIELA-CHIAPPINI & S. HARRIS (org.). The languages of business - An international perspective. Edinburgh: Edinburgh University Press. DREW, P. & J. HERITAGE (Orgs.) (1992). Talk at work: Interaction in institutional settings. Cambridge: Cambridge University Press. FANT, L. (1990) Conversational patters in Spanish and Swedish business negotiations. International Business Communication, 2: 13-16. GRAHAM, J. L. (1979) The influence of culture on the process of business negotiations: An exploratory study. Journal of International Business Studies, 16: 81-96. GRAHAM, J. L. & J. D. ANDREWS. (1987) A holistic analysis of Japanese and American business negotiations. Journal of Business Communication, 24: 63-77. GRAHAM, J. L. ET AL. (1992) An empirical comparison of Soviet and American business negotiations. Journal of International Business Studies, 23: 387-418. GRINDSTED, A. (1997). Joking as a strategy in Spanish and Danish negotiations. IN: F. BARGIELA-CHIAPPINI & S. HARRIS (org.). The Languages of Business. Edinburgh: Edinburgh University Press. HALLIDAY, M. A. K. (1975). Learning How to Mean - Explorations in the Development of Language. London: Edward Arnold. HUDSON, R. (1994) About 37% of word-tokens are nouns. Language, 70: 331-339. KIMURA, H. (Org.) (1998). International Comparative Studies of Negotiating Behavior. Tokyo: International Research Center for Japanese Studies. PACHECO DE OLIVEIRA, L. (1997). Variação intercultural na escrita: Contrastes multidimensionais em inglês e português. Tese de Doctoral, PUC-SP, Sao Paulo. SAÍZ, M. (1999). A cross-linguistic corpus-based analysis of linguistic variation. Tese de Ph.D., Department of Language Engineering, UMIST, Manchester, UK. SCHWARTZMAN, H. B. (1989). The meeting: Gatherings in organizations and communities. New York/London: Plenum Press. SCOTT, M. (1998). WordSmith Tools Version 3. Oxford: Oxford University Press. SHIMAZUMI, M. & A. P. BERBER SARDINHA. (1996). Approaching the Assessment of Performance Unit (APU) archive of schoolchildren's writing from the point of view of corpus linguistics. Paper presented at the TALC96 Conference, Lancaster University, UK, 11 August 1996. SOUZA E SILVA, M. C. P. de. (1994). Une histoire sans fin: La reunion de travail. DIRECT Papers 14. CEPRIL, PUC-SP, Brazil, and AELSU, Liverpool University, England. STUBBS, M. (1996). Text and Corpus Analysis -- Computer-Assisted Studies of Language and Culture. Oxford: Blackwell. THORNDIKE, E. L. (1921). Teacher's Wordbook. New York: Columbia Teachers College. TRIBBLE, C. (1998). Genres, keywords, teaching - towards a pedagogic account of the language of Project Proposals. Paper presented at TALC98, Oxford, UK. WILLIAMS, M. (1988) Language taught for meetings and language used in meetings: Is there anything in common? Applied Linguistics, 9: 45-58. YAMADA, H. (1992). American and Japanese business discourse: A comparison of interactional styles (Advances in Discourse Processes: 45). Norwood,NJ: Ablex. ---. (1997). Organisation in American and Japanese meetings: Task versus relationship. IN: F. BARGIELA-CHIAPPINI & S. HARRIS (org.). The Languages of Business. Edinburgh: Edinburgh University Press. 11.Anexos Guia de classificação: Elenco de características lingüísticas empregadas por Biber (1988) para classificação das palavras-chave. Observações: • Tradução direta das características que se aplicam ao português. Por exemplo 'it pronouns', 'that-deletion' e 'preposition stranding' não foram incluídas. • Das 67 características lingüísticas, 7 foram eliminadas. O repertório abaixo inclui, portanto, 60 traços lingüísticos 1. Tempo e aspecto verbal 1. Tempo passado 2. Aspecto perfeito 3. Tempo presente 2. Advérbios de lugar e tempo 1. Advérbios de lugar 2. Advérbios de tempo 3. Pronomes 1. Pronomes de 1ª pessoa 2. Pronomes de 2ª pessoa 3. Pronomes de 3ª pessoa 4. Pronomes demonstrativos como sujeito (isso é bom, esse fica ali, etc) 5. Pronomes indefinidos (alguém, ninguém, etc) 4. Perguntas 1. Total de orações interrogativas 5. Formas nominais 1. Nominalizações (...ção, ...mento, ...dade, etc) 2. Gerúndios com funções nominais 3. Total de substantivos 6. Passivas 1. Sem agente 2. Com agente 7. Formas 'stative' 1. 'Ser' como verbo principal 2. Haver como verbo principal 8. Subordinação 1. Complementação 1. Que + complementação de verbo (e.g. disse que iria) 2. Que + complementação de adjetivo (e.g. é importante que faça isso) 3. Relativas Qu (menos 'que': o que, onde, quando, por que,...: acredito no que ele me disse) 4. Infinitivos 2. Particípios 1. Orações com particípio presente (achando que podia, ele...) 2. Orações com particípio passado (feito isso, ele...) 3. Orações com particípio passado e apagamento do pronome relativo (e.g. a solução produzida pelo processo) 3. Relativas 1. Com 'que', na posição de sujeito (o cachorro que me mordeu foi pego) 2. Com 'que', na posição de objeto (o cachorro que eu vi) 3. Com pronome Qu-, na posição de sujeito (? The man who likes popcorn) 4. Com pronome Qu-, na posição de objeto (O lugar onde ele mora) 5. 'Pied-piping' (o modo pelo qual o assunto foi resolvido) 6. Relativas frasais (Ele gosta de manga frita, que é a coisa mais horrível do mundo) 4. Orações adverbiais 1. de causa: porque 2. concessivas: embora 3. condicionais: se, a menos que 4. outros subordinadores adverbiais: já que, de modo que, contanto que 9. Sintagmas/Grupos ('phrases') preposicionais 1. Total de preposições 10. Adjetivos e advérbios 1. Adjetivos atributivos 2. Adjetivos predicativos 3. Total de advérbios 11. Especificidade lexical 1. Razão Forma/Item ('type-token') 2. Extensão média das palavras 12. Classes lexicais 1. Conjunções e locuções conjuntivas (conseqüentemente, por exemplo, etc) 2. Downtoners (quase, parcialmente, praticamente) 3. Neutralizadores* (hedges) (mais ou menos, quase, talvez, um tipo de, etc) 4. Amplificadores (absolutamente, completamente, totalmente, etc) 5. Enfatizadores (com certeza, muito, etc) 6. Partículas discursivas (bem, então, etc) 7. Demostrativos (este, esse, etc, excluindo-se os em posição de sujeito) 13. Modais 1. De possibilidade (ele pode passar no vestibular) 2. De necessidade (ele deve ir trabalhar) 3. De predição (ele deve assinar [assinará - ?] o contrato amanhã) 14. Classes verbais especializadas 1. Verbos públicos (admitir, concordar, argumentar, reclamar, declarar, negar, explicar, insistir, mencionar, prometer, protestar, responder, relatar, dizer, sugerir [='suasive'], escrever, jurar, xingar) 2. Verbos privados (** achar, acreditar, sentir, crer, entender, ver, garantir, perguntar, pensar, etc) 3. Verbos 'suasive' (concordar, pedir, ordenar, mandar, insistir, instruir, propor, recomendar, estipular, sugerir [=público]) 4. Parecer 15. Formas reduzidas e preteridas 1. Contrações 16. Coordenação 1. Coordenação sintagmática ('phrasal') (casa e comida, etc) 2. Coordenação oracional (fiz isso e ela fez aquilo) 3. Negação sintética (nem isso nem aquilo; nenhum argumento vai me ajudar) 4. Negação analítica: não * Pacheco de Oliveira, 1997, p.316 ** Pacheco de Oliveira, 1997, p.318 i Partes deste trabalho apareceram anteriormente em Berber Sardinha, A.P. (2000) Retrospectiva: Análise Multidimensional. DELTA 21. ii Original em versão online, sem número de páginas iii Proveniente do corpus do projeto DIRECT