PACOTES LEXICAIS EM CORPORA DE APRENDIZES Deise Prina Dutra (UFMG) [email protected] Tony Berber Sardinha (PUC-SP) [email protected] ELC 2010 Porto Alegre Agradecimentos Tony Berber Sardinha CNPq (Brasília, Brazil) Fapesp (São Paulo, Brazil) PUCSP CEPRIL Deise Prina Dutra UFMG POSLIN – Estudos baseados em corpora e Ensino/Aprendizagem de línguas estrangeiras LEEL (Laboratório de Estudos Empíricos Experimentais da Linguagem) PUCSP Introdução geral Fraseologia Central em várias áreas de pesquisa Colabora para uma melhor compreensão da linguagem Cognição Descrição Ensino (Ellis 2008; Granger Meunier 2008) “... Phraseology pervades theoretical, empirical, and applied linguistics. Like blood in systemic circulation, it flows through heart and periphery, nourishing all.” (Ellis, 2008: 9) Fraseologia “o estudo de uma estrutura, significado e uso de combinações de palavras” (Cowie 1994:3168 apud Granger e Paquot 2008) Abordagens para o estudo de fraseologias Fraseológica – baseada na linguística Distribucional – baseada na frequência ou movida a dados (Granger e Paquot 2008) Definições Expressões pré-fabricadas ou pre-padronizadas ao invés de palavras têm um papel predominante na produção de discurso oral e escrito (Alterbeng 1993 apud De Cock et al. 1998:67) Fazem parte de produções proficientes e fluentes Chunks “seqüências de duas ou mais palavras que ocorrem regularmente e parecem possuir unidade de significados ou funções” (O´Keeffe, McCarthy & Carter 2007: 46) Pacotes lexicais “simplesmente sequências de palvras que comumente aparecem juntas em discurso natural” (Biber et al. 1999: 990) in terms of the, a list of, the fact that, it is a, etc. A questão do tamanho do pacote: maior é melhor? Falantes de uma língua operam principalmente com base no “princípio idiomático” (Sinclair, 1991) ao invés do “princípio da escolha aberta”. Tamanho e frequência - 3 e 4, occasionalmente 5 palavras A questão da sobreposição de pacotes Eles proporcionam uma nova maneira de olhar a lingua: blocos formadores não são mais a sintaxe/gramática, mas o léxico Eles podem ser responsáveis pela fluência e naturalidade em L1 e L2 Outros palavras utilizadas na área Sequências formulaicas, colocações, clusters, n-gramas, MWUs, etc. Estudos Psicolinguística Schmitt et al (2004) Nekrasova (2009) Identificação e classificação de pacotes lexicais Wray (2002, 2008) Biber, Conrad e Cortes (2004) Biber (2009) Simpson-Vlach e Ellis (2010) Ligados ao ensino aprendizagem de línguas estrangeiras de Cock et al (1998) de Cock (2000) Meunier e Granger (ed.) (2008) Barfiled e Gullstad (ed.) (2009) Chen & Baker (2010) Objetivo deste trabalho em andamento Identificar e classificar pacotes lexicais corpora de textos escritos de aprendizes categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL) corpus de Hyland (2004) Conhecer como os alunos brasileiros utilizam pacotes lexicais na escrita de redações Quais tipos de pacotes são utilizados? Michigan Corpus of Academic Spoken English (MICASE) British National Corpus Função pragmática e funcional Estrutural Como o uso dos pacotes lexicais se aproxima ou se distancia do pacotes mais utilizados em textos produzidos por falantes nativos ou por outros aprendizes Adequar o ensino às necessidades dos alunos Corpora Louvain Corpus of Native English Essays (LOCNESS) International Corpus of Learner English (ICLE) 3,7 milhões de palavras (Granger et al. 2009) Br-ICLE, subcorpus, em formação, do ICLE com textos de alunos brasileiros 324.006 palavras corpus de aprendizes ou de referência? até 2009-> 159,000 palavras Juntos somam 4.251.714 palavras Metodologia Passos Extraímos pacotes de 3 e 4 palavras com um scripts especialmente criados para esta investigação Os pacotes foram categorizados manualmente nas categorias da AFL Principais: expressão referencial, expressões de julgamento e organizadores discursivos Secundárias (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual) Verificamos quais categorias são as mais frequentes em cada corpora Analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar seu uso em contexto padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer Categorias da AFL - taxonomia pragmática funcional Expressões referenciais Expressões de julgamento Funções organizadoras do discurso Especificações de atributos a. Atributos de enquadramento intangível b. Atributos de enquadramento tangível c. Especificação de quantidade Atenuadores Referência textual e metadiscursiva Identificação e foco Epistêmicos Apresentação de tópico e foco Contrastes e comparações Obrigações e diretivos Elaboração de tópico a.Não causal b.Causa e efeito Deiticos e locativos Expressões de habilidade e possibilidade Marcadores discursivos Marcadores de imprecisão Avaliação Intenção/desejo, previsão Resultados Baseados nos pacotes lexicais mais frequentes (10 por milhão) a categoria mais frequente expressões referenciais LOCNESS 10 more frequent 3-word bundles Bundle raw freq norm freq wp1m THE FACT THAT 163 503,077 IN ORDER TO 130 401,227 ONE OF THE 123 379,623 THE UNITED STATES 117 361,104 THAT IT IS 104 320,982 BE ABLE TO 95 293,204 THERE IS NO 94 290,118 IT IS NOT 83 256,168 DUE TO THE 82 253,082 BECAUSE OF THE 79 243,823 category A1a C3b A2 A4 A1a B3 A2 A2 C3b C3b ICLE 10 more frequent 3-word bundles raw freq norm freq Bundle 2473 A LOT OF 2272 IN ORDER TO 1801 ONE OF THE 1580 IT IS NOT 1565 ON THE OTHER 1468 THERE IS NO 1369 THE FACT THAT 1367 IT IS A 1362 THE OTHER HAND 1302 THERE IS A wp1m 656,225 602,888 477,906 419,262 415,282 389,542 363,272 362,741 361,414 345,493 category A1c 3Cb A2 A2 A3 A2 A1a A2 A3 A2 Br-ICLE 10 more frequent 3 word-bundles Bundle IN ORDER TO A LOT OF THE OTHER HAND ON THE OTHER TO HAVE A AS WELL AS IT IS NOT THE FACT THAT IN THE WORLD TO GET A raw freq norm freq wp1m category 83 521,416 C3b 69 433,466 A1c 45 282,695 A3 45 282,695 A3 40 251,285 A2 35 219,874 C4 32 201,028 A2 31 194,746 A1a 31 194,746 A4 29 182,181 to-clause Diferenças quantitativas – expressões referenciais (frequência bruta / frequência normalizada) LOCNESS ICLE Br-ICLE the fact that 163 / 503,1 1369 / 363,3 68/427,2 that there is 33 / 101,8 653 / 173,3 35/213,6 the number of 65 / 200,6 644 / 170,9 45/282,9 LOCNESS N Concordance 131 132 counties self-sufficient, due to the fact that during the war counties like do little to eliminate the problem due to the fact that there would be less 133 rewarded job. Perhaps this is due to the fact that women have successfully 134 forgotten, yet just as important. Due to the fact that the child cannot speak or 135 136 137 138 139 140 141 142 cities would cost billions due to the fact that it costs £1million a mile of commits a fallacy and that only adds to the fact that he presents a weak still won the title outright due to the fact that they played a higher ranked but his charge was dismissed due to the fact that Michigan has no law against entered into. In some marriages due to the fact that the wife does not work, she and eighth grade years partly due to the fact that the number of black the perpetrater knew. This is due to the fact that human beings tend to other hand, maybe it's simply due to the fact that the crucial task of raising 143 intra venous prescriptions due to the fact that they thought he could pass 144 to add worth to the cause due to the fact that they are prepared to make 145 146 147 148 149 150 151 152 153 schools. Supporters often point to the fact that teen pregnancy, violence, stays with him but this is largely due to the fact that he chooses the wrong Guilt is implicit in the account, due to the fact that it is focalized through the refers to Dante's Hell and alludes to the fact that Amsterdam is his wordly french realised that a defeat was due to the fact that they were not a strong writes, . This is somewhat true due to the fact that the limited genetic does not deserve to "care" for it. Due to the fact that the child is biologically only the mother may feel left out. Due to the fact that she did not bear the child are looking for an easy solution due to the fact that they are af raid of death, ICLE Cluster Freq. Length DUE TO THE FACT THAT 95 5 AWARE OF THE FACT THAT 62 5 IN SPITE OF 39 5 SPITE OF THE FACT THAT 38 5 THE FACT THAT IT IS 35 5 Br-ICLE N Concordance 51 52 Unfortunately, they overlook the fact that our desire to have higher Internet or communication satellites. The fact that globalization has brought 53 of the people meet. In that sense, the fact that television has taken the 54 will consider arguments for supporting the fact that dreams and imagination are 55 democratic way of entertainment due to the fact that there is a wide variety of 56 to watch TV the whole afternoon, due to the fact that their parents are out 57 to rehabilitate them? Mainly, due to the fact that law is not strictly obeyed: 58 which is not active anymore, due to the fact that there was a massacre there 59 and imagination. This is due to the fact that one feels constantly 60 “panis et circensis”? It refers to the fact that people in the great Roman 61 the course does not have value due to the fact that it does not focus on the real 62 are becoming lazy thinkers due to the fact that now we computers and 63 situation that needs attention, due to the fact that the people are 64 have reduced their value to zero, due to the fact that some of them are only 65 obviously decadent and outdated due to the fact that it can not deal with the 66 67 68 important tools, society must face up the fact that each year, larger numbers and people in general, mainly when the fact that Brazilians spend long hours in Brazil is the one related with the fact that all politicians are robbers Resultados: expressões de julgamento Baixa frequência de expressões no BRICLE Maior frequência de expressões Atenuadores e marcadores epistêmicos De obrigação e diretivas De habilidadade e possibilidade Avaliação Há diferenças quanto à frequência Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada) LOCNESS ICLE Br-ICLE seems to be may not be 26 / 80,3 23 / 71,0 745 / 197,7 134 / 35,6 21 / 56,5 4 / 12,6 according to 30 / 92,6 452 / 119,9 27 / 119,4 have to be it should be 51 / 157,4 24 / 74,1 574 / 152,3 325 / 86,2 19 / 119,4 9 / 56,5 be able to 95 / 293,2 1154 / 306,2 39 / 245,0 the most important 22 / 67,9 830 / 220,2 38 / 238,7 Resultados sobre os pacotes de organização discursiva Mais marcados pragmaticamente Enfatizados em sala de aula Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada) LOCNESS ICLE Br-ICLE in order to 130 / 401,2 2272 / 602,9 167 / 1049,1 due to the 82 / 252,1 440 / 116,8 36 / 226,2 because of the 79 / 243 679 / 180,2 24 / 150,8 as a result 731 / 194,0 27 / 169,6 45 / 139,0 Conclusões Similaridades entre os corpora Alta frequência de expressões referênciais Diferenças Gênero Frequência das expressões de julgamento e de organizadores discursivos Próximos passos Ajustes Metodológicos Sobreposição de pacotes Necessidade de considerar pacotes maiores (?) Recontagem Corte de 10 por milhão Br-ICLE (pacotes que ocorrem em somente 2 redações) Próximos passos Ajustes Metodológicos Sobreposição de pacotes Classificação Necessidade de considerar pacotes maiores (?) Manual de todos os pacotes de 3 e 4 palavras Distribuição e padrões de uso de cada categoria Bundle analyzer Estudo da composição dos pacotes Porque há dificuldades para classificá-los todos de acordo com a taxonomia pragmática/funcional Estrutura dos pacotes – itens fixos e variáveis Produtividade dos pacotes apropriados e não apropriados