PACOTES LEXICAIS EM
CORPORA DE APRENDIZES
Deise Prina Dutra (UFMG)
[email protected]
Tony Berber Sardinha (PUC-SP)
[email protected]
ELC 2010
Porto Alegre
Agradecimentos

Tony Berber Sardinha





CNPq (Brasília, Brazil)
Fapesp (São Paulo, Brazil)
PUCSP
CEPRIL
Deise Prina Dutra




UFMG
POSLIN – Estudos baseados em corpora e
Ensino/Aprendizagem de línguas estrangeiras
LEEL (Laboratório de Estudos Empíricos Experimentais da
Linguagem)
PUCSP
Introdução geral

Fraseologia


Central em várias áreas de pesquisa
Colabora para uma melhor compreensão da
linguagem




Cognição
Descrição
Ensino (Ellis 2008; Granger Meunier 2008)
“... Phraseology pervades theoretical, empirical, and
applied linguistics. Like blood in systemic circulation,
it flows through heart and periphery, nourishing all.”
(Ellis, 2008: 9)
Fraseologia

“o estudo de uma estrutura, significado
e uso de combinações de palavras” (Cowie
1994:3168 apud Granger e Paquot 2008)

Abordagens para o estudo de
fraseologias


Fraseológica – baseada na linguística
Distribucional – baseada na frequência ou
movida a dados (Granger e Paquot 2008)
Definições

Expressões pré-fabricadas ou pre-padronizadas ao invés de palavras têm um papel
predominante na produção de discurso oral e escrito (Alterbeng 1993 apud De
Cock et al. 1998:67)

Fazem parte de produções proficientes e fluentes


Chunks


“seqüências de duas ou mais palavras que ocorrem regularmente e parecem possuir
unidade de significados ou funções” (O´Keeffe, McCarthy & Carter 2007: 46)
Pacotes lexicais

“simplesmente sequências de palvras que comumente aparecem juntas em discurso
natural” (Biber et al. 1999: 990)





in terms of the, a list of, the fact that, it is a, etc.
A questão do tamanho do pacote: maior é melhor?


Falantes de uma língua operam principalmente com base no “princípio idiomático” (Sinclair, 1991)
ao invés do “princípio da escolha aberta”.
Tamanho e frequência - 3 e 4, occasionalmente 5 palavras
A questão da sobreposição de pacotes
Eles proporcionam uma nova maneira de olhar a lingua: blocos formadores não são mais
a sintaxe/gramática, mas o léxico
Eles podem ser responsáveis pela fluência e naturalidade em L1 e L2
Outros palavras utilizadas na área

Sequências formulaicas, colocações, clusters, n-gramas, MWUs, etc.
Estudos

Psicolinguística




Schmitt et al (2004)
Nekrasova (2009)
Identificação e classificação de pacotes lexicais




Wray (2002, 2008)
Biber, Conrad e Cortes (2004)
Biber (2009)
Simpson-Vlach e Ellis (2010)
Ligados ao ensino aprendizagem de línguas estrangeiras

de Cock et al (1998)




de Cock (2000)
Meunier e Granger (ed.) (2008)
Barfiled e Gullstad (ed.) (2009)
Chen & Baker (2010)
Objetivo deste trabalho em
andamento

Identificar e classificar pacotes lexicais corpora de textos escritos de
aprendizes

categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic
Formulas List (AFL)




corpus de Hyland (2004)
Conhecer como os alunos brasileiros utilizam pacotes lexicais na
escrita de redações

Quais tipos de pacotes são utilizados?




Michigan Corpus of Academic Spoken English (MICASE)
British National Corpus
Função pragmática e funcional
Estrutural
Como o uso dos pacotes lexicais se aproxima ou se distancia do pacotes
mais utilizados em textos produzidos por falantes nativos ou por outros
aprendizes
Adequar o ensino às necessidades dos alunos
Corpora

Louvain Corpus of Native English Essays
(LOCNESS)



International Corpus of Learner English (ICLE)


3,7 milhões de palavras (Granger et al. 2009)
Br-ICLE, subcorpus, em formação, do ICLE
com textos de alunos brasileiros


324.006 palavras
corpus de aprendizes ou de referência?
até 2009-> 159,000 palavras
Juntos somam 4.251.714 palavras
Metodologia

Passos


Extraímos pacotes de 3 e 4 palavras com um scripts especialmente
criados para esta investigação
Os pacotes foram categorizados manualmente nas categorias da AFL




Principais: expressão referencial, expressões de julgamento e
organizadores discursivos
Secundárias (e.g. atributos de enquadramento tangíveis e não tangíveis,
expressões de habilidade e possibilidade, metadiscurso e referência
textual)
Verificamos quais categorias são as mais frequentes em cada corpora
Analisamos subcategorias especificas e geramos linhas de
concordância (com scripts específicos e com o WordSmith Tools) para
verificar


seu uso em contexto
padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer
Categorias da AFL - taxonomia
pragmática funcional
Expressões
referenciais
Expressões de
julgamento
Funções organizadoras do
discurso
Especificações de atributos
a. Atributos de enquadramento
intangível
b. Atributos de enquadramento
tangível
c. Especificação de quantidade
Atenuadores
Referência textual e metadiscursiva
Identificação e foco
Epistêmicos
Apresentação de tópico e foco
Contrastes e comparações
Obrigações e diretivos
Elaboração de tópico
a.Não causal
b.Causa e efeito
Deiticos e locativos
Expressões de habilidade e
possibilidade
Marcadores discursivos
Marcadores de imprecisão
Avaliação
Intenção/desejo,
previsão
Resultados


Baseados nos pacotes lexicais mais
frequentes (10 por milhão)
a categoria mais frequente

expressões referenciais
LOCNESS
10 more frequent 3-word bundles
Bundle
raw freq norm freq wp1m
THE FACT THAT
163
503,077
IN ORDER TO
130
401,227
ONE OF THE
123
379,623
THE UNITED STATES
117
361,104
THAT IT IS
104
320,982
BE ABLE TO
95
293,204
THERE IS NO
94
290,118
IT IS NOT
83
256,168
DUE TO THE
82
253,082
BECAUSE OF THE
79
243,823
category
A1a
C3b
A2
A4
A1a
B3
A2
A2
C3b
C3b
ICLE
10 more frequent 3-word bundles
raw freq norm freq
Bundle
2473
A LOT OF
2272
IN ORDER TO
1801
ONE OF THE
1580
IT IS NOT
1565
ON THE OTHER
1468
THERE IS NO
1369
THE FACT THAT
1367
IT IS A
1362
THE OTHER HAND
1302
THERE IS A
wp1m
656,225
602,888
477,906
419,262
415,282
389,542
363,272
362,741
361,414
345,493
category
A1c
3Cb
A2
A2
A3
A2
A1a
A2
A3
A2
Br-ICLE
10 more frequent 3 word-bundles
Bundle
IN ORDER TO
A LOT OF
THE OTHER HAND
ON THE OTHER
TO HAVE A
AS WELL AS
IT IS NOT
THE FACT THAT
IN THE WORLD
TO GET A
raw freq norm freq wp1m category
83
521,416 C3b
69
433,466 A1c
45
282,695 A3
45
282,695 A3
40
251,285 A2
35
219,874 C4
32
201,028 A2
31
194,746 A1a
31
194,746 A4
29
182,181 to-clause
Diferenças quantitativas – expressões
referenciais
(frequência bruta / frequência normalizada)
LOCNESS
ICLE
Br-ICLE
the fact that
163 / 503,1
1369 / 363,3
68/427,2
that there is
33 / 101,8
653 / 173,3
35/213,6
the number of
65 / 200,6
644 / 170,9
45/282,9
LOCNESS
N Concordance
131
132
counties self-sufficient, due to the fact that during the war counties like
do little to eliminate the problem due to the fact that there would be less
133
rewarded job. Perhaps this is due to the fact that women have successfully
134
forgotten, yet just as important. Due to the fact that the child cannot speak or
135
136
137
138
139
140
141
142
cities would cost billions due to the fact that it costs £1million a mile of
commits a fallacy and that only adds to the fact that he presents a weak
still won the title outright due to the fact that they played a higher ranked
but his charge was dismissed due to the fact that Michigan has no law against
entered into. In some marriages due to the fact that the wife does not work, she
and eighth grade years partly due to the fact that the number of black
the perpetrater knew. This is due to the fact that human beings tend to
other hand, maybe it's simply due to the fact that the crucial task of raising
143
intra venous prescriptions due to the fact that they thought he could pass
144
to add worth to the cause due to the fact that they are prepared to make
145
146
147
148
149
150
151
152
153
schools. Supporters often point to the fact that teen pregnancy, violence,
stays with him but this is largely due to the fact that he chooses the wrong
Guilt is implicit in the account, due to the fact that it is focalized through the
refers to Dante's Hell and alludes to the fact that Amsterdam is his wordly
french realised that a defeat was due to the fact that they were not a strong
writes, . This is somewhat true due to the fact that the limited genetic
does not deserve to "care" for it. Due to the fact that the child is biologically only
the mother may feel left out. Due to the fact that she did not bear the child
are looking for an easy solution due to the fact that they are af raid of death,
ICLE
Cluster
Freq. Length
DUE TO THE FACT THAT
95
5
AWARE OF THE FACT THAT
62
5
IN SPITE OF
39
5
SPITE OF THE FACT THAT
38
5
THE FACT THAT IT IS
35
5
Br-ICLE
N Concordance
51
52
Unfortunately, they overlook the fact that our desire to have higher
Internet or communication satellites. The fact that globalization has brought
53
of the people meet. In that sense, the fact that television has taken the
54
will consider arguments for supporting the fact that dreams and imagination are
55
democratic way of entertainment due to the fact that there is a wide variety of
56
to watch TV the whole afternoon, due to the fact that their parents are out
57
to rehabilitate them? Mainly, due to the fact that law is not strictly obeyed:
58
which is not active anymore, due to the fact that there was a massacre there
59
and imagination. This is due to the fact that one feels constantly
60
“panis et circensis”? It refers to the fact that people in the great Roman
61
the course does not have value due to the fact that it does not focus on the real
62
are becoming lazy thinkers due to the fact that now we computers and
63
situation that needs attention, due to the fact that the people are
64
have reduced their value to zero, due to the fact that some of them are only
65
obviously decadent and outdated due to the fact that it can not deal with the
66
67
68
important tools, society must face up the fact that each year, larger numbers
and people in general, mainly when the fact that Brazilians spend long hours
in Brazil is the one related with the fact that all politicians are robbers
Resultados: expressões de
julgamento

Baixa frequência de expressões no BRICLE


Maior frequência de expressões




Atenuadores e marcadores epistêmicos
De obrigação e diretivas
De habilidadade e possibilidade
Avaliação
Há diferenças quanto à frequência
Diferenças quantitativas – expressões de
julgamento
(frequência bruta / frequência normalizada)
LOCNESS
ICLE
Br-ICLE
seems to be
may not be
26 / 80,3
23 / 71,0
745 / 197,7
134 / 35,6
21 / 56,5
4 / 12,6
according to
30 / 92,6
452 / 119,9
27 / 119,4
have to be
it should be
51 / 157,4
24 / 74,1
574 / 152,3
325 / 86,2
19 / 119,4
9 / 56,5
be able to
95 / 293,2
1154 / 306,2
39 / 245,0
the most
important
22 / 67,9
830 / 220,2
38 / 238,7
Resultados sobre os pacotes
de organização discursiva


Mais marcados pragmaticamente
Enfatizados em sala de aula
Diferenças quantitativas – expressões de julgamento
(frequência bruta / frequência normalizada)
LOCNESS
ICLE
Br-ICLE
in order to
130 / 401,2
2272 / 602,9
167 / 1049,1
due to the
82 / 252,1
440 / 116,8
36 / 226,2
because of the 79 / 243
679 / 180,2
24 / 150,8
as a result
731 / 194,0
27 / 169,6
45 / 139,0
Conclusões

Similaridades entre os corpora

Alta frequência de expressões referênciais


Diferenças


Gênero
Frequência das expressões de julgamento e de
organizadores discursivos
Próximos passos

Ajustes Metodológicos

Sobreposição de pacotes



Necessidade de considerar pacotes maiores (?)
Recontagem
Corte de 10 por milhão

Br-ICLE (pacotes que ocorrem em somente 2 redações)
Próximos passos

Ajustes Metodológicos

Sobreposição de pacotes


Classificação




Necessidade de considerar pacotes maiores (?)
Manual de todos os pacotes de 3 e 4 palavras
Distribuição e padrões de uso de cada categoria
Bundle analyzer
Estudo da composição dos pacotes


Porque há dificuldades para classificá-los todos de acordo
com a taxonomia pragmática/funcional
Estrutura dos pacotes – itens fixos e variáveis

Produtividade dos pacotes apropriados e não apropriados
Download

Dutra_Berber_Sardinha