XXV Encontro Nacional da Associação Portuguesa de Linguística
22, 23 e 24 de Outubro de 2009, Faculdade de Letras da Universidade de Lisboa
Contributos para o estudo da variação
na frequência de ocorrência de
unidades e padrões fonológicos
Padrões de Frequência na Fonologia do Português - Investigação e Aplicações
PTDC/LIN/70367/2006.
Joana Aguiar
Universidade do Minho, CLUL
Marina Vigário
Universidade de Lisboa; Laboratório de Fonética da FLUL, CLUL1
Estrutura
Enquadramento
Objectivos
Metodologia
Resultados Obtidos: Comparação de
Corpora
Resultados Obtidos: Distribuição por
Variável Externa
Discussão e Conclusões
2
ENQUADRAMENTO
3
Enquadramento
Importância da frequência
(e.g. Bybee 2002; Bybee & Hooper 2001;
Pierrehumbert 2001; Demuth 2006; Gülzow & Gagarina 2007)
Papel da frequência de palavras, unidades e padrões gramaticais no
processamento, uso linguístico, aquisição e desenvolvimento da
linguagem:
> o efeito da frequência de palavras ou unidades e padrões
gramaticais tarefas de processamento (e.g. Dell 1990; Caramazza et al.
2001);
> elevada frequência factor inibidor de processos de regularização
(Bybee & Hooper 2001)
> frequência relativa de unidades e padrões fonológicos no input da
criança poder preditor da ordem de emergência e/ou frequência
de ocorrência dessas unidades e padrões nas primeiras produções
(e.g. Zamuner et al. 2004; Freitas et al. 2006; Ota 2006; Prieto 2006; Vigário et al.
2006)
Português
(e.g. Andrade & Viana et al. 1994; Vigário & Falé1994; Viana et al. 1996;
e vários trabalhos recentes de Vigário, Frota, Martins e colegas projecto Padrões de
Frequência na Fonologia do Português - Investigação e Aplicações PTDC/LIN/70367/2006.)
Enquadramento
Metodologia
Resultados
Discussão e Conclusões
4
Enquadramento
Comparando frequências de uso nas línguas:
tipos silábicos
mais de 50% CV; 22% CVC no Português, o
Castelhano ou Francês
vs. entre 30% e 36% CV e CVC no Inglês e o
Holandês
(cf. Vigário, Frota & Freitas 2003 e referências aí citadas)
formatos de palavras
Palavras maiores do que pé binário (~mais de 2 sil.)
5% no Inglês; 15% no Catalão
vs. Espanhol e Português (~30%)
(cf. Roak & Demuth2000; Prieto 2006;Vigário, Frota & Freitas 2006)
Frequência agrupa/distingue línguas
Enquadramento
Metodologia
Resultados
Discussão e Conclusões
5
Enquadramento
Unidade e variação dentro de cada língua:
e.g. diferentes corpora, diferentes resultados,
mas mesmas tendências gerais – cf.Viana et al.
1996 vs.Vigário et al. 2006 e Freitas et al. 2006
(comparação sistemática por fazer)
Qual a extensão e os limites da variação
na frequência de uso de unidades e
padrões fonológicos no Português?
Que factores se correlacionam com a
variação?
Enquadramento
Metodologia
Resultados
Discussão e Conclusões
6
Contributo para a resposta a estas
questões
Frequência de uso de unidades e padrões fonológicos
no falar da Terra Quente Transmontana, considerando
diferentes variáveis sociolinguísticas
Comparação com dados provenientes de corpus que
inclui fala de diversos pontos de Portugal
Desenvolvimento da investigação apresentada em
Aguiar (2009).
Enquadramento
Metodologia
Resultados
Discussão e Conclusões
7
OBJECTIVOS
8
Objectivos
(i)
dar a conhecer dados novos sobre a frequência das classes
maiores de segmentos, tipos silábicos, formatos de palavra e
padrão acentual, numa variedade do Português;
(ii)
identificar medidas de frequência de objectos e padrões
fonológicos relativamente invariantes, no sentido em que não
estabelecem diferenças significativas entre os corpora
analisados;
identificar padrões de variação que se correlacionam com
factores externos, como a idade e a escolaridade;
(iii)
identificar
medidas
de
frequência
potencialmente
diferenciadoras de variedades com eventual aplicação em
áreas como a Linguística Forense.
(iv)
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
9
METODOLOGIA
10
Metodologia
Corpora em análise
Corpus TA90PE
dados fala espontânea de indivíduos oriundos de diversas zonas
de Portugal
22994 palavras ortográficas.
Corpus TQT
dados de fala espontânea de 100 falantes da Terra Quente
Transmontana
64757 palavras ortográficas
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
11
Unidades e padrões fonológicos em
análise:
Tamanho de PW
Tipo de Segmento
Padrão Acentual
Tipos Silábicos
Para a extracção e contagem dos valores
de frequência foi usada a ferramenta
electrónica FreP .
(FreP v1.0010 2004-2008, F. Martins, M.Vigário & S. Frota)
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
12
Sobre a Ferramenta FreP
Identifica e conta unidades e padrões fonológicos a partir de
texto escrito, seguindo as convenções ortográficas em vigor
Unidades e padrões: da palavra ao traço
Fonologia lexical/obrigatória
Corre sobre ficheiros de texto não-formatados (.txt).
Novas versões corrigidas e com novas funcionalidades
posteriores
Em fase de conclusão, teste e avaliação
http://www.fl.ul.pt/LaboratorioFonetica/frep
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
13
RESULTADOS OBTIDOS
COMPARAÇÃO DE CORPORA
14
Resultados Obtidos
Comparação de corpora
(i) os valores relativos à frequência dos diferentes formatos de palavra
não se distinguem significativamente nos dois corpora (v.p. 0,665).
Número de Sílabas por Palavra Prosódica
PW3 ≥
PW2
PW1
0%
10%
20%
TA90PE
Enquadramento
Objectivos
Metodologia
30%
40%
50%
TQT
Resultados
Discussão e Conclusões
15
(ii) Há diferenças estatisticamente significativas na percentagem
de segmentos de tipo C, V e V-Slots (v.p. 0,00).
60%
50%
40%
30%
20%
10%
0%
TQT
TA90PE
Tipos de Segmentos
Vogal
Consoante
Glide
V-Slot
43,50%
48,00%
50,70%
46,00%
5,73%
5,80%
0,07%
0,20%
(iii) A distribuição do padrão acentual é igual nos dois corpora:
sílaba final=22%, penúltima=76%, e antepenúltima=2% (v.p.0,354).
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
16
(iv) A distribuição dos tipos silábicos mais comuns é diferente nos
dois corpora (v.p. 0,000).
Tipos
Silábicos
Corpus
TQT
Frota et al. (2006) e Vigário et. al.(2006b)
CV
V
CVC
CVN
CVGN
CVG
VC
CCV
VN
CVGC
VG
Outros
46,47%
14,94%
10,62%
5,47%
5,12%
3,69%
3,09%
2,87%
1,85%
1,38%
1,60%
2,91%
46,36%
15,83%
11,01%
5,37%
5,62%
2,66%
3,03%
2,18%
2,64%
1,21%
1,51%
2,58%
Corpus TA90PE
Total de sílabas iniciadas por V: TQT- 21,48%; TA90PE-23,11%
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
17
RESULTADOS OBTIDOS
FREQUÊNCIA DE UNIDADES E PADRÕES
FONOLÓGICOS NO CORPUS TQT POR
VARIÁVEIS EXTERNAS
18
Tamanho de PW
Distribuição por Concelho (v.p. 0,000)
Alfândega Carrazeda Mirandela Macedo Vila Flor
PW1
28,1%
29,1%
27,5%
27,7%
28,1%
PW2
46,6%
46,1%
46,3%
45,7%
46,3%
PW≥3
25,3%
24,8%
26,2%
26,6%
25,6%
Nas cidades a percentagem de palavras prosódicas com três ou
mais sílabas é superior.
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
19
Tamanho de PW
Distribuição por Escolaridade
50%
40%
30%
20%
Alfabetizados
Analfabetos
PW1
PW2
PW≥3
27,9%
27,5%
45,0%
47,7%
27,0%
24,8%
Distribuição por Idade
50%
40%
30%
20%
20-35
36-50
51-65
>65
PW1
29,5%
28,8%
26,3%
27,3%
PW2
43,6%
44,5%
44,8%
47,5%
PW≥ 3
26,9%
26,7%
28,9%
25,3%
Objectivos
Metodologia
Enquadramento
Resultados
Discussão e Conclusões
20
Tipos de Segmentos
A análise percentual da contagem de segmentos, por grupos de
falantes, revela que a sua distribuição é uniforme, à excepção dos
valores de V-Slots.
A média de V-Slots nos falantes alfabetizados é de 0,08% e nos
falantes analfabetos de 0,01%.
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
21
Padrão Acentual
Distribuição por Concelho
Acento
Concelhos
Alfândega
da Fé
Carrazeda Mirandela Macedo
de
de
Ansiães
Cavaleiros
Vila
Flor
Monossílabo
28,00%
29,39%
27,23%
27,46%
27,10%
Final
14,63%
15,86%
16,43%
14,97%
16,68%
Penúltima
56,05%
53,74%
54,98%
55,85%
55,15%
Antepenúltima
1,32%
1,01%
1,36%
1,72%
1,07%
Os valores mais altos registados para as proparoxítonas dizem
respeito às cidades de Mirandela (1,36%) e Macedo (1,72%),
tendência já verificada nos valores para as palavras prosódicas
com três ou mais sílabas.
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
22
Distribuição por Escolaridade
Falantes
TQT
Analfabeto
Alfabetizado
Acento
Monossílabos Final
Penúltima Antepenúltima
27,51%
28,22%
14,61%
16,09%
1,00%
1,37%
56,88%
54,32%
Distribuição por Idade
Idades
20-35
36-50
51-65
>65
Enquadramento
Acento
Monossílabos
Final
29,50%
16,25%
28,81%
15,69%
27,58%
16,32%
27,75%
15,54%
Objectivos
Metodologia
Penúltima
52,85%
54,08%
54,57%
55,53%
Resultados
Antepenúltima
1,40%
1,41%
1,53%
1,17%
Discussão e Conclusões
23
Tipos Silábicos mais frequentes
Distribuição por Concelho
A distribuição dos tipos silábicos mais frequentes por
concelho da TQT não revela oscilações significativas.
Distribuição por Escolaridade
Outros
VG
CVGC
VN
VC
CCV
CVGN
CVG
CVN
CVC
V
CV
realização de vogal em final
de sílaba fechada por
fricativa: fize-te algum mal
(INF4).
Frequência de a- protéticos:
depois alebantaram (INM4);
alebantabamo-nos às seis da
manhã (MNM4);
0%
10%
20%
Alfabetizado
Enquadramento
Objectivos
Metodologia
30%
40%
50%
Analfabeto
Resultados
Discussão e Conclusões
24
Distribuição por Idade
50%
40%
30%
20%
10%
0%
CV
V
CVC
CVN
20-35
CVG CVGN CCV
36-50
51-65
VC
VN
CVGC
VG Outros
>65
Para o aumento do tipo CV e diminuição do tipo CVC, nos falantes
com mais de 65 anos, poderão contribuir as paragoges de [0] e [5] em
sílaba final fechada por consoante, formando uma nova sílaba, como
em: andaba só com obelhas e cabras era difícile (CNM4), nem sequera
sabe (MAF4); ou de qualquera maneira (CNM4).
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
25
DISCUSSÃO E
CONCLUSÕES
26
Discussão e Conclusões
Apesar de em todos os parâmetros as diferenças serem de
detalhe, na medida em que não se distanciam muito do descrito
para o PE, a análise da distribuição das unidades e padrões
fonológicos aqui apresentada revela que o comportamento dos
falantes não é uniforme, mas condicionado por factores externos,
como a origem geográfica, a idade e a exposição a processos de
escolarização.
A comparação TQT e TA90PE revela que:
(i) o tamanho de PW e a distribuição do padrão acentual são
semelhantes nos dois corpora, o que poderá indicar que a sua
frequência de realização é independente das especificidades
de cada variedade.
(ii) Há diferenças significativas na distribuição de tipos de
segmentos e tipos silábicos mais frequente.
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
27
Dentro do espaço TQT:
(i) Os falantes provenientes das cidades produzem mais
palavras com ≥ 3 sílabas e proparoxítonas.
Esta constatação leva-nos a questionar as possíveis
influências que os centros de desenvolvimento industrial e
cultural poderão ter na produção de palavras prosódicas
mais pesadas, mesmo em contextos informais de
comunicação, sendo necessária mais investigação neste
domínio.
(ii) Também a variável idade parece interferir na produção dos
tipos silábicos e na realização de palavras prosódicas mais
pesadas.
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
28
(iii) Foram assinaladas diferenças significativas na frequência de
V-Slots, PW com ≥ 3 sílabas e proparoxítonas nos falantes
analfabetos.
Considerando que o nível de escolaridade tem impacto na
dimensão do léxico activo dos falantes, pode esperar-se que
palavras e estruturas de baixa frequência, como as V-Slots,
não estejam tão disponíveis em sujeitos com níveis de
instrução formal mais baixos.
Também a distribuição dos tipos silábicos é influenciada
por esta variável.
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
29
Em conclusão, o presente trabalho constitui um contributo
para o conhecimento da amplitude e limites da variação na
frequência de ocorrência de um conjunto de unidades e
padrões fonológicos, bem como das razões subjacentes à
variação / ausência de variação encontrada.
Dado o que se conhece sobre a importância da frequência no
input para a aquisição, estes resultados têm implicações quanto
ao que se pode esperar na ordem de emergência/ frequência de
unidades e padrões fonológicos nas crianças desta região.
Para além da importância destes dados para os estudos de
frequência e variação, os resultados obtidos, em conjunto com
outros dados de análise, poderão contribuir para traçar o perfil
linguístico de (grupos de) falantes (Aplicação Forense).
Enquadramento
Objectivos
Metodologia
Resultados
Discussão e Conclusões
30
Obrigada!
[email protected]
[email protected]
http://www.fl.ul.pt/LaboratorioFonetica/investigadores.htm
31
32
Corpus TA90PE
• amostra do corpus do Português Falado. Documentos
Autênticos, editado em CR-ROM pelo Centro de Linguística
da Universidade de Lisboa e Instituto Camões.
• dados do Português de Portugal da década de 90 (CD 1).
33
Mapass
Mapa
34
Corpus TQT
Recolha de 14 horas e 34 minutos de fala espontânea + 1h.06 min. (Rádio Ansiães)
Transcrição ortográfica, preservando o mais fielmente possível a produção oral
original.
35
Tipo Silábico mais frequente
CV(N)
TQT
TA90PE
Português/Castelhano/
Francês
Inglês/Holandês
52%
52%
50%
30%
(cf. Vigário, Frota & Freitas 2003 e referências aí citadas)
PW > 2 sílabas
CV(N)
TQT TA90PE
Português/Espanhol
Inglês
Catalão
26%
~30%
5%
15%
27%
(cf. Roak & Demuth2000; Prieto 2006; Vigário, Frota & Freitas 2006)
36
Download

Pdf version - Laboratório de Fonética