XXV Encontro Nacional da Associação Portuguesa de Linguística 22, 23 e 24 de Outubro de 2009, Faculdade de Letras da Universidade de Lisboa Contributos para o estudo da variação na frequência de ocorrência de unidades e padrões fonológicos Padrões de Frequência na Fonologia do Português - Investigação e Aplicações PTDC/LIN/70367/2006. Joana Aguiar Universidade do Minho, CLUL Marina Vigário Universidade de Lisboa; Laboratório de Fonética da FLUL, CLUL1 Estrutura Enquadramento Objectivos Metodologia Resultados Obtidos: Comparação de Corpora Resultados Obtidos: Distribuição por Variável Externa Discussão e Conclusões 2 ENQUADRAMENTO 3 Enquadramento Importância da frequência (e.g. Bybee 2002; Bybee & Hooper 2001; Pierrehumbert 2001; Demuth 2006; Gülzow & Gagarina 2007) Papel da frequência de palavras, unidades e padrões gramaticais no processamento, uso linguístico, aquisição e desenvolvimento da linguagem: > o efeito da frequência de palavras ou unidades e padrões gramaticais tarefas de processamento (e.g. Dell 1990; Caramazza et al. 2001); > elevada frequência factor inibidor de processos de regularização (Bybee & Hooper 2001) > frequência relativa de unidades e padrões fonológicos no input da criança poder preditor da ordem de emergência e/ou frequência de ocorrência dessas unidades e padrões nas primeiras produções (e.g. Zamuner et al. 2004; Freitas et al. 2006; Ota 2006; Prieto 2006; Vigário et al. 2006) Português (e.g. Andrade & Viana et al. 1994; Vigário & Falé1994; Viana et al. 1996; e vários trabalhos recentes de Vigário, Frota, Martins e colegas projecto Padrões de Frequência na Fonologia do Português - Investigação e Aplicações PTDC/LIN/70367/2006.) Enquadramento Metodologia Resultados Discussão e Conclusões 4 Enquadramento Comparando frequências de uso nas línguas: tipos silábicos mais de 50% CV; 22% CVC no Português, o Castelhano ou Francês vs. entre 30% e 36% CV e CVC no Inglês e o Holandês (cf. Vigário, Frota & Freitas 2003 e referências aí citadas) formatos de palavras Palavras maiores do que pé binário (~mais de 2 sil.) 5% no Inglês; 15% no Catalão vs. Espanhol e Português (~30%) (cf. Roak & Demuth2000; Prieto 2006;Vigário, Frota & Freitas 2006) Frequência agrupa/distingue línguas Enquadramento Metodologia Resultados Discussão e Conclusões 5 Enquadramento Unidade e variação dentro de cada língua: e.g. diferentes corpora, diferentes resultados, mas mesmas tendências gerais – cf.Viana et al. 1996 vs.Vigário et al. 2006 e Freitas et al. 2006 (comparação sistemática por fazer) Qual a extensão e os limites da variação na frequência de uso de unidades e padrões fonológicos no Português? Que factores se correlacionam com a variação? Enquadramento Metodologia Resultados Discussão e Conclusões 6 Contributo para a resposta a estas questões Frequência de uso de unidades e padrões fonológicos no falar da Terra Quente Transmontana, considerando diferentes variáveis sociolinguísticas Comparação com dados provenientes de corpus que inclui fala de diversos pontos de Portugal Desenvolvimento da investigação apresentada em Aguiar (2009). Enquadramento Metodologia Resultados Discussão e Conclusões 7 OBJECTIVOS 8 Objectivos (i) dar a conhecer dados novos sobre a frequência das classes maiores de segmentos, tipos silábicos, formatos de palavra e padrão acentual, numa variedade do Português; (ii) identificar medidas de frequência de objectos e padrões fonológicos relativamente invariantes, no sentido em que não estabelecem diferenças significativas entre os corpora analisados; identificar padrões de variação que se correlacionam com factores externos, como a idade e a escolaridade; (iii) identificar medidas de frequência potencialmente diferenciadoras de variedades com eventual aplicação em áreas como a Linguística Forense. (iv) Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 9 METODOLOGIA 10 Metodologia Corpora em análise Corpus TA90PE dados fala espontânea de indivíduos oriundos de diversas zonas de Portugal 22994 palavras ortográficas. Corpus TQT dados de fala espontânea de 100 falantes da Terra Quente Transmontana 64757 palavras ortográficas Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 11 Unidades e padrões fonológicos em análise: Tamanho de PW Tipo de Segmento Padrão Acentual Tipos Silábicos Para a extracção e contagem dos valores de frequência foi usada a ferramenta electrónica FreP . (FreP v1.0010 2004-2008, F. Martins, M.Vigário & S. Frota) Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 12 Sobre a Ferramenta FreP Identifica e conta unidades e padrões fonológicos a partir de texto escrito, seguindo as convenções ortográficas em vigor Unidades e padrões: da palavra ao traço Fonologia lexical/obrigatória Corre sobre ficheiros de texto não-formatados (.txt). Novas versões corrigidas e com novas funcionalidades posteriores Em fase de conclusão, teste e avaliação http://www.fl.ul.pt/LaboratorioFonetica/frep Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 13 RESULTADOS OBTIDOS COMPARAÇÃO DE CORPORA 14 Resultados Obtidos Comparação de corpora (i) os valores relativos à frequência dos diferentes formatos de palavra não se distinguem significativamente nos dois corpora (v.p. 0,665). Número de Sílabas por Palavra Prosódica PW3 ≥ PW2 PW1 0% 10% 20% TA90PE Enquadramento Objectivos Metodologia 30% 40% 50% TQT Resultados Discussão e Conclusões 15 (ii) Há diferenças estatisticamente significativas na percentagem de segmentos de tipo C, V e V-Slots (v.p. 0,00). 60% 50% 40% 30% 20% 10% 0% TQT TA90PE Tipos de Segmentos Vogal Consoante Glide V-Slot 43,50% 48,00% 50,70% 46,00% 5,73% 5,80% 0,07% 0,20% (iii) A distribuição do padrão acentual é igual nos dois corpora: sílaba final=22%, penúltima=76%, e antepenúltima=2% (v.p.0,354). Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 16 (iv) A distribuição dos tipos silábicos mais comuns é diferente nos dois corpora (v.p. 0,000). Tipos Silábicos Corpus TQT Frota et al. (2006) e Vigário et. al.(2006b) CV V CVC CVN CVGN CVG VC CCV VN CVGC VG Outros 46,47% 14,94% 10,62% 5,47% 5,12% 3,69% 3,09% 2,87% 1,85% 1,38% 1,60% 2,91% 46,36% 15,83% 11,01% 5,37% 5,62% 2,66% 3,03% 2,18% 2,64% 1,21% 1,51% 2,58% Corpus TA90PE Total de sílabas iniciadas por V: TQT- 21,48%; TA90PE-23,11% Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 17 RESULTADOS OBTIDOS FREQUÊNCIA DE UNIDADES E PADRÕES FONOLÓGICOS NO CORPUS TQT POR VARIÁVEIS EXTERNAS 18 Tamanho de PW Distribuição por Concelho (v.p. 0,000) Alfândega Carrazeda Mirandela Macedo Vila Flor PW1 28,1% 29,1% 27,5% 27,7% 28,1% PW2 46,6% 46,1% 46,3% 45,7% 46,3% PW≥3 25,3% 24,8% 26,2% 26,6% 25,6% Nas cidades a percentagem de palavras prosódicas com três ou mais sílabas é superior. Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 19 Tamanho de PW Distribuição por Escolaridade 50% 40% 30% 20% Alfabetizados Analfabetos PW1 PW2 PW≥3 27,9% 27,5% 45,0% 47,7% 27,0% 24,8% Distribuição por Idade 50% 40% 30% 20% 20-35 36-50 51-65 >65 PW1 29,5% 28,8% 26,3% 27,3% PW2 43,6% 44,5% 44,8% 47,5% PW≥ 3 26,9% 26,7% 28,9% 25,3% Objectivos Metodologia Enquadramento Resultados Discussão e Conclusões 20 Tipos de Segmentos A análise percentual da contagem de segmentos, por grupos de falantes, revela que a sua distribuição é uniforme, à excepção dos valores de V-Slots. A média de V-Slots nos falantes alfabetizados é de 0,08% e nos falantes analfabetos de 0,01%. Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 21 Padrão Acentual Distribuição por Concelho Acento Concelhos Alfândega da Fé Carrazeda Mirandela Macedo de de Ansiães Cavaleiros Vila Flor Monossílabo 28,00% 29,39% 27,23% 27,46% 27,10% Final 14,63% 15,86% 16,43% 14,97% 16,68% Penúltima 56,05% 53,74% 54,98% 55,85% 55,15% Antepenúltima 1,32% 1,01% 1,36% 1,72% 1,07% Os valores mais altos registados para as proparoxítonas dizem respeito às cidades de Mirandela (1,36%) e Macedo (1,72%), tendência já verificada nos valores para as palavras prosódicas com três ou mais sílabas. Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 22 Distribuição por Escolaridade Falantes TQT Analfabeto Alfabetizado Acento Monossílabos Final Penúltima Antepenúltima 27,51% 28,22% 14,61% 16,09% 1,00% 1,37% 56,88% 54,32% Distribuição por Idade Idades 20-35 36-50 51-65 >65 Enquadramento Acento Monossílabos Final 29,50% 16,25% 28,81% 15,69% 27,58% 16,32% 27,75% 15,54% Objectivos Metodologia Penúltima 52,85% 54,08% 54,57% 55,53% Resultados Antepenúltima 1,40% 1,41% 1,53% 1,17% Discussão e Conclusões 23 Tipos Silábicos mais frequentes Distribuição por Concelho A distribuição dos tipos silábicos mais frequentes por concelho da TQT não revela oscilações significativas. Distribuição por Escolaridade Outros VG CVGC VN VC CCV CVGN CVG CVN CVC V CV realização de vogal em final de sílaba fechada por fricativa: fize-te algum mal (INF4). Frequência de a- protéticos: depois alebantaram (INM4); alebantabamo-nos às seis da manhã (MNM4); 0% 10% 20% Alfabetizado Enquadramento Objectivos Metodologia 30% 40% 50% Analfabeto Resultados Discussão e Conclusões 24 Distribuição por Idade 50% 40% 30% 20% 10% 0% CV V CVC CVN 20-35 CVG CVGN CCV 36-50 51-65 VC VN CVGC VG Outros >65 Para o aumento do tipo CV e diminuição do tipo CVC, nos falantes com mais de 65 anos, poderão contribuir as paragoges de [0] e [5] em sílaba final fechada por consoante, formando uma nova sílaba, como em: andaba só com obelhas e cabras era difícile (CNM4), nem sequera sabe (MAF4); ou de qualquera maneira (CNM4). Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 25 DISCUSSÃO E CONCLUSÕES 26 Discussão e Conclusões Apesar de em todos os parâmetros as diferenças serem de detalhe, na medida em que não se distanciam muito do descrito para o PE, a análise da distribuição das unidades e padrões fonológicos aqui apresentada revela que o comportamento dos falantes não é uniforme, mas condicionado por factores externos, como a origem geográfica, a idade e a exposição a processos de escolarização. A comparação TQT e TA90PE revela que: (i) o tamanho de PW e a distribuição do padrão acentual são semelhantes nos dois corpora, o que poderá indicar que a sua frequência de realização é independente das especificidades de cada variedade. (ii) Há diferenças significativas na distribuição de tipos de segmentos e tipos silábicos mais frequente. Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 27 Dentro do espaço TQT: (i) Os falantes provenientes das cidades produzem mais palavras com ≥ 3 sílabas e proparoxítonas. Esta constatação leva-nos a questionar as possíveis influências que os centros de desenvolvimento industrial e cultural poderão ter na produção de palavras prosódicas mais pesadas, mesmo em contextos informais de comunicação, sendo necessária mais investigação neste domínio. (ii) Também a variável idade parece interferir na produção dos tipos silábicos e na realização de palavras prosódicas mais pesadas. Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 28 (iii) Foram assinaladas diferenças significativas na frequência de V-Slots, PW com ≥ 3 sílabas e proparoxítonas nos falantes analfabetos. Considerando que o nível de escolaridade tem impacto na dimensão do léxico activo dos falantes, pode esperar-se que palavras e estruturas de baixa frequência, como as V-Slots, não estejam tão disponíveis em sujeitos com níveis de instrução formal mais baixos. Também a distribuição dos tipos silábicos é influenciada por esta variável. Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 29 Em conclusão, o presente trabalho constitui um contributo para o conhecimento da amplitude e limites da variação na frequência de ocorrência de um conjunto de unidades e padrões fonológicos, bem como das razões subjacentes à variação / ausência de variação encontrada. Dado o que se conhece sobre a importância da frequência no input para a aquisição, estes resultados têm implicações quanto ao que se pode esperar na ordem de emergência/ frequência de unidades e padrões fonológicos nas crianças desta região. Para além da importância destes dados para os estudos de frequência e variação, os resultados obtidos, em conjunto com outros dados de análise, poderão contribuir para traçar o perfil linguístico de (grupos de) falantes (Aplicação Forense). Enquadramento Objectivos Metodologia Resultados Discussão e Conclusões 30 Obrigada! [email protected] [email protected] http://www.fl.ul.pt/LaboratorioFonetica/investigadores.htm 31 32 Corpus TA90PE • amostra do corpus do Português Falado. Documentos Autênticos, editado em CR-ROM pelo Centro de Linguística da Universidade de Lisboa e Instituto Camões. • dados do Português de Portugal da década de 90 (CD 1). 33 Mapass Mapa 34 Corpus TQT Recolha de 14 horas e 34 minutos de fala espontânea + 1h.06 min. (Rádio Ansiães) Transcrição ortográfica, preservando o mais fielmente possível a produção oral original. 35 Tipo Silábico mais frequente CV(N) TQT TA90PE Português/Castelhano/ Francês Inglês/Holandês 52% 52% 50% 30% (cf. Vigário, Frota & Freitas 2003 e referências aí citadas) PW > 2 sílabas CV(N) TQT TA90PE Português/Espanhol Inglês Catalão 26% ~30% 5% 15% 27% (cf. Roak & Demuth2000; Prieto 2006; Vigário, Frota & Freitas 2006) 36