UNIVERSIDADE FEDERAL DE MINAS GERAIS Faculdade de Letras - Câmara de Pesquisa RELATÓRIO FINAL I - DADOS BÁSICOS 1. Nome do pesquisador: Tommaso Raso 2. Título do projeto: C-oral -Brasil. Formação de Corpora e estudo sobre a fala espontânea do português do Brasil e de outras línguas românicas 3. Data de início: 01/03/2012 4. Tipo de projeto: x Pesquisa Doutorado 5. Área de conhecimento: x Estudos linguísticos Data de término: 28/02/2015 Pesquisa e extensão Pesquisa aplicada ao ensino Recém-doutor Estudos literários 6. Sub-área de conhecimento (seguir tabela do CNPq): Teoria Linguística 7. Palavras-chave (mínimo 03): corpus fala espontânea estruturação informacional II - DADOS COMPLEMENTARES 8. O pesquisador é bolsista de agência de fomento? Não x Sim Qual? CNPq Possui outras formas de financiamento (verbas concedidas por editais etc.) x Não Sim Quais? 9. O projeto é vinculado a núcleo de estudos da FALE? Não x Sim Nome do núcleo: NELC 10. O projeto é vinculado a grupo de pesquisa cadastrado do CNPq? Não Sim Nome do grupo: Incógnito III - PRODUTOS DA PESQUISA Listagem dos trabalhos apresentados em eventos, publicados ou aceitos para publicação. Data: 31/03/2015 Assinatura: RELATÓRIO DA BOLSA DE Pq DE TOMMASO RASO. PERÍODO: 03/2012 A 02/2015 Produtos prometidos e produtos realizados Produtos prometidos Produtos realizados Publicações Publicações a - organização da parte informal do corpus C-ORALBRASIL. a – Realizadas 3 organizações de livros e uma organização de Anais internacionais: Raso, T.; Mello, H. Corpus de referencia do portugues brasileiro falado informal. Belo Horizonte, Editora UFMG. + DVD-BL com o corpus em wav, rtf, txt e alinhamento em XML, com a etiquetagem morfossintática com o software Palvras e com um conjunto de tabelas e estatísticas para o estudo. Além disso, foi realizada a organização de um outro livro com a prestigiosa editora John Benjamins, a organização de um livro com a editora Firenze University Press e a organização das Atas do Congresso Internacional GSCP 2012, por mim organizado: b - no livro que acompanharia o corpus, prometi que três capítulos seriam de minha autoria RASO, T. (Org.) ; MELLO, H. (Org.) . Spoken Corpora and Linguistic Studies. 1. ed. Amsterdam/Philadelphia: John Benjamins, 2014. MELLO, H. (Org.) ; PANUNZI, A. (Org.) ; RASO, T. (Org.) . Illocution, modality, attitude, information patterning and speech annotation. Firenze: Firenze University Press, 2012. MELLO, H. (Org.) ; Pettorino, M. (Org.) ; RASO, T. (Org.) . Proceedings of the 7th International GSCP Conference: Speech and Corpora. 1. ed. Firenze: Firenze University Press, 2013. b - foram de minha autoria, sozinho ou como co-autor, quatro capítulos e as especificações do corpus. Se trata-respectivamente de: - RASO, T. . O corpus C-ORAL-BRASIL. In: Tommaso RASO; Heliana MELLO. (Org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012, v. , p. 5590. - RASO, T. . O C-ORAL-BRASIL e a Teoria da Língua em Ato. In: Tommaso RASO; Heliana MELLO. (Org.). C-ORAL-BRASIL I. Corpus de referência do portufuês brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012, v. , p. 91-124. - RASO, T. ; MITTMANN, M. M. . As principais medidas da fala. C-ORALBRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012, v. , p. 177-222. - MELLO, H. ; RASO, T. ; MITTMANN, M. M. ; Pereira Vale, H ; CORTES, P. . Transcrição e segmentação prosódica do corpus C-ORAL-BRASIL: critérios de implementação e validação. In: Tommaso RASO; Heliana MELLO. (Org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012, v. , p. 125176. - RASO, T. . Specifications. In: Raso, T.; Mello, H.. (Org.). C-ORALBRASIL I: Corpus de Refferência do Português Brasileiro Falado Informal. Belo Horizonte: UFMG, 2012, v. , p. 1-130. c – prometi um capítulo de livro publicado no exterior, dois artigos em periódicos e mais c – realizei 14 trabalhos, dos quais 6 capítulos de livros sete trabalhos publicados no exterior, 5 artigos em periódicos (dos quais 2 no entre artigos e exterior) e 3 trabalhos em Atas de congresso internacional: capítulos de livros capítulos de livros - RASO, T. ; MELLO, H. . C-ORAL-BRASIL: Description, Methodology and (total 10 Theoretical Framework. In: Tony Berber Sardinha; Telma de Lurdes São Bento. (Org.). Working with Portuguese Corpora. 1ed.London-New Delhitrabalhos) New York-Sydn: Bloomsbury, 2014, v. , p. 257-278. d - a realização (não a publicação) de um livro que descreva, com base no corpus, a estrutura informacional geral do PB Orientações - MITTMANN, M. M. ; RASO, T. . Dialogic Units in Spoken Brazilian and Italian: A Corpus-Based Approach. New Language Technologies and Linguistic Research. 1ed.: CPS, 2014, v. , p. 44-61. - RASO, T. ; MELLO, H. . Spoken corpora and linguistic studies: Problems and perspectives. In: Tommaso Raso; Heliana Mello. (Org.). Spoken corpora and linguistic studies: Problems and perspectives. 1ed.Amsterdam/Philadelphia: John Benjamins, 2014, v. , p. 1-26. - RASO, T. . Prosodic Constraints for Discourse Markers. In: Tommaso Raso; Heliana Mello. (Org.). Spoken Corpora and Linguistic Studies. 1ed.Amsterdam/Philadelphia: John Benjamins, 2014, v. , p. 411-467. - MONEGLIA, M. ; RASO, T. . Notes on Language into Act Theory (LAcT). In: Tommaso Raso; Heliana Mello. (Org.). Spoken Corpora and Linguistic Studies. 1ed.Amsterdam/Philadelphia: John Benjamins, 2014, v. , p. 468-494. - MITTMANN, M. M. ; RASO, T. . The C-ORAL-BRASIL Informationally Tagged Mini-Corpus. In: Heliana MELLO; Alessandro PANUNZI; Tommaso RASO. (Org.). Illocution, modality, attitude, information patterning and speech annotation.. 1ed.Firenze: Firenze University Press, 2012, v. , p. 151-183. - MELLO, H. ; RASO, T. . Attitude, Illocution and Modality: different names for different categories. In: Heliana Mello; Alessandro Panunzi; Tommaso Raso. (Org.). Illocution, modality, attitude, information patterning and speech annotation. 1ed.Firenze: Firenze University Press, 2012, v. , p. 1-18. - RASO, T. ; MELLO, H. . The C-ORAL-BRASIL Corpus: General Presentation. In: Mello, H.; Pettorino, M.; Raso, T.. (Org.). Proceedings of the 7th International GSCP Conference: Speech and Corpora. 1ed.Firenze: Firenze University Press, 2013, v. , p. 16-27. - MITTMANN, M. M. ; PANUNZI, A. ; CRESTI, E. ; MELLO, H. ; MONEGLIA, M. ; RASO, T. . Information Patterning Strategies in Spontaneous Speech: a Cross-Linguistic Study. In: Mello, H.; Pettorino, M.; Raso, T.. (Org.). Proceedings of the 7th International GSCP Conference: Speech and Corpora. 1ed.Firenze: Firenze University Press, 2013, v. , p. 207211. - RASO, T. ; MELLO, H. ; MITTMANN, M. M. . O projeto C-ORAL-BRASIL. CHIMERA: JOURNAL OF ROMANCE CORPORA AND LINGUISTIC STUDIES, v. 1, p. 31-67, 2014. - MELLO, H. ; RASO, T. . FRAMES E FALA ESPONTÂNEA. Cadernos de Estudos Linguísticos (UNICAMP), v. 55, p. 99-108, 2013. - RASO, T. . Fala e escrita: meio, canal, consequências pragmáticas e linguísticas. Domínios de Lingu@Gem, v. 7, p. 12-46, 2013. - Rocha, B ; RASO, T. . O pronome lembrete e a Teoria da Língua em Ato: uma análise baseada em corpora. Veredas (UFJF. Online), v. 17, p. 39-59, 2013. - RASO, T. ; MELLO, H. . The C-ORAL-BRASIL I: Reference Corpus for Informal Spoken Brazilian Portugues. Lecture Notes on Artificial Intelligence , v. 7243, p. 362-368, 2012. a - Conclusão de duas teses de doutorado e uma d – realizei a tese para o concurso para Prof. Titular, que superei dissertação de em setembro 2012. A tese trata exatamente o tema prometido. mestrado b - realização de duas teses de doutorado e duas dissertações de mestrado Orientações c - orientação de a – Concluídas a supervisão de pós-doutorado de Giulia três bolsistas de Bossaglia; as teses de doutorado de Cássia F. Oliveira; Maryuale IC M. Mittmann; e a dissertação de B. Rocha b - estão em andamento a supervisão do segundo ano de pósdoutorado de Giulia Bossaglia, as teses de doutorado de B. Rocha e L. de Almeida Ferrari, ambos já qualificados; e a dissertação de mestrado de F. Amorim Cavalcante c – entre março 2012 e fevereiro 2015 foram concluídas as IC com bolsa de B. Falcão Teixeira, M. Vieira, T. Santana, A. C. Oliveira, A. Aleixo, P. Côrtes, A. Ramos, A. Arrudas; e a monografia de A. Arrudas. Estão em andamento a segunda IC com bolsa de B. Falcão Teixeira, a primeira IC com bolsa de C. da Silva Santos, B. Oliveira Santos, E. Soares Gomes, B. Figueiredo, o trabalho de monografia de G. Cardoso e o estágio de V. Corrêa (com bolsa). Apesar das promessas feitas terem sido bastante ambiciosas, o saldo entre o prometido e o realizado é amplamente positivo: do prometido apenas não foi iniciada uma dissertação de mestrado. Em compensação - foi realizada uma supervisão de pós-doutorado; - foi iniciada uma segunda supervisão de pós-doutorado; - foram concluídas 8 orientações de bolsistas de IC - foram iniciadas 5 novas orientações de bolsistas de IC; - foi concluída uma orientação de monografia; - foi iniciada uma nova orientação de monografia - foi iniciada uma orientação de estágio; mas principalmente - foram realizadas a organização de quatro volumes (contra um prometido), sendo que 3 internacionais; - no livro de acompanhamento ao corpus C-ORAL-BRASIL haviam sido prometidos 3 capítulos de minha autoria e foram realizados 5 capítulos de minha autoria ou coautoria; - havia sido prometido um capítulo de livro publicado no exterior e foram realizados 6 capítulos de livro publicados no exterior; - havia sido prometido a realização de 2 artigos e 7 trabalhos entre artigos e capítulos; foram realizados 5 artigos, dos quais 2 internacionais, 6 capítulos de livro e 3 trabalhos em Atas de congresso internacional. Isso quanto à minha produção pessoal, sem considerar a produção fruto de orientação ou de atividades do grupo de pesquisa que coordeno. Mérito científico do projeto Entrando agora no conteúdo dos trabalhos com relação aos objetivos científicos da proposta, também podemos dizer que as metas foram compridas e as expectativas ultrapassadas. Retomo os objetivos, assim como apresentados na proposta, e sinteticamente explico o que foi realizado com relação a cada um deles, fazendo referência apenas a alguns trabalhos: 1. Coletar 2/3 de um corpus de fala espontânea do PB formal que possa completar a comparabilidade com os corpora do C-ORAL-ROM (Cresti-Moneglia 2005). Atualmente foi quase completada a parte de contexto natural, a mais importante e difícil do corpus. Essa parte foi gravada integralmente (na realidade conseguimos mais gravações do necessário, o que nos permitirá escolher os textos na hora de otimizar o rendimento do corpus no seu balanceamento). Também a fase de transcrição da parte de contexto natural foi completada e estamos prestes a completar a fase de revisão e de alinhamento. Essa parte constitui cerca de 50% do corpus. A parte de gravações telefônicas também foi quase completada: temos mais das gravações necessárias, quase toda a parte necessária foi transcrita, e cerca de metade foi revisada e alinhada. Essa parte pesa por cerca de 15% do corpus. Quanto a parte de mídia, temos no momento cerca de 2/3 das gravações, das quais 1/3 transcritas, com poucas revisões e poucos alinhamento. Essa parte foi deixada por última por ser a parte mais fácil, já que a fonte dos textos, ou seja televisão e rádio, não requer um verdadeiro esforço de busca e não apresenta riscos de gravações mal sucedidas. Portanto, trata-se da parte na qual é fácil avançar rapidamente e totalmente programável. Em síntese, podemos dizer que, somando todas partes do trabalho, alcançamos certamente 2/3 do percurso inteiro, e não somente a parte de coleta de dados, que era o prometido. A produção bibliográfica sobre o corpus informal foi muito grande 2. Estudar as configurações informacionais da fala brasileira comparada com a fala italiana abrangendo todas as unidades informacionais. A colaboração entre o nosso grupo e o grupo LABLITA da universidade de Florença, entre muitas outras coisas, realizou um base de dados de busca de todos os padrões informacionais dentro dos minicorpora comparáveis etiquetados, o que permite uma quantidade de estudos impensável sem essa ferramenta. Muitos foram os estudos sobre as unidades informacionais realizados, parte pela minha produção direta e parte pela produção de orientandos ou colaboradores do grupo por mim coordenado. Na minha produção menciono especialmente dois capítulos do livro por mim co-organizado pela editora John Benjamins (junto com outro capítulo em co-autoria com M. Mittmann), relativos às unidades dialógicas e à primeira apresentação da teoria de referência em inglês e com exemplos tirados de um corpus americano (veja infra). Menciono também o capítulo sobre a Teoria da Língua em ato e o capítulo sobre as medidas da fala no livro que acompanha a publicação do C-ORAL-BRASIL. Ainda menciono o trabalho com vários co-autores nos Proceedings do GSCP, em que se comparam as configurações informacionais do italiano e do PB; o trabalho com M. Mittmann em que se descreve o minicorpus brasileiro etiquetado informacionalmente; parte do trabalho com M. Mittmann e H. Mello publicado na revista Chimera; o trabalho com B. Rocha que explica o pronome lembrete em PB com sua função informacional. 3. O estudo dos padrões ilocucionários (CMM) e o início do estudo das ilocuções extraídas do corpus. Essa parte avançou mais do que era nos nossos planos, pois em princípio se tratava de um tema inserido a nível mais exploratório para projetos sucessivos. O trabalho sobre atitude, ilocução e modalidade com H. Mello resultou em uma reflexão importante do ponto de vista teórico que tem se refletido na orientação da tese de doutorado de B. Rocha, ainda em andamento, com o qual já foi publicado um artigo e dois outros foram submetidos (e aceitos). Ainda menciono a monografia de A. Arruda sobre os padrões ilocucionários. 4. Três estudos de caráter morfossintático: i) a análise sistêmica de uma série de fenômenos conhecidos mas nunca estudados com base em corpora, para verificar até que ponto eles constituem uma relação sistêmica (presença e frequência dos sujeitos clíticos, perda da morfologia verbal e perda dos clíticos objeto direto); ii) o fenômeno da perda do pronome marcador de diátese (seja reflexiva, seja ergativa, seja recíproca ou causativa) e o uso do mesmo lexema verbal com diáteses diferentes; iii) coleta e estudos de fenômenos do PB não (suficientemente) descritos, induzidos pelo corpus (p. ex. a queda do verbo nas clivadas, a tendência à redução das regências preposicionais, a serialidade verbal, etc.) Contrariamente aos outros pontos, nesse caso o escopo do trabalho foi reduzido. A amplitude dos fenômenos que queríamos investigar se mostrou imediatamente excessiva. Focamos em alguns problemas específicos com resultados, a meu ver, excelentes. Três foram os objetivos escolhidos para serem aprofundados, depois da fase exploratória: (a) a interface entre estrutura informacional e sintaxe; esse tema foi objeto da supervisão de pós-doutorado de G. Bossaglia, que já produziu 2 artigos e submeteu mais 2. No grupo, quem tomou a frente desse problema foi principalmente H. Mello. Mas a minha participação foi constante, principalmente na orientação de G. Bossaglia, que estudou até agora o comportamento das completivas e das adverbiais, tanto em linearização (ou seja dentro da mesma unidade informacional) quanto em configuração padronizada, ou seja atravessando mais de uma unidade de informação). O trabalho de G. Bossaglia compara os dados por ela extraídos dos corpora brasileiro e italiano. Um trabalho importante sobre esse tema é também o de E. Cresti no volume por mim coorganizado pela John Benjamins. (b) A análise das formas cê(s), ocê(s) e você(s) com base nos dados do corpus C-ORAL-BRASIL. Trata-se de uma questão muito estudada e controversa. Esse foi parte do trabalho de doutorado da minha orientanda L. Ferrari, que defendeu em março 2015. A possibilidade de contar com um corpus com as características do C-ORAL-BRASIL permitiu enfrentar o problema com uma metodologia que não podia ser aplicada sem um corpus dessa natureza. O núcleo da questão foi o seguinte: nós coletamos as formas, todas tiradas de fala espontânea em contexto natural e com qualidade acústica apropriada pelo menos para estudos de natureza prosódica, e medimos a duração da sílaba [se] com relação à média da duração das outras sílabas fonéticas da mesma unidade tonal. As durações foram normalizadas. Os resultados não deixa dúvida de que o uso das diferentes formas não é ligado à forma segmental (CÊ vs OCÊ vs VOCÊ), mas às suas características prosódicas (breves VS longas, ou seja átonas VS tônicas). Já dois artigos foram publicados mas o material do qual dispomos permite a realização de trabalhos importantes. (c) O estudo das diferentes formas de negação em PB (pré-verbal, dupla e pós-verbal). Esse também é um fenômeno muito estudado e controverso, e também pode ser estudado com uma metodologia diferente graças às características do corpus CORAL-BRASIL. Trata-se de uma dissertação de mestrado ainda em andamento, mas que já revela como a forma dupla e pós-verbal possuem restrições que são de natureza informacional (não ligadas portanto nem a questões de ordem sintática nem a questões cognitivas em termos do status do referente). Naturalmente, muitos outros trabalhos e avanços foram realizados por nossos parceiros italianos ou por outros membros do grupo brasileiro. Todos os trabalhos sobre esses temas são fruto de uma pesquisa e de uma reflexão derivante de uma colaboração do grupo inteiro. Nesse relatório não mencionei as muitas apresentações em evento de minha autoria ou co-autoria (35 no triênio em questão) Gostaria contudo de mencionar um outro trabalho importante que não estava previsto no projeto de bolsa de 2012: a realização de um Minicorpus de fala espontânea do inglês americano. Os textos foram extraídos do Corpus de Santa Barbara, de maneira a serem comparáveis com os minicorpora italiano e brasileiro publicados na plataforma IPIC (http://lablita.dit.unifi.it/ipic/) (outro trabalho feito durante o período de bolsa, coordenado por mim e E. Cresti). A realização desse minicorpus (21 textos por um total de 32.000 palavras) consistiu na seleção dos textos, na sua ressegmentação, no alinhamento e na etiquetagem informacional. A importância desse trabalho é dupla: além de termos uma língua não românica de comparação para todos os estudos de natureza informacional e morfossintática, temos a possibilidade de exemplificar a teoria (que nasceu no estudo do italiano e de outras línguas românicas) com a língua de comunicação da comunidade científica internacional. Sem esse trabalho grande não teria sido possível a publicação de Moneglia & Raso (2014) e muitos trabalhos futuros. A visibilidade que dispor de um minicorpus de inglês etiquetado informacionalmente oferece para a teoria representa um crescimento de grande importância. O trabalho foi meu com a participação ativa de meu orientando de mestrado F. Amorim Cavalcante e de A. Ramos, orientanda de H. Mello. A dissertação de mestrado de F. Cavalcante, que oriento, é exatamente sobre as formas de tópico em inglês, de modo que teremos um estudo dessa natureza sobre uma quarta língua (depois de italiano, PE e PB). Por fim, menciono que durante o triênio organizei um evento internacional importante (a 7th GSCP International Conference) e diversos encontros de menor entidade como os LEEL workshop e os encontros entre os grupos LABLITA e CORAL-BRASIL, inseridos no acordo inter-institucional por mim coordenado com a universidade de Florença.