UNIVERSIDADE FEDERAL DE MINAS GERAIS
Faculdade de Letras - Câmara de Pesquisa
RELATÓRIO FINAL
I - DADOS BÁSICOS
1. Nome do pesquisador: Tommaso Raso
2. Título do projeto: C-oral -Brasil. Formação de Corpora e estudo sobre a fala espontânea do português do
Brasil e de outras línguas românicas
3. Data de início: 01/03/2012
4. Tipo de projeto:
x Pesquisa
Doutorado
5. Área de conhecimento:
x Estudos linguísticos
Data de término: 28/02/2015
Pesquisa e extensão
Pesquisa aplicada ao ensino
Recém-doutor
Estudos literários
6. Sub-área de conhecimento (seguir tabela do CNPq): Teoria Linguística
7. Palavras-chave (mínimo 03): corpus
fala espontânea estruturação informacional
II - DADOS COMPLEMENTARES
8. O pesquisador é bolsista de agência de fomento?
Não
x Sim Qual? CNPq
Possui outras formas de financiamento (verbas concedidas por editais etc.)
x Não
Sim
Quais?
9. O projeto é vinculado a núcleo de estudos da FALE?
Não x Sim
Nome do núcleo: NELC
10. O projeto é vinculado a grupo de pesquisa cadastrado do CNPq?
Não
Sim
Nome do grupo: Incógnito
III - PRODUTOS DA PESQUISA
Listagem dos trabalhos apresentados em eventos, publicados ou aceitos para publicação.
Data: 31/03/2015
Assinatura:
RELATÓRIO DA BOLSA DE Pq DE TOMMASO RASO. PERÍODO:
03/2012 A 02/2015
Produtos prometidos e produtos realizados
Produtos
prometidos
Produtos realizados
Publicações
Publicações
a - organização da
parte informal do
corpus C-ORALBRASIL.
a – Realizadas 3 organizações de livros e uma organização de
Anais internacionais:
Raso, T.; Mello, H. Corpus de referencia do portugues brasileiro falado
informal. Belo Horizonte, Editora UFMG. + DVD-BL com o corpus em wav,
rtf, txt e alinhamento em XML, com a etiquetagem morfossintática com o
software Palvras e com um conjunto de tabelas e estatísticas para o estudo.
Além disso, foi realizada a organização de um outro livro com a
prestigiosa editora John Benjamins, a organização de um livro
com a editora Firenze University Press e a organização das Atas
do Congresso Internacional GSCP 2012, por mim organizado:
b - no livro que
acompanharia o
corpus,
prometi
que três capítulos
seriam de minha
autoria
RASO, T. (Org.) ; MELLO, H. (Org.) . Spoken Corpora and Linguistic Studies.
1. ed. Amsterdam/Philadelphia: John Benjamins, 2014.
MELLO, H. (Org.) ; PANUNZI, A. (Org.) ; RASO, T. (Org.) . Illocution,
modality, attitude, information patterning and speech annotation. Firenze:
Firenze University Press, 2012.
MELLO, H. (Org.) ; Pettorino, M. (Org.) ; RASO, T. (Org.) . Proceedings of
the 7th International GSCP Conference: Speech and Corpora. 1. ed. Firenze:
Firenze University Press, 2013.
b - foram de minha autoria, sozinho ou como co-autor, quatro
capítulos e as especificações do corpus. Se trata-respectivamente
de:
- RASO, T. . O corpus C-ORAL-BRASIL. In: Tommaso RASO; Heliana
MELLO. (Org.). C-ORAL-BRASIL I. Corpus de referência do português
brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012, v. , p. 5590.
- RASO, T. . O C-ORAL-BRASIL e a Teoria da Língua em Ato. In:
Tommaso RASO; Heliana MELLO. (Org.). C-ORAL-BRASIL I. Corpus de
referência do portufuês brasileiro falado informal. Belo Horizonte: Editora
UFMG, 2012, v. , p. 91-124.
- RASO, T. ; MITTMANN, M. M. . As principais medidas da fala. C-ORALBRASIL I. Corpus de referência do português brasileiro falado informal.
Belo Horizonte: Editora UFMG, 2012, v. , p. 177-222.
- MELLO, H. ; RASO, T. ; MITTMANN, M. M. ; Pereira Vale, H ; CORTES, P.
. Transcrição e segmentação prosódica do corpus C-ORAL-BRASIL:
critérios de implementação e validação. In: Tommaso RASO; Heliana
MELLO. (Org.). C-ORAL-BRASIL I. Corpus de referência do português
brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012, v. , p. 125176.
- RASO, T. . Specifications. In: Raso, T.; Mello, H.. (Org.). C-ORALBRASIL I: Corpus de Refferência do Português Brasileiro Falado Informal.
Belo Horizonte: UFMG, 2012, v. , p. 1-130.
c – prometi um
capítulo de livro
publicado
no
exterior,
dois
artigos
em
periódicos e mais c – realizei 14 trabalhos, dos quais 6 capítulos de livros
sete
trabalhos publicados no exterior, 5 artigos em periódicos (dos quais 2 no
entre artigos e exterior) e 3 trabalhos em Atas de congresso internacional:
capítulos de livros
capítulos de livros - RASO, T. ; MELLO, H. . C-ORAL-BRASIL: Description, Methodology and
(total
10 Theoretical Framework. In: Tony Berber Sardinha; Telma de Lurdes São
Bento. (Org.). Working with Portuguese Corpora. 1ed.London-New Delhitrabalhos)
New York-Sydn: Bloomsbury, 2014, v. , p. 257-278.
d - a realização
(não a publicação)
de um livro que
descreva,
com
base no corpus, a
estrutura
informacional
geral do PB
Orientações
- MITTMANN, M. M. ; RASO, T. . Dialogic Units in Spoken Brazilian and
Italian: A Corpus-Based Approach. New Language Technologies and
Linguistic Research. 1ed.: CPS, 2014, v. , p. 44-61.
- RASO, T. ; MELLO, H. . Spoken corpora and linguistic studies: Problems
and perspectives. In: Tommaso Raso; Heliana Mello. (Org.). Spoken corpora
and
linguistic
studies:
Problems
and
perspectives.
1ed.Amsterdam/Philadelphia: John Benjamins, 2014, v. , p. 1-26.
- RASO, T. . Prosodic Constraints for Discourse Markers. In: Tommaso
Raso; Heliana Mello. (Org.). Spoken Corpora and Linguistic Studies.
1ed.Amsterdam/Philadelphia: John Benjamins, 2014, v. , p. 411-467.
- MONEGLIA, M. ; RASO, T. . Notes on Language into Act Theory (LAcT). In: Tommaso Raso; Heliana Mello. (Org.). Spoken Corpora and
Linguistic Studies. 1ed.Amsterdam/Philadelphia: John Benjamins, 2014, v. ,
p. 468-494.
- MITTMANN, M. M. ; RASO, T. . The C-ORAL-BRASIL Informationally
Tagged Mini-Corpus. In: Heliana MELLO; Alessandro PANUNZI;
Tommaso RASO. (Org.). Illocution, modality, attitude, information
patterning and speech annotation.. 1ed.Firenze: Firenze University Press,
2012, v. , p. 151-183.
- MELLO, H. ; RASO, T. . Attitude, Illocution and Modality: different names
for different categories. In: Heliana Mello; Alessandro Panunzi; Tommaso
Raso. (Org.). Illocution, modality, attitude, information patterning and speech
annotation. 1ed.Firenze: Firenze University Press, 2012, v. , p. 1-18.
- RASO, T. ; MELLO, H. . The C-ORAL-BRASIL Corpus: General
Presentation. In: Mello, H.; Pettorino, M.; Raso, T.. (Org.). Proceedings of
the 7th International GSCP Conference: Speech and Corpora. 1ed.Firenze:
Firenze University Press, 2013, v. , p. 16-27.
- MITTMANN, M. M. ; PANUNZI, A. ; CRESTI, E. ; MELLO, H. ;
MONEGLIA, M. ; RASO, T. . Information Patterning Strategies in
Spontaneous Speech: a Cross-Linguistic Study. In: Mello, H.; Pettorino, M.;
Raso, T.. (Org.). Proceedings of the 7th International GSCP Conference:
Speech and Corpora. 1ed.Firenze: Firenze University Press, 2013, v. , p. 207211.
- RASO, T. ; MELLO, H. ; MITTMANN, M. M. . O projeto C-ORAL-BRASIL.
CHIMERA: JOURNAL OF ROMANCE CORPORA AND LINGUISTIC
STUDIES, v. 1, p. 31-67, 2014.
- MELLO, H. ; RASO, T. . FRAMES E FALA ESPONTÂNEA. Cadernos de
Estudos Linguísticos (UNICAMP), v. 55, p. 99-108, 2013.
- RASO, T. . Fala e escrita: meio, canal, consequências pragmáticas e
linguísticas. Domínios de Lingu@Gem, v. 7, p. 12-46, 2013.
- Rocha, B ; RASO, T. . O pronome lembrete e a Teoria da Língua em Ato:
uma análise baseada em corpora. Veredas (UFJF. Online), v. 17, p. 39-59,
2013.
- RASO, T. ; MELLO, H. . The C-ORAL-BRASIL I: Reference Corpus for
Informal Spoken Brazilian Portugues. Lecture Notes on Artificial
Intelligence , v. 7243, p. 362-368, 2012.
a - Conclusão de
duas teses de
doutorado e uma d – realizei a tese para o concurso para Prof. Titular, que superei
dissertação
de em setembro 2012. A tese trata exatamente o tema prometido.
mestrado
b - realização de
duas teses de
doutorado e duas
dissertações
de
mestrado
Orientações
c - orientação de
a – Concluídas a supervisão de pós-doutorado de Giulia
três bolsistas de
Bossaglia; as teses de doutorado de Cássia F. Oliveira; Maryuale
IC
M. Mittmann; e a dissertação de B. Rocha
b - estão em andamento a supervisão do segundo ano de pósdoutorado de Giulia Bossaglia, as teses de doutorado de B.
Rocha e L. de Almeida Ferrari, ambos já qualificados; e a
dissertação de mestrado de F. Amorim Cavalcante
c – entre março 2012 e fevereiro 2015 foram concluídas as IC
com bolsa de B. Falcão Teixeira, M. Vieira, T. Santana, A. C.
Oliveira, A. Aleixo, P. Côrtes, A. Ramos, A. Arrudas; e a
monografia de A. Arrudas. Estão em andamento a segunda IC
com bolsa de B. Falcão Teixeira, a primeira IC com bolsa de C.
da Silva Santos, B. Oliveira Santos, E. Soares Gomes, B.
Figueiredo, o trabalho de monografia de G. Cardoso e o estágio
de V. Corrêa (com bolsa).
Apesar das promessas feitas terem sido bastante ambiciosas, o saldo entre o
prometido e o realizado é amplamente positivo: do prometido apenas não foi
iniciada uma dissertação de mestrado. Em compensação
- foi realizada uma supervisão de pós-doutorado;
- foi iniciada uma segunda supervisão de pós-doutorado;
- foram concluídas 8 orientações de bolsistas de IC
- foram iniciadas 5 novas orientações de bolsistas de IC;
- foi concluída uma orientação de monografia;
- foi iniciada uma nova orientação de monografia
- foi iniciada uma orientação de estágio;
mas principalmente
- foram realizadas a organização de quatro volumes (contra um prometido), sendo
que 3 internacionais;
- no livro de acompanhamento ao corpus C-ORAL-BRASIL haviam sido prometidos
3 capítulos de minha autoria e foram realizados 5 capítulos de minha autoria ou coautoria;
- havia sido prometido um capítulo de livro publicado no exterior e foram realizados
6 capítulos de livro publicados no exterior;
- havia sido prometido a realização de 2 artigos e 7 trabalhos entre artigos e capítulos;
foram realizados 5 artigos, dos quais 2 internacionais, 6 capítulos de livro e 3
trabalhos em Atas de congresso internacional. Isso quanto à minha produção pessoal,
sem considerar a produção fruto de orientação ou de atividades do grupo de pesquisa
que coordeno.
Mérito científico do projeto
Entrando agora no conteúdo dos trabalhos com relação aos objetivos científicos da
proposta, também podemos dizer que as metas foram compridas e as expectativas
ultrapassadas. Retomo os objetivos, assim como apresentados na proposta, e
sinteticamente explico o que foi realizado com relação a cada um deles, fazendo
referência apenas a alguns trabalhos:
1. Coletar 2/3 de um corpus de fala espontânea do PB formal que possa completar a
comparabilidade com os corpora do C-ORAL-ROM (Cresti-Moneglia 2005).
Atualmente foi quase completada a parte de contexto natural, a mais importante e
difícil do corpus. Essa parte foi gravada integralmente (na realidade conseguimos
mais gravações do necessário, o que nos permitirá escolher os textos na hora de
otimizar o rendimento do corpus no seu balanceamento). Também a fase de
transcrição da parte de contexto natural foi completada e estamos prestes a
completar a fase de revisão e de alinhamento. Essa parte constitui cerca de 50%
do corpus.
A parte de gravações telefônicas também foi quase completada: temos mais das
gravações necessárias, quase toda a parte necessária foi transcrita, e cerca de
metade foi revisada e alinhada. Essa parte pesa por cerca de 15% do corpus.
Quanto a parte de mídia, temos no momento cerca de 2/3 das gravações, das quais
1/3 transcritas, com poucas revisões e poucos alinhamento. Essa parte foi deixada
por última por ser a parte mais fácil, já que a fonte dos textos, ou seja televisão e
rádio, não requer um verdadeiro esforço de busca e não apresenta riscos de
gravações mal sucedidas. Portanto, trata-se da parte na qual é fácil avançar
rapidamente e totalmente programável.
Em síntese, podemos dizer que, somando todas partes do trabalho, alcançamos
certamente 2/3 do percurso inteiro, e não somente a parte de coleta de dados, que
era o prometido.
A produção bibliográfica sobre o corpus informal foi muito grande
2. Estudar as configurações informacionais da fala brasileira comparada com a
fala italiana abrangendo todas as unidades informacionais. A colaboração entre
o nosso grupo e o grupo LABLITA da universidade de Florença, entre muitas
outras coisas, realizou um base de dados de busca de todos os padrões
informacionais dentro dos minicorpora comparáveis etiquetados, o que permite
uma quantidade de estudos impensável sem essa ferramenta.
Muitos foram os estudos sobre as unidades informacionais realizados, parte pela
minha produção direta e parte pela produção de orientandos ou colaboradores do
grupo por mim coordenado. Na minha produção menciono especialmente dois
capítulos do livro por mim co-organizado pela editora John Benjamins (junto com
outro capítulo em co-autoria com M. Mittmann), relativos às unidades dialógicas
e à primeira apresentação da teoria de referência em inglês e com exemplos
tirados de um corpus americano (veja infra). Menciono também o capítulo sobre a
Teoria da Língua em ato e o capítulo sobre as medidas da fala no livro que
acompanha a publicação do C-ORAL-BRASIL. Ainda menciono o trabalho com
vários co-autores nos Proceedings do GSCP, em que se comparam as
configurações informacionais do italiano e do PB; o trabalho com M. Mittmann
em que se descreve o minicorpus brasileiro etiquetado informacionalmente; parte
do trabalho com M. Mittmann e H. Mello publicado na revista Chimera; o
trabalho com B. Rocha que explica o pronome lembrete em PB com sua função
informacional.
3. O estudo dos padrões ilocucionários (CMM) e o início do estudo das ilocuções
extraídas do corpus. Essa parte avançou mais do que era nos nossos planos, pois
em princípio se tratava de um tema inserido a nível mais exploratório para
projetos sucessivos. O trabalho sobre atitude, ilocução e modalidade com H.
Mello resultou em uma reflexão importante do ponto de vista teórico que tem se
refletido na orientação da tese de doutorado de B. Rocha, ainda em andamento,
com o qual já foi publicado um artigo e dois outros foram submetidos (e aceitos).
Ainda menciono a monografia de A. Arruda sobre os padrões ilocucionários.
4. Três estudos de caráter morfossintático: i) a análise sistêmica de uma série de
fenômenos conhecidos mas nunca estudados com base em corpora, para verificar
até que ponto eles constituem uma relação sistêmica (presença e frequência dos
sujeitos clíticos, perda da morfologia verbal e perda dos clíticos objeto direto); ii)
o fenômeno da perda do pronome marcador de diátese (seja reflexiva, seja
ergativa, seja recíproca ou causativa) e o uso do mesmo lexema verbal com
diáteses diferentes; iii) coleta e estudos de fenômenos do PB não
(suficientemente) descritos, induzidos pelo corpus (p. ex. a queda do verbo nas
clivadas, a tendência à redução das regências preposicionais, a serialidade
verbal, etc.)
Contrariamente aos outros pontos, nesse caso o escopo do trabalho foi reduzido.
A amplitude dos fenômenos que queríamos investigar se mostrou imediatamente
excessiva. Focamos em alguns problemas específicos com resultados, a meu ver,
excelentes. Três foram os objetivos escolhidos para serem aprofundados, depois
da fase exploratória: (a) a interface entre estrutura informacional e sintaxe; esse
tema foi objeto da supervisão de pós-doutorado de G. Bossaglia, que já produziu 2
artigos e submeteu mais 2. No grupo, quem tomou a frente desse problema foi
principalmente H. Mello. Mas a minha participação foi constante, principalmente
na orientação de G. Bossaglia, que estudou até agora o comportamento das
completivas e das adverbiais, tanto em linearização (ou seja dentro da mesma
unidade
informacional)
quanto
em
configuração
padronizada,
ou
seja
atravessando mais de uma unidade de informação). O trabalho de G. Bossaglia
compara os dados por ela extraídos dos corpora brasileiro e italiano. Um trabalho
importante sobre esse tema é também o de E. Cresti no volume por mim coorganizado pela John Benjamins. (b) A análise das formas cê(s), ocê(s) e você(s)
com base nos dados do corpus C-ORAL-BRASIL. Trata-se de uma questão muito
estudada e controversa. Esse foi parte do trabalho de doutorado da minha
orientanda L. Ferrari, que defendeu em março 2015. A possibilidade de contar
com um corpus com as características do C-ORAL-BRASIL permitiu enfrentar o
problema com uma metodologia que não podia ser aplicada sem um corpus dessa
natureza. O núcleo da questão foi o seguinte: nós coletamos as formas, todas
tiradas de fala espontânea em contexto natural e com qualidade acústica
apropriada pelo menos para estudos de natureza prosódica, e medimos a duração
da sílaba [se] com relação à média da duração das outras sílabas fonéticas da
mesma unidade tonal. As durações foram normalizadas. Os resultados não deixa
dúvida de que o uso das diferentes formas não é ligado à forma segmental (CÊ vs
OCÊ vs VOCÊ), mas às suas características prosódicas (breves VS longas, ou seja
átonas VS tônicas). Já dois artigos foram publicados mas o material do qual
dispomos permite a realização de trabalhos importantes. (c) O estudo das
diferentes formas de negação em PB (pré-verbal, dupla e pós-verbal). Esse
também é um fenômeno muito estudado e controverso, e também pode ser
estudado com uma metodologia diferente graças às características do corpus CORAL-BRASIL. Trata-se de uma dissertação de mestrado ainda em andamento,
mas que já revela como a forma dupla e pós-verbal possuem restrições que são de
natureza informacional (não ligadas portanto nem a questões de ordem sintática
nem a questões cognitivas em termos do status do referente).
Naturalmente, muitos outros trabalhos e avanços foram realizados por nossos
parceiros italianos ou por outros membros do grupo brasileiro. Todos os trabalhos
sobre esses temas são fruto de uma pesquisa e de uma reflexão derivante de uma
colaboração do grupo inteiro.
Nesse relatório não mencionei as muitas apresentações em evento de minha autoria
ou co-autoria (35 no triênio em questão)
Gostaria contudo de mencionar um outro trabalho importante que não estava previsto
no projeto de bolsa de 2012: a realização de um Minicorpus de fala espontânea do
inglês americano. Os textos foram extraídos do Corpus de Santa Barbara, de maneira
a serem comparáveis com os minicorpora italiano e brasileiro publicados na
plataforma IPIC (http://lablita.dit.unifi.it/ipic/) (outro trabalho feito durante o período
de bolsa, coordenado por mim e E. Cresti). A realização desse minicorpus (21 textos
por um total de 32.000 palavras) consistiu na seleção dos textos, na sua
ressegmentação, no alinhamento e na etiquetagem informacional. A importância
desse trabalho é dupla: além de termos uma língua não românica de comparação para
todos os estudos de natureza informacional e morfossintática, temos a possibilidade
de exemplificar a teoria (que nasceu no estudo do italiano e de outras línguas
românicas) com a língua de comunicação da comunidade científica internacional.
Sem esse trabalho grande não teria sido possível a publicação de Moneglia & Raso
(2014) e muitos trabalhos futuros. A visibilidade que dispor de um minicorpus de
inglês etiquetado informacionalmente oferece para a teoria representa um crescimento
de grande importância. O trabalho foi meu com a participação ativa de meu
orientando de mestrado F. Amorim Cavalcante e de A. Ramos, orientanda de H.
Mello. A dissertação de mestrado de F. Cavalcante, que oriento, é exatamente sobre
as formas de tópico em inglês, de modo que teremos um estudo dessa natureza sobre
uma quarta língua (depois de italiano, PE e PB).
Por fim, menciono que durante o triênio organizei um evento internacional
importante (a 7th GSCP International Conference) e diversos encontros de menor
entidade como os LEEL workshop e os encontros entre os grupos LABLITA e CORAL-BRASIL, inseridos no acordo inter-institucional por mim coordenado com a
universidade de Florença.
Download

produtos da pesquisa