UNIVERSIDADE FEDERAL DE ALAGOAS FACULDADE DE LETRAS UFAL PROGRAMA DE PÓS-GRADUAÇÃO EM LETRAS E LINGUÍSTICA PPGLL PLANO DE DISCIPLINA DISCIPLINA: PGL070.1 – SEMINÁRIOS TEMÁTICOS EM TEORIA E ANÁLISE LINGUÍSTICA: RECOLHA, TRATAMENTO E DISSEMINAÇÃO DE DADOS ORAIS PERÍODO: 2011.1 NATUREZA: ELETIVA ÁREA DE ESTUDOS: LINGUÍSTICA LINHA DE PESQUISA: DESCRIÇÃO E ANÁLISE LINGUÍSTICA DOCENTE RESPONSÁVEL: PROF. DR. MIGUEL OLIVEIRA JR. CARGA HORÁRIA: 60 Horas 1. OBJETIVO GERAL Apresentar técnicas correntes de recolha, tratamento e disseminação de dados de fala. 2. OBJETIVOS ESPECÍFICOS i. Fornecer indicações acerca de equipamentos para recolha de dados orais; ii. Discutir convenções, técnicas e métodos estabelecidos para gravação de dados; iii. Conceituar metadado e discutir sua importância na construção de corpora; iv. Fornecer indicações específicas sobre procedimentos de transcrição e anotação de dados orais; v. Comparar técnicas e aplicativos computacionais diversificados utilizados no alinhamento das transcrições e das anotações; vi. Considerar casos particulares e problemáticos no processo de transcrição de dados; vii. Apresentar métodos de organização e manutenção dos dados gravados; viii. Discutir meios de disponibilização dos dados. 3. CONTEÚDO PROGRAMÁTICO i. Equipamentos para recolha de dados orais: considerações acerca da relação custo-benefício; ii. Convenções, técnicas e métodos utilizados na gravação de dados: o que, onde e como gravar; iii. Metadado: elemento fundamental na construção de corpora. iv. Procedimentos de transcrição e anotação de dados orais: técnicas e aplicativos computacionais diversificados utilizados na transcrição, na anotação e no alinhamento das transcrições e das anotações da fala; v. Casos particulares e problemáticos no processo de transcrição de dados; vi. Métodos de organização e manutenção dos dados gravados; vii. Meios de disponibilização dos dados. 4. METODOLOGIA Apresentação expositiva ilustrativos; aulas práticas; debates. do conteúdo programático, com exemplos BIBLIOGRAFIA BAAL – British Association for Applied Linguistics (2006) Recommendations on Good Practice in Applied Linguistics. http://www.baal.org.uk/about_goodpractice_full.pdf BEREZ, A. (2007) Análise crítica do programa informático EUDICO Linguistic Annotator (ELAN). Language Documentation & Conservation 1(2). BIRD, S. e M. Liberman (2001) A formal framework for linguistic annotation. Speech Communication 33(1,2). BOERSMA, P. e D. Weenik (2007) Praat, versão 4.6.02. www.praat.org BRECK, E. (1998) Soundscriber. http://www-personal.umich.edu/~ebreck/sscriber.html BURNARD, L. (2002) Where did we go wrong? A retrospective look at the British National Corpus. In B. Kettemann e G. Markus (eds.) Teaching and learning by doing corpus analysis. Amsterdã: Rodopi. CAMPBELL, N. (2002a) Recording and storing of speech data. In Proceedings of the International Workshop on Resources and Tools in Field Linguistics, Las Palmas. CAMPBELL, N. (2002b) Recording techniques for capturing natural every-day speech. In Proceedings of LREC II, Las Palmas. CAMPBELL, N. (2004) Speech & expression: the value of a longitudinal corpus. In Proceedings of LREC IV, Lisboa. CASEY, M. e B. Gordon (2007) Sound directions: best practices for audio preservation. http://www.dlib.indiana.edu/projects/sounddirections/bestpractices2007 CASTILHO, A. e D. Preti (eds.) (1987) A linguagem falada culta na cidade de São Paulo. São Paulo: FAPESP. CDP – Digital Audio Working Group (2005) Digital audio best practices, v. 2.0. http://www.cdpheritage.org/digital/audio/documents/cdpdabp_1-2.pdf COATES, J. e J. Thornborrow (1999) Myths, lies and audiotapes: Some thoughts on data transcripts. Discourse & Society 10. CRESTI, E. et al. (2004) The C-ORAL-ROM corpus. A multilingual resource of spontaneous speech for Romance languages. In Proceedings of LREC IV, Lisboa. CRESTI, E. e M. Moneglia (eds.) (2005) C-ORAL-ROM: integrated reference corpora for spoken Romance languages. Amesterdão/Filadélfia: John Benjamins. DILLEY, L. e M. Brown (2005) The RaP Labeling System, versão 1.0. http://faculty.psy.ohio-state.edu/pitt/dilley/rap-system.htm FARRAR, S. et al. (2006) Transcription and annotation of primary data. In Proceedings of 2006 E-MELD Workshop, Lansing. http://www.emeld.org/workshop/2006/wg/wg2- report.pdf FREITAS, T. (2010) Gravando e Transcrevendo o Português Falado: Um Guia Teórico e Prático. In. M. Oliveira Jr. (org.) Linguística de Corpus: da teoria à prática. Lisboa: Colibro. HELLWIG, B. e D. van Uytvanck (2007a) Manual do EUDICO Linguistic Annotator (ELAN), versão 3.3.0. http://www.lat-mpi.eu/tools/elan/ HELLWIG, B. e D. van Uytvanck (2007b) Manual do IMDI Editor, versão 3.2. http://www.lat-mpi.eu/tools/imdi/editor/ IMDI (2003) IMDI Metadata Elements for Session Descriptions. MPI Nijmegen. http://www.mpi.nl/IMDI/documents/Proposals/IMDI_MetaData_3.0.4.pdf JANSSEN, M. e T. Freitas (2008) Spock – a spoken corpus client. In Proceedings of LREC VI, Marraqueche. LADEFOGED, P. (2003) Phonetic Data Analysis. Cambridge: Blackwell. MARTIN, P. (2004) WinPitch Corpus: a text to speech alignment tool for multimodal corpora. In Proceedings of LREC IV, Lisboa. MANTA, M. et al. (2006) Manual do Transcriber, versão 1.5.2. http://trans.sourceforge.net/en/usermanUS.php MEAKINS, F. (2007) Análise crítica do programa informático Computerized Language Analysis (CLAN). Language Documentation & Conservation 1(1). MONEGLIA, M. et al. (2005) Evaluation of consensus on the annotation of terminal and non-terminal prosodic breaks in the C-ORAL-ROM corpus. In E. Cresti e M. Moneglia (eds.) C-ORAL-ROM: integrated reference corpora for spoken Romance languages. Amesterdão/Filadélfia: John Benjamins. MURRAY, T. e C. Ross-Murray (1992) On the legality and ethics of surreptitious recording. Publication of the American Dialect Society 76. OCHS, E. (1979) Transcription as theory. In E. Ochs e B. Schiefflin (eds.) Developmental pragmatics. Nova Iorque: Academic Press. OLIVEIRA JR., M. (org.) (2010) Linguística de Corpus: da teoria à prática. Lisboa: Colibri. PLICHTA, B. (2002) Best practices in the acquisition, processing, and analysis of acoustic speech signals. U. Penn Working Papers in Linguistics 8.3. ROBINSON, A. (2008) Transcribe!, versão 7.50.0. http://www.seventhstring.com/ SHRIBERG, E. (2005) Spontaneous speech: How people really talk and why engineers should care. In Proceedings of Interspeech 2005, Lisboa. SHUY, R. (1993) Risk, deception, confidentiality and informed consent. Recensão crítica do artigo de Murray e Ross-Murray (1992) Legal and ethical issues in surreptitious recording. American Speech 68. SJÖLANDER, K. e J. Beskow (2005) WaveSurfer, versão 1.85. http://www.speech.kth.se/wavesurfer/index.html SCHUURMAN, I. et al. (2004) Linguistic annotation of the Spoken Dutch Corpus: If we had to do it all over again. In Proceedings of LREC IV, Lisboa. WOODS, D. (2008) Transana, versão 2.22. http://www.transana.org.