Universidade Federal do Rio Grande do Sul Instituto de Letras Programa de Pós-Graduação em Letras TEORIAS LINGUÍSTICAS DO LÉXICO: RELAÇÕES TEXTUAIS CURSO LIVRE: Ferramentas Computacionais para Análise Linguística Créditos: 02 carga horária: 30h/aula Responsável: Profa. Dra. Maria José Bocorny Finatto Oferecimento: outubro e novembro de 2012 – aulas QUARTAS-FEIRAS à tarde, de 10/10 a 28/11 Súmula: Visão geral das áreas de Linguística de Corpus (LC) e de Processamento de Linguagem Natural (PLN). PLN e LC: histórico, conceitos básicos e desenvolvimento. Interfaces com pesquisas e produtos em Ciência da Computação, abordagens e paradigmas. Estudos da Linguagem: cientistas da computação e linguistas, encontros e desencontros. Conceitos básicos: corpus, treebanks e outros recursos, medidas estatísticas, níveis de tratamento das línguas naturais, bases de estatística lexical. Ferramentas básicas da LC e do PLN: listadores e contadores de palavras e de agrupamentos de palavras. Técnicas de etiquetação morfossintática. Modelos e técnicas de análise sintática. Modelos formais de representação semântica: semântica lexical e sentencial. Discurso/texto e pragmática: conceitos, modelos e métodos de análise. Sumarização e simplificação textual. Tradução automática e recursos para apoio à tradução humana. Introdução à Aprendizagem de Máquina em PLN. Experimentação com ferramentas de PLN e de LC que envolvam o processamento do português. Objetivo: Levar o estudante/pesquisador linguista a: a) identificar e distinguir o PLN e a LC como áreas de estudos e de desenvolvimento de aplicações distintas; b) identificar e saber utilizar seus os principais recursos de PLN e LC para a apoio de pesquisas linguísticas; c) reconhecer potenciais nichos de cooperação entre a pesquisa linguística e a pesquisa informatizada da linguagem. Metodologias da aulas: aulas expositivas, aulas e experimentos em Laboratório de Informática, experimentos de utilização de ferramentas de PLN e de LC. Sistema de avaliação: A avaliação do aluno inclui seu índice de frequência às aulas, considera a qualidade de seu compromentimento com as atividades práticas de aula, de estudo e de pesquisa autônoma. Também inclui o seu desempenho em um ensaio de exploração de dados com apoio de alguma ferramenta computacional estudada durante o curso. Esse trabalho, entregue em forma de artigo curto, 45 dias após o encerramento das aulas, corresponderá a 50% da avaliação global do aluno. Bibliografia básica BERBER SARDINHA, Tony. (org). A língua portuguesa no computador. Campinas: Mercado de Letras, 2005. BERBER SARDINHA, Tony. Linguística de Corpus. Barueri-SP: Manole, 2004. BAAYEN, Harald. Word Frequency Dordrecht/Boston/London. 351p. Distributions. (2001). Kluver Academic Publishers. DIAS DA SILVA, B.C. (1996). A face tecnológica dos estudos da linguagem: o processamento automático das línguas naturais. Tese de Doutorado. Faculdade de Ciências e Letras, Universidade Estadual Paulista – UNESP, Araraquara. 285p. DIAS DA SILVA, B.C.; Montilha, G.; Rino, L.H.M.; Specia, L.; Nunes, M.G.V.; Oliveira Jr., O.N.; Martins, R.T.; Pardo, T.A.S. (2007). Introdução ao Processamento das Línguas Naturais e Algumas Aplicações. Série de Relatórios do NILC. NILC-TR-07-10. São Carlos-SP, Agosto, 121p. JURAFSKY, D. and MARTIN, J.H. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. 1a. ed. Prentice Hall. 934p. MANNING, C.D. and SCHÜTZE, H. (1999). Foundations of Statistical Natural Language Processing. 1a. ed. The MIT Press. 680p. MITKOV, R. (2005). The Oxford Handbook of Computational Linguistics. Oxford University Press, 806p. NUNES, M.G.V. (2008). O Processamento de Línguas Naturais: para quê e para quem? Notas Didáticas do ICMC, N. 73, Instituto de Ciências Matemáticas e de Computação. São Carlos-SP, Maio, 12p. NUNES, M.G.V.; ALUÍSIO, S.M.; PARDO, T.A.S. (2010). Um panorama do Núcleo Interinstitucional de Linguística Computacional às vésperas de sua maioridade. LinguaMÁTICA, Vol. 2, N. 2, pp. 13-27. SANTOS, D. (2009). Caminhos percorridos no mapa da portuguesificação: A Linguateca em perspectiva. LinguaMÁTICA, Vol.1, N.1, pp. 25-58. SCARTON, C. E. ; ALUÍSIO, S. M. Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural: adaptando as métricas do Coh-Metrix para o Português. Linguamática (Revista para o Processamento Automático das Línguas Ibéricas), v. 2, p. 45-61, 2010. PARDO, T.A.S.; GASPERIN, C.V.; CASELI, H.M.; NUNES. M.G.V. (2010). Computational Linguistics in Brazil: An Overview. In the Proceedings of the NAACL-HLT Young Investigators Workshop on Computational Approaches to Languages of the Americas, pp. 1-7. June 1-6, Los Angeles, CA/USA. ROSA, João Luís Garcia. Fundamentos da Inteligência Artificial. Rio de Janeiro: LTC Editora, 2011. 228p. Ver especialmente: Capítulo 8 - Processamento de Línguas Naturais VIEIRA, Renata; LIMA,Vera Lúcia Strube. "JAIA/ Linguística Computacional: Princípios e aplicações". In: MARTINS, Ana Teresa; BORGES, Díbio Leandro (eds.), As Tecnologias da informação e a questão social: anais 2001, Fortaleza, CE, Brasil. VIANA, Vander; TAGNIN, Stella. (orgs.) Corpora no Ensino de Línguas Estrangeiras. São Paulo: HUB, 2011. Artigos, monografias e especialmente relatos CURTOS de pesquisas em LC e PLN serão indicados durante o curso.