Seminários@CELGA FLUC, 17 Fevereiro 2011 HE[eee]SIT[u]AÇÃO Modelos de Hesitação para o Português Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga © 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sumário Introdução Objeto de estudo Objetivos Plano e métodos Corpus Análise Perspetivas 2 Seminários@CELGA: Fevereiro 17, 2011 Objeto de Estudo Eventos de hesitação (disfluências) Pausas preenchidas Segmentos fonéticos do sistema português não ocorrentes no âmbito do vocábulo: uum, mm, amm, aa Extensões Prolongamentos fonéticos no âmbito de vocábulos Vocábulos cortados Repetições de de, para a para a Preenchimentos com vocábulos pá, ok, … 3 Seminários@CELGA: Fevereiro 17, 2011 Objetivos Modelar eventos de hesitação presentes no português falado em contínuo Identificar características linguísticas pertinentes e regulares Descrever os fenómenos de hesitação existentes no português falado Propriedades acústico-fonéticas Propriedades morfológicas e sintácticas Caracterizar modelos linguísticos e acústicos das hesitações para identificação e anotação automática dos eventos na fala contínua Anotar uma base de dados de fala contínua em termos de eventos de hesitação 4 Seminários@CELGA: Fevereiro 17, 2011 Plano de Trabalho Criação e anotação de base de dados Identificação automática de hesitações corpora: Estudo linguístico e caracterização de hesitações Tecnovoz Noticiários 5 Centenas de locutores 40 horas de fala lida Anotado ortograficamente Centenas de horas Não anotado Ferramentas para anotação automática de: jingles e música mudança de locutor, reportagens no exterior Seminários@CELGA: Fevereiro 17, 2011 Eventos de Hesitação Primeiros passos… Eventos encontrados manualmente Uso do Transcriber Sub-corpora: Inferem-se as primeiras características (surface structure) que permitam a deteção automática dos eventos 6 Seminários@CELGA: Fevereiro 17, 2011 Deteção Automática de Hesitações Problemas: Ficheiros muito longos; qualidade do áudio variável; muitos locutores: necessidade de tratamento automático. Inexistência de modelos acústicos para hesitação. Caracterização acústica/fonética dos eventos: Tom constante e mais baixo que o usual? Formantes diferentes? Vibrante múltipla? Quais as características a usar? Deteção de repetições: Uso de técnicas de reconhecimento de fala/fones. 7 Seminários@CELGA: Fevereiro 17, 2011 Deteção Automática de Hesitações Solução preliminar: Apenas deteção de pausas preenchidas e extensões. Uso de modelos acústicos de fones. Modelos estatísticos de fones com “misturas de Gaussianas”, GMM. Regra: existe uma hesitação se for detetada uma vogal longa (>350ms) ou repetições de um mesmo fone por mais que 350ms. Permitir mais falsas aceitações que falsas rejeições. Verificação manual dos eventos detectados. Exemplos 8 Seminários@CELGA: Fevereiro 17, 2011 Processo de Anotação Sistemas propostos: Levelt (1983; 1989) Nakatani & Hirschberg (1994) Shriberg (1994) material a corrigir momentos de interrupção acompanhados (ou não) de pausas material reposto Interruption Point Mostra voos de Lisboa na Reparandum umm de Londres na terça. Interregnum Repair SimpleMDE_v6.2: Simple Metadata Annotation Specification Linguistic Data Consortium 9 Seminários@CELGA: Fevereiro 17, 2011 Exemplos de Anotação IP Venho [ de Lisboa ] * Reparandum aaaa FP de Repair [ Co- ] Reparandum IP É necessário gastar [ para renovar] * para Reparandum 10 Seminários@CELGA: Fevereiro 17, 2011 Repair Coimbra. Repair IP [ renovar ]* Reparandum renová-lo. Repair Caracterização de Hesitações Estruturas subjacentes: Informação estatística reparandum, interruption point, (explicit) editing phase, repair, fronteiras (frases, vocábulos, sílabas) Características fonéticas: contornos da onda sonora valores de F0 para onset e offset dos eventos valores de formantes das vogais duração dos segmentos … Características sintáticas e morfológicas (dos eventos e dos elementos adjacentes) 11 Seminários@CELGA: Fevereiro 17, 2011 Perspetivas Identificação de regularidades no âmbito da sintaxe e da morfologia da prosódia ??? 12 Seminários@CELGA: Fevereiro 17, 2011 Obrigados Fim [email protected] [email protected] [email protected] [email protected] © 2005, it - instituto de telecomunicações. Todos os direitos reservados.