Sistema de Reconhecimento de voz na Radiologia com vocabulário restrito Márcio Geovani Jasinski Projeto Cyclops Laboratório de Telemedicina Universidade Federal de Santa Catarina Estrutura da Apresentação • Introdução • Metodologia • Resultados • Discussões e Conclusões Introdução • Projeto Cyclops - software na área médica desde 1998; • Tecnologias - dinamizar o processo de laudo; • Resistência médica na aceitação do software; • Cenários no processo de geração de laudo: 1. Laudo manuscrito: • Letra ilegível; • Documentos perdidos; • Recuperação do documento (histórico); • Relação manual com as demais informações do exame. Introdução – Cenários existentes 2. Laudo ditado em fitas: • Fitas regravadas – qualidade ruim e sem histórico; • Fitas danificadas ou perdidas; • Problemas com etiquetas; Introdução - Cenários existentes Ambiente ideal 3. Laudo ditado em áudio digital e rec. de voz: • Alta qualidade do áudio; • Transcrição automática; • Permite ao médico ditar o laudo com as mãos livres para manipulação do equipamento; • Dinamiza o processo e evita os erros do processo manual ou com fitas; • Histórico do ditado; Introdução - Tecnologias de laudo: • PACS - Sistema para arquivamento e comunicação em diagnóstico por imagem. • DICOM Structured Report - Padrão DICOM para laudos estruturados; • Telemedicina – Tecnologia médica acessível de qualquer lugar que evita deslocamento excessivo de pacientes; • Áudio Digital - Gravação laudo com qualidade e que permite reconhecimento de voz. • Reconhecimento de voz - Processo de obter palavras faladas e transcrição para texto ou DICOM SR; Metodologia • PACS com portal de telemedicina: • Hospital Universitário – UFSC; • Estado de Santa Catarina; • Desafios: • Resistência na digitação dos laudos; • Dinamizar geração de laudos de setores de alta demanda – Radiologia HU/UFSC 21 exames/dia; Quilombo ECG – Antes: 20 exames/mês, Após a implantação da telemedicina: 91,5 exames/mês Metodologia – Soluções livres • Tecnologias livres, open-source e multi-plataforma: • Linux – Sistema operacional; • PortAudio – Entrada e saída de áudio; • wxWidgets – Interface gráfica para o usuário; • HTK – Biblioteca para reconhecimento de voz; • Postgresql – Armazenamento de informações; Metodologia – Vocabulário • O vocabulário médico: Bem definido e formal; • A definição de perplexidade, indica a Radiologia “Número médio de palavras possíveis depois que o modelo de linguagem foi aplicado.” Domínio Perplexidade Radiologia 20 Medicina de emergência 60 Jornalismo 105 Fala geral 247 Metodologia – Reconhecimento de voz • Sistema de rec. de voz é constituído de: • Definição de Gramática e do Dicionário Regras usadas no reconhecimento; • Definição do Modelo Acústico Forma de representação para análise - HMMs; • Definição do corpo de treinamento • Frases e palavras ditadas para rec. de padrões; Metodologia – Reconhecimento de voz • Definição dos modelos HMMS Número de estados e valores iniciais; • Configurações de codificação Parâmetros e algoritmos para o rec./ treino; • Treinamento Ditado para balancear os valores do modelo; • Reconhecimento/Avaliações Uso do sistema e verificação dos resultados Resultados • Análise realizada com ferramentas do HTK: • Gramática: 5 palavras – Acerto de 80% a 99%; • Inexistência de dicionário português: • 50 Gravações e 150 marcações; Resultados • Implementações: • Laudo ditado com integração com o portal; • Módulo para ditado no software de captura; Discussões e Conclusões • O uso de laudo áudio digital com a telemedicina é um avanço excelente pois: • Reduz a resistência na aceitação do sistema; • Evita erros inerentes ao processo manual; • Mantém histórico do ditado; • Permite o reconhecimento de voz automatizado; • Gravação de laudo por Palmtops. Discussões e Conclusões • Definir uma base de dados, que permita o reconhecimento de voz em larga escala; • Rec. De voz com gramática definida conduz ao DICOM SR pela forma não ambígua de ambos; • Forma de armazenamento compactado – verificar a viabilidade com rec. De voz