HUDSON JORGE SCATENA A FÍSICA APLICA À PERÍCIA CRIMINAL: FONÉTICA FORENSE Trabalho de conclusão de curso apresentado ao curso de graduação em Física da Universidade Católica de Brasília, como requisito parcial para obtenção do Título de Licenciado em física. Orientador: Prof. Msc. Thiago Borduqui Ferrari Brasília 2010 Trabalho de Conclusão de Curso de autoria de Hudson Jorge Scatena, intitulado “A FÍSICA APLICADA À PERICIA CRIMINAL”, apresentado como requisito parcial para obtenção do grau de Licenciado em Física da Universidade Católica de Brasília em 23 de junho de 2010, defendida e aprovada pela banca examinadora abaixo assinada: ___________________________________________ Prof. . Msc. Thiago Borduqui Ferrari Orientador Física-UCB ___________________________________________ Prof. Dr. Sérgio Luiz Garavelli Física - UCB ___________________________________________ Prof. Msc. Diego Oliveira Nolasco da Silva Física - UCB AGRADECIMENTO Agradeço a Deus por ter me conduzido até este momento. Ao meu professor e amigo Thiago B. Ferrari por ter me orientado durante o processo de construção deste trabalho e por suas relevantes aulas ministradas na Universidade Católica de Brasília. Aos produtores do software e sítio Sound Ruler acousct analysis, por disponibilizarem de maneira gratuita uma poderosa ferramenta para o desenvolvimento científico da humanidade. Aos criadores e colaboradores do sítio Perito Criminal, por disponibilizarem vários relatos e artigos relacionados à perícia criminal no Brasil. Ao professor Edson Benício por me encaminhar um belo material sobre as transformadas de Fourier, que foi de grande valia para o entendimento dos fenômenos tratados neste trabalho. A minha família por ter me apoiado e sempre ter acreditado em mim. Aos meus amigos por terem me acompanhado e apoiado neste processo tão importante, em especial a Aline Mourão, Ana Carolina S. Machado, Carlos da Silva, Carlos Antônio, Demetrius Leão Diones Charles, Jonathas Fernandes, Pedro Castilho, Thiago de Freita. “O mundo não está ameaçado pelas pessoas más, e sim por aquele que permitem a maldade.” Albert Einstein RESUMO Referência: SCATENA, Hudson Jorge. A Física aplicada a perícia criminal: Fonética forense. 2010. 32 folhas. Trabalho de conclusão de curso para obtenção do grau de Licenciado em Física pela Universidade Católica de Brasília, Brasília-DF. O presente trabalho busca mostrar um pouco dos conceitos da física envolvidos na atividade pericial, em especial nas análises das falas, aqui tratada como fonética forense, fazendo uso de softwares aplicáveis à análise dos sons da fala humana, aliadas aos conceitos de outras áreas do conhecimento humano. Os resultados aqui apresentados não buscam atingir o mesmo nível de precisão dos resultados alcançados em laudos oficiais, porque a metodologia e materiais utilizados buscaram mostrar de maneira superficial tal atividade, porém estes resultados se mostraram como fortes elementos para a individualização da voz de um falante confirmando assim a teoria apresentada. Palavras-chave: Física forense. Fonética forense. Perícia criminal. SUMÁRIO 1. INTRODUÇÃO 2. FISIOLOGIA DA FALA 2.1. SUBSISTEMA RESPITATÓRIO 2.2. SUBSISTEMA LARÍNGEO 2.3. SUBSISTEMA SUPRALARÍNGEO 3. PRODUÇÃO DA FALA 4. FONÉTICA FORENSE 4.1. VERIFICAÇÃO DE LOCUTOR 4.2. VERIFICAÇÃO DE EDIÇÃO 4.3. ANÁLISE DE CONTEUDO FONOGRAFICO 5. ELEMENTOS TECNICOS-COMPARATIVOS 5.1. FORMANTES 5.2. FREQUÊNCIA FUNDAMENTAL 5.3. MODOS ARTICULATÓRIOS 5.4. QUALIDADE VOCAL DO FALANTE 5.5. SONORIDADE OU VOZEAMENTO 5.6. RITMO E TAXA DE ELOCUÇÃO 5.7. VOICE ONSET TIME (VOT) 6. EXAME DE VERIFICAÇÃO DE LOCUTOR 6.1. ANÁLISE PERCEPTUAL 08 09 10 10 10 10 12 12 13 13 13 13 15 16 16 17 17 17 17 17 6.2. ANÁLISE ACÚSTICA 18 6.3. TÉCNICAS PARA A ANÁLISE 18 6.3.1. Espectrograma: 6.3.2. Formantes: 6.3.3. FFT (Fast Fourier Transform): 6.3.4. LPC (Linear predictive coding): 6.3.5. LTAS (Long term average spectrum): 6.3.6. Frequência fundamental: 6.4. METODOLOGIA PARA A ANÁLISE 6.4.1. Análise geral e particular dos formantes 6.4.2. Análise de Estabilidade das Vogais Orais 6.4.3. Traçado da curva de frequência de resposta 6.4.4. Análise de VOT (Voice Onset Time) 6.4.5. Análise de Curvas de Energia: 6.4.6. Análise de Frequência de Vibração das Pregas Vocais: 6.5. REQUESITOS DAS AMOSTRAS PARA VERIFICAÇÃO DE LOCUTOR 6.5.1. Autenticidade 6.5.2. Adequabilidade 6.5.3. Contemporaneidade 6.5.4. Quantidade 7. EXAME DE VERIFICAÇÃO DE EDIÇÃO 18 18 18 18 19 19 19 19 19 20 20 20 20 20 20 21 21 21 21 8. ANÁLISE DE VOZ COM OS SOFTWARES 9. CONCLUSÃO 22 30 8 1. INTRODUÇÃO O perito criminal é uma pessoa com grande conhecimento técnico, científico ou artístico, capaz de esclarecer fatos de interesse judicial. Compõem o corpo de peritos, profissionais das áreas de física, química, biologia, contábeis, ciência da computação, geologia, odontologia, farmácia, bioquímica, mineralogia e engenharia, devido a variabilidade de áreas de atuação. As atribuições do perito criminal são: periciar locais de crimes ou desastres, objetos, veículos, documentos, moedas, mercadorias, produtos químicos, tóxicos, exames balísticos, instrumentos utilizados na prática de infrações, exames de DNA, bem como a realização de todas as investigações necessárias à complementação dessas perícias, para fins jurídico-legais (PCI Concursos, 2007). O perito criminal no exercício de sua função faz uso da ciência chamada criminalística, que é a união dos vários conhecimentos científicos aplicados na elucidação de ilícitos penais e tem por objetivo o estudo sistemático dos objetos e locais envolvidos no crime1. Na criminalística, se usa várias áreas do conhecimento humano, entre eles estão os da física, neste caso chamado de Física Forense, que de acordo com Negrini Neto (2002) “é a parte da Física destinada à observação, análise e interpretação dos fenômenos físicos naturais de interesse judiciário”, essenciais na elucidação de vários eventos, tais como: Acidentes de trânsito. Balística Forense, que compreende o estudo das armas de fogo, suas munições e perícias. Documentoscopia Forense, que verifica se houve falsificação ou alteração de um documento. Fonética Forense, que a parte da criminalística que busca determinar a autenticidade de arquivos de áudio apresentados aos aplicadores da Lei. Neste trabalho serão abordados aspectos relacionados à fonética forense, verificando suas ramificações e aspectos físicos relacionados com sua realização. 2. FISIOLOGIA DA FALA 1 Crime: Definido legalmente como a infração penal a que a lei comina pena de reclusão ou de detenção quer isoladamente, quer alternativa ou cumulativamente com a pena de multa (Dec. Lei nº 3.9 14, de 9/12/1941 - Lei de Introdução ao Código Penal - art. 1º). A doutrina define crime como o "fato proibido por lei sob ameaça de uma pena" (Bento de Faria) 9 De acordo com Morisson (2010), para o melhor entendimento do processo de comparação de vozes se faz necessário expor alguns parâmetros técnico-comparativos intimamente ligados à anatomia bem como uma sucinta explicação sobre o funcionamento do aparelho fonador humano. Do ponto de vista fonético podem ser apontados três subsistemas relevantes para o entendimento, o respiratório, laríngeo e o supralaríngeo. Figura 1: O aparelho fonador. Figura encontrada em: http://www.cefala.org/fonologia/galeria_imagens.php?vcategoria=Aparelho%20fonador&vnome=Diag rama%204&vfile=aparelhofonador_d4.jpg&vref=4, inicialmente extraída e adaptada de http://www.barcode.ro/tutorials/biometrics/img/speech-production.jpg 2.1. O SUBSISTEMA RESPIRATÓRIO. ... Composto pelos pulmões, músculos respiratórios, brônquios e traqueia cuja principal função é a respiração (MORISSON, 2010). Os sons da língua portuguesa são produzidos com o ar que sai do subsistema respiratório em direção ao meio externo, e por meio de compressões e rarefações deste ar que são produzidos os sons da fonação. 10 2.2. O SUBSISTEMA LARÍNGEO ... Composto por um conjunto de músculos, ligamentos e cartilagens cuja principal função é controlar a disposição das pregas vocais, o ar que sai dos pulmões, que é contínuo, em direção ao meio externo, ao passar pelas pregas vocais pode sofrer modificações, transformando-se em pulsos de ar, de acordo com o som desejado (MORISSON, 2010). 2.3. O SUBSISTEMA SUPRALARÍNGEO ... Composto pela região faringal, bucal e nasal. Sua finalidade é definir a maiorias das características qualitativas na fonação, ou seja, a modulação do som produzido na região laríngea ou na própria região supralaríngea principalmente pela movimentação da língua, alterando o tamanho e a forma da cavidade bucal ou unindo-se ou não a cavidade nasal (MORISSON, 2010). 3. PRODUÇÃO DA FALA Na língua portuguesa, a fala é produzida com o ar ascendente dos pulmões que é conduzido pela traqueia até a laringe. Na laringe se encontram as pregas vocais, que são músculos estriados que revestem a laringe, separados por espaços chamados de glote. O ar que se acumula na região inferior da glote, aumenta a pressão até conseguir provocar sua abertura e a consequente passagem do ar e seu fechamento é devido ao efeito Bernoulli2, com isso as pregas vocais vibram produzido o som. Esse som segue para o subsistema supralaríngeo, que tem a função de modulá-lo, atenuando a energia do som em algumas frequências e reforça em outras, para assim produzir o som desejado pelo falante. Por fim o som passa pelo trato vocal, que é composto pela faringe, laringe, cavidade nasal e cavidade oral (boca, língua, bochechas e dentes), e o som que antes era bastante simples, passa por constantes modificações no sistema de ressonância do trato vocal e estruturas ali localizadas (MORISSON, 2010). Como a forma e comprimento de cada cavidade do trato vocal são distintos, a fonação se torna única para cada indivíduo e, portanto cabível de análise de vários elementos técnicocomparativos nos exames periciais (MORISSON, 2010). 2 Efeito Bernoulli: “Quando uma pequena amostra de um fluido escoa numa região estreita de um tubo, ele ganha velocidade, porque a pressão a montante (antes do estreitamento) que a empurra para frente é maior do que a pressão a jusante (dentro ou depois do estreitamento) que se opõe a seu movimento” (Tipler, 2006, p. 463). 11 O conceito de tubos sonoros se faz muito importante para entendimento da produção da voz de um indivíduo, que diz o seguinte: o ar ou gás contido num tubo pode vibrar de modo estacionário, em determinadas frequências, produzindo ondas sonoras. Os tubos sonoros podem ser do tipo aberto ou fechado, com as duas extremidades abertas ou uma extremidade aberta e a outra fechada respectivamente (Tipler, 2006, p. 580). Figura 2 – Tubo sonoro aberto Figura encontrada em: <http://www.cdcc.usp.br/ondulatoria/musica5.html> Figura 3 – Tubo sonoro fechado Figura encontrada em: <http://www.cdcc.usp.br/ondulatoria/musica5.html> Se uma fonte sonora for colocada na extremidade aberta de um tubo, as ondas sonoras emitidas em determinadas frequências irão superpor-se às que se refletirem na outra extremidade, produzindo ondas estacionárias. Nessas condições, a coluna de ar no tubo entra em ressonância com a frequência emitida pela fonte. Uma extremidade aberta sempre corresponde a um ventre (interferência construtiva) e a fechada, a um nó (interferência destrutiva). De acordo com Kemp3 (2010), o trato vocal pode ser entendido como um tubo sonoro fechado, onde a extremidade fechada é a glote, fonte da energia acústica, e a outra extremidade aberta serão os lábios. Portanto o trato vocal funcionará como um ressoador 3 Informações obtidas das notas de aula do Prof. Dr Ernesto Kemp do Instituto de Física da Universidade Estadual de Campinas, disponível em:<http://www.ifi.unicamp.br/~kemp/f105wp/downloads/Parte6.pdf> 12 natural, com aproximadamente 17 cm de comprimento para um homem adulto e frequência fundamental de aproximadamente 500 Hz conforme de expressão: (1) sendo n=1, 2, 3, ..., v a velocidade do som no meio e L o comprimento do tubo. Tal equação pode ser reescrita da seguinte forma (KEMP, 2010): (2) sendo i os inteiros impares, que pode ser entendido como os harmônicos de um tubo sonoro fechado, v a velocidade do som (aproximadamente 340 m/s), L o comprimento do tubo (aproximadamente 0,17 m), portanto: , , Observa-se que o tubo do trato vocal não é reto, porém a análise de ressonância em tubos retos ou curvos não traz diferenças significativas nos resultados (KEMP, 2010), (MORISSON, 2010). 4. FONÉTICA FORENSE A fonética forense se ramifica em: verificação de locutor, verificação de edição e análise de conteúdo fonográfico (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 4.1. A VERIFICAÇÃO DE LOCUTOR ... Investiga se as falas gravadas em uma mídia (fita K7, CD, DVD, VHS), provêm ou não do aparelho fonador de uma pessoa em questão. Muitas vezes nos processos de investigação policial, a única maneira de atribuir a autoria de um crime ou desvincular uma pessoa dele é determinar se a voz contida em uma mídia é ou não da pessoa em questão, em especial nos casos de suborno, chantagem ou extorsão. Este tipo de perícia é feita por meio de comparação entre dois arquivos de voz levando em conta vários parâmetros acústicos e varias 13 realizações articulatórias do falante. O resultado da investigação dá origem a um laudo técnico, que apresentado por perito qualificado é considerado como prova material4. 4.2. A VERIFICAÇÃO DE EDIÇÃO Tem como objetivo examinar os arquivos de áudio contidos em uma mídia, para averiguar se sofreram algum tipo de edição como modificação, supressão ou acréscimo. 4.3. ANÁLISE DE CONTEÚDO FONOGRÁFICO Consiste em descrever todo o conteúdo registrado, que seja relevante à investigação, em um anexo eletrônico contendo todos os arquivos de áudio, que podem ser acessados por aparelhos que leiam CD ou DVD compatível com o formato de arquivo MP3. Possui vantagens sobre o método tradicional de transcrição, pois ao transcrever os fatos para o papel as palavras são escritas de modo inexpressivo, podendo distorcer o seu real sentido e perder várias informações vitais na elucidação e no entendimento dos fatos, tais como entonação, velocidade da fala, regionalismos, som ambiente, sons ao fundo e toda a riqueza de detalhes contidos no áudio. O anexo eletrônico consiste em uma mídia do tipo CD-R, com todos os áudios investigados organizados de forma que o usuário possa avaliá-lo rapidamente e de maneira descomplicada podendo fazer uso de ferramentas como pesquisa de palavras por exemplo. 5. ELEMENTOS TÉCNICO-COMPARATIVOS 5.1. FORMANTES De acordo com Morisson (MORISSON, 2010) “Os formantes são os efeitos ressonantes no trato vocal, relacionado à amplificação da energia sonora no subsistema supralaríngeo. Estão relacionados à anatomia e às configurações do aparelho fonador de cada indivíduo”. De maneira análoga pode ser entendido como um filtro que da a forma por meio das frequências ressonantes do trato vocal. O primeiro formante ( ) possui sua frequência relacionada com a posição da língua na direção vertical e pelo grau de abertura da boca. Já o segundo formante ( ) está relacionado à posição da língua no plano horizontal. As frequências dos demais formantes estão 4 Prova material: Provas produzidas a partir de vestígios encontrados no local do crime. Sendo uma das provas admitidas no nosso processo penal. A prova pericial contribui para formar a convicção do juiz na decisão de um caso concreto. 14 relacionadas à geometria do trato vocal no momento da fonação, e assim como os dois primeiros, dentro de um conjunto de convergências são fortes aspectos para individualização do falante. (MORISSON, 2010). A figura 4 é uma imagem de análise real feita pelo Instituto Nacional de Criminalística que mostra as regiões dos formantes, ou seja, a frequência de ressonância, entre duas amostras de áudio de um mesmo falante. Observa-se a perfeita coerência entre os valores dos quatro primeiros formantes do fone relacionado à vogal [e] da primeira sílaba do enunciado “deixa o resto” quando comparado entre os registros de voz do questionado (curva vermelha no gráfico à direita) e padrão (curva azul). Ressalta-se que não é articulada a semivogal /i/ nesse enunciado. (MORISSON, 2010) Figura 4 – Análise de formantes Figura encontrada em: <http://www.peritocriminal.net/mambo/index.php?option=com_content&task=view&id=182&Itemid=28>. A figura 5 também mostra a convergência dos gráficos dos formantes que de acordo com o autor a divergência do primeiro formante pode ter ocorrido por fatores emocionais. 15 Perfeita coerência entre o segundo, terceiro e quarto formantes do segmento vocálico da locução “tá” quando comparado entre os registros de voz do questionado e padrão. Como o primeiro formante está diretamente relacionado ao grau de abertura da boca, a falta de espontaneidade durante o fornecimento do material sonoro padrão justifica a divergência encontrada nos valores do primeiro formante (MORISSON, 2010). Figura 5 – Análise de formantes Figura encontrada em: <http://www.peritocriminal.net/mambo/index.php?option=com_content&task=view&id=182&Itemid=28> 5.2. FREQUÊNCIA FUNDAMENTAL A menor frequência de ressonância é chamada de frequência fundamental ( ) ou primeiro harmônico, possui a componente de frequência com maior energia do pulso de ar gerado no sistema laríngeo, devido ao movimento de afastamento e de aproximação das pregas vocais. De acordo com Morisson (2010), os falantes adultos femininos e crianças possuem a frequência fundamental em média de 220 Hz e de 300 Hz respectivamente, já os falantes masculinos adultos possuem a frequência fundamental em média de 120 Hz. Esta diferença nos valore de suas frequências se deve a características anatômicas, em especifico pelo tamanho das membranas das pregas vocais, sendo o falante adulto masculino, em geral possuidor dos maiores comprimentos destas membranas, seguido pelos falantes adultos 16 femininos e por crianças. Portanto a relação entre as frequências, anatomia e fisiologia das pregas vocais nos demonstram que a frequência fundamental é um importante elemento técnico-comparativo na individualização do falante. 5.3. MODOS ARTICULATÓRIOS Trata da maneira que o ar sai da cavidade oral, ou seja, o grau de obstrução da passagem de ar. Desta forma os sons podem ser classificados em: Oclusiva5: obstrução completa da corrente de ar através da boca, véu palatino levantado e o ar vai para a cavidade oral - [p], [t], [k], [b], [d] e [g]. Ex.: [p]elo “pelo”, [t]ábua “tábua”, [k]orte “corte”, [b]ote “bote”, [d]ama “dama”, [g]alo “galo” Nasal: obstrução completa da corrente de ar através da boca, véu palatino abaixado e o ar vai para as cavidades oral e nasal – [m], [n], [ɲ]. Ex.: [m]el “mel”, [n]oite “noite”, so[ɲ]o “sonho” Fricativa: obstrução parcial do ar pela aproximação dos articuladores, causando fricção – [f], [v], [s], [z], [ʃ], [ʒ]. Ex.: [f]ado “fado”, [v]alor “valor”, [s]aco “saco”, [z]ebra “zebra”, [ʃ]ave “chave”, [ʒ]á “já” Africada: obstrução completa na passagem do ar (como nas oclusivas) na fase inicial e, após esta fase (quando se dá a soltura da oclusão), fricção, decorrente da passagem central da corrente de ar (como nas fricativas) – [tʃ], [dʒ]. Ex.: po[tʃ]e “pote”, bo[dʒ]e “bode” Tepe (ou vibrante simples): o articulador ativo toca rapidamente o articulador passivo, ocorrendo uma rápida obstrução da passagem do ar através da boca – [ɾ]. Ex.: a[ɾ]o “aro” Vibrante: o articulador ativo toca algumas vezes o articulador passivo, causando vibração – [r]. Ex.: ca[r]o “carro” Retroflexas: o articulador ativo é a ponta da língua e o passivo é o palato duro. A produção das retroflexas se dá pelo levantamento e encurvamento da ponta da língua em relação ao palato duro - [ɻ]. Ex.: ca[ɻ]ta “carta”, ca[ɻ]ga “carga” Laterais: a corrente de ar é obstruída na linha central do trato vocal e o ar é expelido por ambos os lados da obstrução, tendo saída lateral – [l] e [ʎ]. Ex.: [l]ata “lata”, pa[ʎ]a “palha” Ao se analisar os segmentos fonéticos de um falante, por meio da espectrografia, é possível inferir os modos articulatórios empregados em determinados enunciados. (MORISSON, 2010). O seguimento fonético realizado por um falante tem a tendência de seguir um padrão, e isso permite a comparação estatística de uma mesma especificação fonológica e desta maneira está analise constitui mais um forte elemento técnico-comparativo. 5 Dados obtidos das notas de aula da Professora Flaviane R. Fernandes Svartman, da Universidade de São Paulo. Disponível em:< http://www.fflch.usp.br/dlcv/2010-FLC0275aula01.pdf> 17 5.4. QUALIDADE VOCAL DO FALANTE A qualidade vocal está relacionada à maneira que o som da fala é entendido por outras pessoas, e está intimamente ligado às características fisiológicas. Em seu artigo Morisson (2010), destaca algumas classificações da voz utilizadas por peritos, estas são: voz modal (normal), rangida, o falseto (pitch alto), bitonal, laringalizada (creaky voice), murmurada, áspera, rouca, hipernasalisada, robotizada (monotônica), infantilizada, virilizada e a voz feminilizada. 5.5. SONORIDADE OU VOZEANTO Neste parâmetro os sons produzidos pelo falante ou também chamado de fone, pode ser classificado como sonoro ou surdo. Esta classificação é feita por meio de verificação da vibração das pregas vocais no momento da produção do fone, caso seja positivo classifica-se como fone sonoro, caso negativo classifica-se como fone surdo (MORISSON, 2010). 5.6. RITIMO E TAXA DE ELOCUÇÃO O ritmo e a taxa de elocução ou (speech rate), estão relacionados à velocidade do encadeamento dos fones produzidos por um falante. Esta velocidade relaciona-se a maneira que os órgãos ativos do aparelho fonador trabalham e também de fatores neurológicos, código linguísticos, aspectos psicoemocionais e se é natural ou não ao vocabulário do falante (MORISSON, 2010). 5.7. Voice Onset Time (VOT) É a medida do tempo que leva entre a soltura de uma oclusão no trato e o início do vozeamento a ele interligado. Como exemplo, citamos o intervalo de tempo entre a explosão de um som oclusivo (por exemplo, um [p]) e o início de vibração das pregas vocais (MORISSON, 2010). 6. EXAME DE VERIFICAÇÃO DE LOCUTOR 6.1. ANALISE PERCEPTUAL Busca identificar maneiras particulares na fala, como o socioleto6, idioleto7 e dialeto8 bem como variações na articulação das unidades sonoras como ponto de articulação, adição, 6 7 De acordo com a linguística é a maneira particular de um grupo social. De acordo com a linguística é a maneira particular de um individuo falar. 18 omissão, nasalização e troca de fonemas, empregado pelo falante na articulação tanto na fala questionada como na fala padrão. 6.2. ANÁLISE ACÚSTICA A análise acústica dos fones questionados e padrão deverão ser realizados nas mesmas condições, tais como nível de intensidade e largura da banda de frequência. A verificação deverá ser realizada preferencialmente entre frases, entre palavras, entre unidades silábicas e unidades sonoras que sejam semelhantes. Os resultados da análise acústica deverão ser apresentados na forma de estatística com relação aos parâmetros acústicos analisados. Os espectrogramas deverão contemplar analises tanto em banda larga como em banda fina de frequência. Sendo que em banda larga deverá destacar os formantes e suas transições e em banda fina deverá ilustrar a estruturação dos harmônicos da fala. 6.3. TECNICAS PARA A ANÁLISE 6.3.1. Espectrograma: Analisar o movimento dos formantes e suas transições, a estruturação dos harmônicos em uma unidade ou em um conjunto de unidades sonoras assim como características articulatórias e de co-articulação da fala. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.3.2. Formantes: Busca identificar características comuns nos valores médios das zonas de estabilidade dos núcleos vocálicos e as equivalências em suas transições. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.3.3. FFT (Fast Fourier Transform): A transformada rápida de Fourier é uma poderosa ferramenta, que neste caso é feita por um algoritmo, que objetiva determinar a característica da amplitude no domínio da frequência da fala em uma amostra de curto ou longo período. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 8 De acordo com a linguística é a maneira particular de indivíduos de uma região falar. 19 6.3.4. LPC (Linear predictive coding): A codificação preditiva linear busca determinar a frequência em um ponto de maior energia e a frequência dos formantes num dado instante. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.3.5. LTAS (Long term average spectrum): É um desenho bidimensional da intensidade em função da freqüência espectral da amostra. Para Nordemberg e Sundberg9, "Reflete a contribuição tanto da fonte glótica quanto do trato vocal na qualidade de uma voz". “Dispõe em um só espectro, a média de vários espectros momentâneos obtidos, por exemplo, a cada 200 milésimos de segundo” (MASTER; BIASE; PEDROSA; CHIARI, 2006.) 6.3.6. Frequência fundamental: Aplicar esta análise quando a qualidade do áudio for excelente e as condições de coleta do som padrão e questionado 10 forem muito próximas. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008) 6.4. METODOLOGIAS PARA ANÁLISE 6.4.1. Análise geral e particular dos formantes São analises relacionadas às frequências dos formantes, buscando similaridade nas amostras cotejas ou investigadas. “cotejar conjuntos de valores das frequências utilizando a técnica de máximos e de mínimos para os dois primeiros formantes vocálicos entre fonemas análogos existentes na amostra padrão e na questionada. Deve ser considerado, sempre que possível, como ponto de medida, a região de maior valor de F1 (primeiro formante), para a vogal baixa e para as vogais médias baixas (/a,é,ó/), para as vogais anteriores /i/ e /e/ a região de máximo F2 (segundo formante) e para as vogais posteriores /o/ e /u/ a região de menor valor de F2” (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008) Outras possibilidades são: cálculo da média das frequências dos formantes na zona de estabilidade no núcleo vocálico; 9 2003 apud MASTER; BIASE; PEDROSA; CHIARI,2006. Amostra de fala gravada que se busca identificação por comparações com amostras cedidas pelo investigado, ditas padrão. 10 20 extração dos valores das frequências dos formantes na zona de maior energia do núcleo vocálico; localização, por análise em banda fina de frequência, do centro do harmônico de maior energia na zona de frequência correspondente a cada formante do referido núcleo” E ainda de acordo com (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008), “Cotejar o desenho dos formantes entre as amostras padrão e questionada. As transições dos formantes inter e intra-conjuntos fonéticos. Quando possível utilizar para intervalos de tempo e de localização espacial análogos, dados estatísticos para os valores extraídos das duas amostras cotejadas entre si”. 6.4.2. Análise de Estabilidade das Vogais Orais Fazer a análise do espectrograma no modo spectrum, que é o gráfico da energia em função da frequência em zonas de estabilidade das vogais orais. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008) 6.4.3. Traçado da curva de frequência de resposta Realizar a LPC sobreposta à FFT, observando para que a compatibilidade técnica usada no cálculo da Análise de Fourier seja a correspondente para esse exame, permitindo que os picos espectrais sejam coincidentes. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.4.4. Análise de VOT (Voice Onset Time): Cotejar o tempo decorrido entre a soltura de uma plosiva e o início do movimento periódico de articulação da vogal utilizando-se das análises de oscilograma e espectrografia. (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008) 6.4.5. Análise de Curvas de Energia: Empregado no estudo da estrutura rítmica do discurso (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.4.6. Análise de Frequência de Vibração das Pregas Vocais: Empregado no estudo da estrutura rítmica do discurso. 21 6.5. REQUISITOS DAS AMOSTRAS PARA VEIFICAÇÃO DE LOCUTOR 6.5.1. Autenticidade As amostras padrões devem ser coletadas e preparadas pelo Perito que vai realizar o exame pericial e o cotejo deve ser preferencialmente realizado com o áudio questionado original (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.5.2. Adequabilidade Amostras padrões devem ser produzidas de maneiras e em datas distintas. Um conjunto dessas deve ser gravado, preferencialmente, no mesmo tipo de “mídia”, com a utilização do mesmo sistema, do mesmo meio ou linha de transmissão de gravação daquele utilizado no material questionado. Outras amostras padrões devem ser produzidas com a melhor qualidade possível em seu áudio. O local onde deve ser feita a coleta das amostras padrões deverá apresentar a maior similaridade possível com o ruído ambiental existente na gravação questionada. Portanto, a coleta de padrões em cabine acústica nem sempre se faz necessária e conveniente, por não apresentar, na maioria dos casos, similaridade com as gravações de situações forenses nas quais, normalmente, o falante está em ambiente de sua convivência, em oposição a uma situação atípica, que certamente influenciará na sua qualidade vocal (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.5.3. Contemporaneidade Os padrões devem ser preferencialmente obtidos em datas próximas à data em que foi produzida a peça questionada. O decurso de um tempo muito prolongado entre a produção da peça questionada e a obtenção dos padrões pode dificultar a realização da perícia (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 6.5.4. Quantidade Deve ser facultada ao perito a possibilidade de coleta de material padrão, no mínimo, em duas oportunidades (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 7. EXAME DE VERIFICAÇÃO DE EDIÇÃO Neste tipo de investigação, busca-se identificar evidências que indiquem a existência de edição que possa ter alterado o conteúdo original da gravação, seja por inserção, corte, superposição, abafamento ou por deslocamento de trechos no áudio gravado. Para isso é 22 preciso observar o tempo de duração do conjunto de sons analisados, assinalar os pontos suspeitos de edição, destacar os instantes em que houve alteração da amplitude do sinal para posterior análise espectrográfica e assinalar todo e qualquer sinal sonoro tal como ruídos e estalos (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). 8. ANÁLISE DE VOZ COM OS SOFTWARES Para a confirmação da teoria aqui descrita, serão analisados 06 áudios gravados, sendo dois falantes masculinos adultos e um falante feminino adulto. Os sons para está análise foram capturados por um aparelho de telefone celular modelo Nokia 5610 XpressMusic. Os áudios capturados por este tipo de aparelho ficam no formato AMR (exemplo: Grav000.amr), porém o programa Sound Ruler11 abre apenas os arquivos do tipo Wave ( exemplo: Grav000.wav), portanto foi preciso fazer a conversão da extensão amr para a wav , e para isso foi utilizado o software Switch Audio File Converter , que é um conversor livre obtido no sítio de downloads. De fácil utilização, o programa converte os arquivos para os seguintes formatos de áudio e vídeo: AAC, AIFF, AMR, AU, FLAC, GSM, M3U, M4U, M4A, OGG, PLS, RAW, RSS, VOX, WAV, WMA e MPL, (BAIXAKI, 2010). Os programas utilizados para análise dos áudios foram o Sound Ruler versão 0.9.6.0 e o Vox metria 4 versão Trial, que são ferramentas para análise, produção de gráficos e ensino de bioacústica. Sendo o Sound Ruler livre e o Vox metria com licença para 07 dias. Para a verificação da teoria, os falantes gravaram cada enunciado duas vezes para que fossem feitas as devidas comparações. Para melhor organização dos dados os falantes foram identificados como falante masculino 01 (FM1), falante masculino 02 (FM2) e falante feminino 03 (FF3). Para facilitar o estudo sem comprometer a qualidade do trabalho foram escolhidos sons limpos e fáceis de serem pronunciado. Os dois enunciados trabalhados foram as principais vogais da língua portuguesa e os números de um a dez, como exposto nos itens (a) e (b). Aos falantes foi pedido que falassem de maneira tranquila duas vezes o enunciado (a) e em seguida duas vezes o enunciado (b). a. [a], [ê], [i], [ó], [u]. b. [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]. 11 Disponível em:<http://soundruler.sourceforge.net/oldsite/index-br.htm> 23 Resultados A lista a seguir foi feita com alguns itens selecionados do arquivo tipo “txt” do softwere Sound Ruler. Na lista constam os valores calculados pelo programa relacionado ao fone [1] do enunciado (b) produzido pelo falante FM1. Tabela 1 – Dados obtidos com o Sound Ruler Amplitude máxima do pulso Energia entre os 90% iniciais: amplitude do pico Frequência fundamental do pulso Amplitude da frequência fundamental Amplitude do harmônico 2 Amplitude do harmônico 3 RelPulsePeak Ener_90-Peak_Beg 0,59682 0 PulseFundFreq relAmpl_H1 117,1875 -6,1046 relAmpl_H2 relAmpl_H3 0 -2,6219 O Sound Ruler é um programa que analisa o áudio por intervalos pequenos e por isso foram geradas trinta tabelas semelhantes à exposta acima, para cada falante totalizando noventa tabelas, porém para a comparação pretendida, vários dos parâmetros calculados são desnecessários e, portanto os dados foram trabalhados separadamente. Os gráficos apresentados a seguir na figura 6, também foram feitos com o Sound Ruler. O gráfico localizado na parte esquerda superior mostra o oscilograma da seção analisada, o seguinte mostra o oscilograma do intervalo, na parte de baixo a esquerda o espectrograma e por último o gráfico que o programa chama de “Zoom Oscillogram /Ampl Spectrum”, que é um gráfico da amplitude em função da frequência, que pode ser entendida como uma FFT. Figura 6 – Gráficos obtidos com o Sound Ruler 24 Para este experimento foram selecionados os parâmetros que mais se aproximaram da teoria apresentada, calculados pelo Sound Ruler. As tabelas 02, 03, 04, 05 e 06 representam a análise estatística dos parâmetros calculados, com o auxilio de um editor de planilhas, sendo que todo o desenvolvimento está presente no anexo deste trabalho, com os valores individuais, média, desvio padrão, moda, máximo e mínimo. Tabela 2 – Dados estatísticos do FM1N1 FM1N1 RelPulsePeak Ener_90-Peak_beg PulseFundFreq relAmpl_H1 relAmpl_H2 relAmpl_H3 RelPulsePeak MÉDIA DESV. PAD MODA MIN MAX 0,91509 0,179280289 1 0,55412 1,00000 0,02038 0,06443457 0 0,00000 0,20376 246,87500 85,27999737 117,1875 117,18750 398,43750 -11,48557 3,065368713 #N/D -15,13920 -6,06010 0,00000 0 0 0,00000 0,00000 -13,11066 8,125112753 #N/D -23,00580 -0,18379 0,91509 0,179280289 1 0,55412 1,00000 Tabela 3 – Dados estatísticos do FM1N2 FM1N2 RelPulsePeak Ener_90-Peak_beg PulseFundFreq relAmpl_H1 relAmpl_H2 relAmpl_H3 RelPulsePeak MÉDIA DESV. PAD MODA MIN MAX 0,92334 0,183024222 1 0,43447 1,00000 0,00000 0 0 0,00000 0,00000 246,87492 72,18761941 #N/D 132,81250 382,81250 -10,65950 4,368184013 #N/D -15,97340 -1,04350 0,00000 0 0 0,00000 0,00000 -12,26296 5,993373278 #N/D -20,12010 -1,92090 0,92334 0,183024222 1 0,43447 1,00000 25 Tabela 4 – Dados estatísticos do FM2N1 FM2N1 RelPulsePeak Ener_90-Peak_beg PulseFundFreq relAmpl_H1 relAmpl_H2 relAmpl_H3 RelPulsePeak MÉDIA DESV. PAD MODA MIN MAX 0,94183 0,183962341 1 0,41826 1,00000 0,00133 0,004206778 0 0,00000 0,01330 196,87500 53,34411512 195,3125 117,18750 289,06250 -12,23249 5,251644933 #N/D -21,40290 -3,70800 0,00000 0 0 0,00000 0,00000 -14,85603 5,447488681 #N/D -23,78120 -7,48230 0,94183 0,183962341 1 0,41826 1,00000 Tabela 5 – Dados estatísticos do FF3V1 FF3V1 RelPulsePeak Ener_90-Peak_beg PulseFundFreq relAmpl_H1 relAmpl_H2 relAmpl_H3 RelPulsePeak MÉDIA DESV. PAD MODA MIN MAX 1,00000 0 1 1,00000 1,00000 0,00000 0 0 0,00000 0,00000 335,93750 243,8201021 #N/D 101,56250 648,43750 -14,58306 9,026894875 #N/D -28,63980 -4,36200 0,00000 0 0 0,00000 0,00000 -19,77722 14,93570124 #N/D -39,50650 -3,08470 1,00000 0 1 1,00000 1,00000 Tabela 6 – Dados estatísticos comparativos dos falantes. MÉDIA GERAL FM1 FM2 FF3 RelPulsePeak 0,84313 0,89873 0,99569 Ener_90-Peak_beg 0,00510 0,00034 0,00000 PulseFundFreq 249,99998 294,53160 295,31250 relAmpl_H1 -10,59600 -13,77181 -11,18627 relAmpl_H2 0,00000 0,00000 0,00000 relAmpl_H3 -12,32229 -13,82110 -15,34466 26 Um dos primeiros aspectos que pode ser verificado, são os valores para a amplitude relacionada ao harmônico 02, confirmando assim a teoria relativa à comparação do trato vocal com um tubo sonoro fechado e, portanto produz apenas harmônicos impares. Podem ser observados também os valores das frequências fundamentais, algo que pode ser utilizado na individualização do falante. Como exposto nas tabelas 02 e 03, os valores de são muito próximos e, portanto corrobora com a afirmação de que os falantes de FM1N1 e FM1N2 serem a mesma pessoa ao passo que ao comparar com os valores das demais tabelas serão verificado valores muito diferentes. Com o software Vox Metria foi possível visualizar melhor os dados comparados, por possuir mais ferramentas gráficas e por ter sido desenvolvido no Brasil, ou seja, foi direcionado às características e peculiaridades da população brasileira e está em português. Nesta sessão está exposta apenas uma pequena parte dos resultados obtidos a fim de proporcionar melhor entendimento da técnica utilizada, as demais imagens estão disponíveis no anexo. As imagens a seguir são resultados das análises comparativas entre os três falantes. Figura 6 – Gráficos comparativos entre FM1 e FF3 do espectro de energia e curva de LPC obtidos com o Vox Metria. Na figura 6 é exposta a comparação do espectro de energia (em vermelho) e a curva de LPC (em verde) dos falantes FM1 e FM3, para um mesmo enunciado. Pode ser observado nas 27 curvas de LPC, as regiões do primeiro e segundo formantes descrito por picos de frequência em cada uma. Figura 7 – Gráficos comparativos entre FM1 e FM2 dos dados estatísticos obtidos com o Vox Metria. Na figura 7 acima é exposta a comparação dos dados estatísticos, feita pelo software entre os falantes FM1 e FM2 para um mesmo enunciado. Podem ser comparados os valores de , intensidade e os tempos percentuais de voz e sem voz. 28 Figura 8 – Gráficos comparativos entre FM2 e FF3 da freqüência fundamental e intensidade obtidos com o Vox Metria. Na figura 8 é exposta a comparação de (em azul) e a intensidade (em verde) do som para os falantes FM2 e FF3. Esta imagem facilita o entendimento dos sons analisados, pois para intensidades parecidas, as frequências se mostraram bastante distintas, revelando na imagem a esquerda um som mais grave e a direita mais agudo, corroborando com a afirmação de que são falantes distintos. Nas figuras 9 e 10, são mostradas as curvas de energia e de LPC, produzidas pelo mesmo falante sendo que na primeira a comparação é feita com enunciados iguais e na segunda com enunciados distintos. Para a imagens com os enunciados iguais se observa muita semelhança tanto na curva de energia quanto na de LPC em especifico na região dos formantes como mostra as imagens, e na figura 11 é mostrada a curva de LPC com os valores dos formantes. 29 Figura 9 – Gráficos comparativos entre FM1 e FM2 do espectro de energia e curva de LPC obtidos com o Vox Metria. Figura 10 – Gráficos comparativos entre FM1 e FF3 do espectro de energia e curva de LPC obtidos com o Vox Metria. 30 Figura 11 – Gráficos da curva de LPC com os valores dos formantes obtido com o Vox Metria. 9. CONCLUSÃO A necessidade de atribuir um fone a um indivíduo de maneira confiável e científica, só é possível graças às grandes evoluções tecnológicas sofridas pelo mundo nas últimas décadas, em especial as da informática, pois o processo de quantificação de falas só é possível de maneira computacional. Durante as pesquisas para a confecção deste trabalho, foi observado que os peritos que trabalham com a fonética forense, na produção de seus laudos, não se prendem a avaliações minuciosas de características isoladas e sim na visão geral do conjunto de dados passíveis de confronto, tanto objetivos quanto subjetivos. E na mesma linha este trabalho pretendeu seguir mostrando um pouco dos conhecimentos físicos envolvidos na identificação de falantes, embora tenha havido a necessidade de explanações que envolvem outras áreas do conhecimento humano, expondo assim umas das mais fortes características da criminalística, que é a interdisciplinaridade em seu objeto de estudo. Conclui-se que a análise dos fones humanos permite calcular várias grandezas físicas e sua evolução no tempo, essenciais na caracterização do fone e que estes dados devem ser unidos aos obtidos pela audição do perito e assim compor um laudo com uma grande diversidade de parâmetros comparativos. Os principais conhecimentos para um perito trabalhar com a verificação de locutor e edição são os de processamento digital de sinais, física acústica, fonética articulatória, fonética acústica e fonologia do português (RIBEIRO; MORISSON; RICARDO; SAMPAIO, 2008). E isto mostra o quanto pode ser complexa e especializada é a atividade pericial. 31 Os dados gravados para analise neste trabalho foram gentilmente cedidos por voluntários e em seguida tratados com os softwares obtidos na internet de forma gratuita. Portanto nem sempre os mesmos se adequaram a todas as especificações exigidas para esta finalidade. Houve alguns eventos que podem ter influenciado nos resultados, um deles foi com o Vox Metria, que por ele ser um software de domínio privado, ou seja, deve-se comprar uma licença para usá-lo, foi preciso trabalhar com ele em sua versão de testes, disponível por sete dias e isso exigiu um maior planejamento das atividades a serem desenvolvidas no momento mais oportuno. Outro fator que pode ter influenciado os dados, foi a maneira e o tempo entre as duas gravações que os falantes produziram seus fones, pois as falas foram um pouco diferentes de suas falas naturais e o tempo entre uma gravação e outra foi da ordem de minutos. Portanto as análises dos fones foram possíveis graças a alguns conhecimentos da física acústica adquiridos no curso de física e ao uso de algumas ferramentas computacionais hoje disponíveis. 32 REFERENCIAS BUTKOV, Eugene. Física matemática. Rio de Janeiro: LTC, 1988. MASTER, Suely; BIASE,Noemi de; PEDROSA, Vanessa; CHIARI,Brasí Maria. O espectro médio de longo termo na pesquisa e na clínica fonoaudiológica. Disponível em: <http://www.scielo.br/scielo.php?pid=s0104-56872006000100013&script=sci_arttext>. Acesso em 30 de maio. 2010 MORISSON, André Luiz da Costa. Identificação Humana pela voz. Disponível em: <http://www.apcesp.com.br/idvoice.htm>. Acesso em 10 de maio. 2010. NEGRINI NETO, Osvaldo. Soluções Eletrônicas para Cálculos de Velocidade em Acidentes de Trânsito. Disponível em: < http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-47442002000200007>. Acesso em 09 de maio. 2010. PCDF – Polícia Civil do Distrito Federal. Unidade Policiais; Instituto de Criminalística. Disponível em: <http://www.pcdf.df.gov.br/pgUnidadesPoliciais/pgInstitutoCriminalistica.aspx>. Acesso em 17 de fev. 2010. PCI CONCURSOS. Concursos. Polícia civil DF. Brasília, 17 dez. 2007. Disponível em: <http://www.pciconcursos.com.br/concurso/policia-civil-df-40-vagas>. Acesso em 09 maio. 2010. RIBEIRO, Joel F.; MORISSON, André Luiz da Costa; RICARDO, Jabes de Lima; SAMPAIO, José Fabrizio. Exames periciais em fonética forense: Recomendações técnicas para a padronização de procedimento em metodologias. Disponível em: <http://www.abcperitosoficiais.org.br/hotsites/seminariopara/Criminal-12-fonetica.pdf>. Acesso em 29 de maio. 2010. SOUND RULER. Análises acústicas. Disponível em: <http://soundruler.sourceforge.net/oldsite/index-br.htm> TIPLER, Paul; MOSCA, Gene; Física para cientistas e engenheiros – v. 1 –mecânica, oscilações e ondas, termodinâmica. 5ª edição, LTC, Rio de Janeiro, 2006. p. 463.