Um Modelo Memória-baseado para Análise Musical:
Desafiando os Princípios da Gestalt
Rens Bod
Escola de Computação
Universidade de Leeds, Leeds LS2 9JT, UK, e
Instituto de Lógica, Linguagem e Computação
Universidade de Amsterdã, Spuistraat 134, 1012 VB Amsterdã, Holanda
[email protected]
Resumo
Sustentamos uma abordagem memória-baseada para a análise musical que
trabalhe com experiências musicais concretas em vez de com regras ou
princípios abstratos. Novas peças de música são analisadas pela combinação de
fragmentos de estruturas de peças encontradas previamente. As freqüências de
ocorrência dos fragmentos são usadas para determinar a análise preferida de
uma peça. Testamos algumas instâncias desta abordagem em um conjunto de
1.000 canções folclóricas manualmente anotadas da Coleção de Canções
Folclóricas de Essen, produzindo até 85,9% de acuidade de frase. Uma análise
quantitativa de nosso resultado indica que há fenômenos de agrupamento que
desafiam os princípios da Gestalt comumente aceitos de proximidade,
similaridade e paralelismo. Estes fenômenos de agrupamento não podem sequer
ser explicados por outros fatores musicais, tais como metro e harmonia.
Sustentamos que a percepção musical pode ser muito mais memória-baseada do
que o previamente suposto.
1. Introdução
Ao ouvir uma peça de música, o sistema perceptivo humano segmenta a seqüência de notas
em grupos ou frases que formam uma estrutura de agrupamento para a peça inteira (cf.
Longuet-Higgins 1976; Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Stoffer
1985). Um dos desafios principais na modelagem de segmentação musical é o problema da
ambigüidade: muitas estruturas de agrupamento diferentes podem ser compatíveis com uma
seqüência de notas enquanto um ouvinte geralmente percebe somente uma estrutura
específica. É amplamente pressuposto que a estrutura preferida de agrupamento de uma
peça dependa de uma combinação de fenômenos de baixo nível, tais como
descontinuidades locais e distâncias intervalares, e fenômenos de alto nível, tais como
paralelismo melódico e harmonia interna.
Muitos modelos de segmentação musical usam os princípios da Gestalt de
proximidade e similaridade (Wertheimer 1923) para prever a estrutura de agrupamento de
baixo nível de uma peça: os limites dos agrupamentos preferencialmente caem em
intervalos interataques maiores, intervalos entre notas maiores, etc. (ver Tenney &
Polansky 1980; Lerdahl & Jackendoff 1983; Cambouropoulos 1996, 1997). Enquanto
muitos modelos incorporam fenômenos de agrupamento de alto nível, tais como
paralelismo melódico e harmonia, estes fenômenos permanecem geralmente não
formalizados. Por exemplo, Lerdahl & Jackendoff (1983) não provêem qualquer descrição
sistemática do paralelismo musical de alto nível, o modelo de Implicação-Realização de
Narmour (Narmour 1990, 1992) confia em fatores tais como metro, harmonia e
similaridade que não são completamente descritos pelo modelo. Como resultado, estes
modelos não foram avaliados em grandes conjuntos de dados musicais, tais como a Coleção
de Canções Folclórica de Essen (Schaffrath 1995; Huron 1996). Somente umas poucas
passagens selecionadas à mão são tipicamente usadas para avaliar estes modelos, as quais
questionam a objetividade dos resultados.
Este documento investiga uma abordagem deveras diferente para a análise musical.
Em vez de usar um conjunto pré-definido de regras e princípios, apresentamos um modelo
que trabalha com um corpus de estruturas de agrupamento peças musicais previamente
encontradas. Novas peças são analisadas pela combinação dos fragmentos das estruturascorpus; as freqüências dos fragmentos são usadas para determinar a análise preferida.
Propomos assim uma abordagem supervisionada, memória-baseada para a análise musical a
qual trabalha com fragmentos musicais concretos mais do que formalizações abstratas de
distâncias intervalores, paralelismo, metro, harmonia e outros fenômenos musicais. Em
outros campos da ciência cognitiva, tais como processamento da linguagem natural
aprendizagem de máquina, modelos memória-baseados têm se tornado crescentemente
influentes (cf. Mitchell 1997; Bod 1998; Manning & Schütze 1999). Além disso,
investigações psicológicas recentes sugerem que fragmentos musicais previamente ouvidos
são armazenados na memória (e.g. Saffran et al. 2000), e que fragmentos que são
encontrados mais freqüentemente são mais bem representados na memória e
conseqüentemente mais facilmente ativados do que fragmentos encontrados menos
freqüentemente. A disponibilidade corrente de grandes bases de dados musicais anotadas,
tais como a Coleção De Canções Folclóricas de Essen (Schaffrath 1995; Huron 1996),
provêem um excelente domínio de teste para modelos memória-baseados de análise
musical.
Embora um modelo puramente memória-baseado pode não ser suficiente como uma
análise de teoria da música, é importante estudar os méritos de um tal modelo de modo que
seus resultados possam ser usados como uma linha-base contra a qual outras abordagens
possam ser comparadas. A seguir descrevemos primeiro a Coleção de Canções Folclóricas
de Essen, após o que testamos três modelos de partição memória-baseados [memory-based
parsing models] diferentes nesta coleção. Veremos que os melhores resultados são obtidos
por um modelo que combina duas técnicas memória-baseadas: a técnica de gramática de
Markov de Collins (1999) e a técnica de Partição Dado-orientada de Bod (1998). Este
modelo combinado corretamente prediz 85.9% das frases para um conjunto de teste retido
de 1.000 canções folclóricas. Uma avaliação qualitativa de nossos resultados revela a
existência de uma classe de padrões que são problemáticos para os modelos Gestaltbaseado/paralelismo-baseado, enquanto estes padrões são bastante triviais para os modelos
memória-baseados. Nossa avaliação desafia dois princípios de agrupamento amplamente
aceitos em música: os princípios da Gestalt de proximidade/similaridade (Wertheimer
1923; Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Handel 1989) e o princípio de
alto nível do paralelismo melódico (Lerdahl & Jackendoff 1983; Cambouropoulos 1998;
Höthker et al. 2001). Sustentamos que a percepção musical pode ser muito mais memóriabaseada do que previamente suposto.
2. A Coleção de Canções Folclóricas de Essen
A coleção de Canções Folclóricas de Essen contém uma grande amostra da (maioria) das
canções folclóricas da Europa que foram coletadas e codificadas sob a supervisão do
falecido Dr. Helmut Schaffrath da Universidade de Essen (Schaffrath 1993, 1995;
Selfridge-Field 1995). O desenvolvimento contínuo da coleção está agora a cargo do Dr.
Ewa Dahlig do Laboratório de Pesquisa Auxiliada por Computador em Musicologia,
Varsóvia. Atualmente, 6.251 canções folclóricas estão publicamente disponíveis em
http://www.esac-data.org, embora o número total de canções folclóricas na coleção é
informado acima de 20.000. Cada canção folclórica está anotada com o código associativo
de Essen (ESAC) o qual inclui informação sobre notas e durações, sinais de compasso e
marcadores de frase explícitos (os textos das canções não tem sido registrados; somente
suas representações tonais estão disponíveis). A presença de marcadores de frase torna a
Coleção de Canções Folclóricas de Essen um teste de caso único para modelos
computacionais de segmentação musical.
A codificação de notas na Coleção de Canções Folclóricas de Essen assemelha-se ao
“solfege”: números de graus da escala são usados para substituir as sílabas móveis “dó”,
“ré”, “mi”, etc. Assim, 1 corresponde ao “dó”, 2 corresponde ao “ré”, etc. Alterações
cromáticas são representadas pela adição ou de um “#” ou de um “b” após o número. Os
sinais de mais (“+”) e menos (“-“) são adicionados antes do número se uma nota cai
respectivamente acima ou abaixo da oitava principal (assim, -1, 1 e +1 referem-se todos ao
“dó” em diferentes oitavas). A duração é representada pela adição de um ponto ou traço de
sublinhado após o número. Um ponto (“.”) aumenta a duração em 50% e o sublinhado (“_”)
aumenta a duração em 100%; mais do que um sublinhado pode ser adicionado após cada
número. Se um número não tem indicador de duração, sua duração corresponde ao menor
valor (o qual é encontrado no campo KEY que precede cada canção folclórica). Uma pausa
é representada por 0, possivelmente seguido por indicadores de duração. Nenhum indicador
de dinâmica [loudness] ou timbre é usado na Coleção de Canções Folclóricas de Essen.
Sinais de parágrafo [hard returns] são usados para indicar um limite de frase (note que
usamos os termos “frase” e “grupo” intercambiavelmente). Para tornar as anotações de
Essen legíveis para o nosso partidor [parser] memória-baseado, convertemos
automaticamente suas indicações de limite de frase para representações de parênteses, onde
“(” indica o início de uma frase e “)” o final de uma frase. Para mais informação sobre a
Coleção de Canções Folclóricas de Essen e o Código Associativo de Essen (ESAC), ver
Selfridge-Field (1995). A Coleção de Canções Folclóricas de Essen está também disponível
em formato de cartão perfurado [humdrum] (Huron 1996).
A Figura (1) dá um exemplo da codificação da canção folclórica K0029 (“Schlaf
Kindlein Feste”) junto com sua anotação de frase (deixamos de fora as barras de compasso
e sinais de compasso que não serão usados por nosso partidor, mas retornaremos à estrutura
métrica na seção 4):
(1)
(3_221_-5)(-533221_-5)(13335432)(13335432_)(3_221_-5_)
Note que as anotações de frase de Essen carecem de estrutura hierárquica: elas
negligenciam tanto a estrutura interna da frase tais como subfrases e motivos, bem como
estruturas externas da frase tais como períodos e subseções (cf. Lerdahl & Jackendoff
1983). Assim as duas primeiras frases na canção folclórica (1) poderiam ter sido agrupadas
juntas numa constituinte maior, e o mesmo se aplica para as duas frases subseqüentes.
Enquanto possa não haver de fato muita estrutura interna nas frases da canção folclórica
(1), a seguinte anotação da canção folclórica K0885 ("Schneckhaus Schneckhaus stecke
deine Hoerner aus") mostra que a falta de estrutura interna da frase pode levar a uma
anotação empobrecida:
(2)
(5_3_5_3_)(1234553_)(1234553_)(12345_3_)(12345_3_)(553_553_)(553_65432_1_)
Uma análise mais refinada [fine-grained] desta canção folclórica, acreditamos, consistiria
em subsegmentações de muitas de suas frases; por exemplo, a primeira frase poderia ser
subsegmentada em duas subfrases (3_5_) equivalentes. Também uma quantidade
considerável de estrutura de frase externa poderia ser adicionada a esta canção folclórica,
tal como a adição de um grupo maior que inclua a segunda e a terceira frases. Um caso
mais extremo é provido pela canção folclórica Z0147 ("Besenbinders Tochter und
kachelmachers Sohn"):
(3)
(5_4#_5_3_1__1_3_2_1#_2_-7_-5__.)(3_5_4#_5_3_1__1_3_ 221#_2_-7_-5__.)
(-5_-5_-5_-5-5-5_4__4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_-7_1_332_1#_2_3_1__0__)
(-5_-5_-5_-5_444_4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1__.)
(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1__1_)(3_5_4#_5_3_1_-7_1_3_2_1#_2_3_1__1_0_)
(-5_-5_-5_-5_444_4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1___)
Cremos que cada frase desta canção folclórica pode ser ainda mais subsegmentada em
subfrases.Entretanto, a anotação na figura (3) não está errada; ela apenas representa a
estrutura mais básica da frase de uma peça somente. Queremos enfatizar que para o nosso
experimento na seção 3 nós não adicionamos (ou modificamos) qualquer estrutura nas
anotações de Essen. Poder-se-ia acreditar que a Coleção de Canções Folclóricas de Essen é
portanto um caso de teste relativamente fácil; mas verificou-se surpreendentemente difícil
predizer as frases corretas para estas canções folclóricas.
Isto nos leva ao problema da avaliação. Para avaliar nosso modelo de partição
memória-baseado para música, empregamos o assim chamado método de testagem cega
[blind testing method] o qual tem sido amplamente usado na avaliação de partidores de
linguagem natural (cf. Manning & Schütze 1999). Este método preceitua que uma coleção
de seqüências [strings] anotadas é aleatoriamente dividida em um conjunto de treino e um
conjunto de teste, onde as anotações no conjunto de teste são usadas para “treinar” o
partidor, enquanto que as seqüências não anotadas no conjunto de teste são usadas como
entrada para testar o partidor. O grau com o qual as segmentações previstas para as
seqüências do conjunto de teste correspondem com as segmentações corretas no conjunto
de teste é uma medida para a acuidade do partidor. Para o nosso experimento na seção 3,
nós dividimos aleatoriamente as 6.251 canções folclóricas que estão atualmente disponíveis
num conjunto de treino de 5.251 canções folclóricas e um conjunto de teste de 1.000
canções folclóricas.
Há uma questão importante referente a que tipo de medida de avaliação é mais
apropriada para comparar as segmentações propostas pelo partidor com as segmentações
corretas no conjunto de teste. Um esquema de avaliação amplamente usado é o esquema de
PARSEVAL, o qual é baseado nas noções de precisão e verificação [recall] (ver Black et
al. 1991). PARSEVAL compara uma partição proposta P com a divisão do conjunto de
teste correspondente T como segue:
# de frases corretas em P
Precisão =
# de frases em P
# de frases corretas em P
Verificação =
# de frases em T
Uma frase está correta de tanto o início quanto o final da frase estão corretamente preditos.
Note que esta medida “pune” um partidor que atribui muitíssimas frases para uma canção
folclórica; por exemplo, um partidor extremamente supergerador que atribui frases a
qualquer combinação de notas poderia trivialmente incluir todas as frases corretas,
resultando numa excelente verificação, mas sua precisão seria muito baixa. Por outro lado,
um partidor muito cauteloso que prediz extremamente pouco, ainda que com frases
corretas, receberia uma alta precisão, mas sua verificação seria baixa. Um bom partidor irá
assim necessitar obter tanto uma precisão alta quanto uma verificação alta. (Pode-se
provavelmente seguir sem dizer que para computar a precisão e a verificação para todas as
seqüências de conjuntos de teste, necessita-se dividir o número total de frases preditas
corretamente em todas as partições propostas P pelo número total de frases em
respectivamente todas as partições P e T.)
Os resultados de precisão e verificação são geralmente combinados numa medida
única de performance, conhecida como Resultado-F (ver Manning & Schütze 1999):
2 × Precisão × Verificação
Resultado-F =
Precisão + Verificação
Usaremos estas três medidas de Precisão, Verificação e Resultado-F para avaliar
quantitativamente nosso modelo de partição memória-baseado.
Como um passo final de pré-processamento, adicionaremos (automaticamente) a cada
frase das canções folclóricas o rótulo “P” e para cada canção inteira o rótulo “S”, de modo a
obter árvores de partição convencionais. Assim, a estrutura em (1) torna-se:
(4)
S( P(3_221_-5) P(-533221_-5) P(13335432) P(13335432_) P(3_221_-5_) )
A vantagem deste formato é que podemos agora aplicar diretamente modelos de partição
memória-baseados existentes à Coleção de Canções Folclóricas de Essen.
3. Experimento com a Coleção de Canções Folclóricas de Essen.
Nesta seção, fornecemos uma avaliação quantitativa de três modelos de partição memóriabaseados da Coleção de Canções Folclóricas de Essen (procederemos a uma avaliação mais
qualitativa de nossos resultados na seção 4). Consideramos os seguintes modelos de
partição memória-baseados da literatura: a técnica de gramática de Treebank [banco de
árvore] de Collins (1999), a técnica de gramática de Markov de Seneff (1992) e Collins
(1999), e o Partidor Dado-Orientado (DOP) de Bod (1993, 1998). A menos que seja
exposto de modo diferente, usamos a mesma divisão aleatória da Coleção de Canções
Folclóricas de Essen num conjunto de treino de 5.251 canções folclóricas e num conjunto
de teste de 1.000 canções folclóricas.
3.1 A Técnica de Gramática de Treebank
A técnica de gramática de Treebank é uma técnica de aprendizagem extremamente
simples: ela lê todas as regras reescritas livres de contexto das estruturas do conjunto de
treino, e aplica a cada regra uma probabilidade proporcional à sua freqüência no conjunto
de treino. Por exemplo, as seguintes regras livres de contexto podem ser extraídas da
estrutura da figura (4):
S -> PPPPP
P -> 3_221_-5
P -> -533221_-5
P -> 13335432
P -> 13335432_
P -> 3_221_-5_
Em seguida, a cada regra reescrita é atribuída uma probabilidade pela divisão do número de
ocorrências de uma regra específica no conjunto de treino pelo número total de ocorrências
das regras que expandem a mesma não-terminal [nonterminal] que a regra específica. Por
exemplo, se tomamos a canção folclórica (4) como nosso dado de treinamento, então a
probabilidade da regra P -> 3_221_-5 é igual a 1/5 já que esta regra ocorre uma vez entre
um total de 5 regras que expandem a P não-terminal.
Uma gramática de Treebank extraída desta maneira do conjunto de treino corresponde
à assim chamada Gramática Probabilística Livre de Contexto ou PCFG (Booth 1969). Uma
suposição crucial subordinada às PCFGs é que as regras livres de contexto são
estatisticamente independentes. Assim, dadas as probabilidades das regras individuais,
podemos calcular a probabilidade de uma árvore de partição tomando o produto das
probabilidades de cada regra usadas naquele ponto [therein]. As PCFGs têm sido
extensivamente estudadas na literatura (cf. Wetherell 1980; Charniak 1993), e os
algoritmos de partição eficientes que existem para Gramáticas Livres de Contexto
reportam-se às PCFGs (ver Charniak 1993 ou Manning & Schütze 1999 para os algoritmos
relevantes).
Qualquer gramática probabilística extraída de um conjunto de treino encara o
problema da dispersão de dados [datasparseness]: muitas das regras no conjunto de treino
são tão infreqüentes que suas probabilidades observadas são estimativas muito inferiores de
sua população verdadeira de probabilidades. Um método amplamente usado para enfrentar
este problema é o método de Good-Turing (Good 1953). Em geral, o Good-Turing avalia a
freqüência de população esperada f* de um tipo ajustando sua freqüência de amostra
observada f. Para avaliar f*, o Good-Turing usa uma noção adicional nf, a qual é definida
pelo número de tipos que ocorrem f vezes numa amostra observada. Assim, nf pode ser
entendida como a freqüência da freqüência f. O avaliador do Good-Turing usa esta
informação extra para computar a freqüência ajustada f* como
nf+1
f* = (f+1)
nf
Assim computamos as probabilidades de nossas regras livres de contexto na gramática de
Treebank a partir de suas freqüências ajustadas em vez de suas freqüências brutas
observadas. Note que o Good-Turing também ajusta as probabilidades de regras não vistas:
se f = 0, então f* = n1/n0. n0 é o número de regras que não foram vistas, e é usualmente
avaliado por 1 – n1/N onde N é o número de regras observadas (ver Good 1953).
Entretanto, o Good-Turing não diferencia as regras que não foram vistas: ele atribui a
mesma probabilidade a todas elas, o que conduz a uma avaliação ainda mais inacurada de
para as regras não vistas. Iremos portanto introduzir um meio mais acurado de atribuir
probabilidades para regras não vistas na seção 3.2. Para um documento instrutivo sobre o
Good-Turing junto com a prova da fórmula, ver Church & Galé (1991).
A gramática de Treebank que foi obtida de 5.251 canções folclóricas de treinamento
foi usada para particionar as 1.000 canções folclóricas do conjunto de teste.. Computamos
para cada canção folclórica de teste a partição mais provável usando um algoritmo de
partição melhor-primeiro padrão [standard best-first parsing algorithm] baseado na
otimização de Viterbi (ver Charniak 1993; Manning & Schütze 1999).
Usando as medidas de avaliação dadas na seção 2, a nossa gramática de Treebank
obteve uma precisão de 68,7%, uma verificação de 3,4%, e um resultado-F de 6,5%.
Embora a o resultado de precisão possa parecer razoável, o resultado de verificação é
extremamente baixo. Isto indica que a técnica de gramática de Treenbank é um aprendiz
muito cauteloso: ele prediz muito poucas frases do número total de frases na Coleção de
Canções Folclóricas de Essen, resultando num resultado-F muito baixo. Um dos problemas
com a técnica de gramática de Treebank é que ela aprende somente aquelas regras livres de
contexto que literalmente ocorrem no conjunto de treino (ou por outro lado atribui
avaliação pobre para regra não vistas), o que evidentemente não é uma técnica muito
robusta para a partição musical – embora ela tenha mostrado uma performance muito boa
na partição de linguagem natural (cf. Charniak 1996). Veremos, entretanto, que os
resultados melhoram significativamente se nós relaxamos levemente o modo de extrair
regras do conjunto de treino.
3.2 A Técnica de Gramática de Markov
Uma técnica que ultrapassa a cautela das gramáticas de Treebank é a técnica de gramática
de Markov (Seneff 1992; Collins 1999). Enquanto que uma gramática de Treebank pode
somente atribuir acuradamente probabilidades para regras livres de contexto que foram
vistas no conjunto de treino, uma gramática de Markov pode computar probabilidades para
qualquer regra livre de contexto possível, resultando assim em um modelo mais robusto.
Isto é obtido pela decomposição de uma regra e suas probabilidades por um processo de
Markov (see Collins 1999: 44-48). Por exemplo, um processo de Markov de terceira ordem
estima a probabilidade p de uma regra P -> 12345 em:
p(P -> 12345) = p(1) × p(2 | 1) × p(3 | 1, 2) × p(4 | 1, 2, 3) × p(5 | 2, 3, 4) × p(END | 3, 4, 5).
A probabilidade condicional p(END | 3, 4, 5) codifica a probabilidade de que uma regra
termine após as notas 3, 4, 5. Assim, mesmo se a regra P -> 12345 não ocorra literalmente
no conjunto de treino, podemos ainda estimar sua probabilidade usando um histórico de
Markov de três notas. A extensão para históricos de Markov maiores resulta da
generalização óbvia do exemplo acima.
Entretanto, também uma gramática de Markov sofre de dispersão de dados: podemos
obter contagens baixas, incluindo contagens zero, para alguns históricos de Markov.
Contagens zero são especialmente problemáticas: se uma das probabilidades decompostas
na fórmula acima tem uma ocorrência zero no conjunto de treino, então para a regra inteira
é atribuída uma probabilidade zero. Uma técnica amplamente usada para resolver o
problema da dispersão de dados em modelos de Markov é a técnica da interpolação linear
(ver Manning & Schütze 1999: 218-219). Esta técnica suaviza um histórico de Markov por
levar em conta seus históricos mais curtos. Se n1, n2 e n3 denotam três notas, então a
probabilidade condicional p(n1 | n2, n3) é suavizada (“interpolada”) como
p(n1 | n2, n3) = λ1p(n1) + λ2p(n1 | n2) + λ3p(n1 | n2, n3)
onde 0 ≤ λ i ≤ 1 e λ1 + λ2 + λ3 = 1. Estes λ–pesos podem ser configurados à mão, mas em
geral quer-se encontrar a combinação de pesos λi que funcionam melhor. Um algoritmo
simples que encontra os pesos ótimos é o algoritmo de Powell (ver Press et al. 1988), que é
também discutido em Manning & Schütze (1999: 218). Usamos este algoritmo para atribuir
pesos aos lambdas na técnica de interpolação linear, que por sua vez foi usada para estimar
as probabilidades condicionais na técnica de gramática de Markov. Além disso, cada uma
das probabilidades p(n1), p(n1 | n2) e p(n1 | n2, n3) não foram estimadas de suas
freqüências relativas observadas, mas foram ajustadas pelo método de Good-Turing, assim
como com as gramáticas de Treebank (seção 3.1). Note que a extensão para qualquer
histórica de Markov maior resulta da simples generalização das fórmulas acima. A
probabilidade de uma árvore de partição de uma peça musical é computada pelo produto
das probabilidades das regras que participam da árvore de partição, assim como com as
gramáticas de Treebank.
Para os nossos experimentos, usamos uma gramática de Markov com um histórico de
quatro notas. Esta gramática obteve uma precisão de 63,1%, uma verificação de 80,2%, e
um resultado-F de 70,6%. Estes resultados são em alguma medida complementares da
gramática de Treebank: embora a precisão seja um tanto mais baixa, a verificação é (muito)
mais alta do que a gramática de Treebank. Assim, enquanto a gramática de Treebank prediz
muito poucas frases, a gramática de Markov prediz frases (um tanto) demais. O resultado-F
combinado de 70,6% mostra um imenso melhoramento sobre a técnica de gramática de
Treebank. Experimentos com modelos de Markov de ordem mais alta ou mais baixa
diminuem nossos resultados.
3.3 Estendendo a Técnica de Gramática de Markov com a Técnica DOP
Embora a técnica de gramática de Markov obteve resultados consideravelmente melhores
do que a técnica de gramática de Treebank, ela não leva em consideração qualquer contexto
global ao computar a probabilidade de uma árvore de partição. O conhecimento do contexto
global, tal como o número de frases que aparecem numa canção folclórica, é provavelmente
importante para predizer as segmentações corretas para novas canções folclóricas. Para
incluir o contexto global, condicionamos [conditioned over] a regra-S mais alta na estrutura
ao computar a probabilidade de uma regra-P. Esta abordagem corresponde à técnica de
Partição Dado-Orientada (DOP) (Bod 1998) que pode condicionar qualquer regra mais alta
ou mais baixa na árvore. Na técnica DOP original, qualquer fragmento visto no conjunto de
treino, à despeito de seu tamanho, é usado como uma unidade produtiva. Mas na Coleção
de Canções Folclóricas de Essen temos apenas dois níveis de estruturas constituintes em
cada árvore, resultando assim em um modelo probabilístico muito mais simples. Se um
exemplo retoma a regra P -> 12345 e uma regra-S mais alta tal como S -> PPP; então um
modelo DOP-Markov baseado num histórico de três notas computa a probabilidade
(condicional) desta regra como:
p(P -> 12345 | S -> PPPP) =
p(1 | S -> PPPP) × p(2 | S -> PPPP, 1) × p(3 | S -> PPPP, 1, 2) ×
p(4 | S -> PPPP, 1, 2, 3) × p(5 | S -> PPPP, 2, 3, 4) × p(END | S -> PPPP, 3, 4, 5).
A extensão para históricos maiores resulta da generalização óbvia do exemplo acima. Para
o nosso experimento, usamos um histórico de quatro notas, estendido com as mesmas
técnicas de suavização da seção 3.2 (i.e. interpolação linear combinada com Good-Turing).
A partição mais provável de uma canção folclórica é novamente computada pela
maximização do produto das probabilidades da regra que gera a canção folclórica.
Usando a mesma divisão dos conjuntos de treinamento/teste que antes, este partidor
DOP-Maarkov obteve uma precisão de 76,6%, uma verificação de 85,9%, e um resultado-F
de 81,0%. O resultado-F é um melhoramento de 10,4% sobre o partidor de Markov. Note
que o partidor DOP-Markov é relativamente bem-equilibrado: ele nem é terrivelmente
cauteloso nem prediz demasiadas frases redundantes – tendo em mente a idiossincrasia das
anotações das Canções Folclóricas de Essen. Embora não haja razão para esperar uma
acuidade próxima de 100% na superficialmente anotada Coleção de Canções Folclóricas de
Essen (especialmente na ausência da estrutura harmônica), nossos resultados mostram a
importância de incluir o contexto global ao computar a probabilidade de um partidor.
Também checamos a significância estatística de nossos resultados, pela testagem de 9
partições aleatórias adicionais da Coleção de Canções Folclóricas de Essen (em três
conjuntos de treinamento de 5.251 canções folclóricas). Sobre estas partições, o partidor
DOP-Markov obteve um Resultado-F médio de 80,7% com um desvio padrão de 1,9%,
enquanto o partidor de Markov obteve um resultado-F médio de 70,8% com um desvio
padrão de 2,2%. Estas diferenças foram estatisticamente significativas de acordo com o
teste-t emparelhado [paired t-testing].
Antes de prosseguirmos para uma avaliação mais qualitativa de nossos resultados,
ficamos interessados em testar o impacto do tamanho de treinamento sobre o resultado-F.
Como mencionado na introdução, há algum suporte psicológico para a hipótese de que
fragmentos musicais previamente ouvidos são armazenados na memória, e que fragmentos
mais freqüentes são mais facilmente ativados do que fragmentos menos freqüentes. Mas,
parece improvável que humanos armazenem mais do que 5.000 canções folclóricas para
analisar novas canções folclóricas. É desta perspectiva que estamos interessados em
investigar como o nosso partidor DOP-Markov se desempenha com conjuntos de
treinamento menores. Nos seguintes experimentos começamos com um conjunto de treino
inicial de somente 500 canções folclóricas (aleatoriamente escolhidas do conjunto de treino
completo de 5.251 canções folclóricas). Então incrementamos o tamanho deste conjunto de
treino inicial com 500 canções a cada vez (aleatoriamente escolhidas do conjunto de treino
completo). O conjunto de teste foi mantido constante em 1.000 canções folclóricas. Os
resultados estão mostrados na tabela 1.
Tabela 1. Resultado-F como função do tamanho do conjunto de treino
Tamanho de
treino
500
1,000
1,500
2,000
2,500
3,000
3,500
4,000
4,500
5,000
5,251
Resultado-F
31.1%
47.4%
56.9%
64.4%
69.0%
73.2%
76.1%
78.3%
79.9%
80.7%
81.0%
A tabela mostra que o resultado-F cresce rapidamente quando o tamanho do conjunto de
treino é aumentado de 500 para 2.000 canções folclóricas. A acuidade continua a crescer a
uma taxa mais baixa se o conjunto de treino é ainda mais aumentado. Notamos que em
torno de 4.000 canções folclóricas, resultados-F relativamente bons são obtidos. Podemos
questionar a realidade cognitiva de uma memória de 4.000 canções folclóricas. Mas
devemos ter em mente que o nosso partidor não tem conhecimento das regras da Gestalt de
proximidade e similaridade, ou o que quer que seja. A inclusão de um tal conhecimento
poderia impulsionar nossos resultados ou reduzir o tamanho do nosso conjunto de treino.
Por outro lado, poderíamos também argumentar que poderíamos também eliminar todo o
conhecimento memória-baseado se tivéssemos acesso às regras da Gestalt. Iremos discutir
este problema na próxima seção.
4. Discussão: Desafiando os Princípios da Gestalt
Vimos que um modelo de partição memória-baseado, conhecido como partidor de DOPMarkov, pode muito acuradamente predizer as estruturas de agrupamento preferidas para
conções folclóricas ocidentais. Entretanto, também vimos que uma grande quantidade de
dados de treino anotados à mão é necessária para alcançar este resultado. De fato, para
aprender que um limite de agrupamento tende a ocorrer numa distancia intervalar grande de
nota ou tempo, nosso partidor memória-baseado deve encontrar muitas instâncias
específicas de tais intervalos antes de poder atribuir uma alta probabilidade a um limite
ocorrendo em tais intervalos. Isto pode parecer um obstáculo sério já que tais limites
intervalares podem muito bem ser preditos por somente umas poucas regras que
formalizem as noções da Gestalt de proximidade e similaridade (tais como em Lerdahl &
Jackendoff 1983: 39, ou Cambouropoulos 1997). Entretanto, há muitos padrões na Coleção
de Canções Folclóricas de Essen que são problemáticas para partidores Gestalt-baseados,
mesmo quando tais partidores são estendidos com um mecanismo de detecção de
paralelismo (como em Cambouropoulos 1998), enquanto são muito mais triviais para
modelos memória-baseados. Estes são padrões que contém um salto (um intervalo entre
notas grande) no início ou no final de uma frase (ou ambos). Como um exemplo, considere
as primeiras 12 notas da canção folclórica K0029, que foi dada na figura (1), e que
corresponde aos dois grupos em (5):
(5)
(3_221_-5)(-533221_-5)
Um partidor Gestalt-baseado provavelmente atribuiria uma das seguintes estruturas de
agrupamento para estas notas:
(6)
(3_221_)(-5-533221_)(-5 ...
ou:
(7)
(3_221_-5-5)(33221_-5)
Enquanto estas estruturas de agrupamento sejam possíveis, no que elas podem ser
percebidas, elas não correspondem à estrutura que é realmente percebida. O problema surge
dos intervalos relativamente grandes entre notas (e tempo) entre as notas 1_ e –5, e entre as
notas –5 e 3, dos quais um partidor Gestalt-baseado inferiria um limite de agrupamento em
um destes intervalos. Que fenômeno governa a percepção de um limite aqui? Neste
exemplo particular poder-se-ia argumentar que o paralelismo melódico muito forte entre as
primeiras cinco notas (i.e. 3_221_-5) e as últimas cinco notas (i.e. 3_221_-5) desta canção
folclórica (ver a figura 1) governa o limite na distância intervalar local, resultando assim na
segmentação correta – contanto que tenhamos um mecanismo que posa descobrir estes
padrões paralelos (cf. Cambouropoulos 1998). Entretanto, há também (muitas) canções
folclóricas onde não ocorrem tais paralelismos e ainda assim há um limite de agrupamento
entre duas notas equivalentes que são precedidas e seguidas por intervalos relativamente
grandes. Por exemplo na canção folclórica K0690 ("Ruru Rinneken"):
(8)
(3__2__1_1_-5_)(-5_3_3_2_2_1_1_-5_)(-5_1_2_3_1_4__2_)(1_-7_1_2_-5_3__1_)
(3_1__-5_3_1_1_-5_3_1__-5_)(-5_1_2_3_1_4_3_223_1__1_0_)
Aqui temos novamente dois intervalos entre notas relativamente grandes, ou saltos, entre as
duas notas no final do primeiro grupo (1_ e -5_) e no início do segundo grupo (-5_ e 3_). Já
que não há descontinuidade no tempo aqui, poder-se-ia esperar um limite de agrupamento
no salto maior, i.e. entre -5_ e 3_, o que também poderia ser predito pelas regras da Gestalt
(ver Lerdahl & Jackendoff: 39). Mas, o limite ocorre entre as duas notas equivalentes -5_ e
-5_! E agora não há paralelismo de nível mais alto que pudesse forçar a estrutura de
agrupamento correta. Pelo contrário: um mecanismo que pudesse forçar o paralelismo
musical atribuiria o mesmo limite entre -5_ e 3_ conforme predito pelas regras da Gestalt,
já que ele resultaria em dois grupos paralelos ou muito similares:
(9)
(3__2__1_1_-5_-5_)(3_3_2_2_1_1_-5_-5_)( ...
Que fenômeno governa estes limites de frase? Antes de tentar responder esta questão,
devemos estar seguros de que a anotação da canção folclórica K0690 está correta, i.e. que
sua anotação corresponde à estrutura conforme ela é ouvida por um ouvinte humano.
Embora verifiquemos que os dois últimos grupos da anotação de K0690 são
excessivamente superficiais, os limites de frase providos pela Coleção de Canções
Folclóricas de Essen correspondem com nossa percepção de limites de grupo, à melhor de
nossas intuições. Conquanto admitamos que a exatidão de uma anotação devesse
preferivelmente ser estabelecida por um experimento psicológico independente com mais
de um sujeito (o que está além do escopo deste documento), sentimo-nos seguros de que os
limites de agrupamento anômalos da K0690 não dependem de algum tipo de erro de
anotação.
Uma possível causa para a estrutura de agrupamento peculiar de K0690 pode ser a
letra, i.e. o texto, da canção folclórica. Pode ser que a estrutura prosódica do texto force
uma certa estrutura de agrupamento o que poderia explicar as frases-salto percebidas na
K0690. Entretanto, os textos das canções folclóricas não foram registrados na Coleção de
Canções Folclóricas de Essen, e somente muito poucos textos estão disponíveis (Dr. Ewa
Dahling, em comunicado pessoal). Além disso, já estabelecemos que nossas intuições de
agrupamento para a representação tonal da canção folclórica K0690 concordam com as
segmentações da Coleção de Canções Folclóricas de Essen, sem ter acesso ao texto. Assim
podemos excluir a influência do texto como uma causa para o agrupamento peculiar da
K0690. (Note que é bastante comum estudar as transcrições melódicas de canções, corais,
árias etc., sem considerar os textos – e.g. ver os muitos exemplos em Lerdahl & Jackendoff
(1983) ou Narmour (1990).)
Até aqui, não consideramos a estrutura métrica das Canções Folclóricas de Essen.
Poder-se-ia imaginar se o metro pode forçar a estrutura de agrupamento percebida da
K0690. É amplamente reconhecido, entretanto, que a estrutura de agrupamento é
independente da estrutura métrica, o que leva todas as teorias de cognição de música a
formularem modelos separados para agrupamento e metro. Lerdahl & Jackendoff
convincentemente mostram que “grupos não recebem acento métrico, e tempos [beats] não
possuem qualquer agrupamento inerente” (Lerdahl & Jackendoff 1983: 26). Mas mesmo se
a estrutura métrica da K0690 forçasse e deste modo igualasse a estrutura de agrupamento
desta canção folclórica, ela atribuiria as mesmas frases incorretas conforme dado na figura
(9), já que os tempos aparecem exatamente nas primeiras notas destas frases. Assim, a
estrutura métrica não poderia também ajudar a explicar a estrutura de agrupamento anômala
em (8).
Finalmente, deveríamos considerar o papel da harmonia. É bem sabido que a
harmonia interna de uma peça freqüentemente influencia sua estrutura de agrupamento
melódica. Portanto poder-se-ia esperar que levando em consideração a harmonia implícita
ou interna da canção folclórica K0690, pudéssemos explicar e predizer seus agrupamentos
em frases-salto. Entretanto, os dois agrupamentos alternativos, expressos pelas duas
primeiras frases nas figuras (8) e (9), exibem a mesma harmonia interna: ambas são
elaborações melódicas da tríade básica 1, 3, 5. Deste modo, as preferências de agrupamento
harmônico, como propostas em e.g. Lerdahl & Jackendoff (1983) ou Narmour (1990,
1992), não são de qualquer ajuda na predição da estrutura de agrupamento peculiar da
K0690.
Assim parece não haver fator musical algum que possa governar as predições
incorretas feitas pelos princípios da Gestalt para esta canção folclórica: nem o paralelismo
melódico, nem a estrutura métrica, e nem mesmo a harmonia interna. Poder-se-ia propor
que as estruturas de agrupamento com frases-salto são altamente excepcionais e limitadas a
apenas algumas canções folclóricas que não são representativas para a Coleção de Canções
Folclóricas de Essen. Contudo, uma análise detalhada dos dados de teste (1.000 canções
folclóricas) mostra que mais de 32% das canções folclóricas continham pelo menos uma
frase-salto e que a percentagem total de frases que começam ou terminam com um salto (ou
ambos – como na segunda frase em (8)) é ao menos 15%. Desse modo canções folclóricas
com frases-salto não são epifenomênicos.1
É digno de nota que o nosso partidor DOP-Markov predisse em um grau muito alto
(98,0%) os limites de agrupamento corretos para estes 15% de frases-salto (embora ele
freqüentemente atribuísse subfrases adicionais dentro destas frases). Um partidor Gestaltbaseado/paralelismo-baseado, por outro lado, poderia definitivamente predizer os limites de
agrupamento errados para todas estas frases-salto – exceto se houvessem frases paralelas na
peça que pudessem forçar os limites de agrupamento corretos, conforme discutimos na
figura 1, mas tais frases paralelas ocorrem menos de 1% no conjunto de teste. Igualando as
outras coisas, o nosso partidor aperfeiçoaria cerca de 12% um partidor Gestaltbaseado/paralaleismo-baseado – dados os 15% de frases-salto, a performance de 98,0%
sobre estas frases do nosso partidor, e os menos de 1% destas frases nas quais o paralelismo
1
(Cf. Houaiss, na reflexão de alguns cientistas, psicólogos behavioristas e certos filósofos materialistas ou
positivistas, a consciência humana, é fenômeno secundário e condicionado por processos fisiológicos, e,
portanto, incapaz de determinar o comportamento dos indivíduos [N.T.])
pudesse sobrepujar os princípios da Gestalt, não poderíamos achar qualquer teste de
canções folclóricas para os quais um partidor Gestalt-baseado/paralelismo-baseado pudesse
possivelmente aperfeiçoar sobre o nosso partidor memória-baseado, embora admitamos
completamente que isto necessite ser checado por um experimento real com um uma
implementação de um tal partidor. Os padrões que eram problemáticos para o nosso
partidor DOP-Markov parecem ser inteiramente devidos à superficialidade das anotações
da Coleção de Canções Folclóricas de Essen (i.e. o nosso partidor ainda prediz muitas
frases); esta superficialidade é igualmente problemática para um partidor Gestaltbaseado/paralelismo-baseado, acreditamos. (Talvez devêssemos mencionar que saltos no
meio de frases são também problemáticos para modelos Gestalt-baseados, mas tais saltos
levariam somente a subfrases adicionais que não estão anotadas na Coleção de Canções
Folclóricas de Essen e não podem por isso ser testadas aqui. Somente os saltos no início ou
no final das frases conduzem a predições erradas por modelos Gestaltbaseados/paralelismo-baseados.)
Podemos pois concluir que frases-salto provêem sérias evidências contra os princípios
de da Gestalt de proximidade e similaridade, e que um modelo que seja unicamente
baseado em fatores musicais, tais como distâncias intervalares, paralelismo, metro e
harmonia, nunca pode aprender as frases-salto que aparecem em (8). A figura seguinte dá
algumas outras canções folclóricas da Coleção de Canções Folclóricas de Essen que
envolvem saltos de ou para a nota –5 (há também saltos de outras notas, tais como –4 e –6,
que não estão presentes neste exemplo).
(10)
Canção folclórica K0641
(11-7-511-5)(-511-721_-50)(11-7-5222_)(11-721_-5)(-511-5-511-5_)(11-7-5222)
(211-721_-50)
Canção folclórica A0214
(1_1_1_1_1_-7b_-7b_-5_)(-5_3b_.3b4_3b_2__1_)(1_1_1_1_1_-7b_-7b_-5_)
(-5_3b_.3b4_3b_)(2__1_1_3b_.45_3b_4__1__)(4_.43b_21-7b_.12_)(3b_4_1_3b_2_1__.)
Canção folclórica B0752
(1_5__5_5_4_3_5_4_3_2_1_)(-5_4_3_2_3__3_5_4_3_2__)(1_5__5_5_4_3_5_4_3_2_1_)
(-5_4_3_2_3__3_5_4_3_2__)(2_2__2_3__3_4_3_4_5__)(5_+1_7_6_5_.6543__2_1__)
Canção folclórica B0179
(-5_5_.43_2_1_-6_-5_)(-5_2__0_-5_3__0_)(3_6_.54#_3_2_1_-7_)(3_2__0_1_-7b__0_)
(234_432_234_3_2_)(45654_4321-7_-712_)(-5_3_.32_5_1__0_)(-5_3_.32_5_1__0_)
Pode-se certamente argumentar que pode ainda haver um princípio ou regra mais
fundamental, que (ainda) não conhecemos, e que prediz os limites de agrupamento corretos
para frases-salto.
A busca por um tal princípio ou regra, que parece estar além da natureza harmônica,
métrica ou melódica, será parte de pesquisa futura. Mas não deveríamos nem excluir a
possibilidade que este fenômeno de grupamento específico seja inerentemente memóriabaseado. Esta possibilidade pode ser apoiada por Huron (1996) que observou que as frases
nas canções folclóricas ocidentais tendem a exibir uma forma de “arco”, onde o contorno
das notas sobe e depois desce no decurso de uma frase. Desse modo o grupo (5_3_3_2_2_1_1_-5_) na canção folclórica K0690 exibe um tal contorno em arco, enquanto
que o grupo (3_3_2_2_1_1_-5_-5_) não. Assumindo que a observação de Huron esteja
correta, padrões tipo-arco podem ou expressar uma tendência universal em música, em cujo
caso eles dev ser formalizados por uma regra ou princípio (mas não há evidÊncia para esta
universalidade), ou os padrões tipo-arco podem ser estritamente idioma-dependentes, em
cujo caso eles podem ser mais bem capturados por um modelo memória-baseado que tente
imitar a experiência musical de um ouvinte de uma certa cultura. Assim, a percepção
musical pode ser muito mais memória-baseada do que previamente aceito.
Se desejarmos propor uma abordagem memória-baseada à música como uma
alternativa séria para uma abordagem Gestalt-baseada, deveremos tratar da questão de
como alguma estrutura pode ser adquirida se não temos quaisquer peças estruturadas no
nosso corpus para começar. Com um corpus já analisado, podemos no melhor dos casos
simular a percepção musical adulta – análoga a um corpus de linguagem natural analisada
(ver Bod 1998). Conjeturamos que a aquisição de um corpus estruturado pode ser o
resultado de um processo inicial [bootstrapping process] onde a descoberta de padrões
similares recorrentes e regularidades distribucionais exerçam um papel importante. Tão
logo um padrão apareça mais de uma vez, ele pode ser hipotetizado como um grupo, e pode
ser usado como uma unidade produtiva para analisar novas peças. A freqüência com que
um padrão ocorre é usada para decidir entre grupos conflitantes. Muita pesquisa em
aprendizagem não supervisionada é concernente com a estrutura sintática inicial
[bootstrapping] com base na similaridade de padrões e estatísticas de corpora de linguagem
maior (e.g. Finch & Chater 1994; Brent e Cartwright 1996; van Zaanen 2000). Um de
nossos objetivos futuros é investigar se tais técnicas de aprendizagem não supervisionada
reportam-se à estrutura musical inicial [bootstrapping] e se a estrutura aprendida
corresponde à estrutura conforme percebida por ouvintes humanos. Por outro lado, há já
uma considerável quantidade de trabalhos sobre indução não supervisionada de padrões
musicais (e.g. Cope 1990; Mattusch 1997; Crawford et al. 1998; Rolland & Ganascia
2000). Esperamos poder acessar estes modelos, junto com modelos não supervisionados de
aprendizagem de linguagem natural, para forçar a estrutura inicial [for the task of
bootstrapping structure] num corpus musical maior. Uma vez que um corpus inicial de
padrões musicais tenha sido aprendido, estes padrões podem ser utilizados por nosso
modelo supervisionado para segmentar eficientemente novas peças. Somente para
seqüências de notas completamente novas que nunca apareceram antes, os métodos não
supervisionados necessitam ainda ser invocados. A interação exata entre aspectos não
supervisionados e supervisionados da percepção musical precisa esperar por mais
investigação.
Mas também se nos limitamos à segmentação musical supervisionada, este trabalho
dispara muita pesquisa nova. Um de nossos projetos é converter a codificação de notas
absoluta nas anotações de Essen em codificações de notas relativa, de modo que o nosso
partidor possa mais facilmente generalizar os intervalos que ocorrem entre notas diferentes
mas que envolvem a mesma altura ou distâncias de tempo; isto pode também reduzir o
tamanho do conjunto de treino, o qual poderia aumentar a plausibilidade cognitiva do nosso
modelo. Outro projeto é enriquecer manualmente as anotações de Essen com constituintes
mais refinados [fine-grained], tais como subfrases e subseções, e atribuir a estes
constituintes rótulos que sumarizem as regularidades dos padrões fundamentais, conforme
proposto pelas linguagens de codificação musical tais como Collard et al. (1981) e Deutsch
& Feroe (1981). Suspeitamos que a estruturação melódica de um ouvinte depende
parcialmente das regularidades dos padrões de entrada (conforme descrito pelas linguagens
de codificação musical) e parcialmente das experiências musicais prévias (conforme
descrito pela nossa abordagem memória-baseada). Um modelo adequado para a percepção
musical deverá fazer justiça a ambos estes aspectos da música.
5. Conclusão
Apresentamos uma abordagem memória-baseada à música que analisa novas peças pela
combinação de fragmentos de estruturas de peças encontradas previamente. Em caso de
ambigüidade, esta abordagem computa a análise que pode ser considerada a mais provável
com base na freqüência de ocorrência dos fragmentos. Testamos com sucesso algumas
instâncias desta abordagem num conjunto de 1.000 canções folclóricas da Coleção de
Canções Folclóricas de Essen, obtendo um resultado-F de até 81,0%. Até onde sabemos,
este documento contém o primeiro experimento de partição com a Coleção de Canções
Folclóricas de Essen, o qual esperamos possa servir como uma base para outros modelos
computacionais de análise musical.
Uma análise qualitativa de nossos resultados mostrou que há uma classe de padrões
musicais, assim chamados de frases-salto, que desafiam tanto os princípios da Gestalt de
proximidade e similaridade quanto os princípios do paralelismo melódico. As frases-salto
provêem evidência de que limites de agrupamento podem aparecer antes ou depois de
intervalos entre notas grandes, mais do que em tais intervalos, e que os limites de
agrupamento podem mesmo aparecer enter notas idênticas (que são precedidas ou seguidas
por intervalos relativamente grandes). Vimos que modelos Gestalt-baseados, paralelismobaseados e/ou harmonia-baseados são inadequados para lidar com estes padrões. Modelos
probabilísticos, memória-baseados, são mais aptos a lidar com este fenômeno de gradiente
da análise musical já que eles podem capturar o continuum inteiro entre frases-salto e
frases-não-salto.
Agradecimentos
Agradecemos a Emilios Cambouropoulos e dois revisores anônimos pelos comentários
úteis sobre uma versão prévia deste documento. Agradecemos também a Ewa Dahling por
prover informações sobre a Coleção de Canções Folclóricas de Essen.
Referencias
Black, E., S. Abney, D. Flickinger, C. Gnadiec, R. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J.
Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini and T. Strzalkowski (1991). AProcedure
for Quantitatively Comparing the Syntactic Coverage of English, Proceedings DARPA Speech and
Natural Language Workshop, Pacific Grove, Morgan Kaufmann.
Bod, R. (1993). Using an Annotated Language Corpus as a Virtual Stochastic Grammar. Proceedings
AAAI'93, Morgan Kaufmann, Menlo Park.
Bod, R. (1998). Beyond Grammar: An Experience-Based Theory of Language, Stanford, CSLI Publications
(distributed by Cambridge University Press).
Booth, T. (1969). Probabilistic Representation of Formal Languages, Tenth Annual IEEE Symposium on
Switching and Automata Theory.
Brent, M. and T. Cartwright (1996). Distributional Regularity and Phonotactic Contraints are Useful for
Segmentation, Cognition, 61, 93-125.
Cambouropoulos, E. (1996). A Formal Theory for the Discovery of Local Boundaries in a Melodic Surface.
Proceedings of the Troisièmes Journées d'Informatique Musicale (JIM-96), Caen, France.
Cambouropoulos, E. (1997). Musical Rhythm: A Formal Model for Determining Local Boundaries, Accents
and Meter in a Melodic Surface, in M. Leman (ed.), Music, Gestalt and Computing - Studies in
Systematic and Cognitive Musicology, Berlin, Springer-Verlag.
Cambouropoulos, E. (1998). Musical Parallelism and Melodic Segmentation, Proceedings XII Colloquium on
Musical Informatics, Gorizia, Italy.
Charniak, E. (1993). Statistical Language Learning, Cambridge, The MIT Press.
Charniak, E. (1996). Tree-bank Grammars, Proceedings AAAI-96, Menlo Park, Ca.
Church, K. and W. Gale (1991). A comparison of the enhanced Good-Turing and deleted estimation methods
for estimating probabilities of English bigrams, Computer Speech and Language 5, 19-54.
Collard, R., P. Vos and E. Leeuwenberg (1981). What Melody Tells about Metre in Music. Zeitschrift für
Psychologie. 189, 25-33.
Collins, M. (1999). Head-Driven Statistical Models for Natural Language Parsing, PhD-thesis, University of
Pennsylvania, PA.
Cope, D. (1990). Pattern-Matching as an Engine for the Computer Simulation of Musical Style, Proceedings
ICMC'1990, Glasgow, UK.
Crawford, R., C. Iliopoulos, and R. Raman (1998). String Matching Techniques for Musical Similarity and
Melodic Recognition, Computing in Musicology 11, 71-100.
Deutsch, D. and J. Feroe (1981). The Internal Representation of Pitch Sequences in Tonal Music,
Psychological Review, 88, 503-522.
Finch, S. and N. Chater (1994). Distributional Bootstrapping: From Word Class to Proto-Sentence,
Proceedings 16th Annual Cognitive Science Society, 301-306, Hillsdale, Lawrence Erlbaum.
Good, I. (1953). The Population Frequencies of Species and the Estimation of Population Parameters,
Biometrika 40, 237-264.
Handel, S. (1989). Listening. An Introduction to the Perception of Auditory Events. Cambridge, The MIT
Press.
Höthker, K., D. Hörnel and C. Anagnostopoulou (2001). Investigating the Influence of Representations and
Algorithms in Music Classification. Computers and the Humanities 35, 65-79.
Huron, D. (1996). The Melodic Arch in Western Folksongs. Computing in Musicology 10, 2-23.
Lerdahl, F. and R. Jackendoff (1983). A Generative Theory of Tonal Music. Cambridge, The MIT Press.
Longuet-Higgins, H. (1976). Perception of Melodies. Nature 263, October 21, 646-653.
Manning, C. and H. Schütze (1999). Foundations of Statistical Natural Language Processing. Cambridge, The
MIT Press.
Mattusch, U. (1997). Emulating Gestalt Mechanisms by Combining Symbolic and Subsymbolic Information
Processing Procedures, in M. Leman (ed.), Music, Gestalt and Computing - Studies in Systematic and
Cognitive Musicology, Berlin, Springer-Verlag.
Mitchell, T. (1997). Machine Learning. McGraw-Hill Companies.
Narmour, E. (1990). The Analysis and Cognition of Basic Melodic Structures: The Implication-Realization
Model, The University of Chicago Press, Chicago.
Narmour, E. (1992). The Analysis and Cognition of Melodic Complexity, The University of Chicago Press,
Chicago.
Press, W., B. Flannery, S. Teukolsky, and W. Vetterling (1988). Numerical Recipes in C. Cambridge
University Press.
Rolland, P. and J. Ganascia (2000). Musical Pattern Extraction and Similarity Assessment, in E. Miranda (ed.)
Readings in Music and Artificial Intelligence, Harwood Academic Publishers.
Saffran, J., M. Loman and R. Robertson (2000). Infant Memory for Musical Experiences. Cognition 77, B1623.
Schaffrath, H. (1993). Repräsentation einstimmiger Melodien: computerunterstützte Analyse und
Musikdatenbanken. In B. Enders and S. Hanheide (eds.) Neue Musiktechnologie, 277-300, Mainz, B.
Schott's Söhne.
Schaffrath, H. (1995). The Essen Folksong Collection in the Humdrum Kern Format. D. Huron (ed.). Menlo
Park, CA: Center for Computer Assisted Research in the Humanities.
Selfridge-Field, E. (1995). The Essen Musical Data Package. Menlo Park, California: Center for Computer
Assisted Research in the Humanities (CCARH).
Seneff, S. (1992). TINA: A Natural Language System for Spoken Language Applications. Computational
Linguistics 18(1), 61-86.
Stoffer, T. (1985). Representation of Phrase Structure in the Perception of Music. Music Perception 3(2), 191220.
Tenney, J. and L. Polansky (1980). Temporal Gestalt Perception in Music, Journal of Music Theory, 24, 205241.
Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung 4, 301-350.
Wetherell, C. (1980). Probabilistic Languages: A Review and Some Open Questions, Computing Surveys,
12(4).
van Zaanen, M. (2000). Bootstrapping Structure and Recursion Using Alignment-Based Learning,
Proceedings International Conference on Machine Learning (ICML'2000), Stanford, California.
Download

Pesquisa