Um Modelo Memória-baseado para Análise Musical: Desafiando os Princípios da Gestalt Rens Bod Escola de Computação Universidade de Leeds, Leeds LS2 9JT, UK, e Instituto de Lógica, Linguagem e Computação Universidade de Amsterdã, Spuistraat 134, 1012 VB Amsterdã, Holanda [email protected] Resumo Sustentamos uma abordagem memória-baseada para a análise musical que trabalhe com experiências musicais concretas em vez de com regras ou princípios abstratos. Novas peças de música são analisadas pela combinação de fragmentos de estruturas de peças encontradas previamente. As freqüências de ocorrência dos fragmentos são usadas para determinar a análise preferida de uma peça. Testamos algumas instâncias desta abordagem em um conjunto de 1.000 canções folclóricas manualmente anotadas da Coleção de Canções Folclóricas de Essen, produzindo até 85,9% de acuidade de frase. Uma análise quantitativa de nosso resultado indica que há fenômenos de agrupamento que desafiam os princípios da Gestalt comumente aceitos de proximidade, similaridade e paralelismo. Estes fenômenos de agrupamento não podem sequer ser explicados por outros fatores musicais, tais como metro e harmonia. Sustentamos que a percepção musical pode ser muito mais memória-baseada do que o previamente suposto. 1. Introdução Ao ouvir uma peça de música, o sistema perceptivo humano segmenta a seqüência de notas em grupos ou frases que formam uma estrutura de agrupamento para a peça inteira (cf. Longuet-Higgins 1976; Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Stoffer 1985). Um dos desafios principais na modelagem de segmentação musical é o problema da ambigüidade: muitas estruturas de agrupamento diferentes podem ser compatíveis com uma seqüência de notas enquanto um ouvinte geralmente percebe somente uma estrutura específica. É amplamente pressuposto que a estrutura preferida de agrupamento de uma peça dependa de uma combinação de fenômenos de baixo nível, tais como descontinuidades locais e distâncias intervalares, e fenômenos de alto nível, tais como paralelismo melódico e harmonia interna. Muitos modelos de segmentação musical usam os princípios da Gestalt de proximidade e similaridade (Wertheimer 1923) para prever a estrutura de agrupamento de baixo nível de uma peça: os limites dos agrupamentos preferencialmente caem em intervalos interataques maiores, intervalos entre notas maiores, etc. (ver Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Cambouropoulos 1996, 1997). Enquanto muitos modelos incorporam fenômenos de agrupamento de alto nível, tais como paralelismo melódico e harmonia, estes fenômenos permanecem geralmente não formalizados. Por exemplo, Lerdahl & Jackendoff (1983) não provêem qualquer descrição sistemática do paralelismo musical de alto nível, o modelo de Implicação-Realização de Narmour (Narmour 1990, 1992) confia em fatores tais como metro, harmonia e similaridade que não são completamente descritos pelo modelo. Como resultado, estes modelos não foram avaliados em grandes conjuntos de dados musicais, tais como a Coleção de Canções Folclórica de Essen (Schaffrath 1995; Huron 1996). Somente umas poucas passagens selecionadas à mão são tipicamente usadas para avaliar estes modelos, as quais questionam a objetividade dos resultados. Este documento investiga uma abordagem deveras diferente para a análise musical. Em vez de usar um conjunto pré-definido de regras e princípios, apresentamos um modelo que trabalha com um corpus de estruturas de agrupamento peças musicais previamente encontradas. Novas peças são analisadas pela combinação dos fragmentos das estruturascorpus; as freqüências dos fragmentos são usadas para determinar a análise preferida. Propomos assim uma abordagem supervisionada, memória-baseada para a análise musical a qual trabalha com fragmentos musicais concretos mais do que formalizações abstratas de distâncias intervalores, paralelismo, metro, harmonia e outros fenômenos musicais. Em outros campos da ciência cognitiva, tais como processamento da linguagem natural aprendizagem de máquina, modelos memória-baseados têm se tornado crescentemente influentes (cf. Mitchell 1997; Bod 1998; Manning & Schütze 1999). Além disso, investigações psicológicas recentes sugerem que fragmentos musicais previamente ouvidos são armazenados na memória (e.g. Saffran et al. 2000), e que fragmentos que são encontrados mais freqüentemente são mais bem representados na memória e conseqüentemente mais facilmente ativados do que fragmentos encontrados menos freqüentemente. A disponibilidade corrente de grandes bases de dados musicais anotadas, tais como a Coleção De Canções Folclóricas de Essen (Schaffrath 1995; Huron 1996), provêem um excelente domínio de teste para modelos memória-baseados de análise musical. Embora um modelo puramente memória-baseado pode não ser suficiente como uma análise de teoria da música, é importante estudar os méritos de um tal modelo de modo que seus resultados possam ser usados como uma linha-base contra a qual outras abordagens possam ser comparadas. A seguir descrevemos primeiro a Coleção de Canções Folclóricas de Essen, após o que testamos três modelos de partição memória-baseados [memory-based parsing models] diferentes nesta coleção. Veremos que os melhores resultados são obtidos por um modelo que combina duas técnicas memória-baseadas: a técnica de gramática de Markov de Collins (1999) e a técnica de Partição Dado-orientada de Bod (1998). Este modelo combinado corretamente prediz 85.9% das frases para um conjunto de teste retido de 1.000 canções folclóricas. Uma avaliação qualitativa de nossos resultados revela a existência de uma classe de padrões que são problemáticos para os modelos Gestaltbaseado/paralelismo-baseado, enquanto estes padrões são bastante triviais para os modelos memória-baseados. Nossa avaliação desafia dois princípios de agrupamento amplamente aceitos em música: os princípios da Gestalt de proximidade/similaridade (Wertheimer 1923; Tenney & Polansky 1980; Lerdahl & Jackendoff 1983; Handel 1989) e o princípio de alto nível do paralelismo melódico (Lerdahl & Jackendoff 1983; Cambouropoulos 1998; Höthker et al. 2001). Sustentamos que a percepção musical pode ser muito mais memóriabaseada do que previamente suposto. 2. A Coleção de Canções Folclóricas de Essen A coleção de Canções Folclóricas de Essen contém uma grande amostra da (maioria) das canções folclóricas da Europa que foram coletadas e codificadas sob a supervisão do falecido Dr. Helmut Schaffrath da Universidade de Essen (Schaffrath 1993, 1995; Selfridge-Field 1995). O desenvolvimento contínuo da coleção está agora a cargo do Dr. Ewa Dahlig do Laboratório de Pesquisa Auxiliada por Computador em Musicologia, Varsóvia. Atualmente, 6.251 canções folclóricas estão publicamente disponíveis em http://www.esac-data.org, embora o número total de canções folclóricas na coleção é informado acima de 20.000. Cada canção folclórica está anotada com o código associativo de Essen (ESAC) o qual inclui informação sobre notas e durações, sinais de compasso e marcadores de frase explícitos (os textos das canções não tem sido registrados; somente suas representações tonais estão disponíveis). A presença de marcadores de frase torna a Coleção de Canções Folclóricas de Essen um teste de caso único para modelos computacionais de segmentação musical. A codificação de notas na Coleção de Canções Folclóricas de Essen assemelha-se ao “solfege”: números de graus da escala são usados para substituir as sílabas móveis “dó”, “ré”, “mi”, etc. Assim, 1 corresponde ao “dó”, 2 corresponde ao “ré”, etc. Alterações cromáticas são representadas pela adição ou de um “#” ou de um “b” após o número. Os sinais de mais (“+”) e menos (“-“) são adicionados antes do número se uma nota cai respectivamente acima ou abaixo da oitava principal (assim, -1, 1 e +1 referem-se todos ao “dó” em diferentes oitavas). A duração é representada pela adição de um ponto ou traço de sublinhado após o número. Um ponto (“.”) aumenta a duração em 50% e o sublinhado (“_”) aumenta a duração em 100%; mais do que um sublinhado pode ser adicionado após cada número. Se um número não tem indicador de duração, sua duração corresponde ao menor valor (o qual é encontrado no campo KEY que precede cada canção folclórica). Uma pausa é representada por 0, possivelmente seguido por indicadores de duração. Nenhum indicador de dinâmica [loudness] ou timbre é usado na Coleção de Canções Folclóricas de Essen. Sinais de parágrafo [hard returns] são usados para indicar um limite de frase (note que usamos os termos “frase” e “grupo” intercambiavelmente). Para tornar as anotações de Essen legíveis para o nosso partidor [parser] memória-baseado, convertemos automaticamente suas indicações de limite de frase para representações de parênteses, onde “(” indica o início de uma frase e “)” o final de uma frase. Para mais informação sobre a Coleção de Canções Folclóricas de Essen e o Código Associativo de Essen (ESAC), ver Selfridge-Field (1995). A Coleção de Canções Folclóricas de Essen está também disponível em formato de cartão perfurado [humdrum] (Huron 1996). A Figura (1) dá um exemplo da codificação da canção folclórica K0029 (“Schlaf Kindlein Feste”) junto com sua anotação de frase (deixamos de fora as barras de compasso e sinais de compasso que não serão usados por nosso partidor, mas retornaremos à estrutura métrica na seção 4): (1) (3_221_-5)(-533221_-5)(13335432)(13335432_)(3_221_-5_) Note que as anotações de frase de Essen carecem de estrutura hierárquica: elas negligenciam tanto a estrutura interna da frase tais como subfrases e motivos, bem como estruturas externas da frase tais como períodos e subseções (cf. Lerdahl & Jackendoff 1983). Assim as duas primeiras frases na canção folclórica (1) poderiam ter sido agrupadas juntas numa constituinte maior, e o mesmo se aplica para as duas frases subseqüentes. Enquanto possa não haver de fato muita estrutura interna nas frases da canção folclórica (1), a seguinte anotação da canção folclórica K0885 ("Schneckhaus Schneckhaus stecke deine Hoerner aus") mostra que a falta de estrutura interna da frase pode levar a uma anotação empobrecida: (2) (5_3_5_3_)(1234553_)(1234553_)(12345_3_)(12345_3_)(553_553_)(553_65432_1_) Uma análise mais refinada [fine-grained] desta canção folclórica, acreditamos, consistiria em subsegmentações de muitas de suas frases; por exemplo, a primeira frase poderia ser subsegmentada em duas subfrases (3_5_) equivalentes. Também uma quantidade considerável de estrutura de frase externa poderia ser adicionada a esta canção folclórica, tal como a adição de um grupo maior que inclua a segunda e a terceira frases. Um caso mais extremo é provido pela canção folclórica Z0147 ("Besenbinders Tochter und kachelmachers Sohn"): (3) (5_4#_5_3_1__1_3_2_1#_2_-7_-5__.)(3_5_4#_5_3_1__1_3_ 221#_2_-7_-5__.) (-5_-5_-5_-5-5-5_4__4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_-7_1_332_1#_2_3_1__0__) (-5_-5_-5_-5_444_4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1__.) (3_5_4#_5_3_1_1_1_3_2_1#_2_3_1__1_)(3_5_4#_5_3_1_-7_1_3_2_1#_2_3_1__1_0_) (-5_-5_-5_-5_444_4_3_2_2_3_4_5__+1_)(3_5_4#_5_3_1_1_1_3_2_1#_2_3_1___) Cremos que cada frase desta canção folclórica pode ser ainda mais subsegmentada em subfrases.Entretanto, a anotação na figura (3) não está errada; ela apenas representa a estrutura mais básica da frase de uma peça somente. Queremos enfatizar que para o nosso experimento na seção 3 nós não adicionamos (ou modificamos) qualquer estrutura nas anotações de Essen. Poder-se-ia acreditar que a Coleção de Canções Folclóricas de Essen é portanto um caso de teste relativamente fácil; mas verificou-se surpreendentemente difícil predizer as frases corretas para estas canções folclóricas. Isto nos leva ao problema da avaliação. Para avaliar nosso modelo de partição memória-baseado para música, empregamos o assim chamado método de testagem cega [blind testing method] o qual tem sido amplamente usado na avaliação de partidores de linguagem natural (cf. Manning & Schütze 1999). Este método preceitua que uma coleção de seqüências [strings] anotadas é aleatoriamente dividida em um conjunto de treino e um conjunto de teste, onde as anotações no conjunto de teste são usadas para “treinar” o partidor, enquanto que as seqüências não anotadas no conjunto de teste são usadas como entrada para testar o partidor. O grau com o qual as segmentações previstas para as seqüências do conjunto de teste correspondem com as segmentações corretas no conjunto de teste é uma medida para a acuidade do partidor. Para o nosso experimento na seção 3, nós dividimos aleatoriamente as 6.251 canções folclóricas que estão atualmente disponíveis num conjunto de treino de 5.251 canções folclóricas e um conjunto de teste de 1.000 canções folclóricas. Há uma questão importante referente a que tipo de medida de avaliação é mais apropriada para comparar as segmentações propostas pelo partidor com as segmentações corretas no conjunto de teste. Um esquema de avaliação amplamente usado é o esquema de PARSEVAL, o qual é baseado nas noções de precisão e verificação [recall] (ver Black et al. 1991). PARSEVAL compara uma partição proposta P com a divisão do conjunto de teste correspondente T como segue: # de frases corretas em P Precisão = # de frases em P # de frases corretas em P Verificação = # de frases em T Uma frase está correta de tanto o início quanto o final da frase estão corretamente preditos. Note que esta medida “pune” um partidor que atribui muitíssimas frases para uma canção folclórica; por exemplo, um partidor extremamente supergerador que atribui frases a qualquer combinação de notas poderia trivialmente incluir todas as frases corretas, resultando numa excelente verificação, mas sua precisão seria muito baixa. Por outro lado, um partidor muito cauteloso que prediz extremamente pouco, ainda que com frases corretas, receberia uma alta precisão, mas sua verificação seria baixa. Um bom partidor irá assim necessitar obter tanto uma precisão alta quanto uma verificação alta. (Pode-se provavelmente seguir sem dizer que para computar a precisão e a verificação para todas as seqüências de conjuntos de teste, necessita-se dividir o número total de frases preditas corretamente em todas as partições propostas P pelo número total de frases em respectivamente todas as partições P e T.) Os resultados de precisão e verificação são geralmente combinados numa medida única de performance, conhecida como Resultado-F (ver Manning & Schütze 1999): 2 × Precisão × Verificação Resultado-F = Precisão + Verificação Usaremos estas três medidas de Precisão, Verificação e Resultado-F para avaliar quantitativamente nosso modelo de partição memória-baseado. Como um passo final de pré-processamento, adicionaremos (automaticamente) a cada frase das canções folclóricas o rótulo “P” e para cada canção inteira o rótulo “S”, de modo a obter árvores de partição convencionais. Assim, a estrutura em (1) torna-se: (4) S( P(3_221_-5) P(-533221_-5) P(13335432) P(13335432_) P(3_221_-5_) ) A vantagem deste formato é que podemos agora aplicar diretamente modelos de partição memória-baseados existentes à Coleção de Canções Folclóricas de Essen. 3. Experimento com a Coleção de Canções Folclóricas de Essen. Nesta seção, fornecemos uma avaliação quantitativa de três modelos de partição memóriabaseados da Coleção de Canções Folclóricas de Essen (procederemos a uma avaliação mais qualitativa de nossos resultados na seção 4). Consideramos os seguintes modelos de partição memória-baseados da literatura: a técnica de gramática de Treebank [banco de árvore] de Collins (1999), a técnica de gramática de Markov de Seneff (1992) e Collins (1999), e o Partidor Dado-Orientado (DOP) de Bod (1993, 1998). A menos que seja exposto de modo diferente, usamos a mesma divisão aleatória da Coleção de Canções Folclóricas de Essen num conjunto de treino de 5.251 canções folclóricas e num conjunto de teste de 1.000 canções folclóricas. 3.1 A Técnica de Gramática de Treebank A técnica de gramática de Treebank é uma técnica de aprendizagem extremamente simples: ela lê todas as regras reescritas livres de contexto das estruturas do conjunto de treino, e aplica a cada regra uma probabilidade proporcional à sua freqüência no conjunto de treino. Por exemplo, as seguintes regras livres de contexto podem ser extraídas da estrutura da figura (4): S -> PPPPP P -> 3_221_-5 P -> -533221_-5 P -> 13335432 P -> 13335432_ P -> 3_221_-5_ Em seguida, a cada regra reescrita é atribuída uma probabilidade pela divisão do número de ocorrências de uma regra específica no conjunto de treino pelo número total de ocorrências das regras que expandem a mesma não-terminal [nonterminal] que a regra específica. Por exemplo, se tomamos a canção folclórica (4) como nosso dado de treinamento, então a probabilidade da regra P -> 3_221_-5 é igual a 1/5 já que esta regra ocorre uma vez entre um total de 5 regras que expandem a P não-terminal. Uma gramática de Treebank extraída desta maneira do conjunto de treino corresponde à assim chamada Gramática Probabilística Livre de Contexto ou PCFG (Booth 1969). Uma suposição crucial subordinada às PCFGs é que as regras livres de contexto são estatisticamente independentes. Assim, dadas as probabilidades das regras individuais, podemos calcular a probabilidade de uma árvore de partição tomando o produto das probabilidades de cada regra usadas naquele ponto [therein]. As PCFGs têm sido extensivamente estudadas na literatura (cf. Wetherell 1980; Charniak 1993), e os algoritmos de partição eficientes que existem para Gramáticas Livres de Contexto reportam-se às PCFGs (ver Charniak 1993 ou Manning & Schütze 1999 para os algoritmos relevantes). Qualquer gramática probabilística extraída de um conjunto de treino encara o problema da dispersão de dados [datasparseness]: muitas das regras no conjunto de treino são tão infreqüentes que suas probabilidades observadas são estimativas muito inferiores de sua população verdadeira de probabilidades. Um método amplamente usado para enfrentar este problema é o método de Good-Turing (Good 1953). Em geral, o Good-Turing avalia a freqüência de população esperada f* de um tipo ajustando sua freqüência de amostra observada f. Para avaliar f*, o Good-Turing usa uma noção adicional nf, a qual é definida pelo número de tipos que ocorrem f vezes numa amostra observada. Assim, nf pode ser entendida como a freqüência da freqüência f. O avaliador do Good-Turing usa esta informação extra para computar a freqüência ajustada f* como nf+1 f* = (f+1) nf Assim computamos as probabilidades de nossas regras livres de contexto na gramática de Treebank a partir de suas freqüências ajustadas em vez de suas freqüências brutas observadas. Note que o Good-Turing também ajusta as probabilidades de regras não vistas: se f = 0, então f* = n1/n0. n0 é o número de regras que não foram vistas, e é usualmente avaliado por 1 – n1/N onde N é o número de regras observadas (ver Good 1953). Entretanto, o Good-Turing não diferencia as regras que não foram vistas: ele atribui a mesma probabilidade a todas elas, o que conduz a uma avaliação ainda mais inacurada de para as regras não vistas. Iremos portanto introduzir um meio mais acurado de atribuir probabilidades para regras não vistas na seção 3.2. Para um documento instrutivo sobre o Good-Turing junto com a prova da fórmula, ver Church & Galé (1991). A gramática de Treebank que foi obtida de 5.251 canções folclóricas de treinamento foi usada para particionar as 1.000 canções folclóricas do conjunto de teste.. Computamos para cada canção folclórica de teste a partição mais provável usando um algoritmo de partição melhor-primeiro padrão [standard best-first parsing algorithm] baseado na otimização de Viterbi (ver Charniak 1993; Manning & Schütze 1999). Usando as medidas de avaliação dadas na seção 2, a nossa gramática de Treebank obteve uma precisão de 68,7%, uma verificação de 3,4%, e um resultado-F de 6,5%. Embora a o resultado de precisão possa parecer razoável, o resultado de verificação é extremamente baixo. Isto indica que a técnica de gramática de Treenbank é um aprendiz muito cauteloso: ele prediz muito poucas frases do número total de frases na Coleção de Canções Folclóricas de Essen, resultando num resultado-F muito baixo. Um dos problemas com a técnica de gramática de Treebank é que ela aprende somente aquelas regras livres de contexto que literalmente ocorrem no conjunto de treino (ou por outro lado atribui avaliação pobre para regra não vistas), o que evidentemente não é uma técnica muito robusta para a partição musical – embora ela tenha mostrado uma performance muito boa na partição de linguagem natural (cf. Charniak 1996). Veremos, entretanto, que os resultados melhoram significativamente se nós relaxamos levemente o modo de extrair regras do conjunto de treino. 3.2 A Técnica de Gramática de Markov Uma técnica que ultrapassa a cautela das gramáticas de Treebank é a técnica de gramática de Markov (Seneff 1992; Collins 1999). Enquanto que uma gramática de Treebank pode somente atribuir acuradamente probabilidades para regras livres de contexto que foram vistas no conjunto de treino, uma gramática de Markov pode computar probabilidades para qualquer regra livre de contexto possível, resultando assim em um modelo mais robusto. Isto é obtido pela decomposição de uma regra e suas probabilidades por um processo de Markov (see Collins 1999: 44-48). Por exemplo, um processo de Markov de terceira ordem estima a probabilidade p de uma regra P -> 12345 em: p(P -> 12345) = p(1) × p(2 | 1) × p(3 | 1, 2) × p(4 | 1, 2, 3) × p(5 | 2, 3, 4) × p(END | 3, 4, 5). A probabilidade condicional p(END | 3, 4, 5) codifica a probabilidade de que uma regra termine após as notas 3, 4, 5. Assim, mesmo se a regra P -> 12345 não ocorra literalmente no conjunto de treino, podemos ainda estimar sua probabilidade usando um histórico de Markov de três notas. A extensão para históricos de Markov maiores resulta da generalização óbvia do exemplo acima. Entretanto, também uma gramática de Markov sofre de dispersão de dados: podemos obter contagens baixas, incluindo contagens zero, para alguns históricos de Markov. Contagens zero são especialmente problemáticas: se uma das probabilidades decompostas na fórmula acima tem uma ocorrência zero no conjunto de treino, então para a regra inteira é atribuída uma probabilidade zero. Uma técnica amplamente usada para resolver o problema da dispersão de dados em modelos de Markov é a técnica da interpolação linear (ver Manning & Schütze 1999: 218-219). Esta técnica suaviza um histórico de Markov por levar em conta seus históricos mais curtos. Se n1, n2 e n3 denotam três notas, então a probabilidade condicional p(n1 | n2, n3) é suavizada (“interpolada”) como p(n1 | n2, n3) = λ1p(n1) + λ2p(n1 | n2) + λ3p(n1 | n2, n3) onde 0 ≤ λ i ≤ 1 e λ1 + λ2 + λ3 = 1. Estes λ–pesos podem ser configurados à mão, mas em geral quer-se encontrar a combinação de pesos λi que funcionam melhor. Um algoritmo simples que encontra os pesos ótimos é o algoritmo de Powell (ver Press et al. 1988), que é também discutido em Manning & Schütze (1999: 218). Usamos este algoritmo para atribuir pesos aos lambdas na técnica de interpolação linear, que por sua vez foi usada para estimar as probabilidades condicionais na técnica de gramática de Markov. Além disso, cada uma das probabilidades p(n1), p(n1 | n2) e p(n1 | n2, n3) não foram estimadas de suas freqüências relativas observadas, mas foram ajustadas pelo método de Good-Turing, assim como com as gramáticas de Treebank (seção 3.1). Note que a extensão para qualquer histórica de Markov maior resulta da simples generalização das fórmulas acima. A probabilidade de uma árvore de partição de uma peça musical é computada pelo produto das probabilidades das regras que participam da árvore de partição, assim como com as gramáticas de Treebank. Para os nossos experimentos, usamos uma gramática de Markov com um histórico de quatro notas. Esta gramática obteve uma precisão de 63,1%, uma verificação de 80,2%, e um resultado-F de 70,6%. Estes resultados são em alguma medida complementares da gramática de Treebank: embora a precisão seja um tanto mais baixa, a verificação é (muito) mais alta do que a gramática de Treebank. Assim, enquanto a gramática de Treebank prediz muito poucas frases, a gramática de Markov prediz frases (um tanto) demais. O resultado-F combinado de 70,6% mostra um imenso melhoramento sobre a técnica de gramática de Treebank. Experimentos com modelos de Markov de ordem mais alta ou mais baixa diminuem nossos resultados. 3.3 Estendendo a Técnica de Gramática de Markov com a Técnica DOP Embora a técnica de gramática de Markov obteve resultados consideravelmente melhores do que a técnica de gramática de Treebank, ela não leva em consideração qualquer contexto global ao computar a probabilidade de uma árvore de partição. O conhecimento do contexto global, tal como o número de frases que aparecem numa canção folclórica, é provavelmente importante para predizer as segmentações corretas para novas canções folclóricas. Para incluir o contexto global, condicionamos [conditioned over] a regra-S mais alta na estrutura ao computar a probabilidade de uma regra-P. Esta abordagem corresponde à técnica de Partição Dado-Orientada (DOP) (Bod 1998) que pode condicionar qualquer regra mais alta ou mais baixa na árvore. Na técnica DOP original, qualquer fragmento visto no conjunto de treino, à despeito de seu tamanho, é usado como uma unidade produtiva. Mas na Coleção de Canções Folclóricas de Essen temos apenas dois níveis de estruturas constituintes em cada árvore, resultando assim em um modelo probabilístico muito mais simples. Se um exemplo retoma a regra P -> 12345 e uma regra-S mais alta tal como S -> PPP; então um modelo DOP-Markov baseado num histórico de três notas computa a probabilidade (condicional) desta regra como: p(P -> 12345 | S -> PPPP) = p(1 | S -> PPPP) × p(2 | S -> PPPP, 1) × p(3 | S -> PPPP, 1, 2) × p(4 | S -> PPPP, 1, 2, 3) × p(5 | S -> PPPP, 2, 3, 4) × p(END | S -> PPPP, 3, 4, 5). A extensão para históricos maiores resulta da generalização óbvia do exemplo acima. Para o nosso experimento, usamos um histórico de quatro notas, estendido com as mesmas técnicas de suavização da seção 3.2 (i.e. interpolação linear combinada com Good-Turing). A partição mais provável de uma canção folclórica é novamente computada pela maximização do produto das probabilidades da regra que gera a canção folclórica. Usando a mesma divisão dos conjuntos de treinamento/teste que antes, este partidor DOP-Maarkov obteve uma precisão de 76,6%, uma verificação de 85,9%, e um resultado-F de 81,0%. O resultado-F é um melhoramento de 10,4% sobre o partidor de Markov. Note que o partidor DOP-Markov é relativamente bem-equilibrado: ele nem é terrivelmente cauteloso nem prediz demasiadas frases redundantes – tendo em mente a idiossincrasia das anotações das Canções Folclóricas de Essen. Embora não haja razão para esperar uma acuidade próxima de 100% na superficialmente anotada Coleção de Canções Folclóricas de Essen (especialmente na ausência da estrutura harmônica), nossos resultados mostram a importância de incluir o contexto global ao computar a probabilidade de um partidor. Também checamos a significância estatística de nossos resultados, pela testagem de 9 partições aleatórias adicionais da Coleção de Canções Folclóricas de Essen (em três conjuntos de treinamento de 5.251 canções folclóricas). Sobre estas partições, o partidor DOP-Markov obteve um Resultado-F médio de 80,7% com um desvio padrão de 1,9%, enquanto o partidor de Markov obteve um resultado-F médio de 70,8% com um desvio padrão de 2,2%. Estas diferenças foram estatisticamente significativas de acordo com o teste-t emparelhado [paired t-testing]. Antes de prosseguirmos para uma avaliação mais qualitativa de nossos resultados, ficamos interessados em testar o impacto do tamanho de treinamento sobre o resultado-F. Como mencionado na introdução, há algum suporte psicológico para a hipótese de que fragmentos musicais previamente ouvidos são armazenados na memória, e que fragmentos mais freqüentes são mais facilmente ativados do que fragmentos menos freqüentes. Mas, parece improvável que humanos armazenem mais do que 5.000 canções folclóricas para analisar novas canções folclóricas. É desta perspectiva que estamos interessados em investigar como o nosso partidor DOP-Markov se desempenha com conjuntos de treinamento menores. Nos seguintes experimentos começamos com um conjunto de treino inicial de somente 500 canções folclóricas (aleatoriamente escolhidas do conjunto de treino completo de 5.251 canções folclóricas). Então incrementamos o tamanho deste conjunto de treino inicial com 500 canções a cada vez (aleatoriamente escolhidas do conjunto de treino completo). O conjunto de teste foi mantido constante em 1.000 canções folclóricas. Os resultados estão mostrados na tabela 1. Tabela 1. Resultado-F como função do tamanho do conjunto de treino Tamanho de treino 500 1,000 1,500 2,000 2,500 3,000 3,500 4,000 4,500 5,000 5,251 Resultado-F 31.1% 47.4% 56.9% 64.4% 69.0% 73.2% 76.1% 78.3% 79.9% 80.7% 81.0% A tabela mostra que o resultado-F cresce rapidamente quando o tamanho do conjunto de treino é aumentado de 500 para 2.000 canções folclóricas. A acuidade continua a crescer a uma taxa mais baixa se o conjunto de treino é ainda mais aumentado. Notamos que em torno de 4.000 canções folclóricas, resultados-F relativamente bons são obtidos. Podemos questionar a realidade cognitiva de uma memória de 4.000 canções folclóricas. Mas devemos ter em mente que o nosso partidor não tem conhecimento das regras da Gestalt de proximidade e similaridade, ou o que quer que seja. A inclusão de um tal conhecimento poderia impulsionar nossos resultados ou reduzir o tamanho do nosso conjunto de treino. Por outro lado, poderíamos também argumentar que poderíamos também eliminar todo o conhecimento memória-baseado se tivéssemos acesso às regras da Gestalt. Iremos discutir este problema na próxima seção. 4. Discussão: Desafiando os Princípios da Gestalt Vimos que um modelo de partição memória-baseado, conhecido como partidor de DOPMarkov, pode muito acuradamente predizer as estruturas de agrupamento preferidas para conções folclóricas ocidentais. Entretanto, também vimos que uma grande quantidade de dados de treino anotados à mão é necessária para alcançar este resultado. De fato, para aprender que um limite de agrupamento tende a ocorrer numa distancia intervalar grande de nota ou tempo, nosso partidor memória-baseado deve encontrar muitas instâncias específicas de tais intervalos antes de poder atribuir uma alta probabilidade a um limite ocorrendo em tais intervalos. Isto pode parecer um obstáculo sério já que tais limites intervalares podem muito bem ser preditos por somente umas poucas regras que formalizem as noções da Gestalt de proximidade e similaridade (tais como em Lerdahl & Jackendoff 1983: 39, ou Cambouropoulos 1997). Entretanto, há muitos padrões na Coleção de Canções Folclóricas de Essen que são problemáticas para partidores Gestalt-baseados, mesmo quando tais partidores são estendidos com um mecanismo de detecção de paralelismo (como em Cambouropoulos 1998), enquanto são muito mais triviais para modelos memória-baseados. Estes são padrões que contém um salto (um intervalo entre notas grande) no início ou no final de uma frase (ou ambos). Como um exemplo, considere as primeiras 12 notas da canção folclórica K0029, que foi dada na figura (1), e que corresponde aos dois grupos em (5): (5) (3_221_-5)(-533221_-5) Um partidor Gestalt-baseado provavelmente atribuiria uma das seguintes estruturas de agrupamento para estas notas: (6) (3_221_)(-5-533221_)(-5 ... ou: (7) (3_221_-5-5)(33221_-5) Enquanto estas estruturas de agrupamento sejam possíveis, no que elas podem ser percebidas, elas não correspondem à estrutura que é realmente percebida. O problema surge dos intervalos relativamente grandes entre notas (e tempo) entre as notas 1_ e –5, e entre as notas –5 e 3, dos quais um partidor Gestalt-baseado inferiria um limite de agrupamento em um destes intervalos. Que fenômeno governa a percepção de um limite aqui? Neste exemplo particular poder-se-ia argumentar que o paralelismo melódico muito forte entre as primeiras cinco notas (i.e. 3_221_-5) e as últimas cinco notas (i.e. 3_221_-5) desta canção folclórica (ver a figura 1) governa o limite na distância intervalar local, resultando assim na segmentação correta – contanto que tenhamos um mecanismo que posa descobrir estes padrões paralelos (cf. Cambouropoulos 1998). Entretanto, há também (muitas) canções folclóricas onde não ocorrem tais paralelismos e ainda assim há um limite de agrupamento entre duas notas equivalentes que são precedidas e seguidas por intervalos relativamente grandes. Por exemplo na canção folclórica K0690 ("Ruru Rinneken"): (8) (3__2__1_1_-5_)(-5_3_3_2_2_1_1_-5_)(-5_1_2_3_1_4__2_)(1_-7_1_2_-5_3__1_) (3_1__-5_3_1_1_-5_3_1__-5_)(-5_1_2_3_1_4_3_223_1__1_0_) Aqui temos novamente dois intervalos entre notas relativamente grandes, ou saltos, entre as duas notas no final do primeiro grupo (1_ e -5_) e no início do segundo grupo (-5_ e 3_). Já que não há descontinuidade no tempo aqui, poder-se-ia esperar um limite de agrupamento no salto maior, i.e. entre -5_ e 3_, o que também poderia ser predito pelas regras da Gestalt (ver Lerdahl & Jackendoff: 39). Mas, o limite ocorre entre as duas notas equivalentes -5_ e -5_! E agora não há paralelismo de nível mais alto que pudesse forçar a estrutura de agrupamento correta. Pelo contrário: um mecanismo que pudesse forçar o paralelismo musical atribuiria o mesmo limite entre -5_ e 3_ conforme predito pelas regras da Gestalt, já que ele resultaria em dois grupos paralelos ou muito similares: (9) (3__2__1_1_-5_-5_)(3_3_2_2_1_1_-5_-5_)( ... Que fenômeno governa estes limites de frase? Antes de tentar responder esta questão, devemos estar seguros de que a anotação da canção folclórica K0690 está correta, i.e. que sua anotação corresponde à estrutura conforme ela é ouvida por um ouvinte humano. Embora verifiquemos que os dois últimos grupos da anotação de K0690 são excessivamente superficiais, os limites de frase providos pela Coleção de Canções Folclóricas de Essen correspondem com nossa percepção de limites de grupo, à melhor de nossas intuições. Conquanto admitamos que a exatidão de uma anotação devesse preferivelmente ser estabelecida por um experimento psicológico independente com mais de um sujeito (o que está além do escopo deste documento), sentimo-nos seguros de que os limites de agrupamento anômalos da K0690 não dependem de algum tipo de erro de anotação. Uma possível causa para a estrutura de agrupamento peculiar de K0690 pode ser a letra, i.e. o texto, da canção folclórica. Pode ser que a estrutura prosódica do texto force uma certa estrutura de agrupamento o que poderia explicar as frases-salto percebidas na K0690. Entretanto, os textos das canções folclóricas não foram registrados na Coleção de Canções Folclóricas de Essen, e somente muito poucos textos estão disponíveis (Dr. Ewa Dahling, em comunicado pessoal). Além disso, já estabelecemos que nossas intuições de agrupamento para a representação tonal da canção folclórica K0690 concordam com as segmentações da Coleção de Canções Folclóricas de Essen, sem ter acesso ao texto. Assim podemos excluir a influência do texto como uma causa para o agrupamento peculiar da K0690. (Note que é bastante comum estudar as transcrições melódicas de canções, corais, árias etc., sem considerar os textos – e.g. ver os muitos exemplos em Lerdahl & Jackendoff (1983) ou Narmour (1990).) Até aqui, não consideramos a estrutura métrica das Canções Folclóricas de Essen. Poder-se-ia imaginar se o metro pode forçar a estrutura de agrupamento percebida da K0690. É amplamente reconhecido, entretanto, que a estrutura de agrupamento é independente da estrutura métrica, o que leva todas as teorias de cognição de música a formularem modelos separados para agrupamento e metro. Lerdahl & Jackendoff convincentemente mostram que “grupos não recebem acento métrico, e tempos [beats] não possuem qualquer agrupamento inerente” (Lerdahl & Jackendoff 1983: 26). Mas mesmo se a estrutura métrica da K0690 forçasse e deste modo igualasse a estrutura de agrupamento desta canção folclórica, ela atribuiria as mesmas frases incorretas conforme dado na figura (9), já que os tempos aparecem exatamente nas primeiras notas destas frases. Assim, a estrutura métrica não poderia também ajudar a explicar a estrutura de agrupamento anômala em (8). Finalmente, deveríamos considerar o papel da harmonia. É bem sabido que a harmonia interna de uma peça freqüentemente influencia sua estrutura de agrupamento melódica. Portanto poder-se-ia esperar que levando em consideração a harmonia implícita ou interna da canção folclórica K0690, pudéssemos explicar e predizer seus agrupamentos em frases-salto. Entretanto, os dois agrupamentos alternativos, expressos pelas duas primeiras frases nas figuras (8) e (9), exibem a mesma harmonia interna: ambas são elaborações melódicas da tríade básica 1, 3, 5. Deste modo, as preferências de agrupamento harmônico, como propostas em e.g. Lerdahl & Jackendoff (1983) ou Narmour (1990, 1992), não são de qualquer ajuda na predição da estrutura de agrupamento peculiar da K0690. Assim parece não haver fator musical algum que possa governar as predições incorretas feitas pelos princípios da Gestalt para esta canção folclórica: nem o paralelismo melódico, nem a estrutura métrica, e nem mesmo a harmonia interna. Poder-se-ia propor que as estruturas de agrupamento com frases-salto são altamente excepcionais e limitadas a apenas algumas canções folclóricas que não são representativas para a Coleção de Canções Folclóricas de Essen. Contudo, uma análise detalhada dos dados de teste (1.000 canções folclóricas) mostra que mais de 32% das canções folclóricas continham pelo menos uma frase-salto e que a percentagem total de frases que começam ou terminam com um salto (ou ambos – como na segunda frase em (8)) é ao menos 15%. Desse modo canções folclóricas com frases-salto não são epifenomênicos.1 É digno de nota que o nosso partidor DOP-Markov predisse em um grau muito alto (98,0%) os limites de agrupamento corretos para estes 15% de frases-salto (embora ele freqüentemente atribuísse subfrases adicionais dentro destas frases). Um partidor Gestaltbaseado/paralelismo-baseado, por outro lado, poderia definitivamente predizer os limites de agrupamento errados para todas estas frases-salto – exceto se houvessem frases paralelas na peça que pudessem forçar os limites de agrupamento corretos, conforme discutimos na figura 1, mas tais frases paralelas ocorrem menos de 1% no conjunto de teste. Igualando as outras coisas, o nosso partidor aperfeiçoaria cerca de 12% um partidor Gestaltbaseado/paralaleismo-baseado – dados os 15% de frases-salto, a performance de 98,0% sobre estas frases do nosso partidor, e os menos de 1% destas frases nas quais o paralelismo 1 (Cf. Houaiss, na reflexão de alguns cientistas, psicólogos behavioristas e certos filósofos materialistas ou positivistas, a consciência humana, é fenômeno secundário e condicionado por processos fisiológicos, e, portanto, incapaz de determinar o comportamento dos indivíduos [N.T.]) pudesse sobrepujar os princípios da Gestalt, não poderíamos achar qualquer teste de canções folclóricas para os quais um partidor Gestalt-baseado/paralelismo-baseado pudesse possivelmente aperfeiçoar sobre o nosso partidor memória-baseado, embora admitamos completamente que isto necessite ser checado por um experimento real com um uma implementação de um tal partidor. Os padrões que eram problemáticos para o nosso partidor DOP-Markov parecem ser inteiramente devidos à superficialidade das anotações da Coleção de Canções Folclóricas de Essen (i.e. o nosso partidor ainda prediz muitas frases); esta superficialidade é igualmente problemática para um partidor Gestaltbaseado/paralelismo-baseado, acreditamos. (Talvez devêssemos mencionar que saltos no meio de frases são também problemáticos para modelos Gestalt-baseados, mas tais saltos levariam somente a subfrases adicionais que não estão anotadas na Coleção de Canções Folclóricas de Essen e não podem por isso ser testadas aqui. Somente os saltos no início ou no final das frases conduzem a predições erradas por modelos Gestaltbaseados/paralelismo-baseados.) Podemos pois concluir que frases-salto provêem sérias evidências contra os princípios de da Gestalt de proximidade e similaridade, e que um modelo que seja unicamente baseado em fatores musicais, tais como distâncias intervalares, paralelismo, metro e harmonia, nunca pode aprender as frases-salto que aparecem em (8). A figura seguinte dá algumas outras canções folclóricas da Coleção de Canções Folclóricas de Essen que envolvem saltos de ou para a nota –5 (há também saltos de outras notas, tais como –4 e –6, que não estão presentes neste exemplo). (10) Canção folclórica K0641 (11-7-511-5)(-511-721_-50)(11-7-5222_)(11-721_-5)(-511-5-511-5_)(11-7-5222) (211-721_-50) Canção folclórica A0214 (1_1_1_1_1_-7b_-7b_-5_)(-5_3b_.3b4_3b_2__1_)(1_1_1_1_1_-7b_-7b_-5_) (-5_3b_.3b4_3b_)(2__1_1_3b_.45_3b_4__1__)(4_.43b_21-7b_.12_)(3b_4_1_3b_2_1__.) Canção folclórica B0752 (1_5__5_5_4_3_5_4_3_2_1_)(-5_4_3_2_3__3_5_4_3_2__)(1_5__5_5_4_3_5_4_3_2_1_) (-5_4_3_2_3__3_5_4_3_2__)(2_2__2_3__3_4_3_4_5__)(5_+1_7_6_5_.6543__2_1__) Canção folclórica B0179 (-5_5_.43_2_1_-6_-5_)(-5_2__0_-5_3__0_)(3_6_.54#_3_2_1_-7_)(3_2__0_1_-7b__0_) (234_432_234_3_2_)(45654_4321-7_-712_)(-5_3_.32_5_1__0_)(-5_3_.32_5_1__0_) Pode-se certamente argumentar que pode ainda haver um princípio ou regra mais fundamental, que (ainda) não conhecemos, e que prediz os limites de agrupamento corretos para frases-salto. A busca por um tal princípio ou regra, que parece estar além da natureza harmônica, métrica ou melódica, será parte de pesquisa futura. Mas não deveríamos nem excluir a possibilidade que este fenômeno de grupamento específico seja inerentemente memóriabaseado. Esta possibilidade pode ser apoiada por Huron (1996) que observou que as frases nas canções folclóricas ocidentais tendem a exibir uma forma de “arco”, onde o contorno das notas sobe e depois desce no decurso de uma frase. Desse modo o grupo (5_3_3_2_2_1_1_-5_) na canção folclórica K0690 exibe um tal contorno em arco, enquanto que o grupo (3_3_2_2_1_1_-5_-5_) não. Assumindo que a observação de Huron esteja correta, padrões tipo-arco podem ou expressar uma tendência universal em música, em cujo caso eles dev ser formalizados por uma regra ou princípio (mas não há evidÊncia para esta universalidade), ou os padrões tipo-arco podem ser estritamente idioma-dependentes, em cujo caso eles podem ser mais bem capturados por um modelo memória-baseado que tente imitar a experiência musical de um ouvinte de uma certa cultura. Assim, a percepção musical pode ser muito mais memória-baseada do que previamente aceito. Se desejarmos propor uma abordagem memória-baseada à música como uma alternativa séria para uma abordagem Gestalt-baseada, deveremos tratar da questão de como alguma estrutura pode ser adquirida se não temos quaisquer peças estruturadas no nosso corpus para começar. Com um corpus já analisado, podemos no melhor dos casos simular a percepção musical adulta – análoga a um corpus de linguagem natural analisada (ver Bod 1998). Conjeturamos que a aquisição de um corpus estruturado pode ser o resultado de um processo inicial [bootstrapping process] onde a descoberta de padrões similares recorrentes e regularidades distribucionais exerçam um papel importante. Tão logo um padrão apareça mais de uma vez, ele pode ser hipotetizado como um grupo, e pode ser usado como uma unidade produtiva para analisar novas peças. A freqüência com que um padrão ocorre é usada para decidir entre grupos conflitantes. Muita pesquisa em aprendizagem não supervisionada é concernente com a estrutura sintática inicial [bootstrapping] com base na similaridade de padrões e estatísticas de corpora de linguagem maior (e.g. Finch & Chater 1994; Brent e Cartwright 1996; van Zaanen 2000). Um de nossos objetivos futuros é investigar se tais técnicas de aprendizagem não supervisionada reportam-se à estrutura musical inicial [bootstrapping] e se a estrutura aprendida corresponde à estrutura conforme percebida por ouvintes humanos. Por outro lado, há já uma considerável quantidade de trabalhos sobre indução não supervisionada de padrões musicais (e.g. Cope 1990; Mattusch 1997; Crawford et al. 1998; Rolland & Ganascia 2000). Esperamos poder acessar estes modelos, junto com modelos não supervisionados de aprendizagem de linguagem natural, para forçar a estrutura inicial [for the task of bootstrapping structure] num corpus musical maior. Uma vez que um corpus inicial de padrões musicais tenha sido aprendido, estes padrões podem ser utilizados por nosso modelo supervisionado para segmentar eficientemente novas peças. Somente para seqüências de notas completamente novas que nunca apareceram antes, os métodos não supervisionados necessitam ainda ser invocados. A interação exata entre aspectos não supervisionados e supervisionados da percepção musical precisa esperar por mais investigação. Mas também se nos limitamos à segmentação musical supervisionada, este trabalho dispara muita pesquisa nova. Um de nossos projetos é converter a codificação de notas absoluta nas anotações de Essen em codificações de notas relativa, de modo que o nosso partidor possa mais facilmente generalizar os intervalos que ocorrem entre notas diferentes mas que envolvem a mesma altura ou distâncias de tempo; isto pode também reduzir o tamanho do conjunto de treino, o qual poderia aumentar a plausibilidade cognitiva do nosso modelo. Outro projeto é enriquecer manualmente as anotações de Essen com constituintes mais refinados [fine-grained], tais como subfrases e subseções, e atribuir a estes constituintes rótulos que sumarizem as regularidades dos padrões fundamentais, conforme proposto pelas linguagens de codificação musical tais como Collard et al. (1981) e Deutsch & Feroe (1981). Suspeitamos que a estruturação melódica de um ouvinte depende parcialmente das regularidades dos padrões de entrada (conforme descrito pelas linguagens de codificação musical) e parcialmente das experiências musicais prévias (conforme descrito pela nossa abordagem memória-baseada). Um modelo adequado para a percepção musical deverá fazer justiça a ambos estes aspectos da música. 5. Conclusão Apresentamos uma abordagem memória-baseada à música que analisa novas peças pela combinação de fragmentos de estruturas de peças encontradas previamente. Em caso de ambigüidade, esta abordagem computa a análise que pode ser considerada a mais provável com base na freqüência de ocorrência dos fragmentos. Testamos com sucesso algumas instâncias desta abordagem num conjunto de 1.000 canções folclóricas da Coleção de Canções Folclóricas de Essen, obtendo um resultado-F de até 81,0%. Até onde sabemos, este documento contém o primeiro experimento de partição com a Coleção de Canções Folclóricas de Essen, o qual esperamos possa servir como uma base para outros modelos computacionais de análise musical. Uma análise qualitativa de nossos resultados mostrou que há uma classe de padrões musicais, assim chamados de frases-salto, que desafiam tanto os princípios da Gestalt de proximidade e similaridade quanto os princípios do paralelismo melódico. As frases-salto provêem evidência de que limites de agrupamento podem aparecer antes ou depois de intervalos entre notas grandes, mais do que em tais intervalos, e que os limites de agrupamento podem mesmo aparecer enter notas idênticas (que são precedidas ou seguidas por intervalos relativamente grandes). Vimos que modelos Gestalt-baseados, paralelismobaseados e/ou harmonia-baseados são inadequados para lidar com estes padrões. Modelos probabilísticos, memória-baseados, são mais aptos a lidar com este fenômeno de gradiente da análise musical já que eles podem capturar o continuum inteiro entre frases-salto e frases-não-salto. Agradecimentos Agradecemos a Emilios Cambouropoulos e dois revisores anônimos pelos comentários úteis sobre uma versão prévia deste documento. Agradecemos também a Ewa Dahling por prover informações sobre a Coleção de Canções Folclóricas de Essen. Referencias Black, E., S. Abney, D. Flickinger, C. Gnadiec, R. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini and T. Strzalkowski (1991). AProcedure for Quantitatively Comparing the Syntactic Coverage of English, Proceedings DARPA Speech and Natural Language Workshop, Pacific Grove, Morgan Kaufmann. Bod, R. (1993). Using an Annotated Language Corpus as a Virtual Stochastic Grammar. Proceedings AAAI'93, Morgan Kaufmann, Menlo Park. Bod, R. (1998). Beyond Grammar: An Experience-Based Theory of Language, Stanford, CSLI Publications (distributed by Cambridge University Press). Booth, T. (1969). Probabilistic Representation of Formal Languages, Tenth Annual IEEE Symposium on Switching and Automata Theory. Brent, M. and T. Cartwright (1996). Distributional Regularity and Phonotactic Contraints are Useful for Segmentation, Cognition, 61, 93-125. Cambouropoulos, E. (1996). A Formal Theory for the Discovery of Local Boundaries in a Melodic Surface. Proceedings of the Troisièmes Journées d'Informatique Musicale (JIM-96), Caen, France. Cambouropoulos, E. (1997). Musical Rhythm: A Formal Model for Determining Local Boundaries, Accents and Meter in a Melodic Surface, in M. Leman (ed.), Music, Gestalt and Computing - Studies in Systematic and Cognitive Musicology, Berlin, Springer-Verlag. Cambouropoulos, E. (1998). Musical Parallelism and Melodic Segmentation, Proceedings XII Colloquium on Musical Informatics, Gorizia, Italy. Charniak, E. (1993). Statistical Language Learning, Cambridge, The MIT Press. Charniak, E. (1996). Tree-bank Grammars, Proceedings AAAI-96, Menlo Park, Ca. Church, K. and W. Gale (1991). A comparison of the enhanced Good-Turing and deleted estimation methods for estimating probabilities of English bigrams, Computer Speech and Language 5, 19-54. Collard, R., P. Vos and E. Leeuwenberg (1981). What Melody Tells about Metre in Music. Zeitschrift für Psychologie. 189, 25-33. Collins, M. (1999). Head-Driven Statistical Models for Natural Language Parsing, PhD-thesis, University of Pennsylvania, PA. Cope, D. (1990). Pattern-Matching as an Engine for the Computer Simulation of Musical Style, Proceedings ICMC'1990, Glasgow, UK. Crawford, R., C. Iliopoulos, and R. Raman (1998). String Matching Techniques for Musical Similarity and Melodic Recognition, Computing in Musicology 11, 71-100. Deutsch, D. and J. Feroe (1981). The Internal Representation of Pitch Sequences in Tonal Music, Psychological Review, 88, 503-522. Finch, S. and N. Chater (1994). Distributional Bootstrapping: From Word Class to Proto-Sentence, Proceedings 16th Annual Cognitive Science Society, 301-306, Hillsdale, Lawrence Erlbaum. Good, I. (1953). The Population Frequencies of Species and the Estimation of Population Parameters, Biometrika 40, 237-264. Handel, S. (1989). Listening. An Introduction to the Perception of Auditory Events. Cambridge, The MIT Press. Höthker, K., D. Hörnel and C. Anagnostopoulou (2001). Investigating the Influence of Representations and Algorithms in Music Classification. Computers and the Humanities 35, 65-79. Huron, D. (1996). The Melodic Arch in Western Folksongs. Computing in Musicology 10, 2-23. Lerdahl, F. and R. Jackendoff (1983). A Generative Theory of Tonal Music. Cambridge, The MIT Press. Longuet-Higgins, H. (1976). Perception of Melodies. Nature 263, October 21, 646-653. Manning, C. and H. Schütze (1999). Foundations of Statistical Natural Language Processing. Cambridge, The MIT Press. Mattusch, U. (1997). Emulating Gestalt Mechanisms by Combining Symbolic and Subsymbolic Information Processing Procedures, in M. Leman (ed.), Music, Gestalt and Computing - Studies in Systematic and Cognitive Musicology, Berlin, Springer-Verlag. Mitchell, T. (1997). Machine Learning. McGraw-Hill Companies. Narmour, E. (1990). The Analysis and Cognition of Basic Melodic Structures: The Implication-Realization Model, The University of Chicago Press, Chicago. Narmour, E. (1992). The Analysis and Cognition of Melodic Complexity, The University of Chicago Press, Chicago. Press, W., B. Flannery, S. Teukolsky, and W. Vetterling (1988). Numerical Recipes in C. Cambridge University Press. Rolland, P. and J. Ganascia (2000). Musical Pattern Extraction and Similarity Assessment, in E. Miranda (ed.) Readings in Music and Artificial Intelligence, Harwood Academic Publishers. Saffran, J., M. Loman and R. Robertson (2000). Infant Memory for Musical Experiences. Cognition 77, B1623. Schaffrath, H. (1993). Repräsentation einstimmiger Melodien: computerunterstützte Analyse und Musikdatenbanken. In B. Enders and S. Hanheide (eds.) Neue Musiktechnologie, 277-300, Mainz, B. Schott's Söhne. Schaffrath, H. (1995). The Essen Folksong Collection in the Humdrum Kern Format. D. Huron (ed.). Menlo Park, CA: Center for Computer Assisted Research in the Humanities. Selfridge-Field, E. (1995). The Essen Musical Data Package. Menlo Park, California: Center for Computer Assisted Research in the Humanities (CCARH). Seneff, S. (1992). TINA: A Natural Language System for Spoken Language Applications. Computational Linguistics 18(1), 61-86. Stoffer, T. (1985). Representation of Phrase Structure in the Perception of Music. Music Perception 3(2), 191220. Tenney, J. and L. Polansky (1980). Temporal Gestalt Perception in Music, Journal of Music Theory, 24, 205241. Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung 4, 301-350. Wetherell, C. (1980). Probabilistic Languages: A Review and Some Open Questions, Computing Surveys, 12(4). van Zaanen, M. (2000). Bootstrapping Structure and Recursion Using Alignment-Based Learning, Proceedings International Conference on Machine Learning (ICML'2000), Stanford, California.