UNIVERSIDADE TÉCNICA DE LISBOA Instituto Superior Técnico LIMIAR DE DESEMPENHO PARA ESTIMAÇÃO BAYESIANA DE PARÂMETROS EM VARIEDADES RIEMANNIANAS João Henrique Dias Leonardo, nº 47994, AE de Telecomunicações LICENCIATURA EM ENGENHARIA ELECTROTÉCNICA E DE COMPUTADORES RELATÓRIO DE TRABALHO FINAL DE CURSO 093/2003 Prof. Orientador: João Xavier Novembro de 2004 ___________________________________________________________________________ Agradecimentos As minhas primeiras palavras de gratitude são dirigidas ao corpo do Instituto de Sistemas e Robótica, nomeadamente aos professores João Sentieiro e Victor Barroso. Graças a estes professores pude sempre trabalhar em condições excepcionais, mergulhado num sempre contagiante e estimulante ambiente científico. Em particular agradeço ao professor Victor Barroso a oportunidade que tive, cedo na licenciatura, de conhecer o professor João Xavier que viria a ser o meu orientador desde então. Dirijo- lhe, sem dúvida, um agradecimento muito especial. Ao longo de quase três anos tive o privilégio de contar com a sua total disponibilidade para aprender, não apenas uma quantidade de factos técnicos que excede em larga escala aquela que é apresentada neste trabalho, como também um enorme fascínio pela investigação científica. À excepcionalidade ímpar das suas faculdades tanto intelectuais como humanas muito devo por grande parte do que aprendi e cresci ao longo deste curso. Aos meus colegas do mundo académico estendo também um grande obrigado, em especial ao João Sousa meu melhor amigo de curso a quem muito agradeço pelo apoio ao longo destes cinco anos, ao Marko Beko pela companhia sempre divertida e interessante nas tardes que passámos no laboratório (muitas vezes multiplexando sinais com futebol) e a tantos outros amigos que tive a sorte de encontrar na minha passagem pela Alameda. Fora do contexto académico, queria agradecer de forma muito especial à minha família, sobretudo aos meus pais pelo imenso apoio com o qual sempre tive a sorte de poder contar e pelas excepcionais condições e oportunidades que me proporcionaram ao longo deste trajecto, e aos meus amigos e amigas mais especiais, dos quais destaco o Luís que de pronto se disponibilizou para me ajudar na escrita deste relatório. Por razões tão especiais quanto impossíveis de enumerar, termino dedicando este trabalho e a minha carreira no Instituto Superior Técnico à minha mãe e ao meu melhor amigo de sempre, Jack. ii ___________________________________________________________________________ Resumo Este trabalho aborda o tema da estimação Bayesiana em problemas de inferência paramétrica nos quais o espaço de parâmetros está estrut urado como uma variedade Riemanniana conexa. Exemplos ilustrativos destes problemas ocorrem em estimação paramétrica sujeita a restrições determínisticas (o espaço de parâmetros é uma subvariedade de um espaço Euclideano), em estimação com ambiguidades int rínsecas (o espaço de parâmetros adequado assume a forma de um espaço quociente), em problemas relacionados com estatísticas direccionais, etc. Ou seja, o enquadramento teórico Riemanniano permite tratar de modo unificado um grande leque de problemas de interesse prático. Em espaços Euclideanos (um caso especial de uma variedade Riemanniana), a média do erro quadrático de estimação é um critério geralmente utilizado para aferir a qualidade ou precisão de estimadores. Neste contexto Euclideano, “erro” designa a distância Euclideana entre o parâmetro “verdadeiro” e o estimado. Este critério pode ser imediatamente generalizado ao caso Riemanniano, porque a estrutura Riemanniana presente no espaço de parâmetros induz canonicamente uma métrica, ou seja, uma distância Riemanniana intrinseca à variedade. Para esse critério generalizado, o estimador óptimo é o MMSD (Minimum Mean Square Distance), uma extensão natural do conhecido estimador MMSE (Minimum Mean Square Error) no caso Euclideano. A contribuição deste trabalho consiste na derivação de um limiar de desempenho – o MSDLB (Mean Square Distance Lower Bound) - para o estimador MMSD, para determinados cenários Bayesianos. Dada a optimalidade do estimador MMSD, o limiar que apresentamos resulta num limite fundamental, válido para os demais estimadores (à luz do critério generalizado mencionado acima). O MSDLB é ilustrado com dois exemplos. O primeiro exemplo considera um espaço Euclideano com modelo probabilístico Gaussiano. Mostramos que, neste caso simples, o MSDLB coincide com o resultado já conhecido: limiar Cramér-Rao estocástico. No segundo exemplo, consideramos um problema de inferência paramétrica Bayesiana no âmbito das estatísticas direccionais. Mais precisamente, consideramos o círculo unitário como espaço de parâmetros (e de observação) associado a um modelo probabilístico de Von Mises. São discutidas ainda as principais limitações teóricas do limiar desenvolvido (a principal consiste na necessidade de determinar o estimador MMSD associado ao cenário Bayesiano a analisar). Palavras Chave: Estimação Bayesiana, Variedades Riemannianas, Limiares de desempenho, Estimador MMSD, Limiar MSDLB. iii ___________________________________________________________________________ Abstract The subject of this work is Bayesian Estimation applied to parametric inference problems in which the parameter space is structured as a connected Riemann Manifold. Illustrative examples of such problems occur in parametric estimation subdue to deterministic restrictions (the parameter space is a sub- manifold of an Euclidean Space), in estimation problems with intrinsic ambiguities (the appropriate parameter space is a quotient space), in problems related with directional statistics, etc. That is, the theoretical Riemannian framework allows us to deal with a great scope of practical problems in a unified manner. In Euclidean spaces (which are a special case of Riemann Manifolds) the estimation mean square error is a criterion often used to check the quality or precision of the estimators. In this Euclidean context, “error” stands for the Euclidean distance between a “true” parameter and the estimated one. This criterion can be straightforwardly generalized to the Riemannian case, because the Riemannian structure available on the parameter space canonically induces a metric, that is, an intrinsic Riemannian distance on the manifold. For this generalized criterion, the optimal estimator is the MMSD (Minimum Mean Square Distance), a natural extension of the known MMSE estimator (Minimum Mean Square Error) in the Euclidean case. The contribution of this work consists in deriving a lower performance bound for the MMSD estimator – the MSDLB (Mean Square Distance Lower Bound) -, in some Bayesian estimation scenarios. Because the MMSD is an optimal estimator, our proposed bound results on a fundamental limit, effective to other estimators (in sight of the above mentioned generalized criterion). Two examples illustrate the MSDLB concept. The first tackles a Euclidean space with a Gaussian probabilistic model. We show that, in this simple case, the MSDLB exactly corresponds to the stochastic Cramer-Rao Bound. In the second example we consider a Bayesian parametric inference problem within the framework of directional statistics. More precisely we consider the unitary circle as the parameter (and observation) space associated with a Von Mises probabilistic model. We further discuss the main theoretical constraints of the derived bound (of wich the main one consists in the fact that one needs to calculate the MMSD estimator associated with the Bayesian scenario to be analyzed). Keywords: Bayesian Estimation, Riemannian Manifolds , Performance lower bounds, MMSD estimator, MSDLB bound. iv ___________________________________________________________________________ ÍNDICE Resumo ..................................................................................................................................... iii Abstract.....................................................................................................................................iv Introdução ................................................................................................................................. 1 Capítulo 2 – O limiar MSDLB ................................................................................................ 9 2.1 Resumo do capítulo .......................................................................................................... 9 2.2 Estimador MMSD.......................................................................................................... 10 2.3 Teorema MSDLB........................................................................................................... 11 2.4 – Comentários ................................................................................................................ 18 Capítulo 3 – Ilustrações do MSDLB..................................................................................... 21 3.1 Resumo do Capítulo ....................................................................................................... 21 3.2 - Caso Euclideano com modelo probabilístico Gaussiano ............................................ 22 3.2.1 – Motivação do exemplo ......................................................................................... 22 3.3.2 – Apresentação do exemplo .................................................................................... 22 3.2.3 – Aplicação do MSDLB.......................................................................................... 23 3.3 - Caso Riemanniano com modelo probabilístico de Von Mises .................................... 25 3.3.1 – Motivação do exemplo ......................................................................................... 25 3.3.2 – Apresentação do exemplo .................................................................................... 26 3.3.3 – Aplicação do limiar MSDLB e simulações.......................................................... 28 Conclusão ................................................................................................................................ 35 Anexo A ................................................................................................................................... 37 Provas para o capítulo 2 ....................................................................................................... 37 Lema A.1. ......................................................................................................................... 37 Lema A.2. ......................................................................................................................... 38 Lema A.3. ......................................................................................................................... 39 Anexo B ................................................................................................................................... 41 Provas para o capítulo 3 ....................................................................................................... 41 Lema B.1. ......................................................................................................................... 41 Lema B.2. ......................................................................................................................... 42 Lema B.3. ......................................................................................................................... 43 Referências .............................................................................................................................. 45 v ___________________________________________________________________________ LISTA DE FIGURAS Figura 2.1 – Variação do MSDLB com λ ...............................................................................17 Figura 3.1 – Resultado da simulação para k 0 = 1 .....................................................................32 Figura 3.1 – Resultado da simulação para k 0 = 0,5 .................................................................32 vi ___________________________________________________________________________ NOTAÇÃO O número que aparece em frente a cada elemento designa a página onde este aparece pela primeira ve z. LISTA DE SIMBOLOS R n - Conjunto dos vectores n-dimensionais com entradas reais 1 G (p , n ) - um sub-espaço linear de dimensão p em R n 2 Θ - Espaço de parâmetros 5 Ω - Espaço de observações 5 S 1 - Círculo unitário 6 θˆMMSD - Estimador MMSD 10 Tθ Θ - Espaço tangente a Θ no ponto θ 12 F* - Diferencial do mapa F 12 dimΘ - Dimensão da variedade Θ 12 supp f - Suporte da função f 12 Uε ( p ) - vizinhança normal ε -uniforme de p 12 grad f - gradiente de f 14 Hess f - Hessiana de f 14 ∇ - Conexão de Levi-Civita 14 cot ( x ) - Cotangente de x 16 . - Norma de Frobenius de . 22 N ( µ , Σ ) - Distribuição normal de média µ e matriz de covariância Σ 22 A† - Pseudo-inversa da matriz A 24 tr ( X ) - Traço da matriz X 25 ι * - “Pullback” por ι 26 I n ( x ) - Função de Bessel modificada de ordem n 26 AT - Transposta da matriz A 22 Bε ( p ) - Bola geodésica de raio ε em torno de p 38 vii ___________________________________________________________________________ LISTA DE SIGLAS MIMO – Multiple Input Multiple Output 2 ML – Maximum Likelihood 3 IVLB – Intrinsic Variance Lower Bound 4 MMSE – Minimum Mean Square Error 4 MSDLB – Minimum Square Distance Lower Bound 4 MMSD – Minimum Mean Square Distance 5 SNR – Signal to Noise Ratio 36 f.d.p. – função densidade de probabilidade 26 viii Introdução ___________________________________________________________________________ Introdução Motivação. Nos últimos anos a comunidade de processamento de sinal tem vindo a demonstrar cada vez mais interesse na área das metodologias e técnicas da Geometria Diferencial tal como é por exemplo prova a existência de uma sessão especial no workshop IEEE SPAWC (Signal Processing Advances in Wireless Communications) 2004, dedicada precisamente a este tema e patrocinada pela National Science Foundation (NSF). Também na conferência IEEE ICASSP 2004 (International Conference on Acoustics, Speech and Signal Processing) teve lugar uma sessão especial dedicada à temática “Manifold Learning”, que intersecta largamente (em termos conceptuais) com a área de Geometria Diferencial. Tal como a Álgebra Linear contribui de forma decisiva na análise teórica e criação de ferramentas para problemas no âmbito do processamento linear de sinal, também a Geometria Diferencial, em particular o sub-ramo da geometria Riemanniana, fornece o enquadramento teórico apropriado para uma classe importante de problemas no âmbito do processamento não- linear de sinal. Exemplos ilustrativos ocorrem em tópicos tão diversos como: optimização, [1], [2], [3], [4], “space-time coding”, [5], [6], [7], estimação paramétrica determinística, [8], [9], [10], [11], [12], [13], [14], estimação Baye siana [15], etc. A Geometria Diferencial generaliza a maquinaria do cálculo diferencial em espaços Euclideanos para espaços com curvatura, ou, mais precisamente, para variedades. Em termos intuitivos, uma variedade é um espaço que se assemelha localmente a um espaço Euclideano, mas não globalmente. Exemplos de variedades: a esfera de raio unitário centrada na origem de R n , o torus (doughnut), o conjunto das matrizes ortogonais, etc. Existem muitas obras bibliográficas dedicadas à Geometria Diferencial, das quais destacamos [16], [17], [18] pelo seu carácter introdutório. Este tipo de objectos matemáticos - as variedades - estão longe de serem meras abstracções formais no contexto do Processamento de Sinal. De facto, elas surgem naturalmente em vários cenários assumindo (essencialmente) duas formas. Na primeira forma, a mais comum, as variedades surgem como superfícies embebidas em espaços ambiente Euclideanos. De facto, em problemas de estimação paramétrica em que o parâmetro está naturalmente restrito a uma determinada superfície em R n torna (geralmente) o espaço de parâmetros numa variedade aí embebida. Por exemplo, restrições de potência em emissores multi-antena geralmente implicam que o vector de símbolos emitido está confinado a uma esfera (ou um produto Cartesiano de esferas). Outro exemplo, este em processamento 1 Introdução ___________________________________________________________________________ de imagem, ocorre na estimação da pose de uma câmera: tal corresponde a estimar uma matriz ortogonal, ou seja, o espaço de parâmetros é o grupo de Lie das matrizes ortogonais. Ainda outro exemplo em processamento de imagem que involve as matrizes ortogonais consiste no registro (alinhamento) de duas imagens através de uma rotação. Estes e outros exemplos constituem situações onde emanam naturalmente variedades deste tipo. A segunda forma de ocorrência de variedades em processamento de sinal faz-se através dos chamados espaços quociente. Um exemplo de um espaço quociente é o espaço Grassmann G ( p , n ) : um ponto em G ( p , n ) representa um sub-espaço linear de dimensão p em R n . Note-se que G ( p , n ) é um espaço abstracto que não é directamente identificável com uma superfície num espaço Euclideano (embora, pelo famoso “Embedding Theorem” de John Nash, seja possível sintetizar uma versão isométrica do mesmo num espaço Euclideano de dimensão suficientemente elevada). Os espaços Grassmann surgem, por exemplo, no problema de determinação das direcções de chegada (das frentes de onda) de vários emissores quando observados por um agregado de antenas linear e uniforme. Ver, por exemplo [5]. Outro problema bem conhecido em processamento de sinal que envolve espaços Grassmann é o problema de seguimento de sub-espaços (subspace tracking) [15]. Mais genericamente, os espaços quociente surgem de forma natural em problemas de estimação paramétrica afectados por ambiguidades intrínsecas. Aqui, os pontos do espaço de parâmetros (na formulação original) não são identificáveis a partir das observações, ou, dito de outra forma, nestes contextos, parâmetros distintos induzem distribuições idênticas no espaço das observações. Assim, porque se torna teoricamente impossível a determinação de um ponto no espaço de parâmetros a partir das observações (devido às ambiguidades, uma infinidade de pontos são indiscerníveis ou equivalentes), o espaço de parâmetros “correcto” é o espaço quociente que resulta após particionar o espaço de parâmetros original pela relação de equivalência (que captura as ambiguidades). Note-se que, então (por construção), os pontos no espaço quociente são identificáveis e faz assim sentido tentar estimar, não um ponto no espaço de parâmetros original, mas a sua classe de equivalência. Em vários contextos, o espaço quociente assim resultante admite uma estrutura Riemanniana que interliga de forma elegante com a geometria do espaço de parâmetros original. Um exemplo desta construção é discutido em [19] no âmbito da identificação cega de canais MIMO (Multiple-Input Multipe-Output) a partir de estatísticas de segunda ordem. Tal como as funções diferenciáveis em espaços Euclideanos, também é possível diferenciar certas funções definidas em variedades. Outras ferramentas providenciadas pela Geometria Diferenc ial permitem avaliar a suavidade de mapas entre variedades, calcular os seus diferenciais, integrar funções em variedades, optimizar funções em variedades (vs. 2 Introdução ___________________________________________________________________________ optimizar a mesma função no espaço ambiente com restrições), etc. Note-se que, por exemplo, optimizar funções definidas em variedades é precisamente o problema enfrentado pelo estimador ML (Maximum Likelihood) quando o espaço de parâmetros é uma variedade diferencial (ex: grupo das matrizes ortogonais). As operações de cálculo mencionadas atrás são sobejamente utilizadas em processamento de sinal quando a variedade é um espaço Euclideano. Numa classe especial de variedades, as chamadas variedades Riemannianas, para além das ferramentas descritas no último parágrafo temos ainda acesso a outras construções geométricas tais como a função distância natural entre dois pontos da variedade, o comprimento de uma curva na variedade, a noção de geodésica (generalização da linha recta em espaços Euclideanos), as quais, em conjunto com as primeiras, fornecem um enquadramento teórico e um conjunto poderoso de técnicas que permitem transpor muito do conhecimento de Processamento de Sinal em espaços Euclideanos para variedades com curvatura. Objectivo. Este trabalho insere-se no âmbito do tópico da Estimação Paramétrica Bayesiana. No contexto determinístico ou Bayesiano, os limiares de desempenho (“bounds”) indicam aquilo que pode ou não ser atingido num determinado cenário de estimação. A importância destas ferramentas teóricas é bem conhecida em Processamento de Sinal. O objectivo primordial deste trabalho é precisamente derivar um limiar de desempenho para estimação em variedades Riemannianas e em contextos Bayesianos. Contribuição. De modo a evidenciar a nossa contribuição, descrevemos de seguida (ainda que de forma muito sumária) qual o ponto da situação (“state of the art”) no que diz respeito à existência de limiares de desempenho em contextos Bayesianos. Quando o espaço de parâmetros é um aberto de um espaço Euclideano, a referência principal é [20]. Aí, deriva-se um limiar de desempenho para o contexto Bayesiano, por extensão elementar do conhecido limiar de Cramér-Rao (para o caso determínistico). Mais recentemente, a estimação paramétrica Bayesiana e determinística têm começado a ser analisadas para cenários em que o parâmetro a estimar reside numa variedade. Esta situação é frequentemente encontrada nos mais variados problemas de processamento de sinal (por exemplo, [8], [9], [11], [13], [14], [15]). No âmbito da estimação paramétrica determinística em variedades, a temática dos limiares de desempenho foi abordada apenas recentemente. A referência principal é [21], onde é desenvolvido um limiar para o caso de variedades diferenciáveis recorrendo a 3 Introdução ___________________________________________________________________________ desigualdades tensoriais. Note-se que o trabalho em [21] não pressupõe uma estrutura Riemanniana no espaço de parâmetros, apenas uma estrutura diferenc iável. Assim, a partir de [21] não é possível extrair um limiar de desempenho que caracterize o comportamento de estimadores em termos do “erro” de estimação, ond e “erro” significa distância entre parâmetro verdadeiro e estimado. Do ponto de vista da engenharia, é mais relevante um limiar de desempenho quantitativo para a precisão dos estimadores. Quando o espaço de parâmetros é uma variedade Riemanniana, existe uma métrica canónica (que emerge dessa estrutura) e que constitui a “escolha natural” para medir distâncias entre pontos da variedade (em particular, entre parâmetro verdadeiro e estimado). Em [14] foi proposto o IVLB (Intrinsic Variance Lower Bound) para problemas de estimação paramétrica determinística formulados em variedades Riemannianas. O IVLB estabelece um limiar de desempenho quantitativo para o erro dos estimadores, formulado em termos da distância Riemanniana subjacente para o caso de variedades Rie mannianas. A temática de limiares de desempenho no contexto Bayesiano para estimadores a operarem em variedades Riemannianas foi até hoje muito pouco aflorada. A única referência conhecida é [15], onde se desenvolve um limiar para o caso particular em que a variedade Riemanniana é um grupo de Lie. Contudo, o limiar aí apresentado é calculado utilizando a distância extrínseca - a função distância do espaço ambiente - e não a distância natural (intrinseca) na variedade. Assim, não estão cobertos por esse estudo o caso de variedades mais gerais embebidas em espaços Euclideanos (por exemplo, a esfera), nem os espaços quociente. Em 2003, o laboratório I3S da Universidade de Sophia Antipolis publicou um relatório argumentando que um estimador “adequado” (invariante a mapas de coordenadas) para o caso Bayesiano em variedades Riemannianas deverá consistir numa extensão do estimador MMSE (Minimum Mean Square Error) neste cenário, ver [22]. Contudo, não se apresenta qualquer limiar de desempenho. A contribuição deste trabalho é a seguinte: apresenta-se um limiar de desempenho para estimadores que operam em variedades Riemannianas no contexto Bayesiano. O limiar que apresentamos é inovador no sentido em que não especifica qualquer tipo de estrutura Riemanniana particular (por exemplo, não se exige a estrutura de grupo de Lie) e é formulado em termos da distância intrínseca (Riemanniana) no espaço de parâmetros. Assim, em particular, é aplicável também a espaços quociente. Contudo, existem algumas restrições à aplicação do teorema que suporta o limiar por nós proposto (ver capítulo 2). O limiar desenvolvido neste trabalho foi designado por MSDLB (Mean-Square Distance Lower Bound). O MSDLB é atingido precisamente por uma extensão do estimador MMSE, que 4 Introdução ___________________________________________________________________________ designamos por MMSD (Minimum Mean-Square Distance), estando por isso em total sintonia com as conclusões do relatório do laboratório I3S atrás citado [22]. Frisamos que o limiar que apresentaremos - o MSDLB - não pode ser recuperado como um caso especial do limiar proposto para o caso Euclideano em [20], mesmo que o espaço de parâmetros seja uma variedade coberta na sua globalidade por um único mapa de coordenadas ϕ isométrico (face à estrutura canónica de R p ), o que, para espaços com curvatura diferente de zero, não é possível. Poderíamos ser tentados a aplicar o limiar de Van Trees na imagem por ϕ da variedade, um aberto de R p , com p igual à dimensão do espaço da variedade. Se o fizéssemos chegaríamos a um resultado falacioso e diferente daquele que o MSDLB, no caso de ser aplicável, produziria. Tratar-se- ia de um resultado falacioso no sentido em que, para além de depender sempre do mapa de coordenadas escolhido, seria calculado recorrendo à métrica de R p de forma implícita na aplicação do limiar de Van Trees. O MSDLB propõe precisamente um limiar independente de parametrizações ou mapas de coordenadas sendo calculado directamente na variedade “de per se” e utilizando a distância natural ou intrínseca ao espaço de parâmetros à semelhança do que foi feito em [19] mas agora para o contexto Bayesiano. Como apresentamos no capítulo 3, o MSDLB, quando aplicado ao caso particular de espaços Euclideanos com modelos probabilísticos Gaussianos, recupera o limiar desenvolvido em [20]. Neste sentido, constitui uma generalização do resultado em [20] para espaço de parâmetros com curvatura (de notar que a nossa linha de prova é contudo muito distinta daquela usada em [20]). Estrutura do TFC. Este trabalho consiste numa introdução, numa conclusão e em dois capítulos principais. Cada capítulo começa com uma secção onde se apresenta um resumo do que irá ser desenvolvido nas secções subseque ntes bem como dos resultados principais. Capítulo 2. No capítulo 2 começamos por definir um critério de desempenho para estimadores que tomam valores na variedade Riemanniana Θ (espaço de parâmetros). Lembramos que um estimador corresponde a uma aplicação do espaço de observações Ω para o espaço de parâmetros Θ . O nosso critério utiliza a métrica natural em Θ para avaliar o desempenho de qualquer estimador θˆ : Ω → Θ . À luz deste critério obtemos o estimador óptimo a que apelidamos de estimador MMSD (Minimum Mean Square Distance), que constitui uma generalização dos estimadores MMSE (Minimum Mean Square Error) para o caso Euclideano. 5 Introdução ___________________________________________________________________________ Na secção seguinte enunciamos e provamos o teorema MSDLB (Mean Square Distance Lower Bound). Este teorema dá a conhecer um limite inferior para o desempenho de qualquer estimador θˆ : Ω → Θ , já que limita inferiormente o desempenho do estimador óptimo – o MMSD. Estabelece-se assim um limite fundamental à capacidade de reconstrução do ponto θ ∈Θ , com base na observação y ∈ Ω . Na última secção do capítulo 2 são discutidas e comentadas as hipóteses assumidas no teorema MSDLB, nomeadamente quanto ao seu poder limitativo do âmbito de aplicação do teorema. Capítulo 3. O capítulo 3 é dedicado à ilustração do MSDLB com dois exemplos que permitam aferir a precisão do limiar derivado na capítulo anterior. Como é boa prática na temática dos limiares de desempenho, começamos por aplicar o MSDLB ao cenário Euclideano em que Θ = R p com modelos probabilísticos Gaussianos para o “prior” p (θ ) e para a função de verosimilhança p ( y | θ ) . Concluímos esta secção provando que o MSDLB neste caso recupera exactamente o limiar proposto por Van Trees em [20], que neste tipo de cenários serve de “benchmark”. A secção seguinte é dedicada ao segundo exemplo que visa explorar as potencialidades do MSDLB numa variedade Riemanniana desprovida de estrutura vectorial. Para esse efeito escolhemos para o espaço de parâmetros o círculo unitário em R 2 ou seja { } Θ = S1 , S 1 = x ∈ R 2 : x = 1 . O modelo probabilístico escolhido para o “prior” e para a função de verosimilhança é o de Von Mises. Nesta decisão pesou a quantidade de aplicações que este tipo de modelos probabilísticos suportados na esfera tem nas mais diversas áreas científicas. A referência [23] refere aplicações em áreas tão díspares e interessantes como Processamento de Imagem, Medicina, Geologia, Psicologia ou mesmo Meteorologia. Por exemplo, a leitura de [23] permite concluir que o problema apresentado nesta secção pode ser encarado no âmbito da Meteorologia como um problema em que se tenta estimar o sentido do vento (diga-se num aeroporto) com base num registo de leituras efectuado ao longo de determinado período de tempo e admitindo um conhecimento “a priori” sobre os ventos dominantes na região. Como tal, tanto uma observação como o parâmetro dizem respeito a sentidos de sopro de vento (independentes da intensidade do mesmo), pelo que podem ambos ser representados como pontos do círculo unitário. O capítulo termina com uma secção onde se compara o limiar MSDLB com os resultados obtidos através da simulação por MonteCarlos. Os gráficos exibidos evidenciam uma boa concordância entre o comportamento observado para o estimador MMSD e o limiar teórico mesmo quando os parâmetros de concentração dos modelos de Von Mises são pequenos. 6 Introdução ___________________________________________________________________________ Capítulo 4. O trabalho culmina com o capítulo das conclusões. Aqui procuramos evidenciar as mais importantes contribuições do MSDLB assim como as suas principais limitações. Confrontamos ainda o comportamento verificado pelo MSDLB nos dois exemplos testados com aquilo que seriam as expectativas iniciais. Concluímos com sugestões de trabalho a desenvolver para um possível refinamento deste limiar bem como para outras aplicações igualmente sugestivas e interessantes. 7 Introdução ___________________________________________________________________________ 8 2.1 Resumo Capítulo 2 ___________________________________________________________________________ Capítulo 2 – O limiar MSDLB 2.1 Resumo do capítulo Neste capítulo apresentamos o MSDLB (Mean-Square Distance Lower Bound). O MSDLB estabelece um limiar mínimo para o erro quadrático médio de estimadores que tomam valores em variedades Riemanniana em contextos Bayesianos. Os ingredientes em jogo são: (i) o espaço de parâmetros Θ que está estruturado como uma variedade Riemanniana conexa. Note-se que desta estrutura Riemanniana emergem espontaneamente uma função distância d em Θ e uma medida dθ na σ -algebra Boreleana de Θ ( σ -algebra gerada pela topologia de Θ ). Um ponto genérico de Θ é representado por θ ; (ii) uma função densidade de probabilidade (“prior”) p (θ ) com respeito a dθ , que está suportada em Θ e que quantifica o conhecimento sobre θ antes da observação (mais precisamente, p (θ ) é a derivada de RadonNikodym em relação a dθ ); (iii) o espaço das observações Ω (geralmente Euclideano, Ω = Rm ) com ponto genérico y , e equipado com uma medida de referência µ ; (iv) um sistema de funções densidade de probabilidade de “verosimilhança” p ( y | θ ) , θ ∈Θ que associa a cada ponto θ do espaço de parâmetros, uma medida de probabilidade em Ω quantificada em p ( y | θ ) , com respeito a µ . Secção 2.2 [Estimador MMSD] Na secção 2.2 começamos por definir um critério de desempenho para estimadores que tomam valores na variedade Riemanniana Θ . Note-se que um estimador corresponde a uma aplicação do espaço de observações Ω para o espaço de parâmetros Θ .O nosso critério utiliza a métrica natural em Θ para avaliar o desempenho de qualquer estimador θˆ : Ω → Θ . O desempenho do estimador θˆ é quantificado num número ( ) J θˆ . Mais precisamente, utilizamos a média da distância (Riemanniana) quadrática entre o () {( valor verdadeiro e o valor estimado, ou seja, J θˆ = E d θ ,θˆ ( y ) ) } , onde d ( , ) designa a 2 distância Riemanniana em Θ . Com base neste critério de desempenho, obtemos então o estimador óptimo θˆ : Ω → Θ , que denominamos estimador MMSD (Minimum Mean Square 9 2.2 Estimador MMSD Capítulo 2 ___________________________________________________________________________ Distance). O MMSD coincide com o conhecido estimador MMSE (Minimum Mean Square Error) quando Θ é um espaço Euclideano. Neste sentido, constitui uma generalização do MMSE para o cenário Riemanniano. Secção 2.3 [MSDLB] Na secção 2.3 enunciamos e provamos o teorema MSDLB. Este ( ) teorema apresenta um limite inferior para o desempenho J θˆ de qualquer estimador θˆ : Ω → Θ . Estabelece-se assim um limite fundamental à capacidade de reconstrução do ponto θ , com base na observação y . A estratégia da prova consiste em derivar um limite ( ) mínimo para J θˆMMSD - o desempenho do estimador óptimo θˆMMSD . De facto, sendo θˆMMSD o ( ) estimador óptimo, o limite de desempenho encontrado para J θˆMMSD é válido para os demais estimadores. Secção 2.4 [Comentários] Na secção 2.4 discutimos as hipóteses assumidas no teorema MSDLB, identificando assim as principais limitações do MSDLB, derivado na secção anterior. 2.2 Estimador MMSD Critério de desempenho. O critério de desempenho que adoptamos é “natural” no sentido que em que se baseia na estrutura Riemanniana de Θ . Mais precisamente, o critério que escolhemos considera óptimo o estimador que minimiza o valor esperado da distância Riemanniana quadrática entre o parâmetro nominal θ (não-observado) e o parâmetro estimado θˆ ( y ) . Será portanto o estimador θˆ : Ω → Θ que minimiza o seguinte funcional: ( J (θˆ) = ∫ ∫ d θ , θˆ ( y ) ΩΘ ) 2 p (θ , y ) ⋅ dθ d µ . Na expressão acima, d µ representa uma medida µ em Ω e dθ é a medida Riemanniana em Θ . Além disso, d (θ ,η ) representa a distância Riemanniana entre os pontos θ e η em Θ . Finalmente, p ( θ , y ) = p(θ ) p ( y | θ ) . O funcional acima também pode ser escrito na forma 10 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ J (θˆ) = ∫ ∫ d θ , θˆ ( y ) ΩΘ ( ) 2 p (θ | y )dθ p ( y )d µ A probabilidade à posteriori p ( θ | y ) pode ser calculada utilizando a lei de Bayes a partir da marginal p ( y ) - obtida por integração em Θ de p ( y | θ ) - e da conjunta fornecida pelo ( ) contexto bayesiano p ( y ,θ ) . Intituitivamente, o funcional J θˆ informa, para cada estimador θˆ , sobre o erro de reconstrução de θ (desconhecido), mais precisamente sobre o valor médio da distância quadrática entre valor estimado θˆ ( y ) e θ . Estimador MMSD θˆMMSD . O estimador θˆMMSD : Ω → Θ que será alvo de análise é definido para cada ponto do espaço de observação da seguinte forma: 2 θˆ ( y ) = argmin d (θ ,η ) p (θ | y ) dθ MMSD η ∫ (2.1) Θ O estimador MMSD minimiza o funcional J (θˆ) por construção. A obtenção da expressão em forma fechada para θˆ ( y ) implica resolver o problema de minimização em Θ que é sugerido por (2.1), o que na maior parte dos casos não é trivial. A demonstração do teorema MSDLB que se segue não necessita, no entanto, que se resolva (2.1) explicitamente. Note-se que θˆMMSD atribui à observação y0 o “centro de massa” do posteriori p (θ | y0 ) , também chamado de Fréchet Mean ou Karcher Mean. 2.3 Teorema MSDLB Hipóteses: [H1] – As curvaturas seccionais de Θ são majoradas por toda a parte por C ≥ 0 ; [H2] – Θ admite bases suaves isto é, existem X (1) ,..., X ( p ) ∈ T Θ tal que constitui uma base para Tθ Θ para todo o θ . 11 {X (1) ,..., X ( p) } 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ [H3] – θˆMMSD é uma submersão, o que equivale a afirmar que, para qualquer campo vectorial X ∈T Θ existe ( ) um θˆ*MMSD Yy0 = Xθˆ MMSD ( y 0 ) pré-imagem suave Y ∈ TΩ θˆ*MMSD : T Ω → T Θ por ou seja, , ∀ . [Nota: θˆ*MMSD representa o diferencial ou “push-foward” do mapa y0 ∈Ω θˆMMSD . Para um esclarecimento sobre a relação de equivalência em [H3 ] consultar o lema A.1 do anexo A.]; [H4] – Para cada y0 ∈ Ω ( existe ) um ε >0 ( supp p ( .| y0 ) ⊂ Uε θˆMMSD ( y0 ) , onde Uε θˆMMSD ( y0 ) ) tal que Cε < T ≡ 1 2 e designa a vizinhança normal ε - uniforme de θˆMMSD ( y0 ) ∈Θ . [Nota: a expressão supp p ( .| y0 ) representa o suporte da função p ( . | y0 ) . Para o conceito de vizinhanças normais ε -uniformes consultar [16].] Teorema: Qualquer estimador θˆ : Ω → Θ , com dim Θ = p a operar num cenário Bayesiano (composto pela variedade diferencial Ω , pela variedade Riemanniana Θ , pelo prior p (θ ) com suporte em Θ e pela função de verosimilhança p ( y | θ ) suportada em Ω × Θ ) no qual se verifiquem as hipóteses [ Hi ] , i = 1,..,4 verifica a seguinte desigualdade quando d ( , ) é a distância Riemanniana em Θ : {( E d θ ,θˆ ( y ) )} 2 λ ∗ , C = 0 ≥ λ ∗C + 1 − 2Cλ ∗ + 1 , com λ ∗C 2 2 p 1 λ = max ∑ i X i { i =1 E Yy lθ θˆ* Y i , Yi ∈ TΩ MMSD ( ) ∗ {( )} 2 , onde a maximização é feita sobre p-tuplos de campos vectoriais suaves Y 1,...,Y p ∈T Ω tais { } que para cada y ∈ Ω , X θ1ˆMMSD ( y ) ,..., X θˆpMMSD ( y ) constitui uma base ortonormada para Tθˆ MMSD face à métrica Riemanniana em Θ avaliada em θˆMMSD ( y) , e com Xθiˆ MMSD ( y ) 12 = θˆ*MMSD (Yyi ) . ( y) Θ, 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ Demonstração: Por conveniência de notação e apenas no decorrer da seguinte prova leia-se θˆMMSD sempre que aparecer θˆ . Vamos ainda assumir que as funções integrandas ao longo da prova reúnem condições de regularidade suficientes para que se possam trocar as ordens de derivação pelas de integração. Começamos por atentar novamente para a expressão (2.1). Considere-se a função auxiliar m y : Θ → R dada por m y (η ) = ∫ d (θ ,η ) p (θ | y ) dθ . 2 Θ Então pelo facto de, para cada ponto do espaço de observações y , o estimador θˆ ( y ) verificar (2.1) e portanto ser um ponto de estacionaridade de m y podemos escrever Xθˆ ( y ) my = 0, ∀ y (2.2), X θˆ ( y ) ∈ Tθˆ ( y ) Θ onde Xθˆ ( y ) designa um vector tangente arbitrário em Tθˆ( y )Θ . Admitindo que é possível trocar a ordem de derivação com a ordem de integração , a igualdade expressa em (2.2) assume a forma ∫X Θ θˆ( y ) 1 2 d (θ ,.) p(θ | y ) dθ = 0 2 Defina-se agora kθ : Θ → R dada por kθ (.) = 1 2 d (θ ,.) chamada de função de dispersão em 2 torno de θ . A expressão anterior equivale a ∫ dk θ Θ ( X ) p (θ | y) dθ = 0, ∀ θˆ ( y ) y Xθˆ ( y ) ∈ Tθˆ ( y ) Θ (2.3) Escolhendo um campo vectorial qualquer suave X ∈T Θ é possível definir uma nova função Φ : Ω → R que actua da seguinte forma ( ) y a ∫ dkθ Xθˆ ( y ) p(θ | y ) dθ Θ (2.4) Por uma questão de simplicidade é possível reescrever Φ recorrendo à composição de uma função auxiliar ϕθ = ( dkθ )( X ) : Θ → R η a ( dkθ ) ( X η ) = X η kθ 13 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ com o estimador θˆ : Ω → Θ . A função Φ : Ω → R , nestes termos, opera de acordo com ( ) y a ∫ ϕθ o θˆ ( y ) p (θ | y ) dθ Θ Uma vez que (2.3) se verificava para todo o y , a função Φ : Ω → R é identicamente nula ou seja Φ ≡ 0 . Considere-se agora Yy0 ∈ Ty0 Ω um vector tangente a Ω num qualquer ponto y0 . Uma vez que Φ ≡ 0 tem-se naturalmente que Yy0 Φ = 0 (2.5). ( ) ( ) Recordando que pelas leis da derivação se verifica Yy0 ϕθ o θˆ = θˆ* Yy0 ϕθ , então (2.5) é equivalente a (de novo assumindo que as ordens de integração e derivação podem permutar) (θˆ ( y )) Y ∫θˆ ( Y ) ϕ p (θ | y ) + ϕ * θ y0 θ 0 0 Θ y0 p (θ | .) dθ = 0 (2.6) Para que se consiga reescrever (2.6) de forma mais sugestiva convém relembrar as seguinte igualdades ( ( ) ϕθ θˆ ( y0 ) = (dkθ ) Xθˆ ( y0 ) = grad kθ ) θˆ ( y0 ) , X θˆ( y0 ) e também ( ) ( ) ( dk )( X ) θˆ* Yy0 ϕθ = θˆ* Yy0 ( = ∇θˆ * ( Yy0 ) θ ) ( dkθ ( X ) + ( dkθ ) ∇θˆ ( (Yy0 ) X ) ( )) + ( dk ) ∇ = Hess kθ X θˆ( y ) , θˆ* Yy0 0 * θ X ( ) θˆ* Yy0 Aqui, ∇ designa a conexão de Levi-Civita induzida pela métrica da variedade Riemanniana Θ. Se, adicionalmente, introduzirmos a função “log-posteriori” lθ : Ω → R dada por lθ ( y ) = log p (θ | y ) então (2.6) é reescrita como ∫ Hess k θ Θ (X θˆ( y0 ) ( )) ,θˆ* Yy0 p (θ | y0 ) + grad kθ 14 θˆ( y0 ) , X θˆ ( y0 ) Yy0 lθ p ( θ | y0 ) dθ = 0 (2.7). 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ Na passagem de (2.6) para (2.7) usámos o facto de ∫ ( dk ) ∇ θ Θ Zθˆ ( y ) = ∇θˆ 0 * (Yy0 ) ( ) X p (θ | y0 ) dθ = 0 , porque θˆ* Yy0 X representa um vector tangente em Tθˆ( y0 )Θ e a expressão (2.3) pode ser invocada. Seja Y ∈ T Ω uma pré- imagem de X por θˆ . A expressão (2.7) pode assim ser escrita de uma forma mais geral ∫ Hess k θ Θ (X θˆ ( y ) ) , X θˆ( y ) p (θ | y ) + grad kθ θˆ( y ) , X θˆ( y ) Yy lθ p (θ | y ) dθ = 0, ∀ y Sendo a última igualdade verdadeira para qualquer ponto do espaço de observações podemos concluir ∫ ∫ Hess k θ Ω Θ ( X ( ) , X ( ) )p (θ | y ) + θˆ y θˆ y grad kθ θˆ( y ) , X θˆ( y) Yylθ p ( θ | y ) dθ p ( y ) d µ = 0 (2.8) Por conveniência nas equações que se seguem vamos omitir o ponto onde é avaliado grad kθ o não causa problemas pois o produto interno tem que ter forçosamente como argumento dois vectores tangentes à variedade no mesmo ponto. Assim temos de (2.8) ∫ ∫ Hess k ( X θ θˆ ( y ) ) Hess k ∫ ∫ Ω Θ θ grad kθ , X θˆ( y ) [ Y l ] p (θ | y ) p (y )d θd µ ∫ ∫ grad kθ , X θˆ( y ) [ Y l ] p (θ | y ) p (y )d θd µ (2.9) y θ ⇔ Ω Θ ( X ( ) , X ( ) ) p ( θ | y ) p (y )d θ d µ θˆ y ∫∫ , Xθˆ( y ) p ( θ | y ) p ( y ) d θ d µ = Ω Θ 2 θˆ y = 2 Ω Θ y θ Vamos aplicar a desigualdade de Cauchy-Swartz ao termo do lado direito de (2.9). ∫ ∫ grad kθ , X θˆ( y ) Ω Θ [Y l y θ (θ | y ) p (y ) d θ d µ ] p14243 ( ) p θ ,y 2 ≤ ∫∫ grad kθ , X θˆ( y ) 2 p ( θ , y )dθ d µ . Ω Θ ∫ ∫ ( Y l ) p ( θ , y ) d θd µ 2 y θ Ω Θ Reorganizando a última desigualdade e tendo em conta (2.9) produzimos ∫∫ ΩΘ 2 grad kθ , Xθˆ ( y ) ( ) 2 ∫ ∫ Hess kθ X θˆ( y ) , X θˆ ( y ) p (θ , y ) dθ d µ (2.10) p (θ , y )dθ d µ ≥ Ω Θ 2 ∫ ∫ ( Yy lθ ) p (θ , y ) dθd µ ΩΘ 15 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ Seja dim Θ = p . Escolha-se um conjunto de {X (1) ,..., X ( p) }, X (i ) campos vectoriais suaves p ∈ T Θ tais que, quando avaliados num qualquer ponto de Θ , constituam uma base ortonormada para o espaço tangente a Θ nesse ponto. Como a equação (2.10) é válida para qualquer escolha de X ∈T Θ e como ambos os lados da desigualdade são não negativos podemos escrever, tendo em conta a escolha de base efectuada, grad kθ i =1 Ω Θ p ∑ ∫ ∫ 2 i θˆ( y ) , X θˆ ( y ) 2 i i Hess kθ ( X θˆ( y) , X θˆ ( y ) ) ⋅ p (θ , y ) d θd µ p ∫∫ (2.11) Ω Θ p ( θ , y ) dθ d µ ≥ ∑ 2 i i= 1 ∫ ∫ ( Yy lθ ) p (θ , y ) d θ d µ Ω Θ Vamos desenvolver de seguida o lado esquerdo da desigualdade acima. p ∑ ∫∫ i =1 Ω Θ grad kθ p ∫∫ ∑ grad kθ Ω Θ i =1 θˆ ( y ) θˆ( y ) 2 i , X θˆ( y ) 2 , X θiˆ( y ) p (θ , y ) dθ d µ = p (θ , y ) ⋅ dθ d µ = { grad k ( ) p (θ , y ) dθ d µ = E d (θ ,θˆ ( y ) ) ∫∫ 14 4244 3 2 ΩΘ θ θˆ y ( 2 } (2.12) ) d θ ,θˆ ( y ) 2 Utilizámos o resultado (A) do lema A.2 do anexo A para fazer a identificação sugerida pelas chavetas. Dessa forma é possível chegar já a uma expressão onde figura o valor esperado da distância entre as realizações do estimador e o valor nominal do parâmetro. Atentemos agora ao lado direito de (2.11). Invocando o resultado (B) do lema A.2 podemos estabelecer a seguinte desigualdade ( ) ∧ Hess kθ X θiˆ( y ) , Xθiˆ ( y ) ≥ C d θ ,θˆ ( y ) cot C d θ ,θ ( y ) ≥ 0 (2.13), ( ) onde usámos a hipótese [H4 ]. Invocando agora o lema A.3 do anexo A e pegando em (2.13) temos ( ) ( ) ( 1 C d θ ,θˆ ( y ) cot C d θ , θˆ ( y ) ≥ 1 − Cd θ , θˆ ( y ) 2 16 ) 2 (2.14) 2.3 Teorema MSDLB Capítulo 2 ___________________________________________________________________________ Notamos que as condições impostas ao argumento da co-tangente implicam, para uma dada curvatura seccional, um limite mínimo na precisão do estimador ou seja um limite máximo ( ) para d θ ,θˆ ( y ) . 2 Tendo em conta (2.11), (2.12) e (2.14) podemos escrever {( E d θ ,θˆ ( y ) )} 2 2 1 2 ˆ ∫ ∫ 1 − Cd θ ,θ ( y ) ⋅ p (θ , y ) dθ d µ p Ω Θ 2 ≥ ∑ 2 i i =1 Y l p θ , y d θ d µ ( ) ∫Ω Θ∫ y θ ( ( 2 1 ≥ 1 − C E d θ , θˆ ( y ) 2 1442443 t {( ) )} 2 ) p 1 ∑ (2.15). 2 i =1 ∫ ∫ Yyilθ p (θ , y ) dθ d µ 144444244444 ΩΘ 3 ( ) ) ( ( ) ( ( λ = λ X (1) ,..., X ( p ) =λ θˆ* Y (1) ,...,θˆ* Y ( p ) )) Chamamos a atenção para o facto de para cada campo vectorial suave X ( i) ∈ T Θ escolhido em (2.11) existe Y (i ) ∈ T Ω , sua pré-imagem por θˆ : Ω → Θ que admitimos ser uma submersão. Em (2.15) λ é função de Y ( i) explicitamente. No entanto, pelas razões apontadas, λ é implicitamente função de θˆ* ( Y (i ) ) = X ( i) , tal como se fez notar com a chaveta. Note-se que de facto, atendendo à construção da prova, as “variáveis” independentes são os campos vectoriais X ( i) ∈ T Θ uma vez que estes são escolhidos inicialmente tal como em (2.11). Se fizermos as identificações sugeridas pelas chavetas em (2.15) ficamos simplesmente com: 2 1 t ≥ 1 − Ct λ (2.16) 2 Estamos finalmente em posição para poder estabelecer o limiar. Olhando para a figura 2.1 conclui- se que o limiar é máximo com λ = λ ∗ , p 1 λ ∗ = max ∑ i X i { i=1 E Yy lθ θˆ* ( Y iy ) {( 17 )} 2 (2.17) 2.4 Comentários Capítulo 2 ___________________________________________________________________________ Figura 2.1 – Variação do MSDLB com λ 2.4 – Comentários O enunciado do teorema restringe desde logo a sua aplicação a estimadores θˆ : Ω → Θ que verifiquem dim Ω ≥ dim Θ . Esta restrição na prática é muito fraca já que na maioria dos problemas de estimação a inferência que se efectua sobre o parâmetro assenta no número de graus de liberdade das observações que excede o número de graus de liberdade do parâmetro que se quer estimar. Assumimos também que o espaço de observações Ω se trata de uma variedade diferenciável. Na prática, a recolha de observações produz vectores de dimensão m que, por restrições fenomenológicas, podem estar confinadas a uma sub- variedade de R m (ver exemplo na secção 3.3). Esta foi a razão pela qual considerámos o espaço de observações uma variedade - que precisa de ser equipada com uma estrutura diferencial pois são efectuadas ao longo da prova derivações direccionais de funções definidas em Ω - em vez de simplesmente fazer Ω = Rm O teorema do MSDLB é enunciado com base num leque de quatro hipóteses que pode ser dividido em dois conjuntos: um cujas hipóteses dizem respeito exclusivamente a propriedades sobre a variedade Riemanniana Θ - composto por [H1 ] e [H2 ] - e outro cujas hipóteses dizem respeito ao estimador θˆMMSD - composto por [H3 ]e [H4 ]. 18 2.4 Comentários Capítulo 2 ___________________________________________________________________________ Dentro do primeiro conjunto a hipótese [H1 ] não é minimamente restritiva. Esta hipótese pode implicar calcular as curvaturas seccionais apenas num só ponto pertencente à variedade, no caso de variedades Riemannianas de curvatura constante ou no caso de Lie Groups com métricas invariantes por translação no grupo (à esquerda ou direita). A hipótese [H2 ] - enquadrada também no primeiro conjunto -, atendendo ao desenvolver da prova, pode ser relaxada para probabilidade 1 com respeito ao “prior” p (θ ) . De facto existem alguns exemplos de variedades que não verificam [H2 ] tal como foi enunciada. Por exemplo, em S n−1 ∈ R n , com n > 1 ímpar não existem campos vectoriais suaves diferentes de zero por toda a parte. No entanto em S n−1 − {µ} , µ ∈ S n−1 [H2 ] já seria verificada. A relaxação para probabilidade 1 de [H2 ], à semelhança do que acabámos de descrever para o caso da esfera, torna a hipótese bastante menos restritiva. Note-se no entanto que [H2 ] é verificada “de per se” numa classe muito importante de variedades: os Lie Groups. Já no segundo conjunto, a hipótese [H3 ] não é muito severa atendendo ao teorema de Sard [24]. De facto se houver a preocupação de condicionar bem a definição da variedade Θ no sentido em que se torne o estimador θˆMMSD sobrejectivo então o referido teorema garante que o conjunto de valores não regula res de Θ (pontos θ ∈Θ para os quais θˆ*MMSD não tem característica máxima em toda a pré- imagem de θ por θˆMMSD ) tem medida nula com respeito a qualquer medida absolutamente contínua face à medida Riemanniana instalada. Frisamos que esta hipótese diz respeito a θˆMMSD apenas, e não tem que se verificar em geral para um estimador genérico θˆ cujo desempenho possa ser limitado pelo MSDLB. A hipótese [H4 ] é, sem dúvida a hipótese mais restritiva das quatro assumidas no MSDLB. Implica em particular que se reúnam condições –escolha da variedade Θ e do “posterior” p (θ | y ) - para que o estimador θˆMMSD seja tal que, para todo o y , se verifique ( ) d θ , θˆMMSD ( y ) < ε . Isto significa que θˆMMSD tem que ser um estimador bastante preciso, tanto mais preciso quanto maior for C já que ε é tal que Cε < T ≡ 1 2 . O nível técnico patente em [H4 ] torna-a muito difícil de ser testada na prática, devendo haver a preocupação de aplicar o MSDLB preferencialmente em contextos Bayesianos cujo posterior, para cada y , tenha um suporte localmente concentrado em torno do seu centro de massa 19 2.4 Comentários Capítulo 2 ___________________________________________________________________________ . 20 3.1 Resumo Capítulo 3 ___________________________________________________________________________ Capítulo 3 – Ilustrações do MSDLB 3.1 Resumo do Capítulo Neste capítulo iremos concretizar duas ilustrações que nos permitam aferir a precisão do MSDLB. Começamos por abordar o caso Euclideano em que Θ = R p onde consideramos em particular que a função de densidade de probabilidade conjunta p (θ , y ) é Gaussiana. Todas as etapas do processo de cálculo do MSDLB, que, para o caso em estudo, culmina numa expressão em forma fechada, são exibidas. Constatamos que, neste caso, esta nova metodologia recupera exactamente o limiar proposto por Van Trees proposto em [20]. No segundo exemplo, exploramos as potencialidades do nosso limiar, aplicando o MSDLB numa variedade Riemanniana desprovida de estrutura vectorial. Escolhemos para tal fazer Θ = S1 , S 1 = {x ∈ R 2 : x = 1} , que herda a sua estrutura Riemanniana canonicamente do espaço ambiente, e trabalhar com uma função densidade de probabilidade conjunta p (θ , y ) do tipo Von-Mises suportada na variedade S1 × S 1 . Note-se que, neste cenário, as observações do fenómeno aleatório pertencem também a S 1 . Mais uma vez voltamos a exibir todo o processo de cálculo do MSDLB que, quando comparado com o do primeiro exemplo, é um pouco mais ilustrativo daquilo que será o procedimento a efectuar numa aplicação típica , já que, além de ser utilizado o formalismo das variedades Riemannianas, é necessário encontrar uma expressão para o estimador – conhecida trivialmente no primeiro exemplo - resolvendo um problema de minimização em S 1 . Não tendo sido possível chegar a uma expressão em forma fechada final, o cálculo do MSDLB é feito recorrendo a integração numérica através do MatLab. Por último comparamos o MSDLB com os resultados obtidos através da simulação por MonteCarlos verificando-se uma boa concordância entre ambos mesmo quando fazemos variar o factor de concentração do prior p (θ ) e da função de “verosimilhança” p ( y | θ ) . 21 3.2 Caso Euclideano com modelo probabilístico Gaussiano Capítulo 3 ___________________________________________________________________________ 3.2 - Caso Euclideano com modelo probabilístico Gaussiano 3.2.1 – Motivação do exemplo Escolhe-se este exemplo porque é sabido que, neste caso, o limiar estabelecido em [20] é atingido. Logo é importante aferir se, utilizando o MSDLB, tal também ocorre. 3.3.2 – Apresentação do exemplo Nesta secção vamos abordar o caso da estimação Bayesiana com distribuições Gaussianas em espaços Euclideanos. Apresentaremos os modelos probabilísticos Gaussianos e o estimador θˆMMSD , concluindo com a constatação de que este procedimento chega a um resultado igual ao proposto por Van Trees em [20]. De futuro, para simplificar a notação, usaremos o símbolo θˆ para designa r θˆMMSD . Espaço de parâmetros e de observações. Tal como foi proposto vamos fazer Θ = R p , equipado com a métrica canónica usual. Como tal, d (x , y ) = x − y = ( x − y ) ( x − y ) , x , y ∈R p . T a função distância em Θ é Quanto ao espaço de observações temos Ω = Rn , n ≥ p equipado com uma métrica análoga à de Θ . Modelos Probabilísticos. O contexto Bayesiano fornece-nos a função densidade de probabilidade conjunta em relação à medida canónica (Lesbegue) instalada em Θ×Ω . No nosso caso temos x0 Rxx x : N , R y y0 yx Rxy (3.1), Ryy onde N ( µ , Σ ) representa a distribuição Gaussiana de média µ e matriz de covariância Σ . Para simplicar os cálculos e sem perda de generalidade vamos admitir que x0 0 = y0 0 (3.2). Consultando [20], e admitindo (3.1) e (3.2), temos E { x | y} = x0 + Rxy Ryy − 1 ( y − y0 ) = Rxy Ryy −1 y (3.3), e 22 3.2 Caso Euclideano com modelo probabilístico Gaussiano Capítulo 3 ___________________________________________________________________________ Cov { x | y} = Rxx − Rxy Ryy −1 Ryx (3.4). Para simplificar a notação, façamos a seguinte identificação: Rx| y = Rxx − Rxy Ryy −1Ryx (3.5). Tendo em conta (3.3) , (3.4) e (3.5) concluímos então que T 1 log ( p ( x | y ) ) ∝ − x − Rxy Ryy − 1y Rx| y −1 x − Rxy Ryy −1 y (3.6), 2 onde ∝ significa “a menos de uma constante” face a x e a y . Estimador MMSD. A solução de (2.1) para o exemplo corrente, ou seja a solução de θˆ ( y ) = argmin τ ∫ d ( x, τ ) p ( x | y ) dx , 2 Rp é trivial coincidindo com o ponto de maior concentração de massa de p ( x | y ) . Dessa forma, teremos θˆ : Rn → R p dado por: θˆ ( y ) = E { x | y} = Rxy Ryy − 1 y (3.7). 3.2.3 – Aplicação do MSDLB De seguida exibiremos os cálculos mais relevantes para a computação do MSDLB, nomeadamente o cálculo do campo vectorial pré- imagem e a maximização implícita em (2.17). Campo vectorial pré -imagem. Para calcular (2.17) precisamos de calcular Y i , pré-imagens por θˆ de X i , i = 1... p , bases ortogonais em cada ponto para Tθ Θ . Ao calcular a matriz Jacobiana de θˆ chegamos a: Dθˆ ( y ) = Rxy Ryy −1 (3.8). Como θˆ é um mapa entre espaços euclideanos, o diferencial de θˆ coincide com a sua matriz Jacobiana (ver [16]). Assim, podemos concluir que o cálculo dos p campos vectoriais préimagem equivale a encontrar a matriz C tal que D θˆ ( y ) c1y ...c py = Qθˆ( y ) (3.9), 1424 3 C 23 3.2 Caso Euclideano com modelo probabilístico Gaussiano Capítulo 3 ___________________________________________________________________________ em Q = q1 ,..., q p que Y ∈ T R n : Y = ay 1 é uma matriz ortogonal Yi :Yi . % ci = Y i , % e Se ∂ ∂ + ... + a y n n então Y ∈ Rn designa o vector Y = ( a y1 ,..., ay n ) . 1 ∂y ∂y % % Uma solução para (3.9) é fazer C = ( Rxy Ryy − 1 ) Q , ou seja † C = Ryy Rxy † Q (3.10), onde A† designa a pseudo- inversa da matriz A. Cálculo do MSDLB. Para chegar ao valor teórico do MSDLB é preciso calcular tendo em conta (2.17), a seguinte quantidade p ∑ i =1 {( p 1 E ci ∇ y log ( p ( x | y) ) T )} 2 =∑ i =1 1 { ( ∇ log ( p( x | y)) ∇ log ( p ( x | y )) ) c } E ci T T y y i ∇ y log ( p ( x | y) ) . A computação de (3.11) necessita da expressão para Φ(x ) = (3.11). Como 1 T ( Ax + b ) U ( Ax + b ) ⇒∇Φ ( x ) = AT UAx + AT Ub , atendendo a (3.6) e efectuando as 2 identificações A = Rxy Ryy −1 , U = Rx| y −1 e b = x , concluímos { ∇ y log ( p ( x | y ) ) = Ryy −1Ryx Rx |y −1 x − R xy Ryy −1 y } x − Rxy Ryy −1 (3.12). y ⇔ ∇ y log ( p ( x | y ) ) = Ryy −1Ryx Rx | y −1 I { Como cálculo auxiliar vamos encontrar a expressão para E ( x − My )( x − My ) M = − Rxy Ryy −1 . { E ( x − My )( x − My ) T ⇔ I } = [I x − M ] E xT y R −1 xx − Rxy Ryy Ryx I y T T −M Rxy I −1 Ryy − Ryy Ryx ⇔ Rxx − Rxy Ryy −1Ryx = Rx| y (3.13) A expressão (3.12) em conjunto com (3.13) permite escrever { E ∇ y log ( p ( x | y ) ) ∇ y log ( p ( x | y ) ) T 24 }= R −1 yy Ryx Rx| y −1 Rx |y Rx| y−1 Rxy Ryy−1 T }, com 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ { ⇔ E ∇ y log ( p ( x | y ) ) ∇ y log ( p ( x | y ) ) T }= R −1 yy Ryx Rx |y− 1 Rxy R yy−1 (3.14). Desta forma, e se tivermos em conta que ci = Ryy Rxy † qi por (3.10) juntamente com as expressões (3.11) a (3.14), (2.17) é equivalente a p λ * = max ∑ Q i =1 { 1 T −1 † yx −1 −1 † E qi R Ryy Ryy Ryx Rx| y Rxy Ryy Ryy Rxy qi } , a qual, depois de simplificada origina p λ * = max ∑ Q i =1 1 (3.15). qi Rx| y −1qi T Notamos que a matriz Q que maximiza o somatório em (3.15) é a matriz dos vectores próprios de Rx| y . Admitindo essa escolha constata-se que o limiar MSDLB iguala, quando aplicado a este exemplo, o proposto por Van Trees em [20] ou seja λ * = tr Rx| y . 3.3 - Caso Riemanniano com modelo probabilístico de Von Mises 3.3.1 – Motivação do exemplo Vamos abordar este exemplo com a finalidade de aplicar o MSDLB numa variedade Riemanniana sem estrutura vectorial. A escolha da variedade S 1 em conj unto com modelos probabilísticos de Von Mises tem o intuito de fornecer uma ilustração do limiar que seja razoavelmente simples de calcular e que ao mesmo tempo permita perceber as características mais marcantes do comportamento do MSDLB aquando da sua aplicação. Trata-se de um cenário interessante já que, além de cumprir os requisitos expostos no último parágrafo, é passível de ser encontrado muito naturalmente em áreas científicas tão diversas como Processamento de Imagem, Meteorologia, Física ou mesmo Medicina. Estes e outros tópicos de interesse sobre distribuições de Von Mises podem ser encontrados em [23]. 25 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ 3.3.2 – Apresentação do exemplo Esta secção é dedicada à descrição deste exemplo. Vamos, nomeadamente, caracterizar o espaço de parâmetros Θ que neste exemplo coincide com a subvariedade riemaniana S 1 , o círculo unitário em R 2 . Posteriormente apresentaremos os modelos probabilísticos escolhidos quer para o “prior” p (θ ) quer para a função de verosimilhança p ( y | θ ) no âmbito do contexto Bayesiano. Por último encontramos o estimador a ser utilizado resolvendo (2.1) em S1 . Espaço de parâmetros e de observações. Como referimos Θ = S 1 , sendo S 1 a subvariedade Riemaniana caracterizada por S 1 = {x ∈ R 2 : x = 1} . A estrutura Riemaniana em S 1 é induzida através da imersão canónica ι : S 1 → R 2 , ι ( x ) = x . Desta forma, a métrica induzida em S 1 é caracterizada por X , Z S1 = ι* X , Z Rn = ι* ( X ) ,ι* ( Z ) Rn , com X , Z ∈ TS 1 . Para esta escolha de métrica, a função distância em Θ é conhecida e assume a expressão d (θ , µ ) = arcos (θ T µ ) , com θ , µ ∈ S 1 . Frisamos que a expressão para a função distância em Θ não é necessária para o cálculo do resultado teórico. Esta será apenas utilizada para gerar resultados a partir das simulações com MonteCarlos que serão posteriormente confrontados com os teóricos. Tratando-se de uma variedade Riemanniana de dimensão igual a 1 temos que a curvatura seccional de S 1 é igual a 0 por toda a parte. No caso em estudo, o espaço de observações coincide também com S 1 pelo que dim {Ω} = dim {S 1} = 1 . Modelos Probabilísticos. O “prior”, suportado no espaço de parâmetros, é uma função densidade de probabilidade p (θ ) em relação à medida de base instalada em S 1 , no caso a naturalmente induzida pela estrutura Riemanniana. A f.d.p escolhida para caracterizar o prior foi do tipo Von Mises. Mais conc retamente temos p (θ ) = 1 2π I 0 ( k0 ) ek 0 .θ T θ0 θ : VM ( k0 , θ 0 ) e portanto , onde k 0 ≥ 0 representa o parâmetro de concentração e θ 0 , θ 0 = 1 , a moda da distribuição. Aqui, I n ( x ) representa a função de Bessel modificada de ordem n . 26 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ A função de verosimilhança é também uma f.d.p. p ( y | θ ) em relação à medida de base instalada no espaço de observações que, neste exemplo, coincide com a medida instalada em S 1 . A f.d.p. escolhida como função de verosimilhança é também do tipo Von Mises. Assim, p ( y | θ ) : VM ( k , θ ) ou seja p ( y | θ ) = T 1 ek . y θ . Se imaginarmos θ como um 2π I 0 ( k ) parâmetro desconhecido que é observado no círculo por um sensor (imperfeito) resultando na observação y , então k representa o “ruído de leitura”. Estimador. O cálculo do MSDLB pressupõe encontrar a expressão para o estimador θˆMMSD resolvendo a equação (2.1) que recordamos de seguida 2 θˆ ( y ) = argmin ∫ d (θ , η ) p ( θ | y ) dθ . η Θ Para reescrever (2.1) no caso particular do nosso exemplo precisamos de calcular p ( y | θ ) . p (θ ) p ( θ | y ) recorrendo à lei de Bayes p (θ | y ) = p( y) . A marginal p ( y ) é obtida através da integração na variedade da conjunta p ( y ,θ ) ou seja: p ( y) = ∫ p (θ , y ) dθ = ∫ p (θ ) p ( y | θ ) dθ S 1 S (3.16) 1 Introduzindo em (3.16) as expressões para o prior e para a função de verosimilhança ficamos com p ( y) = 1 ∫ 2π I ( k ) e S1 0 k0 .θ Tθ 0 0 T 1 e k . y θ dθ (3.17). 2π I 0 ( k ) Agrupando termos é possível reescrever (3.17) como p ( y) = 2π I 0 ( k. y + k 0.θ0 4π 2 I 0 ( k0 ) I 0 ( k ) ) T 1 θ ( k . y+ k0 .θ0 ) . e dθ ∫ 2π I0 ( k . y + k0 .θ0 ) S1 144444424444443 1 O resultado do integral dentro da chaveta é igual à unidade uma vez que integramos uma f.d.p. do tipo Von Mises, no seu suporte. O resultado final é então p ( y) = I 0 ( k . y + k 0.θ 0 ) 2π I 0 ( k0 ) I 0 ( k ) 27 (3.18). 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ Conhecendo a marginal p ( y ) podemos então aplicar a lei de Bayes para o cálculo de p ( θ | y ) vindo, p (θ | y ) = 1 θ T ( k . y+ k0 .θ0 ) 2π I 0 ( k0 ) I0 ( k ) e . , 4π 2 I 0 ( k0 ) I0 ( k ) I 0 ( k . y + k0 .θ 0 ) expressão que após simplificação pode ser escrita como p (θ | y ) = 2π I 0 ( T 1 eθ ( k . y+ k0 .θ 0 ) (3.19). k . y + k 0.θ0 ) A f.d.p. p ( θ | y ) é conhecida como o “posterior” e, neste exemplo, coincide com uma f.d.p. do tipo Von Mises com factor de concentração k . y + k0 .θ 0 e moda k . y + k0 .θ 0 . k . y + k0 .θ 0 Estamos agora em condições de aplicar (2.1) ao caso em estudo, substituindo a função distância e o posterior pelas suas expressões já calculadas produzindo ( 1 θˆ ( y ) = argmin arcos τ T θ ∫ 1 2 π τ ∈S Θ ) I ( k . y + k .θ ) e 1 2 0 θ T ( k . y+ k0 .θ0 ) 0 dθ (3.20). 0 A solução de (3.20) pode ser calculada através do lema B.1 do anexo B. Temos dessa forma k . y + k0 .θ 0 θˆ ( y ) = (3.21). k . y + k0 .θ 0 3.3.3 – Aplicação do limiar MSDLB e simulações. Nesta secção vamos proceder ao cálculo de (2.17) para este exemplo e confrontar o resultado obtido com os resultados obtidos por simulação. Para facilitar os cálculos que se seguem escrevemos em alternativa a (3.21), A( y) θˆ ( y ) = , A( y ) = k . y + k0 .θ 0 (3.22). A( y) Campo vectorial pré -imagem. A computação de p 1 λ = max ∑ i X i { i=1 E Yy lθ θˆ* (Y yi ) ∗ {( )} 2 , envolve a escolha de X ∈T Θ , campos vectoriais suaves que em cada ponto constituam uma base ortonorma l para o espaço tangente a Θ . Como dim {S 1} = 1 e a acção do campo 28 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ vectorial Y i em lθ aparece ao quadrado dentro do integral, qualquer uma das duas escolhas possíveis para o campo vectorial suave X , base ortonormal de TS 1 em cada ponto, satisfaz (2.17). Tomaremos X ∈ TS 1 definido por ι* ( X y ) = − y 2 ∂ ∂ + y1 2 . 1 ∂y ∂y Vamos então calcular o campo vectorial suave Y ∈ TS 1 , pré-imagem de X por θˆ* :TS1 → TS 1 . Tendo em conta que dim {Ty S 1} = 1 temos que θˆ* ( X y ) = λy . Xθˆ ( y ) (3.23) Se definirmos λ y = θˆ* ( X y ) , Xθˆ ( y ) S1 (3.24), e atendendo a (3.23) verificamos que θˆ* ( X y λ y ) = X θˆ( y ) ⇒ Yy = X y λ y (3.25). Seja y0 = ( cos t 0 ,sin t0 ) . Definamos agora γ (t) : ]t 0 − ε , t0 + ε [ → S 1 dado por γ (t ) = ( cos t ,sin t ) . Então, recorrendo à composição de θˆ com γ podemos escrever d d (3.26). θˆ ( γ (t ) ) = θˆ* γ * = θˆ* X y0 dt dt 1 424 3 t = t t = t 0 0 ∈T S 1 =T S 1 ( ) ( γ (t0 ) ) y0 Notamos que através de (3.26) estamos a identificar de forma unívoca uma escolha para X – a orientada segundo γ (t ) . Voltamos a invocar o teorema em que se prova que os diferenciais de mapas entre espaços Euclideanos avaliados num determinado ponto coincidem com a matriz Jacobiana do mapa calculada nesse mesmo ponto (ver [16]). Assim, e considerando o mapa ι o θˆ o γ : R → R n , achamos d ι o θˆ o γ = ι* θˆ* X y0 dt t =t0 ( ) ( ( )) A(γ ( t )) : A(γ ( t )) ′ (3.27). t = t0 Fazendo os cálculos temos: A(γ ( t)) A(γ ( t)) A(γ ( t)) A(γ ( t)) ′ ′ [ A(γ ( t )) ]′ A(γ ( t )) − ( A(γ (t) ) ) A(γ (t) ) = 2 A(γ ( t)) ′ k.γ ′(t ). A(γ ( t )) − k .k 0θ0T γ ′( t ). A( γ ( t)). A (γ ( t )) = 2 A(γ (t) ) 29 −1 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ 0 −1 Como γ ′(t ) = J .γ ( t ) , com J = a expressão (3.27) pode ser então escrita como 1 0 ( ) ι* θˆ* ( X y ) : k .Jy . A ( y ) − k .k0 .θ 0 Jy. A( y ). A ( y ) T A( y ) −1 (3.28) 2 Calculemos então λ y de acordo com (3.24). Para tal começamos por estabelecer a seguinte identificação de acordo com a escolha efectuada para X y , ι* ( X y ) : J . y , y ∈ S1 (3.29). Como (3.24) é equivalente a λ y = ι * θˆ* ( X y ) , Xθˆ ( y ) Rn ) ( ( = ι* θˆ* ( X y ) ,ι* X θˆ( y ) ) Rn , encontramos, usando (3.28) e (3.29), para λ y T k .Jy . A ( y) − k .k .θ T Jy. A( y ). A ( y ) −1 JA( y) 0 0 λy = . 2 A( y ) A y ( ) Podemos simplificar a última expressão tendo em conta (3.22). Assim T T k 2 ( Jy ) ( Jy ) k .k 0 ( Jy ) ( Jθ 0 ) . λy = + 2 2 A ( y) A( y ) Como JJ T = I , y ∈ S 1 ⇒ y T y = 1 concluímos finalmente λy = Computação do MSDLB. A k 2 + k .k 0. y T θ 0 A( y ) função 2 (3.30). “log-posterior” lθ : S 1 → R é dada por lθ ( y ) = log p (θ | y ) . Como o espaço de observações coincide com o círculo unitário a função lθ : S 1 → R que aparece em (2.17) é construída a partir da função lˆθ : R2 → R através do “pull-back” pelo embedding canónico ι : S 1 → R 2 . Assim temos ( ) ( ) Yy ι *lˆθ = Yy lˆθ o ι = ι* ( Yy ) lˆθ , { ∈ T 0S 1 ou seja T Jy ∂ ∂ ι* ( Yy ) lˆθ = ay 1 1 + ... + a y n n lˆθ = ∇ y ( log p ( θ | y ) ) (3.31). λ ∂y ∂y y 30 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ De seguida vamos encontrar a expressão para ∇ y ( log p (θ | y ) ) . Comecemos por notar que tendo em conta (3.19) podemos escrever ( ( )) + ∇ ∇ y ( log p (θ | y ) ) = ∇ y − log I 0 A ( y ) y θ T A ( y ) (3.32). Atentemos na primeira parcela de (3.32) que é equivalente a ( ( A ( y) )) = − I ( A1( y ) ) I ′ ( A ( y ) ).∇ ( A ( y ) ) . ∇ y − log I 0 0 y 0 dI 0 ( x ) Se tivermos em linha de conta que ( ) = I1 ( x ) , que ∇ y A ( y ) = dx k A( y) . A ( y ) e que ∇ y θ T A ( y ) = k .θ então (3.32) é equivalente a ∇ y ( log p (θ | y ) ) = − ( ) k .I1 A ( y ) .A ( y ) I0 + k .θ (3.33). ( A ( y) ). A ( y ) Para facilitar os cálculos consideremos (3.33) e escrevamos ( ) ) k .k0 .θ 0T J y.I1 A ( y ) Jy k .θ T Jy (3.34). Λ ( y, θ ) = ∇ y ( log p (θ | y ) ) = − + λ λ λ . I A y . A y ( ) ( ) y y y 0 T ( Tendo em conta (3.30), (3.34) é reescrita como Λ ( y, θ ) = − ( ) ⋅ k .θ ⋅ I ( A( y ) ) I1 A ( y ) A( y ) k + k0 . y θ 0 0 T T 0 Jy + 0 A( y) 2 k + k0 . y θ 0 T T ⋅θ Jy (3.35). Podemos assim identificar em Λ ( y ,θ ) = − B( y ) + D( y ,θ ) (3.36) duas parcelas sendo que a primeira não depende de θ . O MSDLB obriga a calcular { E Λ ( y ,θ ) 2 } = E { B } − 2 E {DB} + E {D } (3.37). 2 2 Comecemos por calcular a última parcela que, tendo em conta (3.35) e (3.36), equivale a { }= ∫ E D 2 S1 A( y ) ( k +k 0 4 .y Tθ 0 ) 2 2 T ∫ θ Jy p (θ | y ).dθ . p ( y ) dy (3.38) 1444 S1 424444 3 ( {( E wTθ ) ) }, θ :VM A( y) , AA(( yy )) , w= Jy 2 31 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ O termo entre chavetas é calculado com o auxílio do lema B.3 do anexo B e das seguintes A( y ) , k = A ( y ) . Desta forma o termo referido em (3.38) tem A( y) identificações: w = Jy , µ = a seguinte expressão: ( ) ) 1 I2 A ( y ) 1 Jy )T A ( y ) A ( y )( Jy ) − ( Jy )T JA ( y ) A ( y )T J T ( Jy ) (3.39). + ⋅ 2 ( 2 2.I 0 A ( y ) A( y ) ( Recorrendo ( Jy ) T a (3.22) temos que ( Jy ) T A ( y ) = ( Jy ) ( k . y + k0 .θ 0 ) = k 0.θ 0T Jy T e que JA ( y ) = y T A ( y ) = k + k 0 . y T θ0 . Por isso a quantidade expressa em (3.39) é equivalente a ( ) ) 1 I2 A ( y ) 1 k 2 . θ T Jy + ⋅ 0 2 0 2 2.I 0 A ( y ) A( y) ( ( ) − ( k + k .y θ ) 2 T 0 2 0 (3.40). Substituindo (3.40) em (3.38) ficamos com { }= 2∫ E D 2 A ( y) 1 S 1 k +k .y θ ) (14243 2 T 0 ) ⋅ k . ( θ Jy ) − ( k + k . y θ ) p ( y ) dy (3.41) { I ( A( y ) ) 14444444442444444444 3 2 ⋅ A( y) + 2 I2 ( A ( y ) 2 T 0 0 2 2 T 0 0 0 0 TT ST PT Esta foi a expressão relativa a E {D 2 } introduzida no programa de MatLab que efectuou a integração numérica. Calculemos agora E {2 DB} , que tendo em conta (3.35) e (3.36) é equivalente a ( ) . θ Jy θ Jy . p (θ | y ) dθ ( ) ∫ ( ) θ ) I ( A( y ) ) 1444 424444 3 2. A ( y ) .k 0 3 E {2 DB} = ∫ S 1 ( k +k 0 .y T 2 ⋅ I1 A ( y ) T 0 T 0 0 S . p ( y ) dy (3.42). 1 {( )} A( y ) E wTθ , θ :VM A( y) , A( y ) , w= Jy O termo entre chavetas é calculado com o auxílio do lema B.2 do anexo B e das seguintes identificações: w = Jy , µ = A( y ) , k = A ( y ) . Desta forma o valor do integral entre A( y) chavetas é ( ) ⋅ A( y) Jy = I ( A ( y ) ) ⋅ k . θ Jy , ( ) ( A ( y) ) A ( y ) I ( A ( y ) ) . A ( y) I1 A ( y ) I0 T 1 0 T 0 0 pelo que (3.42) é reescrita como E {2 DB} = ∫ S1 ( ( 2 2. A ( y ) .k02 I 1 A ( y ) ⋅ 2 T k +k 0.y θ0 I 0 A ( y ) ( ) 32 ) . θ Jy ( ) ) 2 T 0 2 p ( y ) dy (3.43). 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ A parcela E { B2 } é calculada a partir de (3.35) e (3.36) resultando directamente na expressão que foi utilizada para fazer a integração numérica em MatLab, { } ∫ E B2 = S1 ( ( ( I1 A ( y ) ⋅ 2 T k + k0 . y θ 0 I 0 A ( y ) A( y) 2 ) ) ) 2 ⋅ k02 θ0T Jy ( ) ∫ p (θ | y ) dθ . p ( y ) dy (3.44). 2 S 144244 3 1 1 { A expressão final para E Λ ( y ,θ ) 2 } tendo em conta (3.37), (3.41), (3.43) e (3.44) resulta em { E Λ ( y ,θ ) 2 } = E {B } − 2E {DB} + E {D } = E { D } − E {B } (3.45). 2 2 2 2 O cálculo por integração numérica de (3.45) foi feito em MatLab usando as expressões (3.41) e (3.44) tal já tínhamos feito notar. Simulações. O cálculo do limiar foi efectuado recorrendo a integração numérica no MatLab. Para este efeito foi construída uma rotina que calcula (3.45) chamando duas sub-rotinas que implementam (3.41) e (3.44) respectivamente. Os resultados gráficos que se ( ( 4 ) ,sin (3π 4 )) em ambos os casos e θ 0 = cos 3π seguem foram produzidos fixando k 0 = 1 e k 0 = 0,5 respectivamente. Em abcissas fizémos variar o factor de concentração da probabilidade à posteriori k . Os pontos θ e y eram calculados aleatoriamente a partir de p (θ ) e p ( y | θ ) respectivamente em cada um dos 10.000 MonteCarlos por cada valor de k . A linha sólida representa o valor produzido pelo MSDLB ou seja o inverso de (3.45). A linha a tracejado representa os valores médios da distância calculada na variedade entre θ e θˆ calculado pelo estimador. Note-se que o MSDLB acompanha a curva simulada quando variamos o factor de concentração do prior, ou seja, quando k 0 diminui, o MSDLB (e o erro do estimador MMSD) aumenta. Tal é verificado já que quando k 0 diminui, aumenta a incerteza sobre a localização prévia de θ (em torno de θ 0 ). O ajuste entre as duas curvas é bom em ambos os exemplos mesmo para factores de concentração da função de verosimilhança baixos. 33 3.3 Caso Riemanniano com modelo probabilístico de Von Mises Capítulo 3 ___________________________________________________________________________ Figura 3.1 – Resultado da simulação para k 0 = 1 Figura 3.2 – Resultado da simulação para k 0 = 0,5 34 Conclusão ___________________________________________________________________________ Conclusão O objectivo principal que nos propusemos atingir com este trabalho foi a derivação de um limiar de desempenho para estimação Bayesiana de parâmetros em variedades Riemannianas. O limiar desenvolvido, que apelidámos de MSDLB, cumpre o objectivo traçado no sentido em que, verificadas as hipóteses assumidas no enunciado do teorema, consegue minorar o desempenho do estimador MMSD, a extensão para variedades Riemannianas do estimador MMSE em espaços Euclideanos. O estimador MMSD é óptimo segundo um critério por nós proposto que é coerente com as principais orientações sugeridas em [22]. Este critério considera óptimo o estimador que minimiza o valor esperado da distância Riemanniana quadrática entre o parâmetro nominal θ (não-observado) e o parâmetro estimado θˆ ( y ) e é natural no sentido em que se baseia na estrutura Riemanniana do espaço de parâmetros para avaliar quantitativamente erros de estimação. Trata-se de um limiar de desempenho para estimadores Bayesianos em variedades Riemannianas completamente independente de parametrizações do espaço de parâmetros – que é encarado como uma variedade “de per se” – e é calculado recorrendo à distância natural (intrínseca) na variedade Riemanniana e não à distância extrínseca do espaço ambiente em que está mergulhada a variedade (o qual, para espaços quociente, nem sequer existe naturalmente). Este trabalho é, por isso, uma contribuição para o tópico de limiares de desempenho em estimação sobre variedades cujas principais referências são [20] – que desenvolve um limiar no contexto Bayesiano para espaços Euclideanos -, [15] – que desenvolve um limiar no contexto Bayesiano para o caso particular de Lie Groups e no qual a distância utilizada é a extrínseca – e [19] - que desenvolveu um limiar no contexto determinístico para variedades Riemannianas utilizando a distância intrínseca. O MSDLB tem duas limitações principais que resultam de hipóteses assumidas ao longo da prova. i) A primeira limitação consiste na necessidade de encontrar uma expressão fechada para θˆMMSD e para o seu diferencial. Por outras palavras, o MSDLB é aplicável em situações compostas por um espaço de parâmetros (variedade Riemanniana), por um “prior” p (θ ) e por uma função de verosimilhança p ( y | θ ) tais que seja possível encontrar uma expressão em forma fechada para θˆ . MMSD 35 Conclusão ___________________________________________________________________________ ii) θˆMMSD tem que resultar num estimador preciso no sentido em que, para todo o y , o valor estimado θˆMMSD ( y ) tem que se encontrar numa vizinhança do valor verdadeiro θ . Tipicamente, esta hipótese é verificada em cenários de estimação com elevado “SNR” (Signal to Noise Ratio). Os resultados preliminares obtidos pela aplicação do MSDLB resultaram bastante optimistas. No primeiro caso, desenvolvido na secção 3.2, aplicámos o limiar desenvolvido ao caso Euclideano com modelos probabilísticos Gaussianos tanto para o “prior” como para a função de verosimilhança. Concluímos que o MSDLB, nestas condições, coincide precisamente com o limiar anteriormente desenvolvido por Van Trees em [20] para estimadores Bayesianos em Espaços Euclideanos. O cenário do segundo exemplo, desenvolvido na secção 3.3, era composto por um espaço de parâmetros que coincidia com o círculo unitário (variedade Riemanniana sem qualquer tipo de estrutura vectorial) e por modelos probabilísticos de Von Mises quer para o “prior” como para a função de verosimilhança. A aplicação do MSDLB nesta situação evidenciou uma boa concordância entre o limiar teórico e o desempenho do estimador MMSD mesmo para situações envolvendo parâmetros de concentração moderados (situação que pode ser interpretada como “SNR” moderado). Este exemplo parece indiciar que a limitação do MSDLB relacionada com a precisão de θˆMMSD , difícil de avaliar na prática como discutimos na secção 2.4, poderá não ser muito severa para algumas aplicações. Como trabalho futuro, será interessante aplicar o limiar desenvolvido para variedades com curvatura não nula, tais como o grupo das matrizes ortogonais, o espaço projectivo complexo, espaços Grassmann, etc, tentando, simultaneamente, identificar cenários onde o cálculo directo da variância do estimador MMSD resultasse complexo mas para os quais o MSDLB providenciasse uma alternativa computacionalmente mais atraente (optimisticamente, em forma fechada). Seria também interessante averiguar a extensão do limiar (ou respectiva prova) para funções de penalização (“loss”) diferentes da usada – a distância quadrática. 36 Anexo A ___________________________________________________________________________ Anexo A Provas para o capítulo 2 Lema A.1. Seja F : M → N uma submersão. Tal equivale a dizer que para qualquer campo vectorial Y ∈ TN existe um pré-imagem suave X ∈ TM por F* : TM → TN ou seja, ( ) F* X x0 = YF ( x0 ) , ∀ . x0 ∈M Prova: Seja dim M = n e dim N = p . Seja ainda p ∈ M , q = F ( p ) . Escolha-se Y ∈ TN . Como F é uma submersão então existem vizinhanças de coordenadas (U , ϕ ) de p e (V ,ψ ) de q tais que ∃ : Fˆ = ψ o F o ϕ : ϕ (U ) → ϕ (V ) p∈(U ,ϕ ) q∈(V ,ψ ) Fˆ ( x1 ,..., x p , x p +1 ,..., x n ) = ( x1,..., x p ) . Sejam Yˆ e X̂ dados por ∂ ∂ Yˆ = ψ * ( Y ) = f 1 ( y1,..., y p ) 1 + ... + f p ( y 1,..., y p ) p ∂y ∂y ∂ ∂ Xˆ x1 ,..., x p , x p +1 ,..., x n = f 1 ( x1,..., x p ) 1 + ... + f p ( x1,..., x p ) p . ( ) ∂x ∂x Então Fˆ* Xˆ = Yˆ , uma vez que DFˆ = [ I p 0] . Temos ainda que F* ( X ) = Y . Para tal ( ) ( ) escreva-se F como F = ψ − 1 o Fˆ o ϕ e recorde-se que X = ϕ*−1 Xˆ . Assim, ( ( )) = F* ( X ) = ψ *−1 o Fˆ* o ϕ* ϕ*−1 Xˆ ( ) (Ŷ ) = Y . ψ *−1 o Fˆ* Xˆ = ψ *−1 Construa-se agora um campo vectorial X% a partir de X definido em W ⊂ U tal que X → X% : X W = X% W , p ∈W ⊂ U , e X% ≡ 0, p ∉ U . Repita-se esta construção ponto a ponto de forma a obter a colecção {( ) } ( C = W p , X% ( p) : p ∈ M , F* X% ( p) W Claramente M = UW p∈ M p p ) = Y (A.1). . Como M é “second countable”, é possível de C extrair uma colecção mais refinada, C% = Wk , X% ( pk ) : pk ∈ M , k ∈ N , tal que se verifique M = UWk . {( ) } k Nestas condições é possível criar uma partição da unidade subordinada à colecção C% , 37 Anexo A ___________________________________________________________________________ J= = ϕk ∈ C ∞ ( M ) : ∑ϕ k k ≡ 1 , tal que supp ϕk ⊂ Wk . ∞ Defina-se X = ∑ ϕk ⋅ X% ( pk ) e calcule-se F* ( X k =1 F* ( X ). a∈M a∈M ) = F ∑ϕ * k k ∑ k: a ∈ supp ϕ k ⊂Wp k Atendendo a (A.1) é possível escrever ∑ a∈M k ∑ ϕ ( a ) ⋅ F ( X% k ⋅ X% ( pk ) ( pk ) * a ( )= ϕk ( a ) ⋅ F* X% ( pk ) k: a ∈ supp ϕ k ⊂Wp k a = )= ϕk ( a ) ⋅ YF (a ) = YF ( a ) ⋅ ϕk ( a ) = ∑ k : a ∈ supp ϕk ⊂Wpk Voltando a estender o somatório a toda a partição YF ( a) ⋅ ∑ ϕk ( a ) = YF ( a) . k 1 424 3 1 Lema A.2. Admita-se que a curvatura seccional de M é majorada por C ≥ 0 na bola geodésica Bε ( m) . Isto é K ( Π ) ≤ C , para todos os planos Π ⊂ Tn M , n ∈ B ε (m) . Suponha-se que Então a função k m : M → R , km ( n ) = 1 2 ⋅ d ( m, n ) é suave em Bε ( m) e tem-se 2 gradk m ( n ) = d (m , n ) (A) Hess k m ( X n , X n ) ≥ C d (m , n ) cot C d (m ,n ) , (B) para todo o X n ∈ Tn M com X n = 1 e n ∈B ε (m ) . Prova: Ver [25] 38 Cε < 1 2 . Anexo A ___________________________________________________________________________ Lema A.3. A seguinte desigualdade é verdadeira: x ⋅ cotg ( x ) ≥ 1 − 1 2 x ≥ 0 ∀ x∈ 0, 2 2 . Prova: Comece-se por notar que: 1 2 x ≥ 0 ∀ x∈ 0, 2 cos x 1 ⇔ x⋅ ≥ 1 − x 2 ≥ 0 ∀x∈0, sin x 2 2 < π 2 , vem que sin x > 0 ∀x∈0, 2 e é tal que: x ⋅ cotg ( x ) ≥ 1 − Como 2 2 . 1 2 ⇔ x ⋅ cos x ≥ sin x ⋅ 1 − x . 2 Seja ∆ ( x ) = xcos x − sin x + 1 2 x sin x . 2 ∆ (0) = 0 . Agora, ∆′ ( x ) = cos x − x sin x − cos x + x sin x + porque cos x ≥ 0, x ∈ 0, 2 . 39 1 2 1 x cos x = x2 cos x ≥ 0 , 2 2 Anexo A ___________________________________________________________________________ 40 Anexo B ___________________________________________________________________________ Anexo B Provas para o capítulo 3 Lema B.1. { Se η : VM ( k , µ0 ) , então argmin E arcos (ηT x ) x∈S1 ( 2 ) Prova: Defina-se J ( x) = ∫ arcos η T x e k .η S 1 2 T µ0 }=µ . 0 dη, x ∈ S1 . Começa-se por provar que µ0 é um ponto de estacionariedade de J ( x ) ou seja que Z , ∇ x J ( x ) = 0, ∀Z ∈T S1 . x =µ 0 µ0 As derivadas parciais do funcional J ( x ) valem dJ ηi = − ∫ arcos ηT x i dx S1 1 − ηT x ( ) ( ) 2 ek .η T µ0 dη (B.1). Admitindo sem perda de generalidade µ0 = [1,0] (basta reescrever o funcional J ( x ) 1 recorrendo à mudança de variável η = QT w ⇒ w = Q.η , com Q : QT µ 0 = ; a nova versão 0 avaliada em x = µ0 equivale a avaliar a original em x = [1,0] ) a expressão anterior avaliada em µ0 vale ηi ∂J = − ∫ arcos (η1 ) ek .η1 dη . i 2 ∂x x = µ0 = (1,0) S1 1 − (η ) 1 ∂J e parametrizando S 1 recorrendo a γ ( t ) = (cos t ,sin t ) temos, 1 ∂x θ ; θ ∈ [ 0, π ] atendendo a que arcos ( cos θ ) = , −θ ; θ ∈ [ −π , 0] Particularizando para π 0 ∂J cos θ k .cosθ cos θ k .cosθ = − θ e d θ + θ. e dθ ( ) 1 ∫ ∫ ∂x sin θ sin θ − π 0 0 π cos θ k .cosθ cos θ k .cosθ ⇔ − ∫ ( -θ ) e dθ + ∫ θ . e dθ = 0 . −π sinθ ( - sin θ ) 0 π ⇔ − ∫ θ. −π cos θ k .cosθ e dθ = a, a ≠ 0 sinθ ∂J Particularizando agora para 2 , ∂x 41 (B.2) Anexo B ___________________________________________________________________________ π 0 ∂J sin θ k .cosθ sin θ k .cosθ = − θ e d θ + θ. e dθ ( ) 2 ∫ ∫ ∂x sin θ (- sin θ ) 0 −π 0 π k .cos θ k .cos θ ⇔ − ∫ θ .e dθ + ∫θ .e dθ = 0 (B.3) −π 0 Ou seja, de acordo com (B.2) e (B.3) tem-se ∇ x J ( x ) = ( a ,0 ) . Como tal x =µ 0 =(1,0) Z , ∇ x J ( x ) = 0, ∀Z ∈T S1 , ou seja µ0 é um ponto estacionariedade de J ( x ) . x =µ 0 =(1,0) µ0 À medida que k tende para infinito, a massa da distribuição de Von Mises concentrase simetricamente numa vizinhança cada vez mais estreita em torno de µ0 . Como tal, no limite teríamos J ( µ0 ) = 0 . Uma vez que J ( x ) ≥ 0 conclui- se que µ0 é um ponto de mínimo. Lema B.2. Se θ : VM ( k , µ ) , então E {wTθ } = ( µ T w ) . I1 ( k ) I0 ( k ) , onde I n ( x ) designa a função de Bessel modificada de ordem n . Prova: Atendendo às hipóteses apresentadas podemos escrever T 1 E wTθ = ∫ wT θ e k .θ µ dθ . 2π I 0 ( k ) S1 A expressão anterior pode ser reescrita como 1 E wTθ = ∫ v T b e k .v1 dv (B.4), 2π I 0 ( k ) S1 se considerarmos as mudanças de variável µ2 µ T QT = 1 , θ = Qv , b = Q w , − µ µ 2 1 { { } } ( ) ( ) que por sua vez implicam θ T w = vT QT w . Desmembrando (B.4) e parametrizando S 1 recorrendo a γ ( t ) = (cos t ,sin t ) temos v1 v2 E wTθ = b1 ∫ ⋅ e k . v1 dv + b2 ∫ ⋅ e k . v1 dv 2π I 0 ( k ) 2π I 0 ( k ) S1 S1 { } π ⇔ b1 ∫ −π π cos( t ) k .cos( t ) sin(t ) ⋅e dt + b2 ∫ ⋅ e k . c o st( )dt (B.5), 2π I 0 ( k ) 2π I 0 (k ) −π 14442444 3 0 O termo entre parênteses em (B.5) vale zero já que a função integranda é ímpar. ∂ Por último, atendendo a que I1 ( x ) = I 0 ( x) e a (B.5) temos ∂x I1 ( k ) I1 ( k ) E {wTθ } = b1 ⋅ = ( µ T w) . . I0 ( k ) I0 (k) 42 Anexo B ___________________________________________________________________________ Lema B.3. { Se θ : VM ( k , µ ) , então E ( wTθ ) 2 } = 12 + 2.II ((kk)) ⋅( b − b ) com b = µ w e b = ( J µ ) 2 2 1 2 2 T T 1 2 0 onde I n ( x ) designa a função de Bessel modificada de ordem n . Prova: Atendendo às hipóteses apresentadas podemos escrever 2 2 T 1 E wTθ = ∫ wT θ e k .θ µ dθ 2π I 0 ( k ) S1 A expressão anterior pode ser reescrita como 2 2 1 E wTθ = ∫ vTb ek . v1 dv (B.6), 2 π I ( k ) 1 0 S se considerarmos as mudanças de variável µ2 µ T QT = 1 , θ = Qv , b = Q w , − µ µ 2 1 {( {( )} )} ( ) ( ) que por sua vez implicam θ T w = vT QT w . Desmembrando (B.6) temos v12 v22 vv b12 ∫ ⋅ e k .v1 dv + b22 ∫ ⋅ ek . v1 dv + 2b1b2 ∫ 1 2 ⋅ e k .v1 dv 1 2π I 0 ( k ) 1 2π I 0 ( k ) 1 2π I 0 ( k ) S S S144 42444 3 (B.7). 0 O termo entre parênteses em (B.7) vale zero já que a função integranda é ímpar. Desta forma, e parametrizando S 1 recorrendo a γ ( t ) = (cos t ,sin t ) , (B.7) equivale a b12 2π 1 + cos(2t) k .cost v22 2 ⋅ e dt + b ⋅ ek . v1 dv (B.8). 2 ∫ 2π I 0 ( k ) ∫0 2 2 π I ( k ) 1 0 S O primeiro termo de (B.8) equivale a 2π 2π 2 b1 1 1 ∫ ek .cost dt + ∫ cos(2t ).ek .cost dt 2π I 0 ( k ) 2 0 2 0 24 3 1442443 14 2 π I0 ( k ) 2 π I2 ( k ) 2 I2 (k ) b ⇔ 1 1+ (B.9). 2 I 0 ( k ) O segundo termo de (B.8), atendendo a que θ = v = 1 , equivale a 2 1 v1 b22 ∫ ⋅ ek . v1 dv − ∫ ⋅ e k .v1 dv S1 2π I 0 ( k ) 1 2π I 0 ( k ) 42444 3 S144 42444 3 144 1 1 I2 ( k ) 1 + 2 I0 ( k ) 2 b I 2 (k ) (B.10). ⇔ 2 1− 2 I 0 ( k ) 43 w, Anexo B ___________________________________________________________________________ Finalmente (B.7) atendendo a (B.9) e (B.10) e ao facto de b = w = 1 equivale a {( E wθ T )} 2 {( b12 I 2 ( k ) b22 I 2 ( k ) = 1 + + 1 − 2 I 0 ( k ) 2 I 0 ( k ) ⇔ E wT θ I 2 (k ) ) } = 12 + 2.I ( k ) ⋅ (b 2 0 com, b1 = µ T w . T b2 = ( J µ ) w 44 2 1 ) − b22 , Referências ___________________________________________________________________________ Referências [1] D. Gabay. Minimizing a diferentiable function over a diferentiable manifold. Journal of Optimization Theory and Applications, 37(2):177–219, 1982. [2] D. G. Luenberger. The gradient projection method along geodesics. Management Science, 18:620–631,1972. [3] A. Edelman, T. A. Arias, and S. T. Smith. The geometry of algorithms with orthogonality constraints. SIAM Journal on Matrix Analysis and Applications, 20(2):303–353, 1998. [4] J. H. Manton. Optimisation algorithms exploiting unitary constraints. IEEE Transactions on Signal Processing, 50(3):635–650, March 2002. [5] R. S. Bucy, J. M. F. Moura and S. Leung, “Geometrical methods for directio n determination,” in Proceedings of the NATO Advanced Study Institute on Acoustic Signal Processing for Ocean Exploration, pp. 187–191, Madeira, Portugal1992. [6] J. Xavier and V. Barroso, “Performance Analysis of a Second Order Statistics Based Solution for the MIMO Channel Identification Problem,” Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’01), vol. 4 , pp. 1241–1244, Salt Lake City, EUA, May 2001. [7] J. Xavier and V. Barroso, “Second-Order Blind MIMO Channel Identification Based on Correlative Coding: Asymptotic Performance Analysis,” Proceedings of the 2001 IEEE International Symposium on Information Theory, Washington, EUA, June 2001. [8] H. Hendricks, “A Cramer-Rao type lower bound for estimators with values in a manifold,” Journal of Multivariate Analysis, no. 38, pp. 245–261, 1991. [9] U. Granander, M. Miller and A. Srivastava, “Hilbert-Schmidt lower bounds for estimators on matrix Lie groups for ATR,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no. 8, pp. 790–802, August 1998. [10] S. Smith, “Intrinsic Cramer-Rao bounds and subspace estimation accuracy,” 1st IEEE Workshop on Sensor Arrays and Multichannel Signal Processing, Boston, MA, 2000. [11] J. Xavier and V. Barroso, “Intrinsic Distance Lower Bound for Unbiased Estimators on Riemannian Manifolds,” Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’02), vol. 2, pp. 1141–1144, Orlando, Florida, EUA, May 2002. [12] J. Xavier and V. Barroso, “Intrinsic Variance Lower Bound for Inference Problems on Riemannian Manifolds,” Proceedings of the 10th Mediterranean Conference on Control and Automation (MED’2002), Lisbon, Portugal, July 2002. [13] J. Xavier and V. Barroso, “The Riemannian Geometry of Certain Parameter Estimation Problems with Singular Fisher Information Matrices,” Proceedings of the IEEE International 45 Referências ___________________________________________________________________________ Conference on Acoustics, Speech and Signal Processing (ICASSP’04), vol. 2, pp. 1021–1024, Montreal, Canada, May 2004. [14] J. Xavier and V. Barroso, “Intrinsic Variance Lower Bound (IVLB) for Unbiased Estimators on Riemannian Manifolds”, in preparation, to submit to IEEE Transactions on Signal Processing. [15] A. Srivastava, “A Bayesian approach to geometric subspace estimation,” IEEE Transactions on Signal Processing, vol. 48, no. 5, pp. 1390–1400, May 2000. [16] W. Boothby. An Introduction to Diferentiable Manifolds and Riemannian Geometry. 2nd ed., New York: Academic Press, 1986. [17] S. Gallot, D.Hulin, and J. Lafontaine. Riemannian Geometry. 2nd ed., Springer-Verlag, 1990. [18] J. Lee. Riemannian manifolds. Springer-verlag, 1997. [19] Xavier, J. Blind Identification of MIMO Channels Based on 2nd Order Statistics and Colored Input, PhD., Instituto Superior Técnico, 2002 [20] H. Van Trees. Detection, Estimation and Modulation Theory, Part I. New York: Wiley, 1968. [21] H. Hicks, “A Cramer-Rao type lower bound for estimators with values in a manifold,” Journal of Multivariate Analysis, no. 38, pp. 245–261, 1991. [22] I. Jermyn, “On Bayesian Estimation in Manifolds”, Rapport de recherché, Laboratoire I3S, Universidade Sophia Antipolis, Outubro 2002 [23] Mardia, Jupp. Directional Statistics, Wiley Series in Probability and Statistics, Wiley [24] Jonh Lee, Introduction to Smooth Manifolds, Springer Verlag [25] J. Jost. Riemannian Geometry and Geometric Analysis. 2nd ed. Springer-Verlag, 1998. 46