UNIVERSIDADE TÉCNICA DE LISBOA
Instituto Superior Técnico
LIMIAR DE DESEMPENHO PARA ESTIMAÇÃO BAYESIANA
DE PARÂMETROS EM VARIEDADES RIEMANNIANAS
João Henrique Dias Leonardo, nº 47994, AE de Telecomunicações
LICENCIATURA EM ENGENHARIA ELECTROTÉCNICA E DE COMPUTADORES
RELATÓRIO DE TRABALHO FINAL DE CURSO
093/2003
Prof. Orientador: João Xavier
Novembro de 2004
___________________________________________________________________________
Agradecimentos
As minhas primeiras palavras de gratitude são dirigidas ao corpo do Instituto de
Sistemas e Robótica, nomeadamente aos professores João Sentieiro e Victor Barroso. Graças
a estes professores pude sempre trabalhar em condições excepcionais, mergulhado num
sempre contagiante e estimulante ambiente científico. Em particular agradeço ao professor
Victor Barroso a oportunidade que tive, cedo na licenciatura, de conhecer o professor João
Xavier que viria a ser o meu orientador desde então.
Dirijo- lhe, sem dúvida, um agradecimento muito especial. Ao longo de quase três anos
tive o privilégio de contar com a sua total disponibilidade para aprender, não apenas uma
quantidade de factos técnicos que excede em larga escala aquela que é apresentada neste
trabalho, como também um enorme fascínio pela investigação científica. À excepcionalidade
ímpar das suas faculdades tanto intelectuais como humanas muito devo por grande parte do
que aprendi e cresci ao longo deste curso.
Aos meus colegas do mundo académico estendo também um grande obrigado, em
especial ao João Sousa meu melhor amigo de curso a quem muito agradeço pelo apoio ao
longo destes cinco anos, ao Marko Beko pela companhia sempre divertida e interessante nas
tardes que passámos no laboratório (muitas vezes multiplexando sinais com futebol) e a tantos
outros amigos que tive a sorte de encontrar na minha passagem pela Alameda.
Fora do contexto académico, queria agradecer de forma muito especial à minha
família, sobretudo aos meus pais pelo imenso apoio com o qual sempre tive a sorte de poder
contar e pelas excepcionais condições e oportunidades que me proporcionaram ao longo deste
trajecto, e aos meus amigos e amigas mais especiais, dos quais destaco o Luís que de pronto
se disponibilizou para me ajudar na escrita deste relatório.
Por razões tão especiais quanto impossíveis de enumerar, termino dedicando este
trabalho e a minha carreira no Instituto Superior Técnico à minha mãe e ao meu melhor amigo
de sempre, Jack.
ii
___________________________________________________________________________
Resumo
Este trabalho aborda o tema da estimação Bayesiana em problemas de inferência paramétrica
nos quais o espaço de parâmetros está estrut urado como uma variedade Riemanniana conexa.
Exemplos ilustrativos destes problemas ocorrem em estimação paramétrica sujeita a restrições
determínisticas (o espaço de parâmetros é uma subvariedade de um espaço Euclideano), em
estimação com ambiguidades int rínsecas (o espaço de parâmetros adequado assume a forma
de um espaço quociente), em problemas relacionados com estatísticas direccionais, etc. Ou
seja, o enquadramento teórico Riemanniano permite tratar de modo unificado um grande
leque de problemas de interesse prático. Em espaços Euclideanos (um caso especial de uma
variedade Riemanniana), a média do erro quadrático de estimação é um critério geralmente
utilizado para aferir a qualidade ou precisão de estimadores. Neste contexto Euclideano,
“erro” designa a distância Euclideana entre o parâmetro “verdadeiro” e o estimado. Este
critério pode ser imediatamente generalizado ao caso Riemanniano, porque a estrutura
Riemanniana presente no espaço de parâmetros induz canonicamente uma métrica, ou seja,
uma distância Riemanniana intrinseca à variedade. Para esse critério generalizado, o
estimador óptimo é o MMSD (Minimum Mean Square Distance), uma extensão natural do
conhecido estimador MMSE (Minimum Mean Square Error) no caso Euclideano. A
contribuição deste trabalho consiste na derivação de um limiar de desempenho – o MSDLB
(Mean Square Distance Lower Bound) - para o estimador MMSD, para determinados cenários
Bayesianos. Dada a optimalidade do estimador MMSD, o limiar que apresentamos resulta
num limite fundamental, válido para os demais estimadores (à luz do critério generalizado
mencionado acima). O MSDLB é ilustrado com dois exemplos. O primeiro exemplo
considera um espaço Euclideano com modelo probabilístico Gaussiano. Mostramos que, neste
caso simples, o MSDLB coincide com o resultado já conhecido: limiar Cramér-Rao
estocástico. No segundo exemplo, consideramos um problema de inferência paramétrica
Bayesiana no âmbito das estatísticas direccionais. Mais precisamente, consideramos o círculo
unitário como espaço de parâmetros (e de observação) associado a um modelo probabilístico
de Von Mises. São discutidas ainda as principais limitações teóricas do limiar desenvolvido (a
principal consiste na necessidade de determinar o estimador MMSD associado ao cenário
Bayesiano a analisar).
Palavras Chave: Estimação Bayesiana, Variedades Riemannianas, Limiares de desempenho,
Estimador MMSD, Limiar MSDLB.
iii
___________________________________________________________________________
Abstract
The subject of this work is Bayesian Estimation applied to parametric inference problems in
which the parameter space is structured as a connected Riemann Manifold. Illustrative
examples of such problems occur in parametric estimation subdue to deterministic restrictions
(the parameter space is a sub- manifold of an Euclidean Space), in estimation problems with
intrinsic ambiguities (the appropriate parameter space is a quotient space), in problems related
with directional statistics, etc. That is, the theoretical Riemannian framework allows us to deal
with a great scope of practical problems in a unified manner. In Euclidean spaces (which are a
special case of Riemann Manifolds) the estimation mean square error is a criterion often used
to check the quality or precision of the estimators. In this Euclidean context, “error” stands for
the Euclidean distance between a “true” parameter and the estimated one. This criterion can
be straightforwardly generalized to the Riemannian case, because the Riemannian structure
available on the parameter space canonically induces a metric, that is, an intrinsic Riemannian
distance on the manifold. For this generalized criterion, the optimal estimator is the MMSD
(Minimum Mean Square Distance), a natural extension of the known MMSE estimator
(Minimum Mean Square Error) in the Euclidean case. The contribution of this work consists
in deriving a lower performance bound for the MMSD estimator – the MSDLB (Mean Square
Distance Lower Bound) -, in some Bayesian estimation scenarios. Because the MMSD is an
optimal estimator, our proposed bound results on a fundamental limit, effective to other
estimators (in sight of the above mentioned generalized criterion). Two examples illustrate the
MSDLB concept. The first tackles a Euclidean space with a Gaussian probabilistic model. We
show that, in this simple case, the MSDLB exactly corresponds to the stochastic Cramer-Rao
Bound. In the second example we consider a Bayesian parametric inference problem within
the framework of directional statistics. More precisely we consider the unitary circle as the
parameter (and observation) space associated with a Von Mises probabilistic model. We
further discuss the main theoretical constraints of the derived bound (of wich the main one
consists in the fact that one needs to calculate the MMSD estimator associated with the
Bayesian scenario to be analyzed).
Keywords: Bayesian Estimation, Riemannian Manifolds , Performance lower bounds,
MMSD estimator, MSDLB bound.
iv
___________________________________________________________________________
ÍNDICE
Resumo ..................................................................................................................................... iii
Abstract.....................................................................................................................................iv
Introdução ................................................................................................................................. 1
Capítulo 2 – O limiar MSDLB ................................................................................................ 9
2.1 Resumo do capítulo .......................................................................................................... 9
2.2 Estimador MMSD.......................................................................................................... 10
2.3 Teorema MSDLB........................................................................................................... 11
2.4 – Comentários ................................................................................................................ 18
Capítulo 3 – Ilustrações do MSDLB..................................................................................... 21
3.1 Resumo do Capítulo ....................................................................................................... 21
3.2 - Caso Euclideano com modelo probabilístico Gaussiano ............................................ 22
3.2.1 – Motivação do exemplo ......................................................................................... 22
3.3.2 – Apresentação do exemplo .................................................................................... 22
3.2.3 – Aplicação do MSDLB.......................................................................................... 23
3.3 - Caso Riemanniano com modelo probabilístico de Von Mises .................................... 25
3.3.1 – Motivação do exemplo ......................................................................................... 25
3.3.2 – Apresentação do exemplo .................................................................................... 26
3.3.3 – Aplicação do limiar MSDLB e simulações.......................................................... 28
Conclusão ................................................................................................................................ 35
Anexo A ................................................................................................................................... 37
Provas para o capítulo 2 ....................................................................................................... 37
Lema A.1. ......................................................................................................................... 37
Lema A.2. ......................................................................................................................... 38
Lema A.3. ......................................................................................................................... 39
Anexo B ................................................................................................................................... 41
Provas para o capítulo 3 ....................................................................................................... 41
Lema B.1. ......................................................................................................................... 41
Lema B.2. ......................................................................................................................... 42
Lema B.3. ......................................................................................................................... 43
Referências .............................................................................................................................. 45
v
___________________________________________________________________________
LISTA DE FIGURAS
Figura 2.1 – Variação do MSDLB com λ ...............................................................................17
Figura 3.1 – Resultado da simulação para k 0 = 1 .....................................................................32
Figura 3.1 – Resultado da simulação para k 0 = 0,5 .................................................................32
vi
___________________________________________________________________________
NOTAÇÃO
O número que aparece em frente a cada elemento designa a página onde este aparece
pela primeira ve z.
LISTA DE SIMBOLOS
R n - Conjunto dos vectores n-dimensionais com entradas reais
1
G (p , n ) - um sub-espaço linear de dimensão p em R n
2
Θ - Espaço de parâmetros
5
Ω - Espaço de observações
5
S 1 - Círculo unitário
6
θˆMMSD - Estimador MMSD
10
Tθ Θ - Espaço tangente a Θ no ponto θ
12
F* - Diferencial do mapa F
12
dimΘ - Dimensão da variedade Θ
12
supp f - Suporte da função f
12
Uε ( p ) - vizinhança normal ε -uniforme de p
12
grad f - gradiente de f
14
Hess f - Hessiana de f
14
∇ - Conexão de Levi-Civita
14
cot ( x ) - Cotangente de x
16
. - Norma de Frobenius de .
22
N ( µ , Σ ) - Distribuição normal de média µ e matriz de covariância Σ
22
A† - Pseudo-inversa da matriz A
24
tr ( X ) - Traço da matriz X
25
ι * - “Pullback” por ι
26
I n ( x ) - Função de Bessel modificada de ordem n
26
AT - Transposta da matriz A
22
Bε ( p ) - Bola geodésica de raio ε em torno de p
38
vii
___________________________________________________________________________
LISTA DE SIGLAS
MIMO – Multiple Input Multiple Output
2
ML – Maximum Likelihood
3
IVLB – Intrinsic Variance Lower Bound
4
MMSE – Minimum Mean Square Error
4
MSDLB – Minimum Square Distance Lower Bound
4
MMSD – Minimum Mean Square Distance
5
SNR – Signal to Noise Ratio
36
f.d.p. – função densidade de probabilidade
26
viii
Introdução
___________________________________________________________________________
Introdução
Motivação. Nos últimos anos a comunidade de processamento de sinal tem vindo a
demonstrar cada vez mais interesse na área das metodologias e técnicas da Geometria
Diferencial tal como é por exemplo prova a existência de uma sessão especial no workshop
IEEE SPAWC (Signal Processing Advances in Wireless Communications) 2004, dedicada
precisamente a este tema e patrocinada pela National Science Foundation (NSF). Também na
conferência IEEE ICASSP 2004 (International Conference on Acoustics, Speech and Signal
Processing) teve lugar uma sessão especial dedicada à temática “Manifold Learning”, que
intersecta largamente (em termos conceptuais) com a área de Geometria Diferencial.
Tal como a Álgebra Linear contribui de forma decisiva na análise teórica e criação de
ferramentas para problemas no âmbito do processamento linear de sinal, também a Geometria
Diferencial, em particular o sub-ramo da geometria Riemanniana, fornece o enquadramento
teórico apropriado para uma classe importante de problemas no âmbito do processamento
não- linear de sinal. Exemplos ilustrativos ocorrem em tópicos tão diversos como:
optimização, [1], [2], [3], [4], “space-time coding”, [5], [6], [7], estimação paramétrica
determinística, [8], [9], [10], [11], [12], [13], [14], estimação Baye siana [15], etc.
A Geometria Diferencial generaliza a maquinaria do cálculo diferencial em espaços
Euclideanos para espaços com curvatura, ou, mais precisamente, para variedades. Em termos
intuitivos, uma variedade é um espaço que se assemelha localmente a um espaço Euclideano,
mas não globalmente. Exemplos de variedades: a esfera de raio unitário centrada na origem de
R n , o torus (doughnut), o conjunto das matrizes ortogonais, etc. Existem muitas obras
bibliográficas dedicadas à Geometria Diferencial, das quais destacamos [16], [17], [18] pelo
seu carácter introdutório.
Este tipo de objectos matemáticos - as variedades - estão longe de serem meras
abstracções formais no contexto do Processamento de Sinal. De facto, elas surgem
naturalmente em vários cenários assumindo (essencialmente) duas formas.
Na primeira forma, a mais comum, as variedades surgem como superfícies embebidas
em espaços ambiente Euclideanos. De facto, em problemas de estimação paramétrica em que
o parâmetro está naturalmente restrito a uma determinada superfície em R n torna (geralmente)
o espaço de parâmetros numa variedade aí embebida. Por exemplo, restrições de potência em
emissores multi-antena geralmente implicam que o vector de símbolos emitido está confinado
a uma esfera (ou um produto Cartesiano de esferas). Outro exemplo, este em processamento
1
Introdução
___________________________________________________________________________
de imagem, ocorre na estimação da pose de uma câmera: tal corresponde a estimar uma
matriz ortogonal, ou seja, o espaço de parâmetros é o grupo de Lie das matrizes ortogonais.
Ainda outro exemplo em processamento de imagem que involve as matrizes ortogonais
consiste no registro (alinhamento) de duas imagens através de uma rotação. Estes e outros
exemplos constituem situações onde emanam naturalmente variedades deste tipo.
A segunda forma de ocorrência de variedades em processamento de sinal faz-se
através dos chamados espaços quociente. Um exemplo de um espaço quociente é o espaço
Grassmann G ( p , n ) : um ponto em G ( p , n ) representa um sub-espaço linear de dimensão p
em R n . Note-se que G ( p , n ) é um espaço abstracto que não é directamente identificável com
uma superfície num espaço Euclideano (embora, pelo famoso “Embedding Theorem” de John
Nash, seja possível sintetizar uma versão isométrica do mesmo num espaço Euclideano de
dimensão suficientemente elevada). Os espaços Grassmann surgem, por exemplo, no
problema de determinação das direcções de chegada (das frentes de onda) de vários emissores
quando observados por um agregado de antenas linear e uniforme. Ver, por exemplo [5].
Outro problema bem conhecido em processamento de sinal que envolve espaços Grassmann é
o problema de seguimento de sub-espaços (subspace tracking) [15]. Mais genericamente, os
espaços quociente surgem de forma natural em problemas de estimação paramétrica afectados
por ambiguidades intrínsecas. Aqui, os pontos do espaço de parâmetros (na formulação
original) não são identificáveis a partir das observações, ou, dito de outra forma, nestes
contextos, parâmetros distintos induzem distribuições idênticas no espaço das observações.
Assim, porque se torna teoricamente impossível a determinação de um ponto no espaço de
parâmetros a partir das observações (devido às ambiguidades, uma infinidade de pontos são
indiscerníveis ou equivalentes), o espaço de parâmetros “correcto” é o espaço quociente que
resulta após particionar o espaço de parâmetros original pela relação de equivalência (que
captura as ambiguidades). Note-se que, então
(por construção), os pontos no espaço
quociente são identificáveis e faz assim sentido tentar estimar, não um ponto no espaço de
parâmetros original, mas a sua classe de equivalência. Em vários contextos, o espaço
quociente assim resultante admite uma estrutura Riemanniana que interliga de forma elegante
com a geometria do espaço de parâmetros original. Um exemplo desta construção é discutido
em [19] no âmbito da identificação cega de canais MIMO (Multiple-Input Multipe-Output) a
partir de estatísticas de segunda ordem.
Tal como as funções diferenciáveis em espaços Euclideanos, também é possível
diferenciar certas funções definidas em variedades. Outras ferramentas providenciadas pela
Geometria Diferenc ial permitem avaliar a suavidade de mapas entre variedades, calcular os
seus diferenciais, integrar funções em variedades, optimizar funções em variedades (vs.
2
Introdução
___________________________________________________________________________
optimizar a mesma função no espaço ambiente com restrições), etc. Note-se que, por
exemplo, optimizar funções definidas em variedades é precisamente o problema enfrentado
pelo estimador ML (Maximum Likelihood) quando o espaço de parâmetros é uma variedade
diferencial (ex: grupo das matrizes ortogonais). As operações de cálculo mencionadas atrás
são sobejamente utilizadas em processamento de sinal quando a variedade é um espaço
Euclideano.
Numa classe especial de variedades, as chamadas variedades Riemannianas, para além
das ferramentas descritas no último parágrafo temos ainda acesso a outras construções
geométricas tais como a função distância natural entre dois pontos da variedade, o
comprimento de uma curva na variedade, a noção de geodésica (generalização da linha recta
em espaços Euclideanos), as quais, em conjunto com as primeiras, fornecem um
enquadramento teórico e um conjunto poderoso de técnicas que permitem transpor muito do
conhecimento de Processamento de Sinal em espaços Euclideanos para variedades com
curvatura.
Objectivo. Este trabalho insere-se no âmbito do tópico da Estimação Paramétrica Bayesiana.
No contexto determinístico ou Bayesiano, os limiares de desempenho (“bounds”) indicam
aquilo que pode ou não ser atingido num determinado cenário de estimação. A importância
destas ferramentas teóricas é bem conhecida em Processamento de Sinal. O objectivo
primordial deste trabalho é precisamente derivar um limiar de desempenho para estimação em
variedades Riemannianas e em contextos Bayesianos.
Contribuição. De modo a evidenciar a nossa contribuição, descrevemos de seguida (ainda
que de forma muito sumária) qual o ponto da situação (“state of the art”) no que diz respeito à
existência de limiares de desempenho em contextos Bayesianos.
Quando o espaço de
parâmetros é um aberto de um espaço Euclideano, a referência principal é [20]. Aí, deriva-se
um limiar de desempenho para o contexto Bayesiano, por extensão elementar do conhecido
limiar de Cramér-Rao (para o caso determínistico). Mais recentemente, a estimação
paramétrica Bayesiana e determinística têm começado a ser analisadas para cenários em que o
parâmetro a estimar reside numa variedade. Esta situação é frequentemente encontrada nos
mais variados problemas de processamento de sinal (por exemplo, [8], [9], [11], [13], [14],
[15]).
No âmbito da estimação paramétrica determinística em variedades, a temática dos
limiares de desempenho foi abordada apenas recentemente. A referência principal é [21],
onde é desenvolvido um limiar para o caso de variedades diferenciáveis recorrendo a
3
Introdução
___________________________________________________________________________
desigualdades tensoriais. Note-se que o trabalho em [21] não pressupõe uma estrutura
Riemanniana no espaço de parâmetros, apenas uma estrutura diferenc iável. Assim, a partir de
[21] não é possível extrair um limiar de desempenho que caracterize o comportamento de
estimadores em termos do “erro” de estimação, ond e “erro” significa distância entre
parâmetro verdadeiro e estimado. Do ponto de vista da engenharia, é mais relevante um limiar
de desempenho quantitativo para a precisão dos estimadores. Quando o espaço de parâmetros
é uma variedade Riemanniana, existe uma métrica canónica (que emerge dessa estrutura) e
que constitui a “escolha natural” para medir distâncias entre pontos da variedade (em
particular, entre parâmetro verdadeiro e estimado). Em [14] foi proposto o IVLB (Intrinsic
Variance Lower Bound) para problemas de estimação paramétrica determinística formulados
em variedades Riemannianas. O IVLB estabelece um limiar de desempenho quantitativo para
o erro dos estimadores, formulado em termos da distância Riemanniana subjacente para o
caso de variedades Rie mannianas.
A temática de limiares de desempenho no contexto Bayesiano para estimadores a
operarem em variedades Riemannianas foi até hoje muito pouco aflorada. A única referência
conhecida é [15], onde se desenvolve um limiar para o caso particular em que a variedade
Riemanniana é um grupo de Lie. Contudo, o limiar aí apresentado é calculado utilizando a
distância extrínseca - a função distância do espaço ambiente - e não a distância natural
(intrinseca) na variedade. Assim, não estão cobertos por esse estudo o caso de variedades
mais gerais embebidas em espaços Euclideanos (por exemplo, a esfera), nem os espaços
quociente. Em 2003, o laboratório I3S da Universidade de Sophia Antipolis publicou um
relatório argumentando que um estimador “adequado” (invariante a mapas de coordenadas)
para o caso Bayesiano em variedades Riemannianas deverá consistir numa extensão do
estimador MMSE (Minimum Mean Square Error) neste cenário, ver [22]. Contudo, não se
apresenta qualquer limiar de desempenho.
A contribuição deste trabalho é a seguinte: apresenta-se um limiar de desempenho para
estimadores que operam em variedades Riemannianas no contexto Bayesiano. O limiar que
apresentamos é inovador no sentido em que não especifica qualquer tipo de estrutura
Riemanniana particular (por exemplo, não se exige a estrutura de grupo de Lie) e é formulado
em termos da distância intrínseca (Riemanniana) no espaço de parâmetros. Assim, em
particular, é aplicável também a espaços quociente. Contudo, existem algumas restrições à
aplicação do teorema que suporta o limiar por nós proposto (ver capítulo 2). O limiar
desenvolvido neste trabalho foi designado por MSDLB (Mean-Square Distance Lower
Bound). O MSDLB é atingido precisamente por uma extensão do estimador MMSE, que
4
Introdução
___________________________________________________________________________
designamos por MMSD (Minimum Mean-Square Distance), estando por isso em total sintonia
com as conclusões do relatório do laboratório I3S atrás citado [22].
Frisamos que o limiar que apresentaremos - o MSDLB - não pode ser recuperado
como um caso especial do limiar proposto para o caso Euclideano em [20], mesmo que o
espaço de parâmetros seja uma variedade coberta na sua globalidade por um único mapa de
coordenadas ϕ isométrico (face à estrutura canónica de R p ), o que, para espaços com
curvatura diferente de zero, não é possível. Poderíamos ser tentados a aplicar o limiar de Van
Trees na imagem por ϕ da variedade, um aberto de R p , com p igual à dimensão do espaço
da variedade. Se o fizéssemos chegaríamos a um resultado falacioso e diferente daquele que o
MSDLB, no caso de ser aplicável, produziria. Tratar-se- ia de um resultado falacioso no
sentido em que, para além de depender sempre do mapa de coordenadas escolhido, seria
calculado recorrendo à métrica de R p de forma implícita na aplicação do limiar de Van
Trees. O MSDLB propõe precisamente um limiar independente de parametrizações ou mapas
de coordenadas sendo calculado directamente na variedade “de per se” e utilizando a distância
natural ou intrínseca ao espaço de parâmetros à semelhança do que foi feito em [19] mas
agora para o contexto Bayesiano.
Como apresentamos no capítulo 3, o MSDLB, quando aplicado ao caso particular de
espaços Euclideanos com modelos probabilísticos Gaussianos, recupera o limiar desenvolvido
em [20]. Neste sentido, constitui uma generalização do resultado em [20] para espaço de
parâmetros com curvatura (de notar que a nossa linha de prova é contudo muito distinta
daquela usada em [20]).
Estrutura do TFC. Este trabalho consiste numa introdução, numa conclusão e em dois
capítulos principais. Cada capítulo começa com uma secção onde se apresenta um resumo do
que irá ser desenvolvido nas secções subseque ntes bem como dos resultados principais.
Capítulo 2. No capítulo 2
começamos por definir um critério de desempenho para
estimadores que tomam valores na variedade Riemanniana Θ (espaço de parâmetros).
Lembramos que um estimador corresponde a uma aplicação do espaço de observações Ω
para o espaço de parâmetros Θ . O nosso critério utiliza a métrica natural em Θ para avaliar o
desempenho de qualquer estimador θˆ : Ω → Θ . À luz deste critério obtemos o estimador
óptimo a que apelidamos de estimador MMSD (Minimum Mean Square Distance), que
constitui uma generalização dos estimadores MMSE (Minimum Mean Square Error) para o
caso Euclideano.
5
Introdução
___________________________________________________________________________
Na secção seguinte enunciamos e provamos o teorema MSDLB (Mean Square
Distance Lower Bound). Este teorema dá a conhecer um limite inferior para o desempenho de
qualquer estimador θˆ : Ω → Θ , já que limita inferiormente o desempenho do estimador
óptimo – o MMSD. Estabelece-se assim um limite fundamental à capacidade de reconstrução
do ponto θ ∈Θ , com base na observação y ∈ Ω . Na última secção do capítulo 2 são
discutidas e comentadas as hipóteses assumidas no teorema MSDLB, nomeadamente quanto
ao seu poder limitativo do âmbito de aplicação do teorema.
Capítulo 3. O capítulo 3 é dedicado à ilustração do MSDLB com dois exemplos que
permitam aferir a precisão do limiar derivado na capítulo anterior.
Como é boa prática na temática dos limiares de desempenho, começamos por aplicar o
MSDLB ao cenário Euclideano em que Θ = R p com modelos probabilísticos Gaussianos para
o “prior” p (θ ) e para a função de verosimilhança p ( y | θ ) . Concluímos esta secção
provando que o MSDLB neste caso recupera exactamente o limiar proposto por Van Trees em
[20], que neste tipo de cenários serve de “benchmark”.
A secção seguinte é dedicada ao segundo exemplo que visa explorar as
potencialidades do MSDLB numa variedade Riemanniana desprovida de estrutura vectorial.
Para esse efeito escolhemos para o espaço de parâmetros o círculo unitário em R 2 ou seja
{
}
Θ = S1 , S 1 = x ∈ R 2 : x = 1 . O modelo probabilístico escolhido para o “prior” e para a
função de verosimilhança é o de Von Mises. Nesta decisão pesou a quantidade de aplicações
que este tipo de modelos probabilísticos suportados na esfera tem nas mais diversas áreas
científicas. A referência [23] refere aplicações em áreas tão díspares e interessantes como
Processamento de Imagem, Medicina, Geologia, Psicologia ou mesmo Meteorologia.
Por exemplo, a leitura de [23] permite concluir que o problema apresentado nesta
secção pode ser encarado no âmbito da Meteorologia como um problema em que se tenta
estimar o sentido do vento (diga-se num aeroporto) com base num registo de leituras
efectuado ao longo de determinado período de tempo e admitindo um conhecimento “a priori”
sobre os ventos dominantes na região. Como tal, tanto uma observação como o parâmetro
dizem respeito a sentidos de sopro de vento (independentes da intensidade do mesmo), pelo
que podem ambos ser representados como pontos do círculo unitário.
O capítulo termina com uma secção onde se compara o limiar MSDLB com os
resultados obtidos através da simulação por MonteCarlos. Os gráficos exibidos evidenciam
uma boa concordância entre o comportamento observado para o estimador MMSD e o limiar
teórico mesmo quando os parâmetros de concentração dos modelos de Von Mises são
pequenos.
6
Introdução
___________________________________________________________________________
Capítulo 4. O trabalho culmina com o capítulo das conclusões. Aqui procuramos evidenciar
as mais importantes contribuições do MSDLB assim como as suas principais limitações.
Confrontamos ainda o comportamento verificado pelo MSDLB nos dois exemplos testados
com aquilo que seriam as expectativas iniciais. Concluímos com sugestões de trabalho a
desenvolver para um possível refinamento deste limiar bem como para outras aplicações
igualmente sugestivas e interessantes.
7
Introdução
___________________________________________________________________________
8
2.1 Resumo
Capítulo 2
___________________________________________________________________________
Capítulo 2 – O limiar MSDLB
2.1 Resumo do capítulo
Neste capítulo apresentamos o MSDLB (Mean-Square Distance Lower Bound). O MSDLB
estabelece um limiar mínimo para o erro quadrático médio de estimadores que tomam valores
em variedades Riemanniana em contextos Bayesianos. Os ingredientes em jogo são: (i) o
espaço de parâmetros Θ que está estruturado como uma variedade Riemanniana conexa.
Note-se que desta estrutura Riemanniana emergem espontaneamente uma função distância d
em Θ e uma medida dθ na σ -algebra Boreleana de Θ ( σ -algebra gerada pela topologia de
Θ ). Um ponto genérico de Θ é representado por θ ; (ii) uma função densidade de
probabilidade (“prior”) p (θ ) com respeito a dθ , que está suportada em Θ e que quantifica o
conhecimento sobre θ antes da observação (mais precisamente, p (θ ) é a derivada de RadonNikodym em relação a dθ ); (iii) o espaço das observações Ω (geralmente Euclideano,
Ω = Rm ) com ponto genérico y , e equipado com uma medida de referência µ ; (iv) um
sistema de funções densidade de probabilidade de “verosimilhança” p ( y | θ ) , θ ∈Θ que
associa a cada ponto θ do espaço de parâmetros, uma medida de probabilidade em Ω
quantificada em p ( y | θ ) , com respeito a µ .
Secção 2.2 [Estimador MMSD] Na secção 2.2 começamos por definir um critério de
desempenho para estimadores que tomam valores na variedade Riemanniana Θ . Note-se que
um estimador corresponde a uma aplicação do espaço de observações Ω para o espaço de
parâmetros Θ .O nosso critério utiliza a métrica natural em Θ para avaliar o desempenho de
qualquer estimador θˆ : Ω → Θ . O desempenho do estimador θˆ é quantificado num número
( )
J θˆ . Mais precisamente, utilizamos a média da distância (Riemanniana) quadrática entre o
()
{(
valor verdadeiro e o valor estimado, ou seja, J θˆ = E d θ ,θˆ ( y )
) } , onde d ( , ) designa a
2
distância Riemanniana em Θ . Com base neste critério de desempenho, obtemos então o
estimador óptimo θˆ : Ω → Θ , que denominamos estimador MMSD (Minimum Mean Square
9
2.2 Estimador MMSD
Capítulo 2
___________________________________________________________________________
Distance). O MMSD coincide com o conhecido estimador MMSE (Minimum Mean Square
Error) quando Θ é um espaço Euclideano. Neste sentido, constitui uma generalização do
MMSE para o cenário Riemanniano.
Secção 2.3 [MSDLB] Na secção 2.3 enunciamos e provamos o teorema MSDLB. Este
( )
teorema apresenta um limite inferior para o desempenho J θˆ
de qualquer estimador
θˆ : Ω → Θ . Estabelece-se assim um limite fundamental à capacidade de reconstrução do
ponto θ , com base na observação y . A estratégia da prova consiste em derivar um limite
(
)
mínimo para J θˆMMSD - o desempenho do estimador óptimo θˆMMSD . De facto, sendo θˆMMSD o
(
)
estimador óptimo, o limite de desempenho encontrado para J θˆMMSD é válido para os demais
estimadores.
Secção 2.4 [Comentários] Na secção 2.4 discutimos as hipóteses assumidas no teorema
MSDLB, identificando assim as principais limitações do MSDLB, derivado na secção
anterior.
2.2 Estimador MMSD
Critério de desempenho. O critério de desempenho que adoptamos é “natural” no sentido
que em que se baseia na estrutura Riemanniana de Θ . Mais precisamente, o critério que
escolhemos considera óptimo o estimador que minimiza o valor esperado da distância
Riemanniana quadrática entre o parâmetro nominal θ (não-observado) e o parâmetro
estimado θˆ ( y ) . Será portanto o estimador θˆ : Ω → Θ que minimiza o seguinte funcional:
(
J (θˆ) = ∫ ∫ d θ , θˆ ( y )
ΩΘ
)
2
p (θ , y ) ⋅ dθ d µ .
Na expressão acima, d µ representa uma medida µ em Ω e dθ é a medida Riemanniana
em Θ . Além disso, d (θ ,η ) representa a distância Riemanniana entre os pontos θ e η em Θ .
Finalmente, p ( θ , y ) = p(θ ) p ( y | θ ) . O funcional acima também pode ser escrito na forma
10
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________

J (θˆ) = ∫  ∫ d θ , θˆ ( y )
ΩΘ
(
)
2

p (θ | y )dθ  p ( y )d µ

A probabilidade à posteriori p ( θ | y ) pode ser calculada utilizando a lei de Bayes a partir da
marginal
p ( y ) - obtida por integração em Θ de p ( y | θ ) - e da conjunta fornecida pelo
( )
contexto bayesiano p ( y ,θ ) . Intituitivamente, o funcional J θˆ informa, para cada estimador
θˆ , sobre o erro de reconstrução de θ (desconhecido), mais precisamente sobre o valor médio
da distância quadrática entre valor estimado θˆ ( y ) e θ .
Estimador MMSD θˆMMSD . O estimador θˆMMSD : Ω → Θ que será alvo de análise é definido
para cada ponto do espaço de observação da seguinte forma:
2
θˆ
( y ) = argmin d (θ ,η ) p (θ | y ) dθ
MMSD
η
∫
(2.1)
Θ
O estimador MMSD minimiza o funcional J (θˆ) por construção. A obtenção da expressão em
forma fechada para θˆ ( y ) implica resolver o problema de minimização em Θ que é sugerido
por (2.1), o que na maior parte dos casos não é trivial. A demonstração do teorema MSDLB
que se segue não necessita, no entanto, que se resolva (2.1) explicitamente. Note-se
que θˆMMSD atribui à observação y0 o “centro de massa” do posteriori p (θ | y0 ) , também
chamado de Fréchet Mean ou Karcher Mean.
2.3 Teorema MSDLB
Hipóteses:
[H1] – As curvaturas seccionais de Θ são majoradas por toda a parte por C ≥ 0 ;
[H2] – Θ admite bases suaves isto é, existem X (1) ,..., X ( p ) ∈ T Θ tal que
constitui uma base para Tθ Θ para todo o θ .
11
{X
(1)
,..., X ( p)
}
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________
[H3] – θˆMMSD é uma submersão, o que equivale a afirmar que, para qualquer campo vectorial
X ∈T Θ
existe
( )
um
θˆ*MMSD Yy0 = Xθˆ
MMSD ( y 0 )
pré-imagem
suave
Y ∈ TΩ
θˆ*MMSD : T Ω → T Θ
por
ou
seja,
, ∀ . [Nota: θˆ*MMSD representa o diferencial ou “push-foward” do mapa
y0 ∈Ω
θˆMMSD . Para um esclarecimento sobre a relação de equivalência em [H3 ] consultar o lema A.1
do anexo A.];
[H4]
–
Para
cada
y0 ∈ Ω
(
existe
)
um
ε >0
(
supp p ( .| y0 ) ⊂ Uε θˆMMSD ( y0 ) , onde Uε θˆMMSD ( y0 )
)
tal
que
Cε < T ≡ 1 2
e
designa a vizinhança normal ε -
uniforme de θˆMMSD ( y0 ) ∈Θ . [Nota: a expressão supp p ( .| y0 ) representa o suporte da função
p ( . | y0 ) . Para o conceito de vizinhanças normais ε -uniformes consultar [16].]
Teorema:
Qualquer estimador θˆ : Ω → Θ , com dim Θ = p a operar num cenário Bayesiano (composto
pela variedade diferencial Ω , pela variedade Riemanniana Θ , pelo prior p (θ ) com suporte
em Θ e pela função de verosimilhança p ( y | θ ) suportada em Ω × Θ ) no qual se verifiquem
as hipóteses [ Hi ] , i = 1,..,4 verifica a seguinte desigualdade quando d ( ,
)
é a distância
Riemanniana em Θ :
{(
E d θ ,θˆ ( y )
)}
2
λ ∗ , C = 0

≥  λ ∗C + 1 − 2Cλ ∗ + 1 , com

λ ∗C 2 2

 p

1
λ = max
∑

i
X
i
{
 i =1 E Yy lθ
θˆ*
Y i , Yi ∈ TΩ
MMSD ( )

∗
{(
)}
2


,


onde a maximização é feita sobre p-tuplos de campos vectoriais suaves Y 1,...,Y p ∈T Ω tais
{
}
que para cada y ∈ Ω , X θ1ˆMMSD ( y ) ,..., X θˆpMMSD ( y ) constitui uma base ortonormada para Tθˆ
MMSD
face à métrica Riemanniana em Θ avaliada em θˆMMSD ( y) , e com Xθiˆ
MMSD ( y )
12
= θˆ*MMSD (Yyi ) .
( y)
Θ,
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________
Demonstração:
Por conveniência de notação e apenas no decorrer da seguinte prova leia-se θˆMMSD
sempre que aparecer θˆ . Vamos ainda assumir que as funções integrandas ao longo da prova
reúnem condições de regularidade suficientes para que se possam trocar as ordens de
derivação pelas de integração.
Começamos por atentar novamente para a expressão (2.1). Considere-se a função auxiliar
m y : Θ → R dada por
m y (η ) = ∫ d (θ ,η ) p (θ | y ) dθ .
2
Θ
Então pelo facto de, para cada ponto do espaço de observações y , o estimador θˆ ( y )
verificar (2.1) e portanto ser um ponto de estacionaridade de m y podemos escrever
Xθˆ ( y ) my = 0, ∀ y
(2.2),
X θˆ ( y ) ∈ Tθˆ ( y ) Θ
onde Xθˆ ( y ) designa um vector tangente arbitrário em Tθˆ( y )Θ .
Admitindo que é possível trocar a ordem de derivação com a ordem de integração , a
igualdade expressa em (2.2) assume a forma
∫X
Θ
θˆ( y )
1
2
d (θ ,.)  p(θ | y ) dθ = 0


2
Defina-se agora kθ : Θ → R dada por kθ (.) =
1
2
d (θ ,.) chamada de função de dispersão em
2
torno de θ . A expressão anterior equivale a
∫ dk
θ
Θ
( X ) p (θ | y) dθ = 0, ∀
θˆ ( y )
y
Xθˆ ( y ) ∈ Tθˆ ( y ) Θ
(2.3)
Escolhendo um campo vectorial qualquer suave X ∈T Θ é possível definir uma nova
função Φ : Ω → R que actua da seguinte forma
(
)
y a ∫ dkθ Xθˆ ( y ) p(θ | y ) dθ
Θ
(2.4)
Por uma questão de simplicidade é possível reescrever Φ recorrendo à composição de uma
função auxiliar
ϕθ = ( dkθ )( X ) : Θ → R
η a ( dkθ ) ( X η ) = X η kθ
13
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________
com o estimador θˆ : Ω → Θ . A função Φ : Ω → R , nestes termos, opera de acordo com
(
)
y a ∫ ϕθ o θˆ ( y ) p (θ | y ) dθ
Θ
Uma vez que (2.3) se verificava para todo o y , a função Φ : Ω → R é identicamente nula ou
seja Φ ≡ 0 .
Considere-se agora Yy0 ∈ Ty0 Ω um vector tangente a Ω num qualquer ponto y0 . Uma
vez que Φ ≡ 0 tem-se naturalmente que
Yy0 Φ = 0
(2.5).
(
)
( )
Recordando que pelas leis da derivação se verifica Yy0 ϕθ o θˆ = θˆ* Yy0 ϕθ , então (2.5) é
equivalente a (de novo assumindo que as ordens de integração e derivação podem permutar)
(θˆ ( y )) Y
∫θˆ ( Y ) ϕ p (θ | y ) + ϕ
*
θ
y0
θ
0
0
Θ
y0
p (θ | .) dθ = 0
(2.6)
Para que se consiga reescrever (2.6) de forma mais sugestiva convém relembrar as seguinte
igualdades
(
(
)
ϕθ θˆ ( y0 ) = (dkθ ) Xθˆ ( y0 )
= grad kθ
)
θˆ ( y0 )
, X θˆ( y0 )
e também
( )
( ) ( dk )( X )
θˆ* Yy0 ϕθ = θˆ* Yy0
(
= ∇θˆ
*
( Yy0 )
θ
)
(
dkθ ( X ) + ( dkθ ) ∇θˆ
(
(Yy0 )
X
)
( )) + ( dk ) ∇
= Hess kθ X θˆ( y ) , θˆ* Yy0
0
*
θ
X
( ) 
θˆ* Yy0
Aqui, ∇ designa a conexão de Levi-Civita induzida pela métrica da variedade Riemanniana
Θ.
Se, adicionalmente, introduzirmos a função “log-posteriori” lθ : Ω → R dada por
lθ ( y ) = log p (θ | y ) então (2.6) é reescrita como
∫ Hess k
θ
Θ
(X
θˆ( y0 )
( ))
,θˆ* Yy0 p (θ | y0 ) + grad kθ
14
θˆ( y0 )
, X θˆ ( y0 ) Yy0 lθ  p ( θ | y0 ) dθ = 0 (2.7).
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________
Na passagem de (2.6) para (2.7) usámos o facto de

∫ ( dk ) ∇
θ
Θ
Zθˆ ( y ) = ∇θˆ
0
*
(Yy0 )

( ) X  p (θ | y0 ) dθ = 0 , porque
θˆ* Yy0
X representa um vector tangente em Tθˆ( y0 )Θ e a expressão (2.3) pode ser
invocada.
Seja Y ∈ T Ω uma pré- imagem de X por θˆ . A expressão (2.7) pode assim ser escrita
de uma forma mais geral
∫ Hess k
θ
Θ
(X
θˆ ( y )
)
, X θˆ( y ) p (θ | y ) + grad kθ
θˆ( y )
, X θˆ( y ) Yy lθ  p (θ | y ) dθ = 0, ∀ y
Sendo a última igualdade verdadeira para qualquer ponto do espaço de observações podemos
concluir

∫  ∫ Hess k
θ
Ω
Θ
( X ( ) , X ( ) )p (θ | y ) +
θˆ y
θˆ y
grad kθ

θˆ( y )
, X θˆ( y) Yylθ  p ( θ | y ) dθ  p ( y ) d µ = 0 (2.8)

Por conveniência nas equações que se seguem vamos omitir o ponto onde é avaliado grad kθ
o não causa problemas pois o produto interno tem que ter forçosamente como argumento dois
vectores tangentes à variedade no mesmo ponto. Assim temos de (2.8)
∫ ∫ Hess k ( X
θ
θˆ ( y )
)
 Hess k
 ∫ ∫
Ω Θ
θ
grad kθ , X θˆ( y )
[ Y l ] p (θ | y ) p (y )d θd µ

 ∫ ∫
grad kθ , X θˆ( y )
[ Y l ] p (θ | y ) p (y )d θd µ  (2.9)
y θ
⇔
Ω Θ
( X ( ) , X ( ) ) p ( θ | y ) p (y )d θ d µ 
θˆ y
∫∫
, Xθˆ( y ) p ( θ | y ) p ( y ) d θ d µ =
Ω Θ
2

θˆ y
=
2
Ω Θ

y θ
Vamos aplicar a desigualdade de Cauchy-Swartz ao termo do lado direito de (2.9).

∫ ∫

grad kθ , X θˆ( y )
Ω Θ
[Y l
y θ

(θ | y ) p (y ) d θ d µ 
] p14243
( )

p θ ,y
2
≤
∫∫
grad kθ , X θˆ( y )
2
p ( θ , y )dθ d µ .
Ω Θ
∫ ∫ ( Y l ) p ( θ , y ) d θd µ
2
y θ
Ω Θ
Reorganizando a última desigualdade e tendo em conta (2.9) produzimos
∫∫
ΩΘ
2
grad kθ , Xθˆ ( y )
(
)
2


 ∫ ∫ Hess kθ X θˆ( y ) , X θˆ ( y ) p (θ , y ) dθ d µ 
 (2.10)
p (θ , y )dθ d µ ≥ Ω Θ
2
∫ ∫ ( Yy lθ ) p (θ , y ) dθd µ
ΩΘ
15
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________
Seja dim Θ = p . Escolha-se um conjunto de
{X
(1)
,..., X
( p)
}, X
(i )
campos vectoriais suaves
p
∈ T Θ tais que, quando avaliados num qualquer ponto de Θ , constituam
uma base ortonormada para o espaço tangente a Θ nesse ponto.
Como a equação (2.10) é válida para qualquer escolha de X ∈T Θ e como ambos os lados da
desigualdade são não negativos podemos escrever, tendo em conta a escolha de base
efectuada,

grad kθ
i =1  Ω Θ
p
∑ ∫ ∫
2
i
θˆ( y )
, X θˆ ( y )
2

 
i
i
Hess kθ ( X θˆ( y) , X θˆ ( y ) ) ⋅ p (θ , y ) d θd µ  

 p   ∫∫
  (2.11)
Ω Θ
p ( θ , y ) dθ d µ  ≥ ∑
2
i


 i= 1
∫ ∫ ( Yy lθ ) p (θ , y ) d θ d µ


Ω Θ


Vamos desenvolver de seguida o lado esquerdo da desigualdade acima.
p

∑ ∫∫
i =1
Ω Θ
grad kθ
 p 
∫∫  ∑  grad kθ
Ω Θ  i =1 
θˆ ( y )
θˆ( y )
2
i
, X θˆ( y )
2
, X θiˆ( y )

p (θ , y ) dθ d µ  =



 p (θ , y )  ⋅ dθ d µ =


{
grad k ( ) p (θ , y ) dθ d µ = E d (θ ,θˆ ( y ) )
∫∫ 14
4244
3
2
ΩΘ
θ θˆ y
(
2
}
(2.12)
)
d θ ,θˆ ( y )
2
Utilizámos o resultado (A) do lema A.2 do anexo A para fazer a identificação sugerida pelas
chavetas. Dessa forma é possível chegar já a uma expressão onde figura o valor esperado da
distância entre as realizações do estimador e o valor nominal do parâmetro.
Atentemos agora ao lado direito de (2.11). Invocando o resultado (B) do lema A.2 podemos
estabelecer a seguinte desigualdade
(
)
∧


Hess kθ X θiˆ( y ) , Xθiˆ ( y ) ≥ C d θ ,θˆ ( y ) cot  C d θ ,θ ( y )   ≥ 0 (2.13),



(
)
onde usámos a hipótese [H4 ].
Invocando agora o lema A.3 do anexo A e pegando em (2.13) temos
(
)
(
)
(
1
C d θ ,θˆ ( y ) cot  C d θ , θˆ ( y )  ≥ 1 − Cd θ , θˆ ( y )


2
16
)
2
(2.14)
2.3 Teorema MSDLB
Capítulo 2
___________________________________________________________________________
Notamos que as condições impostas ao argumento da co-tangente implicam, para uma dada
curvatura seccional, um limite mínimo na precisão do estimador ou seja um limite máximo
(
)
para d θ ,θˆ ( y ) .
2
Tendo em conta (2.11), (2.12) e (2.14) podemos escrever
{(
E d θ ,θˆ ( y )
)}
2
2
  1
2
 

ˆ
  ∫ ∫ 1 − Cd θ ,θ ( y ) ⋅ p (θ , y ) dθ d µ  

p
  Ω Θ  2
 
≥ ∑

2
i
i =1 
Y
l
p
θ
,
y
d
θ
d
µ
(
)

∫Ω Θ∫ y θ




(
(


2 
 1
≥ 1 − C E d θ , θˆ ( y ) 
2 1442443



t

{(
)
)}
2
)


 p

1
∑
 (2.15).
2
 i =1 ∫ ∫ Yyilθ p (θ , y ) dθ d µ 
144444244444
ΩΘ
3
(
)
) ( ( )
(
(
λ = λ X (1) ,..., X ( p ) =λ θˆ* Y (1) ,...,θˆ* Y ( p )
))
Chamamos a atenção para o facto de para cada campo vectorial suave X ( i) ∈ T Θ escolhido
em (2.11) existe Y (i ) ∈ T Ω , sua pré-imagem por θˆ : Ω → Θ que admitimos ser uma
submersão.
Em (2.15) λ é função de Y ( i) explicitamente. No entanto, pelas razões
apontadas, λ é implicitamente função de θˆ* ( Y (i ) ) = X ( i) , tal como se fez notar com a chaveta.
Note-se que de facto, atendendo à construção da prova, as “variáveis” independentes são os
campos vectoriais X ( i) ∈ T Θ uma vez que estes são escolhidos inicialmente tal como em
(2.11).
Se fizermos as identificações sugeridas pelas chavetas em (2.15) ficamos simplesmente com:
2
 1 
t ≥ 1 − Ct  λ (2.16)
 2 
Estamos finalmente em posição para poder estabelecer o limiar. Olhando para a figura 2.1
conclui- se que o limiar é máximo com λ = λ ∗ ,
 p

1
λ ∗ = max
∑

i
X
i
{
 i=1 E Yy lθ
θˆ* ( Y iy )

{(
17
)}
2





(2.17)
2.4 Comentários
Capítulo 2
___________________________________________________________________________
Figura 2.1 – Variação do MSDLB com λ
2.4 – Comentários
O enunciado do teorema restringe desde logo a sua aplicação a estimadores θˆ : Ω → Θ
que verifiquem dim Ω ≥ dim Θ . Esta restrição na prática é muito fraca já que na maioria dos
problemas de estimação a inferência que se efectua sobre o parâmetro assenta no número de
graus de liberdade das observações que excede o número de graus de liberdade do parâmetro
que se quer estimar.
Assumimos também que o espaço de observações Ω se trata de uma variedade
diferenciável. Na prática, a recolha de observações produz vectores de dimensão m que, por
restrições fenomenológicas, podem estar confinadas a uma sub- variedade de R m (ver
exemplo na secção 3.3). Esta foi a razão pela qual considerámos o espaço de observações uma
variedade - que precisa de ser equipada com uma estrutura diferencial pois são efectuadas ao
longo da prova derivações direccionais de funções definidas em Ω - em vez de simplesmente
fazer Ω = Rm
O teorema do MSDLB é enunciado com base num leque de quatro hipóteses que pode
ser dividido em dois conjuntos: um cujas hipóteses dizem respeito exclusivamente a
propriedades sobre a variedade Riemanniana Θ - composto por [H1 ] e [H2 ] - e outro cujas
hipóteses dizem respeito ao estimador θˆMMSD - composto por [H3 ]e [H4 ].
18
2.4 Comentários
Capítulo 2
___________________________________________________________________________
Dentro do primeiro conjunto a hipótese [H1 ] não é minimamente restritiva. Esta
hipótese pode implicar calcular as curvaturas seccionais apenas num só ponto pertencente à
variedade, no caso de variedades Riemannianas de curvatura constante ou no caso de Lie
Groups com métricas invariantes por translação no grupo (à esquerda ou direita).
A hipótese [H2 ] - enquadrada também no primeiro conjunto -, atendendo ao
desenvolver da prova, pode ser relaxada para probabilidade 1 com respeito ao “prior” p (θ ) .
De facto existem alguns exemplos de variedades que não verificam [H2 ] tal como foi
enunciada. Por exemplo, em S n−1 ∈ R n , com n > 1 ímpar não existem campos vectoriais
suaves diferentes de zero por toda a parte. No entanto em S n−1 − {µ} , µ ∈ S n−1 [H2 ] já seria
verificada. A relaxação para probabilidade 1 de [H2 ], à semelhança do que acabámos de
descrever para o caso da esfera, torna a hipótese bastante menos restritiva. Note-se no entanto
que [H2 ] é verificada “de per se” numa classe muito importante de variedades: os Lie Groups.
Já no segundo conjunto, a hipótese [H3 ] não é muito severa atendendo ao teorema de
Sard [24]. De facto se houver a preocupação de condicionar bem a definição da variedade Θ
no sentido em que se torne o estimador θˆMMSD sobrejectivo então o referido teorema garante
que o conjunto de valores não regula res de Θ (pontos θ ∈Θ para os quais θˆ*MMSD não tem
característica máxima em toda a pré- imagem de θ por θˆMMSD ) tem medida nula com respeito
a qualquer medida absolutamente contínua face à medida Riemanniana instalada. Frisamos
que esta hipótese diz respeito a θˆMMSD apenas, e não tem que se verificar em geral para um
estimador genérico θˆ cujo desempenho possa ser limitado pelo MSDLB.
A hipótese [H4 ] é, sem dúvida a hipótese mais restritiva das quatro assumidas no
MSDLB. Implica em particular que se reúnam condições –escolha da variedade Θ e do
“posterior” p (θ | y ) - para que o estimador θˆMMSD seja tal que, para todo o y , se verifique
(
)
d θ , θˆMMSD ( y ) < ε . Isto significa que θˆMMSD tem que ser um estimador bastante preciso,
tanto mais preciso quanto maior for C já que ε é tal que
Cε < T ≡ 1 2 .
O nível técnico patente em [H4 ] torna-a muito difícil de ser testada na prática, devendo
haver a preocupação de aplicar o MSDLB preferencialmente em contextos Bayesianos cujo
posterior, para cada y , tenha um suporte localmente concentrado em torno do seu centro de
massa
19
2.4 Comentários
Capítulo 2
___________________________________________________________________________
.
20
3.1 Resumo
Capítulo 3
___________________________________________________________________________
Capítulo 3 – Ilustrações do MSDLB
3.1 Resumo do Capítulo
Neste capítulo iremos concretizar duas ilustrações que nos permitam aferir a precisão
do MSDLB.
Começamos por abordar o caso Euclideano em que Θ = R p onde consideramos em
particular que a função de densidade de probabilidade conjunta p (θ , y ) é Gaussiana. Todas
as etapas do processo de cálculo do MSDLB, que, para o caso em estudo, culmina numa
expressão em forma fechada, são exibidas. Constatamos que, neste caso, esta nova
metodologia recupera exactamente o limiar proposto por Van Trees proposto em [20].
No segundo exemplo, exploramos as potencialidades do nosso limiar, aplicando o
MSDLB numa variedade Riemanniana desprovida de estrutura vectorial. Escolhemos para tal
fazer Θ = S1 , S 1 = {x ∈ R 2 : x = 1} , que herda a sua estrutura Riemanniana canonicamente do
espaço ambiente, e trabalhar com uma função densidade de probabilidade conjunta p (θ , y )
do tipo Von-Mises suportada na variedade S1 × S 1 . Note-se que, neste cenário, as observações
do fenómeno aleatório pertencem também a S 1 .
Mais uma vez voltamos a exibir todo o processo de cálculo do MSDLB que, quando
comparado com o do primeiro exemplo, é um pouco mais ilustrativo daquilo que será o
procedimento a efectuar numa aplicação típica , já que, além de ser utilizado o formalismo das
variedades Riemannianas, é necessário encontrar uma expressão para o estimador – conhecida
trivialmente no primeiro exemplo - resolvendo um problema de minimização em S 1 . Não
tendo sido possível chegar a uma expressão em forma fechada final, o cálculo do MSDLB é
feito recorrendo a integração numérica através do MatLab.
Por último comparamos o MSDLB com os resultados obtidos através da simulação por
MonteCarlos verificando-se uma boa concordância entre ambos mesmo quando fazemos
variar o factor de concentração do prior p (θ ) e da função de “verosimilhança” p ( y | θ ) .
21
3.2 Caso Euclideano com modelo probabilístico Gaussiano
Capítulo 3
___________________________________________________________________________
3.2 - Caso Euclideano com modelo probabilístico Gaussiano
3.2.1 – Motivação do exemplo
Escolhe-se este exemplo porque é sabido que, neste caso, o limiar estabelecido em [20] é
atingido. Logo é importante aferir se, utilizando o MSDLB, tal também ocorre.
3.3.2 – Apresentação do exemplo
Nesta secção vamos abordar o caso da estimação Bayesiana com distribuições Gaussianas em
espaços Euclideanos. Apresentaremos os modelos probabilísticos Gaussianos e o estimador
θˆMMSD , concluindo com a constatação de que este procedimento chega a um resultado igual ao
proposto por Van Trees em [20]. De futuro, para simplificar a notação, usaremos o símbolo θˆ
para designa r θˆMMSD .
Espaço de parâmetros e de observações. Tal como foi proposto vamos fazer Θ = R p ,
equipado com a métrica canónica usual. Como tal,
d (x , y ) = x − y =
( x − y ) ( x − y ) , x , y ∈R p .
T
a função distância em Θ é
Quanto ao espaço de observações temos
Ω = Rn , n ≥ p equipado com uma métrica análoga à de Θ .
Modelos Probabilísticos. O contexto Bayesiano fornece-nos a função densidade de
probabilidade conjunta em relação à medida canónica (Lesbegue) instalada em Θ×Ω . No
nosso caso temos
  x0   Rxx
x
  : N    ,  R
 y
  y0   yx
Rxy  
  (3.1),
Ryy  

onde N ( µ , Σ ) representa a distribuição Gaussiana de média µ e matriz de covariância Σ .
Para simplicar os cálculos e sem perda de generalidade vamos admitir que
 x0   0 
 = 
 y0   0 
(3.2).
Consultando [20], e admitindo (3.1) e (3.2), temos
E { x | y} = x0 + Rxy Ryy − 1 ( y − y0 ) = Rxy Ryy −1 y (3.3),
e
22
3.2 Caso Euclideano com modelo probabilístico Gaussiano
Capítulo 3
___________________________________________________________________________
Cov { x | y} = Rxx − Rxy Ryy −1 Ryx (3.4).
Para simplificar a notação, façamos a seguinte identificação:
Rx| y = Rxx − Rxy Ryy −1Ryx (3.5).
Tendo em conta (3.3) , (3.4) e (3.5) concluímos então que
T
1
log ( p ( x | y ) ) ∝ −  x − Rxy Ryy − 1y  Rx| y −1  x − Rxy Ryy −1 y  (3.6),
2
onde ∝ significa “a menos de uma constante” face a x e a y .
Estimador MMSD. A solução de (2.1) para o exemplo corrente, ou seja a solução de
θˆ ( y ) = argmin
τ
∫ d ( x, τ ) p ( x | y ) dx ,
2
Rp
é trivial coincidindo com o ponto de maior concentração de massa de p ( x | y ) . Dessa forma,
teremos θˆ : Rn → R p dado por:
θˆ ( y ) = E { x | y} = Rxy Ryy − 1 y (3.7).
3.2.3 – Aplicação do MSDLB
De seguida exibiremos os cálculos mais relevantes para a computação do MSDLB,
nomeadamente o cálculo do campo vectorial pré- imagem e a maximização implícita em
(2.17).
Campo vectorial pré -imagem. Para calcular (2.17) precisamos de calcular Y i , pré-imagens
por θˆ de X i , i = 1... p , bases ortogonais em cada ponto para Tθ Θ . Ao calcular a matriz
Jacobiana de θˆ chegamos a:
Dθˆ ( y ) = Rxy Ryy −1 (3.8).
Como θˆ é um mapa entre espaços euclideanos, o diferencial de θˆ coincide com a sua matriz
Jacobiana (ver [16]). Assim, podemos concluir que o cálculo dos p campos vectoriais préimagem equivale a encontrar a matriz C tal que
D θˆ ( y )  c1y ...c py  = Qθˆ( y ) (3.9),
1424
3
C
23
3.2 Caso Euclideano com modelo probabilístico Gaussiano
Capítulo 3
___________________________________________________________________________
em
Q =  q1 ,..., q p 
que
Y ∈ T R n : Y = ay 1
é
uma
matriz
ortogonal
Yi :Yi .
%
ci = Y i ,
%
e
Se
∂
∂
+ ... + a y n n então Y ∈ Rn designa o vector Y = ( a y1 ,..., ay n ) .
1
∂y
∂y
%
%
Uma solução para (3.9) é fazer C = ( Rxy Ryy − 1 ) Q , ou seja
†
C = Ryy Rxy † Q (3.10),
onde A† designa a pseudo- inversa da matriz A.
Cálculo do MSDLB. Para chegar ao valor teórico do MSDLB é preciso calcular tendo em
conta (2.17), a seguinte quantidade
p
∑
i =1
{(
p
1
E ci ∇ y log ( p ( x | y) )
T
)}
2
=∑
i =1
1
{ ( ∇ log ( p( x | y)) ∇ log ( p ( x | y )) ) c }
E ci
T
T
y
y
i
∇ y log ( p ( x | y) ) .
A computação de (3.11) necessita da expressão para
Φ(x ) =
(3.11).
Como
1
T
( Ax + b ) U ( Ax + b ) ⇒∇Φ ( x ) = AT UAx + AT Ub , atendendo a (3.6) e efectuando as
2
identificações A = Rxy Ryy −1 , U = Rx| y −1 e b = x , concluímos
{
∇ y log ( p ( x | y ) ) = Ryy −1Ryx Rx |y −1 x − R xy Ryy −1 y
}
x 
− Rxy Ryy −1    (3.12).
 y
⇔ ∇ y log ( p ( x | y ) ) = Ryy −1Ryx Rx | y −1  I
{
Como cálculo auxiliar vamos encontrar a expressão para E ( x − My )( x − My )
M = − Rxy Ryy −1 .
{
E ( x − My )( x − My )
T
⇔  I
} = [I
 x 
− M ] E     xT
 y 
R
−1  xx
− Rxy Ryy  
 Ryx
 I

y T   
T 
  −M 
Rxy   I



−1
Ryy  − Ryy Ryx 


⇔ Rxx − Rxy Ryy −1Ryx = Rx| y
(3.13)
A expressão (3.12) em conjunto com (3.13) permite escrever
{
E ∇ y log ( p ( x | y ) ) ∇ y log ( p ( x | y ) )
T
24
}= R
−1
yy
Ryx Rx| y −1 Rx |y Rx| y−1 Rxy Ryy−1
T
},
com
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
{
⇔ E ∇ y log ( p ( x | y ) ) ∇ y log ( p ( x | y ) )
T
}= R
−1
yy
Ryx Rx |y− 1 Rxy R yy−1
(3.14).
Desta forma, e se tivermos em conta que ci = Ryy Rxy † qi por (3.10) juntamente com as
expressões (3.11) a (3.14), (2.17) é equivalente a
p
λ * = max ∑
Q
i =1
{
1
T
−1
†
yx
−1
−1
†
E qi R Ryy Ryy Ryx Rx| y Rxy Ryy Ryy Rxy qi
}
,
a qual, depois de simplificada origina
p
λ * = max ∑
Q
i =1
1
(3.15).
qi Rx| y −1qi
T
Notamos que a matriz Q que maximiza o somatório em (3.15) é a matriz dos vectores
próprios de Rx| y . Admitindo essa escolha constata-se que o limiar MSDLB iguala, quando
aplicado a este exemplo, o proposto por Van Trees em [20] ou seja
λ * = tr  Rx| y  .
3.3 - Caso Riemanniano com modelo probabilístico de Von Mises
3.3.1 – Motivação do exemplo
Vamos abordar este exemplo com a finalidade de aplicar o MSDLB numa variedade
Riemanniana sem estrutura vectorial. A escolha da variedade S 1 em conj unto com modelos
probabilísticos de Von Mises tem o intuito de fornecer uma ilustração do limiar que seja
razoavelmente simples de calcular e que ao mesmo tempo permita perceber as características
mais marcantes do comportamento do MSDLB aquando da sua aplicação.
Trata-se de um cenário interessante já que, além de cumprir os requisitos expostos no
último parágrafo, é passível de ser encontrado muito naturalmente em áreas científicas tão
diversas como Processamento de Imagem, Meteorologia, Física ou mesmo Medicina. Estes e
outros tópicos de interesse sobre distribuições de Von Mises podem ser encontrados em [23].
25
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
3.3.2 – Apresentação do exemplo
Esta secção é dedicada à descrição deste exemplo. Vamos, nomeadamente, caracterizar o
espaço de parâmetros Θ que neste exemplo coincide com a subvariedade riemaniana S 1 , o
círculo unitário em R 2 . Posteriormente apresentaremos os modelos probabilísticos escolhidos
quer para o “prior” p (θ ) quer para a função de verosimilhança p ( y | θ ) no âmbito do
contexto Bayesiano. Por último encontramos o estimador a ser utilizado resolvendo (2.1) em
S1 .
Espaço de parâmetros e de observações. Como referimos Θ = S 1 , sendo S 1 a subvariedade
Riemaniana caracterizada por S 1 = {x ∈ R 2 : x = 1} .
A estrutura Riemaniana em S 1 é
induzida através da imersão canónica ι : S 1 → R 2 , ι ( x ) = x . Desta forma, a métrica induzida
em S 1 é caracterizada por X , Z
S1
= ι* X , Z
Rn
= ι* ( X ) ,ι* ( Z )
Rn
, com X , Z ∈ TS 1 .
Para esta escolha de métrica, a função distância em Θ é conhecida e assume a
expressão d (θ , µ ) = arcos (θ T µ ) , com θ , µ ∈ S 1 . Frisamos que a expressão para a função
distância em Θ não é necessária para o cálculo do resultado teórico. Esta será apenas
utilizada para gerar resultados a partir das simulações com MonteCarlos que serão
posteriormente confrontados com os teóricos.
Tratando-se de uma variedade Riemanniana de dimensão igual a 1 temos que a
curvatura seccional de S 1 é igual a 0 por toda a parte. No caso em estudo, o espaço de
observações coincide também com S 1 pelo que dim {Ω} = dim {S 1} = 1 .
Modelos Probabilísticos. O “prior”, suportado no espaço de parâmetros, é uma função
densidade de probabilidade p (θ ) em relação à medida de base instalada em S 1 , no caso a
naturalmente induzida pela estrutura Riemanniana. A f.d.p escolhida para caracterizar o prior
foi do tipo Von Mises. Mais conc retamente temos
p (θ ) =
1
2π I 0 ( k0 )
ek 0 .θ
T
θ0
θ : VM ( k0 , θ 0 )
e portanto
, onde k 0 ≥ 0 representa o parâmetro de concentração e θ 0 , θ 0 = 1 ,
a moda da distribuição. Aqui, I n ( x ) representa a função de Bessel modificada de ordem n .
26
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
A função de verosimilhança é também uma f.d.p. p ( y | θ ) em relação à medida de
base instalada no espaço de observações que, neste exemplo, coincide com a medida instalada
em S 1 . A f.d.p. escolhida como função de verosimilhança é também do tipo Von Mises.
Assim, p ( y | θ ) : VM ( k , θ ) ou seja p ( y | θ ) =
T
1
ek . y θ . Se imaginarmos θ como um
2π I 0 ( k )
parâmetro desconhecido que é observado no círculo por um sensor (imperfeito) resultando na
observação y , então k representa o “ruído de leitura”.
Estimador. O cálculo do MSDLB pressupõe encontrar a expressão para o estimador θˆMMSD
resolvendo a equação (2.1) que recordamos de seguida
2
θˆ ( y ) = argmin ∫ d (θ , η ) p ( θ | y ) dθ .
η
Θ
Para reescrever (2.1) no caso particular do nosso exemplo precisamos de calcular
p ( y | θ ) . p (θ )
p ( θ | y ) recorrendo à lei de Bayes p (θ | y ) =
p( y)
.
A marginal p ( y ) é obtida através da integração na variedade da conjunta p ( y ,θ ) ou
seja:
p ( y) =
∫ p (θ , y ) dθ = ∫ p (θ ) p ( y | θ ) dθ
S
1
S
(3.16)
1
Introduzindo em (3.16) as expressões para o prior e para a função de verosimilhança ficamos
com
p ( y) =
1
∫ 2π I ( k ) e
S1
0
k0 .θ Tθ 0
0
T
1
e k . y θ dθ (3.17).
2π I 0 ( k )
Agrupando termos é possível reescrever (3.17) como
p ( y) =
2π I 0 ( k. y + k 0.θ0
4π 2 I 0 ( k0 ) I 0 ( k )
)
T
1
θ ( k . y+ k0 .θ0 )
.
e
dθ
∫ 2π I0 ( k . y + k0 .θ0 )
S1
144444424444443
1
O resultado do integral dentro da chaveta é igual à unidade uma vez que integramos uma
f.d.p. do tipo Von Mises, no seu suporte. O resultado final é então
p ( y) =
I 0 ( k . y + k 0.θ 0
)
2π I 0 ( k0 ) I 0 ( k )
27
(3.18).
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
Conhecendo a marginal p ( y ) podemos então aplicar a lei de Bayes para o cálculo de
p ( θ | y ) vindo,
p (θ | y ) =
1
θ T ( k . y+ k0 .θ0 ) 2π I 0 ( k0 ) I0 ( k )
e
.
,
4π 2 I 0 ( k0 ) I0 ( k )
I 0 ( k . y + k0 .θ 0 )
expressão que após simplificação pode ser escrita como
p (θ | y ) =
2π I 0 (
T
1
eθ ( k . y+ k0 .θ 0 ) (3.19).
k . y + k 0.θ0 )
A f.d.p. p ( θ | y ) é conhecida como o “posterior” e, neste exemplo, coincide com uma f.d.p.
do tipo Von Mises com factor de concentração k . y + k0 .θ 0 e moda
k . y + k0 .θ 0
.
k . y + k0 .θ 0
Estamos agora em condições de aplicar (2.1) ao caso em estudo, substituindo a função
distância e o posterior pelas suas expressões já calculadas produzindo
(
1
θˆ ( y ) = argmin
arcos τ T θ
∫
1
2
π
τ ∈S
Θ
) I ( k . y + k .θ ) e
1
2
0
θ T ( k . y+ k0 .θ0 )
0
dθ (3.20).
0
A solução de (3.20) pode ser calculada através do lema B.1 do anexo B. Temos dessa forma
k . y + k0 .θ 0
θˆ ( y ) =
(3.21).
k . y + k0 .θ 0
3.3.3 – Aplicação do limiar MSDLB e simulações.
Nesta secção vamos proceder ao cálculo de (2.17) para este exemplo e confrontar o resultado
obtido com os resultados obtidos por simulação. Para facilitar os cálculos que se seguem
escrevemos em alternativa a (3.21),
A( y)
θˆ ( y ) =
, A( y ) = k . y + k0 .θ 0 (3.22).
A( y)
Campo vectorial pré -imagem. A computação de
 p

1
λ = max
∑

i
X
i
{
 i=1 E Yy lθ
θˆ* (Y yi )

∗
{(
)}
2


,


envolve a escolha de X ∈T Θ , campos vectoriais suaves que em cada ponto constituam uma
base ortonorma l para o espaço tangente a Θ . Como dim {S 1} = 1 e a acção do campo
28
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
vectorial Y i em lθ aparece ao quadrado dentro do integral, qualquer uma das duas escolhas
possíveis para o campo vectorial suave X , base ortonormal de TS 1 em cada ponto, satisfaz
(2.17). Tomaremos X ∈ TS 1 definido por ι* ( X y ) = − y 2
∂
∂
+ y1 2 .
1
∂y
∂y
Vamos então calcular o campo vectorial suave Y ∈ TS 1 , pré-imagem de X por
θˆ* :TS1 → TS 1 . Tendo em conta que dim {Ty S 1} = 1 temos que
θˆ* ( X y ) = λy . Xθˆ ( y ) (3.23)
Se definirmos
λ y = θˆ* ( X y ) , Xθˆ ( y )
S1
(3.24),
e atendendo a (3.23) verificamos que
θˆ* ( X y λ y ) = X θˆ( y ) ⇒ Yy = X y λ y (3.25).
Seja
y0 = ( cos t 0 ,sin t0 ) .
Definamos
agora
γ (t) : ]t 0 − ε , t0 + ε [ → S 1
dado
por
γ (t ) = ( cos t ,sin t ) . Então, recorrendo à composição de θˆ com γ podemos escrever
 d
d


(3.26).

 θˆ ( γ (t ) ) = θˆ*  γ * 
  = θˆ* X y0


dt
dt
1
424
3
t
=
t
t
=
t

0 
0 
 
∈T
S 1 =T S 1
(
)
(
γ (t0 )
)
y0
Notamos que através de (3.26) estamos a identificar de forma unívoca uma escolha para X – a
orientada segundo γ (t ) . Voltamos a invocar o teorema em que se prova que os diferenciais de
mapas entre espaços Euclideanos avaliados num determinado ponto coincidem com a matriz
Jacobiana do mapa calculada nesse mesmo ponto (ver [16]). Assim, e considerando o mapa
ι o θˆ o γ : R → R n , achamos
d


 ι o θˆ o γ = ι* θˆ* X y0
 dt t =t0 
(
) ( ( ))
 A(γ ( t ))
:
 A(γ ( t ))

′


(3.27).
t = t0
Fazendo os cálculos temos:
 A(γ ( t))

 A(γ ( t))
 A(γ ( t))

 A(γ ( t))
′
′ [ A(γ ( t )) ]′ A(γ ( t )) − ( A(γ (t) ) ) A(γ (t) )
 =
2
A(γ ( t))

′ k.γ ′(t ). A(γ ( t )) − k .k 0θ0T γ ′( t ). A( γ ( t)). A (γ ( t ))
 =
2
A(γ (t) )

29
−1
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
 0 −1
Como γ ′(t ) = J .γ ( t ) , com J = 
 a expressão (3.27) pode ser então escrita como
1 0 
(
)
ι* θˆ* ( X y ) :
k .Jy . A ( y ) − k .k0 .θ 0 Jy. A( y ). A ( y )
T
A( y )
−1
(3.28)
2
Calculemos então λ y de acordo com (3.24). Para tal começamos por estabelecer a
seguinte identificação de acordo com a escolha efectuada para X y ,
ι* ( X y ) : J . y , y ∈ S1 (3.29).
Como (3.24) é equivalente a
λ y = ι * θˆ* ( X y ) , Xθˆ ( y )
Rn
) (
(
= ι* θˆ* ( X y ) ,ι* X θˆ( y )
)
Rn
,
encontramos, usando (3.28) e (3.29), para λ y
T
 k .Jy . A ( y) − k .k .θ T Jy. A( y ). A ( y ) −1  JA( y)
0 0

λy = 
.
2

 A( y )
A
y
(
)


Podemos simplificar a última expressão tendo em conta (3.22). Assim
T
T
k 2 ( Jy ) ( Jy )  k .k 0 ( Jy ) ( Jθ 0 ) 



.
λy =
+
2
2
A ( y)
A( y )
Como JJ T = I , y ∈ S 1 ⇒ y T y = 1 concluímos finalmente
λy =
Computação
do
MSDLB.
A
k 2 + k .k 0. y T θ 0
A( y )
função
2
(3.30).
“log-posterior”
lθ : S 1 → R
é
dada
por
lθ ( y ) = log p (θ | y ) . Como o espaço de observações coincide com o círculo unitário a função
lθ : S 1 → R que aparece em (2.17) é construída a partir da função lˆθ : R2 → R através do
“pull-back” pelo embedding canónico ι : S 1 → R 2 . Assim temos
( )
( )
Yy ι *lˆθ = Yy lˆθ o ι = ι* ( Yy ) lˆθ ,
{
∈ T 0S 1
ou seja
T
 Jy 

∂
∂ 
ι* ( Yy ) lˆθ =  ay 1 1 + ... + a y n n  lˆθ =   ∇ y ( log p ( θ | y ) ) (3.31).
λ 
∂y
∂y 

 y
30
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
De seguida vamos encontrar a expressão para ∇ y ( log p (θ | y ) ) . Comecemos por notar
que tendo em conta (3.19) podemos escrever
( (
)) + ∇
∇ y ( log p (θ | y ) ) = ∇ y  − log I 0 A ( y )

y
θ T A ( y )  (3.32).
Atentemos na primeira parcela de (3.32) que é equivalente a
( ( A ( y) )) = − I ( A1( y ) ) I ′ ( A ( y ) ).∇ ( A ( y ) ) .
∇ y  − log I 0

0
y
0
dI 0 ( x )
Se tivermos em linha de conta que
(
)
= I1 ( x ) , que ∇ y A ( y ) =
dx
k
A( y)
. A ( y ) e que
∇ y θ T A ( y )  = k .θ então (3.32) é equivalente a
∇ y ( log p (θ | y ) ) = −
(
)
k .I1 A ( y ) .A ( y )
I0
+ k .θ (3.33).
( A ( y) ). A ( y )
Para facilitar os cálculos consideremos (3.33) e escrevamos
(
)
)
k .k0 .θ 0T J y.I1 A ( y )
 Jy 
k .θ T Jy
(3.34).
Λ ( y, θ ) =   ∇ y ( log p (θ | y ) ) = −
+
λ 
λ
λ
.
I
A
y
.
A
y
(
)
(
)
y
y
 
y 0
T
(
Tendo em conta (3.30), (3.34) é reescrita como
Λ ( y, θ ) = −
(
) ⋅ k .θ
⋅
I ( A( y ) )
I1 A ( y )
A( y )
k + k0 . y θ 0
0
T
T
0
Jy +
0
A( y)
2
k + k0 . y θ 0
T
T
⋅θ Jy (3.35).
Podemos assim identificar em
Λ ( y ,θ ) = − B( y ) + D( y ,θ ) (3.36)
duas parcelas sendo que a primeira não depende de θ .
O MSDLB obriga a calcular
{
E  Λ ( y ,θ )
2
} = E { B } − 2 E {DB} + E {D } (3.37).
2
2
Comecemos por calcular a última parcela que, tendo em conta (3.35) e (3.36), equivale
a
{ }= ∫
E D
2
S1
A( y )
( k +k
0
4
.y Tθ 0
)
2


2
T
 ∫ θ Jy p (θ | y ).dθ  . p ( y ) dy (3.38)
1444
S1
424444
3
(
{(
E wTθ
)
) }, θ :VM  A( y) , AA(( yy )) , w= Jy
2
31




3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
O termo entre chavetas é calculado com o auxílio do lema B.3 do anexo B e das seguintes
A( y )
, k = A ( y ) . Desta forma o termo referido em (3.38) tem
A( y)
identificações: w = Jy , µ =
a seguinte expressão:
(
)
)
1 I2 A ( y )
1
 Jy )T A ( y ) A ( y )( Jy ) − ( Jy )T JA ( y ) A ( y )T J T ( Jy )  (3.39).
+
⋅
2 (

2 2.I 0 A ( y )
A( y )
(
Recorrendo
( Jy )
T
a
(3.22)
temos
que
( Jy )
T
A ( y ) = ( Jy ) ( k . y + k0 .θ 0 ) = k 0.θ 0T Jy
T
e
que
JA ( y ) = y T A ( y ) = k + k 0 . y T θ0 . Por isso a quantidade expressa em (3.39) é equivalente a
(
)
)
1 I2 A ( y )
1
k 2 . θ T Jy
+
⋅
0
2  0
2 2.I 0 A ( y )
A( y) 
(
(
) − ( k + k .y θ )
2
T
0
2
0
 (3.40).

Substituindo (3.40) em (3.38) ficamos com
{ }= 2∫
E D
2
A ( y)
1
S
1
k +k .y θ )
(14243
2
T
0

) 
⋅ k . ( θ Jy ) − ( k + k . y θ )   p ( y ) dy (3.41)


{
I ( A( y ) )
14444444442444444444
3

2
⋅  A( y) +
2
I2 ( A ( y )
2
T
0
0
2
2
T
0
0
0
0
TT
ST
PT
Esta foi a expressão relativa a E {D 2 } introduzida no programa de MatLab que efectuou a
integração numérica.
Calculemos agora E {2 DB} , que tendo em conta (3.35) e (3.36) é equivalente a
(
) . θ Jy  θ Jy . p (θ | y ) dθ 
( )  ∫ ( )

θ ) I ( A( y ) )
1444
424444
3
2. A ( y ) .k 0
3
E {2 DB} =
∫
S
1
( k +k
0
.y
T
2
⋅
I1 A ( y )
T
0
T
0
0
S
. p ( y ) dy (3.42).
1
{( )}

A( y )
E wTθ , θ :VM  A( y) ,

A( y )


 , w= Jy

O termo entre chavetas é calculado com o auxílio do lema B.2 do anexo B e das seguintes
identificações: w = Jy , µ =
A( y )
, k = A ( y ) . Desta forma o valor do integral entre
A( y)
chavetas é
(
) ⋅ A( y) Jy = I ( A ( y ) ) ⋅ k . θ Jy ,
( )
( A ( y) ) A ( y ) I ( A ( y ) ) . A ( y)
I1 A ( y )
I0
T
1
0
T
0
0
pelo que (3.42) é reescrita como
E {2 DB} =
∫
S1
(
(
2
2. A ( y ) .k02  I 1 A ( y )
⋅
2
T
k +k 0.y θ0  I 0 A ( y )
(
)
32
)  . θ Jy
( )
) 
2
T
0
2
p ( y ) dy (3.43).
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
A parcela E { B2 } é calculada a partir de (3.35) e (3.36) resultando directamente na
expressão que foi utilizada para fazer a integração numérica em MatLab,
{ } ∫
E B2 =
S1
(
(
(
 I1 A ( y )
⋅
2
T
k + k0 . y θ 0  I 0 A ( y )
A( y)
2
)
)
)
2

 ⋅ k02 θ0T Jy


(


)  ∫ p (θ | y ) dθ  . p ( y ) dy (3.44).


2
S
144244
3
1
1
{
A expressão final para E  Λ ( y ,θ ) 
2
} tendo em conta (3.37), (3.41), (3.43) e (3.44)
resulta em
{
E  Λ ( y ,θ ) 
2
} = E {B } − 2E {DB} + E {D } = E { D } − E {B } (3.45).
2
2
2
2
O cálculo por integração numérica de (3.45) foi feito em MatLab usando as expressões (3.41)
e (3.44) tal já tínhamos feito notar.
Simulações. O cálculo do limiar foi efectuado recorrendo a integração numérica no MatLab.
Para este efeito foi construída uma rotina que calcula (3.45) chamando duas sub-rotinas que
implementam (3.41) e (3.44) respectivamente.
Os
resultados
gráficos
que
se
( ( 4 ) ,sin (3π 4 )) em ambos os casos e
θ 0 = cos 3π
seguem
foram
produzidos
fixando
k 0 = 1 e k 0 = 0,5 respectivamente. Em
abcissas fizémos variar o factor de concentração da probabilidade à posteriori k .
Os pontos θ e y eram calculados aleatoriamente a partir de p (θ ) e p ( y | θ )
respectivamente em cada um dos 10.000 MonteCarlos por cada valor de k .
A linha sólida representa o valor produzido pelo MSDLB ou seja o inverso de (3.45).
A linha a tracejado representa os valores médios da distância calculada na variedade entre θ
e θˆ calculado pelo estimador.
Note-se que o MSDLB acompanha a curva simulada quando variamos o factor de
concentração do prior, ou seja, quando k 0 diminui, o MSDLB (e o erro do estimador MMSD)
aumenta. Tal é verificado já que quando k 0 diminui, aumenta a incerteza sobre a localização
prévia de θ (em torno de θ 0 ). O ajuste entre as duas curvas é bom em ambos os exemplos
mesmo para factores de concentração da função de verosimilhança baixos.
33
3.3 Caso Riemanniano com modelo probabilístico de Von Mises
Capítulo 3
___________________________________________________________________________
Figura 3.1 – Resultado da simulação para k 0 = 1
Figura 3.2 – Resultado da simulação para k 0 = 0,5
34
Conclusão
___________________________________________________________________________
Conclusão
O objectivo principal que nos propusemos atingir com este trabalho foi a derivação de
um limiar de desempenho para estimação Bayesiana de parâmetros em variedades
Riemannianas.
O limiar desenvolvido, que apelidámos de MSDLB, cumpre o objectivo traçado no
sentido em que, verificadas as hipóteses assumidas no enunciado do teorema, consegue
minorar o desempenho do estimador MMSD, a extensão para variedades Riemannianas do
estimador MMSE em espaços Euclideanos. O estimador MMSD é óptimo segundo um
critério por nós proposto que é coerente com as principais orientações sugeridas em [22]. Este
critério considera óptimo o estimador que minimiza o valor esperado da distância
Riemanniana quadrática entre o parâmetro nominal θ (não-observado) e o parâmetro
estimado θˆ ( y ) e é natural no sentido em que se baseia na estrutura Riemanniana do espaço de
parâmetros para avaliar quantitativamente erros de estimação.
Trata-se de um limiar de desempenho para estimadores Bayesianos em variedades
Riemannianas completamente independente de parametrizações do espaço de parâmetros –
que é encarado como uma variedade “de per se” – e é calculado recorrendo à distância natural
(intrínseca) na variedade Riemanniana e não à distância extrínseca do espaço ambiente em
que está mergulhada a variedade (o qual, para espaços quociente, nem sequer existe
naturalmente).
Este trabalho é, por isso, uma contribuição para o tópico de limiares de desempenho
em estimação sobre variedades cujas principais referências são [20] – que desenvolve um
limiar no contexto Bayesiano para espaços Euclideanos -, [15] – que desenvolve um limiar no
contexto Bayesiano para o caso particular de Lie Groups e no qual a distância utilizada é a
extrínseca – e [19] - que desenvolveu um limiar no contexto determinístico para variedades
Riemannianas utilizando a distância intrínseca.
O MSDLB tem duas limitações principais que resultam de hipóteses assumidas ao
longo da prova.
i) A primeira limitação consiste na necessidade de encontrar uma expressão fechada
para θˆMMSD e para o seu diferencial. Por outras palavras, o MSDLB é aplicável em situações
compostas por um espaço de parâmetros (variedade Riemanniana), por um “prior” p (θ ) e
por uma função de verosimilhança p ( y | θ ) tais que seja possível encontrar uma expressão
em forma fechada para θˆ
.
MMSD
35
Conclusão
___________________________________________________________________________
ii) θˆMMSD tem que resultar num estimador preciso no sentido em que, para todo o y , o
valor estimado θˆMMSD ( y ) tem que se encontrar numa vizinhança do valor verdadeiro θ .
Tipicamente, esta hipótese é verificada em cenários de estimação com elevado “SNR” (Signal
to Noise Ratio).
Os resultados preliminares obtidos pela aplicação do MSDLB resultaram bastante
optimistas. No primeiro caso, desenvolvido na secção 3.2, aplicámos o limiar desenvolvido ao
caso Euclideano com modelos probabilísticos Gaussianos tanto para o “prior” como para a
função de verosimilhança. Concluímos que o MSDLB, nestas condições, coincide
precisamente com o limiar anteriormente desenvolvido por Van Trees em [20] para
estimadores Bayesianos em Espaços Euclideanos.
O cenário do segundo exemplo, desenvolvido na secção 3.3, era composto por um
espaço de parâmetros que coincidia com o círculo unitário (variedade Riemanniana sem
qualquer tipo de estrutura vectorial) e por modelos probabilísticos de Von Mises quer para o
“prior” como para a função de verosimilhança. A aplicação do MSDLB nesta situação
evidenciou uma boa concordância entre o limiar teórico e o desempenho do estimador MMSD
mesmo para situações envolvendo parâmetros de concentração moderados (situação que pode
ser interpretada como “SNR” moderado). Este exemplo parece indiciar que a limitação do
MSDLB relacionada com a precisão de θˆMMSD , difícil de avaliar na prática como discutimos
na secção 2.4, poderá não ser muito severa para algumas aplicações.
Como trabalho futuro, será interessante aplicar o limiar desenvolvido para variedades
com curvatura não nula, tais como o grupo das matrizes ortogonais, o espaço projectivo
complexo, espaços Grassmann, etc, tentando, simultaneamente, identificar cenários onde o
cálculo directo da variância do estimador MMSD resultasse complexo mas para os quais o
MSDLB
providenciasse
uma
alternativa
computacionalmente
mais
atraente
(optimisticamente, em forma fechada). Seria também interessante averiguar a extensão do
limiar (ou respectiva prova) para funções de penalização (“loss”) diferentes da usada – a
distância quadrática.
36
Anexo A
___________________________________________________________________________
Anexo A
Provas para o capítulo 2
Lema A.1.
Seja F : M → N uma submersão. Tal equivale a dizer que para qualquer campo vectorial
Y ∈ TN existe um pré-imagem suave X ∈ TM por F* : TM → TN ou seja,
( )
F* X x0 = YF ( x0 ) , ∀ .
x0 ∈M
Prova: Seja dim M = n e dim N = p . Seja ainda p ∈ M , q = F ( p ) . Escolha-se Y ∈ TN .
Como F é uma submersão então existem vizinhanças de coordenadas (U , ϕ ) de p e (V ,ψ )
de q tais que
∃ : Fˆ = ψ o F o ϕ : ϕ (U ) → ϕ (V )
p∈(U ,ϕ )
q∈(V ,ψ )
Fˆ ( x1 ,..., x p , x p +1 ,..., x n ) = ( x1,..., x p ) .
Sejam Yˆ e X̂ dados por
∂
∂
Yˆ = ψ * ( Y ) = f 1 ( y1,..., y p ) 1 + ... + f p ( y 1,..., y p ) p
∂y
∂y
∂
∂
Xˆ x1 ,..., x p , x p +1 ,..., x n = f 1 ( x1,..., x p ) 1 + ... + f p ( x1,..., x p ) p .
(
)
∂x
∂x
Então Fˆ* Xˆ = Yˆ , uma vez que DFˆ = [ I p 0] . Temos ainda que F* ( X ) = Y . Para tal
( )
( )
escreva-se F como F = ψ − 1 o Fˆ o ϕ e recorde-se que X = ϕ*−1 Xˆ . Assim,
( ( )) =
F* ( X ) = ψ *−1 o Fˆ* o ϕ* ϕ*−1 Xˆ
( )
(Ŷ ) = Y .
ψ *−1 o Fˆ* Xˆ =
ψ *−1
Construa-se agora um campo vectorial X% a partir de X definido em W ⊂ U tal que
X → X% : X W = X% W , p ∈W ⊂ U , e
X% ≡ 0, p ∉ U .
Repita-se esta construção ponto a ponto de forma a obter a colecção
{(
)
}
(
C = W p , X% ( p) : p ∈ M , F* X% ( p) W
Claramente M =
UW
p∈ M
p
p
) = Y (A.1).
.
Como M é “second countable”, é possível de C extrair uma colecção mais refinada,
C% = Wk , X% ( pk ) : pk ∈ M , k ∈ N , tal que se verifique M = UWk .
{(
)
}
k
Nestas condições é possível criar uma partição da unidade subordinada à colecção C% ,
37
Anexo A
___________________________________________________________________________

J=
= ϕk ∈ C ∞ ( M ) :

∑ϕ
k
k

≡ 1 ,

tal que supp ϕk ⊂ Wk .
∞
Defina-se X = ∑ ϕk ⋅ X% ( pk ) e calcule-se F* ( X
k =1
F* ( X
).
a∈M

a∈M
) = F  ∑ϕ
*

k
k
∑
k: a ∈ supp ϕ k ⊂Wp k
Atendendo a (A.1) é possível escrever
∑
a∈M
k
∑ ϕ ( a ) ⋅ F ( X%
k
⋅ X% ( pk )
( pk )
*
a
(
)=
ϕk ( a ) ⋅ F* X% ( pk )
k: a ∈ supp ϕ k ⊂Wp k
a

=

)=
ϕk ( a ) ⋅ YF (a ) =


YF ( a ) ⋅ 
ϕk ( a )  =
∑
k : a ∈ supp ϕk ⊂Wpk

Voltando a estender o somatório a toda a partição




YF ( a) ⋅ ∑ ϕk ( a ) = YF ( a) .
k
1
424
3

1

Lema A.2.
Admita-se que a curvatura seccional de M é majorada por C ≥ 0 na bola geodésica Bε ( m) .
Isto é K ( Π ) ≤ C , para todos os planos Π ⊂ Tn M , n ∈ B ε (m) . Suponha-se que
Então a função k m : M → R , km ( n ) = 1 2 ⋅ d ( m, n ) é suave em Bε ( m) e tem-se
2
gradk m ( n ) = d (m , n )
(A)
Hess k m ( X n , X n ) ≥ C d (m , n ) cot  C d (m ,n ) ,
(B)
para todo o X n ∈ Tn M com X n = 1 e n ∈B ε (m ) .
Prova: Ver [25]
38
Cε < 1 2 .
Anexo A
___________________________________________________________________________
Lema A.3.
A seguinte desigualdade é verdadeira: x ⋅ cotg ( x ) ≥ 1 −
1 2
x ≥ 0 ∀ x∈ 0,

2
2 
.
Prova: Comece-se por notar que:
1 2
x ≥ 0 ∀ x∈ 0,

2
cos x
1
⇔ x⋅
≥ 1 − x 2 ≥ 0 ∀x∈0,

sin x
2
2 < π 2 , vem que sin x > 0 ∀x∈0, 2  e é tal que:
x ⋅ cotg ( x ) ≥ 1 −
Como

2 
2 
.

 1 2
⇔ x ⋅ cos x ≥ sin x ⋅  1 − x  .
 2 
Seja ∆ ( x ) = xcos x − sin x +
1 2
x sin x .
2
∆ (0) = 0 .
Agora,
∆′ ( x ) = cos x − x sin x − cos x + x sin x +
porque cos x ≥ 0, x ∈ 0, 2  .
39
1 2
1
x cos x = x2 cos x ≥ 0 ,
2
2
Anexo A
___________________________________________________________________________
40
Anexo B
___________________________________________________________________________
Anexo B
Provas para o capítulo 3
Lema B.1.
{
Se η : VM ( k , µ0 ) , então argmin E arcos (ηT x )
x∈S1
(
2
)
Prova: Defina-se J ( x) = ∫ arcos η T x e k .η
S
1
2
T
µ0
}=µ .
0
dη, x ∈ S1 . Começa-se por provar que µ0 é um
ponto de estacionariedade de J ( x ) ou seja que Z , ∇ x  J ( x ) 
= 0, ∀Z ∈T S1 .
x =µ 0
µ0
As derivadas parciais do funcional J ( x ) valem
dJ
ηi
= − ∫ arcos ηT x
i
dx
S1
1 − ηT x
(
)
( )
2
ek .η
T
µ0
dη (B.1).
Admitindo sem perda de generalidade µ0 = [1,0] (basta reescrever o funcional J ( x )
1 
recorrendo à mudança de variável η = QT w ⇒ w = Q.η , com Q : QT µ 0 =   ; a nova versão
0
avaliada em x = µ0 equivale a avaliar a original em x = [1,0] ) a expressão anterior avaliada
em µ0 vale
ηi
∂J
= − ∫ arcos (η1 )
ek .η1 dη .
i
2
∂x x = µ0 = (1,0)
S1
1 − (η )
1
∂J
e parametrizando S 1 recorrendo a γ ( t ) = (cos t ,sin t ) temos,
1
∂x
θ ; θ ∈ [ 0, π ]
atendendo a que arcos ( cos θ ) = 
,
 −θ ; θ ∈ [ −π , 0]
Particularizando para
π
0
∂J
cos θ k .cosθ
cos θ k .cosθ 
=
−
θ
e
d
θ
+
θ.
e
dθ 

(
)
1
∫
∫


∂x
sin
θ
sin
θ
−
π
0


0
π

cos θ k .cosθ
cos θ k .cosθ  
⇔ −   ∫ ( -θ )
e
dθ + ∫ θ .
e
dθ   = 0 .
  −π
sinθ
( - sin θ )
0
 

π
⇔ − ∫ θ.
−π
cos θ k .cosθ
e
dθ = a, a ≠ 0
sinθ
∂J
Particularizando agora para 2 ,
∂x
41
(B.2)
Anexo B
___________________________________________________________________________
π
 0
∂J
sin θ k .cosθ
sin θ k .cosθ 
=
−
θ
e
d
θ
+
θ.
e
dθ 

(
)
2
∫
∫


∂x
sin θ
(- sin θ )
0
 −π

0
π


k .cos θ
k .cos θ
⇔ −  ∫ θ .e
dθ + ∫θ .e
dθ  = 0 (B.3)
 −π
0

Ou seja, de acordo com (B.2) e (B.3) tem-se ∇ x  J ( x ) 
= ( a ,0 ) . Como tal
x =µ 0 =(1,0)
Z , ∇ x  J ( x ) 
= 0, ∀Z ∈T S1 , ou seja µ0 é um ponto estacionariedade de J ( x ) .
x =µ 0 =(1,0)
µ0
À medida que k tende para infinito, a massa da distribuição de Von Mises concentrase simetricamente numa vizinhança cada vez mais estreita em torno de µ0 . Como tal, no
limite teríamos J ( µ0 ) = 0 . Uma vez que J ( x ) ≥ 0 conclui- se que µ0 é um ponto de mínimo.
Lema B.2.
Se θ : VM ( k , µ ) , então E {wTθ } = ( µ T w ) .
I1 ( k )
I0 ( k )
, onde I n ( x ) designa a função de Bessel
modificada de ordem n .
Prova: Atendendo às hipóteses apresentadas podemos escrever
T
1
E wTθ = ∫ wT θ
e k .θ µ dθ .
2π I 0 ( k )
S1
A expressão anterior pode ser reescrita como
1
E wTθ = ∫ v T b
e k .v1 dv (B.4),
2π I 0 ( k )
S1
se considerarmos as mudanças de variável
µ2 
 µ
T
QT =  1
 , θ = Qv , b = Q w ,
−
µ
µ
 2
1
{
{
}
}
(
)
( )
que por sua vez implicam θ T w = vT QT w .
Desmembrando (B.4) e parametrizando S 1 recorrendo a γ ( t ) = (cos t ,sin t ) temos
v1
v2
E wTθ = b1 ∫
⋅ e k . v1 dv + b2 ∫
⋅ e k . v1 dv
2π I 0 ( k )
2π I 0 ( k )
S1
S1
{
}
π
⇔ b1 ∫
−π
π
cos( t ) k .cos( t )
sin(t )
⋅e
dt + b2 ∫
⋅ e k . c o st( )dt (B.5),
2π I 0 ( k )
2π I 0 (k )
−π
14442444
3
0
O termo entre parênteses em (B.5) vale zero já que a função integranda é ímpar.
∂
Por último, atendendo a que I1 ( x ) =
I 0 ( x) e a (B.5) temos
∂x
I1 ( k )
I1 ( k )
E {wTθ } = b1 ⋅
= ( µ T w) .
.
I0 ( k )
I0 (k)
42
Anexo B
___________________________________________________________________________
Lema B.3.
{
Se θ : VM ( k , µ ) , então E ( wTθ )
2
} = 12 + 2.II ((kk)) ⋅( b − b ) com b = µ w e b = ( J µ )
2
2
1
2
2
T
T
1
2
0
onde I n ( x ) designa a função de Bessel modificada de ordem n .
Prova: Atendendo às hipóteses apresentadas podemos escrever
2
2
T
1
E wTθ
= ∫ wT θ
e k .θ µ dθ
2π I 0 ( k )
S1
A expressão anterior pode ser reescrita como
2
2
1
E wTθ
= ∫ vTb
ek . v1 dv
(B.6),
2
π
I
(
k
)
1
0
S
se considerarmos as mudanças de variável
µ2 
 µ
T
QT =  1
 , θ = Qv , b = Q w ,
−
µ
µ
 2
1
{(
{(
)}
)}
(
)
( )
que por sua vez implicam θ T w = vT QT w .
Desmembrando (B.6) temos
v12
v22
vv
b12 ∫
⋅ e k .v1 dv + b22 ∫
⋅ ek . v1 dv + 2b1b2 ∫ 1 2 ⋅ e k .v1 dv
1 2π I 0 ( k )
1 2π I 0 ( k )
1 2π I 0 ( k )
S
S
S144
42444
3
(B.7).
0
O termo entre parênteses em (B.7) vale zero já que a função integranda é ímpar.
Desta forma, e parametrizando S 1 recorrendo a γ ( t ) = (cos t ,sin t ) , (B.7) equivale a
b12 2π 1 + cos(2t) k .cost
v22
2
⋅
e
dt
+
b
⋅ ek . v1 dv
(B.8).
2 ∫
2π I 0 ( k ) ∫0
2
2
π
I
(
k
)
1
0
S
O primeiro termo de (B.8) equivale a


2π
2π
2


b1
1
1
 ∫ ek .cost dt + ∫ cos(2t ).ek .cost dt 
2π I 0 ( k )  2 0
2 0
24
3
1442443 
 14
2 π I0 ( k )
2 π I2 ( k )

2
I2 (k ) 
b 
⇔ 1 1+
 (B.9).
2 
I 0 ( k ) 
O segundo termo de (B.8), atendendo a que θ = v = 1 , equivale a






2
1
v1
b22  ∫
⋅ ek . v1 dv − ∫
⋅ e k .v1 dv 
 S1 2π I 0 ( k )

1 2π I 0 ( k )
42444
3 S144
42444
3
 144
1
1  I2 ( k ) 


1 +

2  I0 ( k ) 


2
b  I 2 (k ) 
(B.10).
⇔ 2 1−

2  I 0 ( k ) 
43
w,
Anexo B
___________________________________________________________________________
Finalmente (B.7) atendendo a (B.9) e (B.10) e ao facto de b = w = 1 equivale a
{(
E wθ
T
)}
2
{(
b12  I 2 ( k )  b22  I 2 ( k ) 
= 1 +
 + 1 −

2  I 0 ( k )  2  I 0 ( k ) 
⇔ E wT θ
I 2 (k )
) } = 12 + 2.I ( k ) ⋅ (b
2
0
com,
b1 = µ T w
.

T
b2 = ( J µ ) w
44
2
1
)
− b22 ,
Referências
___________________________________________________________________________
Referências
[1] D. Gabay. Minimizing a diferentiable function over a diferentiable manifold. Journal of
Optimization Theory and Applications, 37(2):177–219, 1982.
[2] D. G. Luenberger. The gradient projection method along geodesics. Management Science,
18:620–631,1972.
[3] A. Edelman, T. A. Arias, and S. T. Smith. The geometry of algorithms with orthogonality
constraints. SIAM Journal on Matrix Analysis and Applications, 20(2):303–353, 1998.
[4] J. H. Manton. Optimisation algorithms exploiting unitary constraints. IEEE Transactions
on Signal Processing, 50(3):635–650, March 2002.
[5] R. S. Bucy, J. M. F. Moura and S. Leung, “Geometrical methods for directio n
determination,” in Proceedings of the NATO Advanced Study Institute on Acoustic Signal
Processing for Ocean Exploration, pp. 187–191, Madeira, Portugal1992.
[6] J. Xavier and V. Barroso, “Performance Analysis of a Second Order Statistics Based
Solution for the MIMO Channel Identification Problem,” Proceedings of the IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP’01), vol. 4 ,
pp. 1241–1244, Salt Lake City, EUA, May 2001.
[7] J. Xavier and V. Barroso, “Second-Order Blind MIMO Channel Identification Based on
Correlative Coding: Asymptotic Performance Analysis,” Proceedings of the 2001 IEEE
International Symposium on Information Theory, Washington, EUA, June 2001.
[8] H. Hendricks, “A Cramer-Rao type lower bound for estimators with values in a manifold,”
Journal of Multivariate Analysis, no. 38, pp. 245–261, 1991.
[9] U. Granander, M. Miller and A. Srivastava, “Hilbert-Schmidt lower bounds for estimators
on matrix Lie groups for ATR,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 20, no. 8, pp. 790–802, August 1998.
[10] S. Smith, “Intrinsic Cramer-Rao bounds and subspace estimation accuracy,” 1st IEEE
Workshop on Sensor Arrays and Multichannel Signal Processing, Boston, MA, 2000.
[11] J. Xavier and V. Barroso, “Intrinsic Distance Lower Bound for Unbiased Estimators on
Riemannian Manifolds,” Proceedings of the IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP’02), vol. 2, pp. 1141–1144, Orlando, Florida, EUA,
May 2002.
[12] J. Xavier and V. Barroso, “Intrinsic Variance Lower Bound for Inference Problems on
Riemannian Manifolds,” Proceedings of the 10th Mediterranean Conference on Control and
Automation (MED’2002), Lisbon, Portugal, July 2002.
[13] J. Xavier and V. Barroso, “The Riemannian Geometry of Certain Parameter Estimation
Problems with Singular Fisher Information Matrices,” Proceedings of the IEEE International
45
Referências
___________________________________________________________________________
Conference on Acoustics, Speech and Signal Processing (ICASSP’04), vol. 2, pp. 1021–1024,
Montreal, Canada, May 2004.
[14] J. Xavier and V. Barroso, “Intrinsic Variance Lower Bound (IVLB) for Unbiased
Estimators on Riemannian Manifolds”, in preparation, to submit to IEEE Transactions on
Signal Processing.
[15] A. Srivastava, “A Bayesian approach to geometric subspace estimation,” IEEE
Transactions on Signal Processing, vol. 48, no. 5, pp. 1390–1400, May 2000.
[16] W. Boothby. An Introduction to Diferentiable Manifolds and Riemannian Geometry. 2nd
ed., New York: Academic Press, 1986.
[17] S. Gallot, D.Hulin, and J. Lafontaine. Riemannian Geometry. 2nd ed., Springer-Verlag,
1990.
[18] J. Lee. Riemannian manifolds. Springer-verlag, 1997.
[19] Xavier, J. Blind Identification of MIMO Channels Based on 2nd Order Statistics and
Colored Input, PhD., Instituto Superior Técnico, 2002
[20] H. Van Trees. Detection, Estimation and Modulation Theory, Part I. New York: Wiley,
1968.
[21] H. Hicks, “A Cramer-Rao type lower bound for estimators with values in a manifold,”
Journal of Multivariate Analysis, no. 38, pp. 245–261, 1991.
[22] I. Jermyn, “On Bayesian Estimation in Manifolds”, Rapport de recherché, Laboratoire
I3S, Universidade Sophia Antipolis, Outubro 2002
[23] Mardia, Jupp. Directional Statistics, Wiley Series in Probability and Statistics, Wiley
[24] Jonh Lee, Introduction to Smooth Manifolds, Springer Verlag
[25] J. Jost. Riemannian Geometry and Geometric Analysis. 2nd ed. Springer-Verlag, 1998.
46
Download

Limiar de Desempenho para Estimação Bayesiana de Parâmetros