232
APÊNDICE A. DEFINIÇÕES MATEMÁTICAS
A.2 Entropia de variáveis aleatórias
A.2.1
Definição de entropia
Seja uma variável aleatória Y multidimensional, contı́nua, real e centrada (média nula)
com uma função de densidade de probabilidade pY (y). Define-se por entropia a seguinte
quantidade:
H(y) = −E {ln [pY (y)]}
Z∞
(A.19)
=−
pY (y) · ln [pY (y)] dy.
−∞
A.2.2
Distribuições com máxima entropia
É de grande interesse em processamento de sinais encontrar as distribuições que possuem
máxima entropia. Desta maneira é interessante solucionar o seguinte problema [Cover &
Thomas, 1991]:
Maximizar H(y) sob todas as distribuições pY (y) que satisfazem
1. RpY (y) ≥ 0, com a igualdade válida somente fora do domı́nio S da variável;
2. RS pY (y)dy = 1;
3. S pY (y)fi (y)dy = κi , para 1 ≤ i ≤ k;
em que κi é o momento centrado de i-ésima e fi (y) é uma função que faz pY (y)
respeitar a restrição.
Para resolver o problema acima, é necessário utilizar os multiplicadores de Lagrange.
Assim, pode-se escrever o seguinte Lagrangiano [Cover & Thomas, 1991]:
Z
X
Z
Z
k
J (pY (y)) = − pY (y) · ln [pY (y)] dy + β0 ·
pY (y)dy +
βi
pY (y)fi(y)dy = κi ,
S
S
i=1
S
(A.20)
em que β0 , . . . , βi são os multiplicadores de Lagrange.
Derivando-se a Equação (A.20) em relação à distribuição pY (y) tem-se então:
k
X
∂J (pY (y))
= − ln [pY (y)] − 1 + β0 +
βi · pY (y),
∂pY (y)
i=1
(A.21)
233
A.2. ENTROPIA DE VARIÁVEIS ALEATÓRIAS
em que β0 , . . . , βi são escolhidos de tal forma que pY (y) satisfaça as restrições.
Então quais são as distribuições que maximizam2 a Equação (A.21)?
A resposta depende das restrições impostas. A tı́tulo de exemplo considera-se dois casos:
1.
Suporte fixo (S = [a, b])
Neste caso, não há nenhuma restrição quanto aos momentos, logo os multiplicadores
β1 , . . . , βk = 0 uma vez que não há necessidade de restrição. Deste modo,
igualando-se a Equação (A.21) a zero tem-se:
− ln [pY (y)] − 1 + β0 = 0
ln [pY (y)] = β0 − 1
pY (y) = exp [β0 − 1] .
(A.22)
Resolvendo a integral sobre o suporte determinado, tem-se:
Zb
pY (y)dy = 1
a
Zb
exp [β0 − 1] dy = 1
(A.23)
a
exp [β0 − 1] · (b − a) = 1
1
.
py (y) = exp [β0 − 1] =
b−a
Assim, sob a restrição de um suporte fixo, a distribuição com máxima entropia é a
distribuição uniforme.
2.
Média e variância fixas
Sob estas restrições, β0 , β1 , β2 6= 0 e S =] − ∞, ∞[. Assim tem-se a seguinte solução
Y (y))
para a distribuição ao tomar-se ∂J(p
= 0:
∂pY (y)
pY (y) = exp β0 + β1 y + β2 y 2 − 1 .
(A.24)
Logo, necessita-se encontrar os valores de β0 , β1 e β2 através do seguinte sistema de
2
A rigor deve-se tomar a segunda derivada da Equação (A.20) para mostrar que é um valor de máximo.
234
APÊNDICE A. DEFINIÇÕES MATEMÁTICAS
equações:
Z∞
−∞
Z∞
Z∞
−∞
−∞
exp β0 + β1 y + β2 y 2 − 1 dy = 1
y · exp β0 + β1 y + β2 y 2 − 1 dy = κ1
(A.25)
y 2 · exp β0 + β1 y + β2 y 2 − 1 dy = σ 2 = κ2 .
A solução do sistema na Equação (A.25) fornece os seguintes valores para os
multiplicadores de Lagrange:
h√
i
β0 = − ln 2πσ
β1 = κ1
β2 = −
(A.26)
1
.
2σ 2
Desta maneira, substituindo-se os valores da Equação (A.26) na Equação (A.24)
obtém-se
1
(y − κ1 )2
pY (y) = √
exp −
.
(A.27)
2σ 2
2πσ
Logo, para a restrição de média e variância fixas, a distribuição gaussiana apresenta
a máxima entropia.
É possı́vel mostrar esta propriedade da distribuição gaussiana sob outra abordagem,
conforme descrito na seção a seguir.
A.2.3
Entropia de uma variável gaussiana: abordagem alternativa
Seja Y uma variável aleatória gaussiana multidimensional e de média nula cuja densidade
é escrita como:
1
1 T −1
pG (y) = √
− y Ry y ,
(A.28)
1 · exp
n
2
2π · |det(Ry )| 2
em que n é a dimensão do vetor y e Ry é a matriz de autocorrelação de y.
Ao tomar-se o logaritmo natural da Equação (A.28), obtém-se
ln [pG (y)] = −
n
1
1
· ln[2π] − ln [|det(Ry )|] − yT R−1
y y.
2
2
2
(A.29)
235
A.2. ENTROPIA DE VARIÁVEIS ALEATÓRIAS
Como pode-se escrever [Picinbono & Barret, 1990]
T −1
yT R−1
,
y y = tr yy Ry
em que tr(·) é o traço da matriz, tem-se que
T −1
E yT R−1
y
=
E
tr
yy
R
= tr(I) = n.
y
y
(A.30)
Então, substituindo os resultados obtidos nas Equações (A.29) e (A.30) na Equação (A.19)
tem-se:
1
n
HG (y) = · {ln[2π] + 1} + · ln [|det(Ry )|] ,
(A.31)
2
2
em que HG (y) é a entropia da distribuição gaussiana de média nula.
Um aspecto importante a ser demonstrado é que a distribuição gaussiana apresenta a
maior entropia entre todas as distribuições. Para tal, considera-se uma função de densidade
de probabilidade qualquer sobre a variável representada por pY (y).
A média da v.a. ln [pG (y)] é a mesma tanto considerando-a com uma distribuição qualquer
pY (y) como no caso particular de uma distribuição gaussiana pG (y). Isto porque a matriz de
autocorrelação para as duas distribuições é a mesma, ou seja, a restrição é de que a distribuição
tenha uma variância definida [Picinbono & Barret, 1990].
Daı́, pode-se escrever
Z∞
Z∞
pY (y) · ln [pG (y)] dy =
pG (y) · ln [pG (y)] dy = −HG (y).
−∞
(A.32)
−∞
A partir da definição da divergência de Kulback-Leibler pode-se escrever:
Z∞
Z∞
Z∞
pY (y)
pY (y) · ln
dy =
pY (y) · ln [pY (y)] dy −
pY (y) · ln [pG (y)] dy
pG (y)
−∞
Z∞
pY (y)
pY (y) · ln
dy = −HY (y) −
pG (y)
−∞
Z∞
−∞
−∞
pY (y) · ln
Z∞
−∞
pG (y)
dy = HY (y) +
pY (y)
Z∞
−∞
−∞
pY (y) · ln [pG (y)] dy
pY (y) · ln [pG (y)] dy,
e substituindo-se na Equação (A.32) obtém-se a seguinte relação
Z∞
pG (y)
HY (y) − HG (y) =
dy.
pY (y) · ln
pY (y)
−∞
(A.33)
(A.34)
236
APÊNDICE A. DEFINIÇÕES MATEMÁTICAS
Ao utilizar-se então a desigualdade ln[x] ≤ x − 1, a igualdade só ocorre quando x = 1,
obtendo-se
HY (y) − HG (y) ≤ 0,
(A.35)
obtendo-se a igualdade somente quando pY (y) = pG (y).
Desta maneira mostra-se que a entropia da variável gaussiana é máxima.
Download

Entropy of distributions