232 APÊNDICE A. DEFINIÇÕES MATEMÁTICAS A.2 Entropia de variáveis aleatórias A.2.1 Definição de entropia Seja uma variável aleatória Y multidimensional, contı́nua, real e centrada (média nula) com uma função de densidade de probabilidade pY (y). Define-se por entropia a seguinte quantidade: H(y) = −E {ln [pY (y)]} Z∞ (A.19) =− pY (y) · ln [pY (y)] dy. −∞ A.2.2 Distribuições com máxima entropia É de grande interesse em processamento de sinais encontrar as distribuições que possuem máxima entropia. Desta maneira é interessante solucionar o seguinte problema [Cover & Thomas, 1991]: Maximizar H(y) sob todas as distribuições pY (y) que satisfazem 1. RpY (y) ≥ 0, com a igualdade válida somente fora do domı́nio S da variável; 2. RS pY (y)dy = 1; 3. S pY (y)fi (y)dy = κi , para 1 ≤ i ≤ k; em que κi é o momento centrado de i-ésima e fi (y) é uma função que faz pY (y) respeitar a restrição. Para resolver o problema acima, é necessário utilizar os multiplicadores de Lagrange. Assim, pode-se escrever o seguinte Lagrangiano [Cover & Thomas, 1991]: Z X Z Z k J (pY (y)) = − pY (y) · ln [pY (y)] dy + β0 · pY (y)dy + βi pY (y)fi(y)dy = κi , S S i=1 S (A.20) em que β0 , . . . , βi são os multiplicadores de Lagrange. Derivando-se a Equação (A.20) em relação à distribuição pY (y) tem-se então: k X ∂J (pY (y)) = − ln [pY (y)] − 1 + β0 + βi · pY (y), ∂pY (y) i=1 (A.21) 233 A.2. ENTROPIA DE VARIÁVEIS ALEATÓRIAS em que β0 , . . . , βi são escolhidos de tal forma que pY (y) satisfaça as restrições. Então quais são as distribuições que maximizam2 a Equação (A.21)? A resposta depende das restrições impostas. A tı́tulo de exemplo considera-se dois casos: 1. Suporte fixo (S = [a, b]) Neste caso, não há nenhuma restrição quanto aos momentos, logo os multiplicadores β1 , . . . , βk = 0 uma vez que não há necessidade de restrição. Deste modo, igualando-se a Equação (A.21) a zero tem-se: − ln [pY (y)] − 1 + β0 = 0 ln [pY (y)] = β0 − 1 pY (y) = exp [β0 − 1] . (A.22) Resolvendo a integral sobre o suporte determinado, tem-se: Zb pY (y)dy = 1 a Zb exp [β0 − 1] dy = 1 (A.23) a exp [β0 − 1] · (b − a) = 1 1 . py (y) = exp [β0 − 1] = b−a Assim, sob a restrição de um suporte fixo, a distribuição com máxima entropia é a distribuição uniforme. 2. Média e variância fixas Sob estas restrições, β0 , β1 , β2 6= 0 e S =] − ∞, ∞[. Assim tem-se a seguinte solução Y (y)) para a distribuição ao tomar-se ∂J(p = 0: ∂pY (y) pY (y) = exp β0 + β1 y + β2 y 2 − 1 . (A.24) Logo, necessita-se encontrar os valores de β0 , β1 e β2 através do seguinte sistema de 2 A rigor deve-se tomar a segunda derivada da Equação (A.20) para mostrar que é um valor de máximo. 234 APÊNDICE A. DEFINIÇÕES MATEMÁTICAS equações: Z∞ −∞ Z∞ Z∞ −∞ −∞ exp β0 + β1 y + β2 y 2 − 1 dy = 1 y · exp β0 + β1 y + β2 y 2 − 1 dy = κ1 (A.25) y 2 · exp β0 + β1 y + β2 y 2 − 1 dy = σ 2 = κ2 . A solução do sistema na Equação (A.25) fornece os seguintes valores para os multiplicadores de Lagrange: h√ i β0 = − ln 2πσ β1 = κ1 β2 = − (A.26) 1 . 2σ 2 Desta maneira, substituindo-se os valores da Equação (A.26) na Equação (A.24) obtém-se 1 (y − κ1 )2 pY (y) = √ exp − . (A.27) 2σ 2 2πσ Logo, para a restrição de média e variância fixas, a distribuição gaussiana apresenta a máxima entropia. É possı́vel mostrar esta propriedade da distribuição gaussiana sob outra abordagem, conforme descrito na seção a seguir. A.2.3 Entropia de uma variável gaussiana: abordagem alternativa Seja Y uma variável aleatória gaussiana multidimensional e de média nula cuja densidade é escrita como: 1 1 T −1 pG (y) = √ − y Ry y , (A.28) 1 · exp n 2 2π · |det(Ry )| 2 em que n é a dimensão do vetor y e Ry é a matriz de autocorrelação de y. Ao tomar-se o logaritmo natural da Equação (A.28), obtém-se ln [pG (y)] = − n 1 1 · ln[2π] − ln [|det(Ry )|] − yT R−1 y y. 2 2 2 (A.29) 235 A.2. ENTROPIA DE VARIÁVEIS ALEATÓRIAS Como pode-se escrever [Picinbono & Barret, 1990] T −1 yT R−1 , y y = tr yy Ry em que tr(·) é o traço da matriz, tem-se que T −1 E yT R−1 y = E tr yy R = tr(I) = n. y y (A.30) Então, substituindo os resultados obtidos nas Equações (A.29) e (A.30) na Equação (A.19) tem-se: 1 n HG (y) = · {ln[2π] + 1} + · ln [|det(Ry )|] , (A.31) 2 2 em que HG (y) é a entropia da distribuição gaussiana de média nula. Um aspecto importante a ser demonstrado é que a distribuição gaussiana apresenta a maior entropia entre todas as distribuições. Para tal, considera-se uma função de densidade de probabilidade qualquer sobre a variável representada por pY (y). A média da v.a. ln [pG (y)] é a mesma tanto considerando-a com uma distribuição qualquer pY (y) como no caso particular de uma distribuição gaussiana pG (y). Isto porque a matriz de autocorrelação para as duas distribuições é a mesma, ou seja, a restrição é de que a distribuição tenha uma variância definida [Picinbono & Barret, 1990]. Daı́, pode-se escrever Z∞ Z∞ pY (y) · ln [pG (y)] dy = pG (y) · ln [pG (y)] dy = −HG (y). −∞ (A.32) −∞ A partir da definição da divergência de Kulback-Leibler pode-se escrever: Z∞ Z∞ Z∞ pY (y) pY (y) · ln dy = pY (y) · ln [pY (y)] dy − pY (y) · ln [pG (y)] dy pG (y) −∞ Z∞ pY (y) pY (y) · ln dy = −HY (y) − pG (y) −∞ Z∞ −∞ −∞ pY (y) · ln Z∞ −∞ pG (y) dy = HY (y) + pY (y) Z∞ −∞ −∞ pY (y) · ln [pG (y)] dy pY (y) · ln [pG (y)] dy, e substituindo-se na Equação (A.32) obtém-se a seguinte relação Z∞ pG (y) HY (y) − HG (y) = dy. pY (y) · ln pY (y) −∞ (A.33) (A.34) 236 APÊNDICE A. DEFINIÇÕES MATEMÁTICAS Ao utilizar-se então a desigualdade ln[x] ≤ x − 1, a igualdade só ocorre quando x = 1, obtendo-se HY (y) − HG (y) ≤ 0, (A.35) obtendo-se a igualdade somente quando pY (y) = pG (y). Desta maneira mostra-se que a entropia da variável gaussiana é máxima.