TÓPICOS DE ÁLGEBRA LINEAR Paulo Lopes dos Santos Departamento de Engenharia Electrotécnica e Computadores Faculdade de Engenharia da Universidade do Porto Rua Dr Roberto Frias, s/n 4200-464 Porto, Portugal Email: [email protected] Setembro 2007 Tópicos de Algebra Linear 1 Conteúdo 1 Vectores Linearmente Independentes 2 2 Subespaços e Bases 4 3 Subespaços Associados a Matrizes e Decomposição QR 6 4 Decomposição em Valores Singulares 11 5 Norma Quadrática de Matrizes 16 6 Aproximação de uma Matriz por Outra de Caracterı́stica Inferior 22 7 Projecções Ortogonais de Subespaços 25 8 Projecções Oblı́quas de Subespaços 32 9 Projecções nos Subespaços gerados pelas linhas duma matriz 33 10 Produto de Kronecker e Vectorização de Matrizes 34 11 Norma de Frobenius 39 Tópicos de Algebra Linear 1 2 Vectores Linearmente Independentes Sejam v1 , v2 , . . . , vn vectores em IRn . Diz-se que estes vectores são linearmente independentes se, para um conjunto de escalares αi ∈ IR, i = 1, . . . , n n X αi vi = 0n ⇒ α1 = α2 = · · · = αn = 0, i=1 · n v11 v12 ¸ em que 0n é o vector de IR com todas as entradas nulas. Se v1 = ∈ IR2 e v2 = · ¸ · ¸ v21 z1 2 ∈ IR , então, qualquer ponto z = , pertencente ao subespaço S ⊆ IR2 gerado v22 z2 por v1 e v2 , pode ser expresso através da combinação linear · ¸ · ¸ · ¸ · ¸· ¸ · ¸ v11 v21 z1 v11 v21 α1 z1 α1 v1 + α2 v2 = z ⇔ α1 + α2 = ⇔ = . v12 v22 z2 v12 v22 α2 z2 · ¸ v11 v21 Se a matriz V = for não singular e se z = 02 , então v12 v22 · ¸ · ¸−1 · ¸ · ¸ α1 v11 v21 z1 0 = = α2 v12 v22 z2 0 e, consequentemente, só para α1 = α2 = 0 é que v1 e v2 se anulam. Concluı́mos, assim, que v1 e v2 são independentes se e só se (sse) V for uma matriz não singular, ou seja, sse det V 6= 0. Como det V = v11 v22 − v21 v12 então det V = 0 ⇔ v11 v22 − v21 v12 v21 v22 =0⇔ = =k⇒ v11 v12 ½ v21 = kv11 ⇔ v2 = kv1 v22 = kv12 significando isto que v1 e v2 são independentes sse não forem colineares. v2 v1 u2 u1 Figura 1: v1 e v2 são linearmente independentes e u1 e u2 são linearmente dependentes Em IR2 o máximo que conseguimos é um conjunto de dois vectores linearmente independentes. Qualquer conjunto com mais de dois vectores não é de vectores linearmente independentes. Tópicos de Algebra Linear 3 Exemplo 1 : 2 Seja {v· 1 , v2 , v¸ 3 } um conjunto · ¸de vectores não nulos em IR . Acabamos de ver ½·que se os vec¸¾ v11 v21 v11 v21 tores v1 = e v2 = forem linearmente independentes então det 6= v12 v22 v12 v22 0 Nestas condições, · ¸ · ¸−1 · ¸ α1 v11 v21 v31 = 6= 02 α2 v12 v22 v32 é a solução da equação · α1 v1 + α2 v2 = v3 ⇔ v11 v21 v12 v22 ¸· α1 α2 ¸ · = v31 v32 ¸ e, consequentemente, α1 v1 + α2 v2 − v3 = 02 significando isto que {v1 , v2 , v3 } nunca pode ser um conjunto de vectores independentes. x2 v32 α1 v1 α1 v12 v3 α2 v22 α 2 v2 v22 v12 v2 v1 x1 v21 α2 v21 v11 v31 α1 v11 Figura 2: v1 ,v2 e v3 são vectores no mesmo plano e, por isso, são linearmente dependentes Pode-se provar de forma idêntica que, no espaço IRn nunca se conseguem mais do que n vectores linearmente independentes. Tópicos de Algebra Linear 2 4 Subespaços e Bases Seja S um subconjunto do espaço vectorial E, isto é, S ⊆ E. Se, para quaisquer elementos v1 e v2 pertencentes a S e quaisquer escalares α1 e α2 a combinação linear α1 v1 + α2 v2 pertencer a S, então S é um subespaço de E. Deste modo, todas as combinações lineares dos vectores {v1 , v2 , . . . , vm } com vi ∈ IRn formam um subespaço de IRn . Esse subespaço é designado como ( S = span {v1 , v2 , . . . , vm } = x:x= m X ) αi vi , ∀αi ∈IR . i=1 Dizemos, então, que qualquer conjunto de vectores {v1 , v2 , . . . , vm } gera um subespaço. Exemplo 2 : Todas as combinações lineares do vector v1 são vectores colineares com v1 . Isto significa que o subespaço gerado pelo vector v1 (span {v1 }) é a recta que o contém. x2 span{v1 } v1 x1 Figura 3: O subespaço gerado por v1 é a recta span{v1 } Exemplo 3 : O subespaço definido pelo conjunto de vectores {v1 , v2 } é o plano que contém v1 e v2 (span{v1 , v2 }) se estes vectores forem linearmente independentes. Se forem dependentes é a recta que os contém. A dimensão dum subespaço é o número de vectores linearmente independentes que são necessários para o gerar. Assim, qualquer recta que passe pela origem é um subespaço de Tópicos de Algebra Linear 11111111111111111111 00000000000000000000 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 x 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 spa 00000000000000000000 11111111111111111111 n{ v ,v } 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 v 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 v 00000000000000000000 11111111111111111111 00000000000000000000 11111111111111111111 x 11111111111111111111 00000000000000000000 5 3 1 2 1 x1 2 2 Figura 4: O subespaço gerado por v1 e v2 é o plano span{v1 , v2 } dimensão um, pois, pode ser gerada por um único vector. Qualquer plano que contenha a origem é um subespaço de dimensão dois (pode ser gerado por dois vectores linearmente independentes). Seja S um subespaço de IRn com dimensão p. Qualquer conjunto de vectores independentes {v1 , v2 , . . . , vp } pertencentes a S é uma base de S. Deste modo, qualquer elemento x ∈ S pode ser representado pela combinação linear x = β1 v1 + β2 v2 + · · · + βp vp em que β1 , β2 , . . . , βp são as componentes (coordenadas) de x relativamente à base {v1 , v2 , . . . , vp }. Notemos que qualquer subespaço S tem um número infinito de bases. No entanto, o número de elementos de cada base é sempre igual à dimensão de S. Sejam x, y ∈ IRn . Se xT y = y T x = 0 dizemos que x e y são ortogonais o que representamos por x⊥y. Se y T x = 0 para todo x ∈ S ⊂ IRn , então y é ortogonal a S o que designamos por Tópicos de Algebra Linear 6 y⊥S. O conjunto de todos os vectores perpendiculares a S é o complemento ortogonal de S e é representado por S⊥ . Formalmente, podemos definir S⊥ por © ª S⊥ = y ∈ IRn : y T x = 0, ∀x ∈ S . Pode-se provar que S⊥ é um subespaço de IRn mesmo que S o não seja. Sejam S e V subespaços de IRn . A soma de S e V, designada por S ∨ V, é o subespaço gerado por todos os elementos de S e V. A sua definição formal é S ∨ V = {x + y : x ∈ S ∧ y ∈ V} . É importante assinalar que este subespaço não é a união de S e V (S∪V não é um subespaço). Se S ∩ V = {0}, designamos S ∨ V por soma directa. Se, para quaisquer vectores x ∈ S, y ∈ V, y T x = 0, dizemos que S é ortogonal a V o que representamos por S⊥V. Neste caso, S ∨ V é a soma ortogonal directa e é representada por S ⊕ V. Para qualquer subespaço S ∈ IRn existe uma única decomposição IRn = S ⊕ S⊥ . Isto significa que para todo z ∈ IRn existe uma única decomposição z = x + y em que x ∈ S e y ∈ S⊥ . 3 Subespaços Associados a Matrizes e Decomposição QR Dado um conjunto de vectores em IRn como é que podemos verificar se são linearmente independentes? A forma mais simples é formar uma matriz cujas colunas (ou linhas) são as coordenadas desses vectores e calcular a sua caracterı́stica (recordemos que a caracterı́stica duma matriz é o seu número de linhas ou colunas linearmente independentes). Exemplo 4 : Sejam v1 = 1 2 3 4 5 e v2 = M = £ v1 1 3 2 6 ¤ v2 = 3 9 4 12 5 15 3 6 9 12 15 dois vectores em IR5 . Se formarmos a matriz Tópicos de Algebra Linear 7 podemos ver que car(M ) = 1 e concluir que v1 e v2 são linearmente dependentes (é fácil ver que v2 = 3v1 e que, consequentemente, estes dois vectores são colineares). Como car(M T ) = car(M ) chegarı́amos ao mesmo resultado através do cálculo da caracterı́stica de · M T = v1T v2T ¸ · = 1 2 3 4 5 3 6 9 12 15 ¸ . Uma forma interessante de vermos uma matriz A ∈ IRn×m , é encarar as suas colunas (ou as suas linhas) como um conjunto de vectores que geram um subespaço em IRn (ou IRm no caso das linhas). Deste modo, podemos associar a A dois subespaços: • 1 - Subespaço gerado pelas suas colunas (column-space) que designaremos por im(A) (imagem de A); • 2 - Subespaço gerado pelas suas linhas (row-space) que designaremos por im(AT ) (imagem de AT ); Consideremos agora um vector x ∈ IRm . Se multiplicarmos A por x vamos obter um vector em IRn , isto é, v = Ax ∈ IRn Podemos, então, afirmar que a matriz A define uma transformação do espaço IRm para IRn (IRm → IRn ). Sendo A = £ a1 a2 · · · am ¤ em que ai ∈ IRn , i = 1, . . . , m e x1 x2 x = .. . xm então v = Ax = £ a1 a2 · · · am ¤ x1 x2 .. . xm = a1 x1 + a2 x2 + · · · + am xm , Tópicos de Algebra Linear 8 ou seja, v = Ax é uma combinação linear das colunas de A, cujos coeficientes são os elementos x1 , x2 , . . . , xm de x. Deste modo, v pertence sempre ao subespaço gerado pelas colunas de A, isto é, im(A). Se as colunas de A forem linearmente independentes, então constituem uma base para im(A). Nestas condições, diz-se que A é uma matriz de caracterı́stica completa (car(A) = m = número de colunas). Identicamente, AT define uma transformação IRn → IRm , sendo a imagem dessa transformação (im(AT )) o subespaço gerado pelas linhas de A. Se as linhas de A constituı́rem uma base de im(AT ), então AT e, consequentemente A, são matrizes de caracterı́stica completa. Assim, A ∈ IRn×m é uma matriz de caracterı́stica completa se e só se car(A) = n ou car(A) = m ⇔ car(A) = min(n, m) Notemos que, sendo v = Ax uma combinação linear das colunas de A, podemos exprimir v através duma outra combinação linear de outro conjunto de vectores que gere a imagem de A. Isto significa que podemos escrever v = Ax = Āx̄ em que im(Ā) = im(A) e x̄ são os coeficientes da referida combinação linear das colunas de Ā. Aqui a única restrição é car(Ā) = car(A) e, consequentemente, o número de colunas de Ā, igual ao número de linhas de x̄, não tem que ser igual ao número de colunas de A. Frequentemente procuramos que as colunas de Ā sejam uma base que, termos numéricos, seja o mais robusta possı́vel. A robustez máxima é alcançada quando as colunas de Ā constituem uma base ortonormal, isto é, quando são um conjunto de vectores com módulo unitário e perpendiculares entre si. Matrizes cujas colunas formam uma base ortonormal são chamadas matrizes ortonormais e são frequentemente designadas pela letra Q. Notemos que se Q ∈ IRn×m for uma matriz ortonormal então QT Q = I m Se Q for uma matriz quadrada (m = n) então QT Q = Im = In ⇔ Q−1 = QT . É esta propriedade que faz com que estas matrizes sejam numericamente muito robustas e que frequentemente se procure representar im(A) através destas matrizes. Uma das formas Tópicos de Algebra Linear 9 mais utilizadas na álgebra linear para atingir este objectivo é a decomposição QR, onde uma matriz A ∈ IRn×m com n ≥ m e car(A) = r, é decomposta no produto de matrizes · ¸ R 0r×(m−r) A = Q = QR R 0(n−r)×r 0(n−r)×(m−r) £ ¤ em que Q = QR Q̄R ∈ IRn×n com QR ∈ IRn×r e Q̄R ∈ IRn×(n−r) . Q é uma matriz ortonormal (QT Q = In ) e, consequentemente, QR e Q̄R também o são (QTR QR = Ir e Q̄TR Q̄R = In−r ), sendo im(Q̄R ) o complemento ortogonal de im(QR ) o que representamos por Q¯R = Q⊥ . R ∈ IRr×r é uma matriz triangular superior. R Exemplo 5 : Transformação QR na resolução do sistema de equações Ax = y Consideremos o sistema de equações Ax = y em que A ∈ IRn×n , x, y ∈ IRn e car(A) = n. Fazendo uma decomposição QR teremos QRx = y ⇔ Rx = QT y ficando este sistema de equações reduzido a r11 r12 · · · r1n x1 ȳ1 0 r22 · · · r2n x2 ȳ2 .. .. . . .. .. = .. . . . . . . 0 0 · · · rnn xn ȳn em que ȳ = ȳ1 ȳ2 .. . = QT y. ȳn Como R é uma matriz triangular superior, as soluções xn , xn−1 , . . . , x1 podem ser calculadas recursivamente por substituição à retaguarda (back substitution), começando por xn = ȳn . rnn Com este processo, substituı́mos a inversão de A pela transposição de Q e pela inversão da matriz triangular superior R, que são operações numericamente mais robustas. Exemplo 6 : Resolução do problema de mı́nimos quadrados O problema de mı́nimos quadrados consiste no cálculo de vector θ ∈ IRm que minimiza kY − Xθk2 = (Y − Xθ)T (Y − Xθ) Tópicos de Algebra Linear 10 com Y ∈ IRn , X ∈ IRn×m , n ≥ m e car(X) = m. Efectuando a seguinte decomposição QR de X R X = Q − − −− 0(n−m)×m Q ∈ IRn×n , R ∈ IRm×m e, uma vez que Q é uma matriz ortonormal quadrada e que consequentemente QQT = In , teremos kY − Xθk2 = (Y − Xθ)T (Y − Xθ) = (Y − Xθ)T QQT (Y − Xθ) = ° £ T ¤T £ T ¤ ° Q (Y − Xθ) Q (Y − Xθ) = °QT Y − QT Xθ)°2 = °· °· ¸ · ¸ ° ¸ · ¸ ° ° ° ° Ȳ1 ° Ȳ1 R R T ° ° ° ° ° Ȳ2 − Q Q 0(n−m)×m θ° = ° Ȳ2 − 0(n−m)×m θ° = 2 2 °· ¸° h i · Ȳ − Rθ ¸ ° Ȳ1 − Rθ ° 1 ° ° = (Ȳ1 − Rθ)T Y¯2 T = ° ° Y¯2 Y¯2 2 ° ° ° ° T = (Ȳ1 − Rθ)T (Ȳ1 − Rθ) + Y¯2 Y¯2 = °Ȳ1 − Rθ°2 + °Y¯2 °2 em que · ¸ Ȳ1 = QT Y, Ȳ2 Ȳ1 ∈ IRm , Ȳ2 ∈ IRn−m . A solução do problema de mı́nimos quadrados será, então, a solução do sistema de equações Rθ̂ = Ȳ1 idêntico ao do exemplo anterior. Como, para θ = θ̂, Ȳ1 − Rθ = 0m , então min kY − Xθk2 = kY2 k2 . Existem várias formas de obter uma decomposição QR sendo, talvez, as transformações de Householder e a ortogonalização de Gram-Schimdt, os métodos mais utilizados. Além de im(A), também se define o subespaço Núcleo de A (kernel ou null space em inglês) designado por ker(A) e que é definido por ker(A) = {x : Ax = 0n } , ou seja, o subespaço de IRm que é transformado na origem (de IRn ) pela matriz A ∈ IRn×m . Como este subespaço é formado por todos os vectores perpendiculares às linhas de A, podemos afirmar que ker(A)⊥im(AT ), sendo, por isso, ker(A) ∩ im(AT ) = 0m×m . Por outro lado, Tópicos de Algebra Linear 11 como a dimensão do núcleo duma matriz é igual ao seu número de colunas (m) menos a sua £ ¤ caracterı́stica, então, dim [ker(A)] + dim im(AT ) = m e, consequentemente, ker(A) ⊕ im(AT ) = Rm ⇒ ker(A) = im(AT )⊥ . Identicamente, o núcleo de AT , designado por ker(AT ), é o complemento ortogonal de im(A). 4 Decomposição em Valores Singulares Na decomposição QR é explicitada uma base ortonormal para a imagem duma matriz A. Nesta secção iremos ver a decomposição em valores singulares onde, além duma base ortonormal para este subespaço, também são explicitadas bases ortonormais para a imagem de AT e para os núcleos de A e AT . Antes de introduzirmos esta decomposição vamos recordar a diagonalização de matrizes simétricas. Lema 1 Se B ∈ IRn×n for uma matriz simétrica, isto é, se B T = B, então pode ser decomposta na forma B = UB ΛB UBT em que ΛB = λ1 0 0 λ2 .. .. . . 0 0 ··· ··· ... 0 0 .. . (1) · · · λn UB UBT = UBT UB = In (2) ou seja, ΛB é uma matriz diagonal e UB uma matriz ortonormal. Demonstração: Como B é simétrica os seus valores próprios são reais e é diagonalizável. Para simplificar, vamos admitir todos os valores próprios de B são distintos. Nestas condições podemos escrever B = T ΛB T −1 Tópicos de Algebra Linear 12 em que ΛB está definida em (1) e T é uma matriz cujas colunas são os vectores próprios de B. Definindo UB = T ⇔ UB−1 = det(T )T −1 det(T ) podemos escrever B = T ΛB T −1 = UB ΛB UB−1 . (3) Como B = B T podemos concluir que B = UB ΛB UB−1 = UB−T ΛB UBT ⇒ UB−1 = UBT ⇔ UB UBT = UBT UB = In . Se B tiver valores próprios repetidos as suas multiplicidades algébrica e geométrica são iguais, continuando a expressão(3) a ser válida para estes casos. 2 Estamos agora em condições de apresentar a decomposição em valores singulares. Teorema 1 : Decomposição em valores singulares (svd) Se A ∈ IRn×m tiver caracterı́stica r ≤ min(n, m) então existem duas matrizes ortonormais U ∈ IRn×n e V ∈ IRm×m tal que · ¸ S+ 0r×(m−r) A = U VT 0(n−r)×r 0(n−r)×(m−r) σ1 0 · · · 0 0 σ2 · · · 0 r×r S+ = .. .. . . .. ∈ IR . . . . 0 0 · · · σr (4) (5) com σ1 ≥ σ2 ≥ · · · ≥ σr > 0. Demonstração: Como a matriz AT A ∈ Rm×m é simétrica e, pelo menos, semidefinida positiva, pode ser decomposta na forma AT A = V ΛA V T λ1 0 0 λ2 ΛA = .. .. . . 0 0 V V T = V T V = Im ··· ··· .. . 0 0 .. . · · · λm λi ≥ 0, i = 1, . . . , m. Tópicos de Algebra Linear 13 Sendo car(A) = r ≤ m, podemos definir λ1 ≥ λ2 ≥ · · · > λr > 0, λr+1 = λr+2 = · · · = λm = √ 0 e σi = λi , i = 1, . . . , m. As colunas de V são vectores próprios de AT A, isto é, V = £ v1 v2 · · · vm AT Avi = λi vi = σi2 vi , ¤ i = 1, . . . , m. Se Vr ∈ IRm×r for a matriz cujas colunas são os vectores próprios associados aos valores próprios não nulos e V̄r ∈ IRm×(m−r) a matriz com as restantes colunas de V , ou seja, Vr = V̄r = £ £ v1 v2 · · · vr ¤ vr+1 vr+2 · · · vm (6) ¤ , (7) então ¤ AT Av1 AT Av2 · · · AT Avr (8) σ12 0 · · · 0 2 £ 2 ¤ ¤ 0 σ2 · · · 0 £ 2 σ1 v1 σ22 v2 · · · σr2 vr = .. = .. . . .. v1 v2 · · · vr = S+ Vr . . . . 2 0 0 · · · σm £ ¤ £ ¤ = AT A vr+1 vr+2 · · · vm = AT Avr+1 AT Avr+2 · · · AT Avm = £ ¤ 0m 0m · · · 0m = 0m×(m−r) (9) = AT AVr = AT A AT AV̄r £ v1 v2 · · · vr ¤ = £ onde S+ é a matriz definida em (5). Seja Ur = AVr S+−1 ∈ IRn×r . (10) Pré-multiplicando Ur pelo seu transposto UrT Ur = (AVr S+−1 )T (AVr S+−1 ) = (S+−1 VrT AT )(AVr S+−1 ) = S+−1 VrT (AT AVr )S+−1 = S+−1 VrT (Vr S+2 )S+−1 = S+−1 (VrT Vr )(S+2 S+−1 ) = S+−1 S+ = Ir verificamos que Ur é uma matriz ortonormal cujas colunas geram um subespaço de dimensão r em IRn . Se Ūr for uma matriz ortonormal cuja imagem é o complemento ortogonal da imagem de Ur (Ūr = Ur⊥ ), então 0(n−r)×r = ŪrT Ur = ŪrT AVr S+−1 ⇒ ŪrT A = 0(n−r)×m , Tópicos de Algebra Linear 14 isto é, a imagem de Ūr também é o complemento ortogonal de A, o que nos permite concluir que im(Ur ) = im(A) e que, consequentemente, as colunas de Ur são uma base ortonormal de im(A). Definindo U = £ Ur | Ūr ¤ (11) podemos calcular · T ¸ · T ¸ · T ¸ £ ¤ ¤ Ur Ur A £ Ur AVr UrT AV̄r T Vr | V̄r = U AV = A Vr | V̄r = . (12) ŪrT A ŪrT ŪrT AVr ŪrT AV¯r Como UrT Ur = Ir , então, substituindo, nesta equação, Ur pelo seu valor definido em (10), teremos UrT AVr S+−1 = Ir ⇒ UrT AVr = S+ . Por outro lado, fazendo a mesma substituição no bloco (1, 2) da última matriz na expressão (12), podemos escrever UrT AV̄r = (AVr S+−1 )T AV̄r = S+−1 VrT (AT AV̄r ) = 0(n−r)×(m−r) pois, de (9), AT AV̄r = 0m×(m−r) . Finalmente, como as colunas de Ūr geram o complemento ortogonal do subespaço gerado pelas colunas de A, ŪrT AVr = 0(n−r)×r ŪrT AV¯r = 0(n−r)×(m−r) . Deste modo, T U AV = · S+ 0r×(m−r) ¸ 0(n−r)×r) 0(n−r)×(m−r) . Como U U T = In e V V T = Im , pré-multiplicando e pós-multiplicando U T AV por U e V T , respectivamente, obtemos · ¸ S+ 0r×(m−r) T T U (U AV )V = U V T = (U U T )A(V V T ) = A 0(n−r)×r) 0(n−r)×(m−r) ficando assim concluı́da a demonstração. 2 Normalmente define-se · ¸ S+ 0r×(m−r) S= ∈ IRn×m 0(n−r)×r 0(n−r)×(m−r) Tópicos de Algebra Linear 15 e exprime-se a decomposição em valores singulares na forma A = U SV T . Se n > m, ou seja, se σ1 0 · · · 0 σ2 · · · . .. . . . . . . S = 0 0 ··· 0 0 ··· . .. .. .. . . 0 0 ··· e se n < m, σ1 0 · · · 0 σ2 · · · S = .. .. . . . . . 0 0 ··· A tiver mais colunas do que linhas, então 0 0 .. . σm 0 .. . 0 0 0 .. . σn 0 ··· 0 ··· .. .. . . 0 ··· 0 0 .. . 0 Os elementos da diagonal principal de S estão ordenados por ordem decrescente, isto é, σ1 ≥ σ2 ≥ · · · ≥ σp , com p = min(n, m), e são designados por valores singulares de A. Na demonstração da decomposição em valores singulares vimos que estes são as raı́zes quadradas positivas de valores próprios de AT A. É fácil demonstrar que os valores singulares são as raı́zes quadradas positivas dos valores próprios de AT A quando n ≥ m e dos valores próprios de AAT quando n ≤ m. S+ , definida em (5), é a matriz dos valores singulares não nulos. Como car(S) = car(S+ ), então car(A) = car(S+ ), ou seja, a caracterı́stica duma matriz é igual ao número de valores singulares não nulos pois, U e V são matrizes não singulares1 . Vimos, também, que V é uma matriz (ortonormal) cujas colunas são os vectores próprios de AT A. pode-se provar, identicamente, que U é uma matriz cujas colunas são os vectores próprios de AAT . As colunas de U e V também são designadas por vectores singulares de A. As de U , são os vectores singulares á esquerda e as de V , os vectores singulares à direita. Utilizando as decomposições de V e U definidas em (6)-(7) e (11), respectivamente, podemos rescrever a decomposição em valores singulares na forma ¸ · · ¸· T ¸ £ ¤ VrT £ ¤ S+ 0r×(m−r) Vr Ur | Ūr = = Ur S+ | 0n×(m−r) A = V̄rT V̄rT 0(n−r)×r 0(n−r)×(m−r) = Ur S+ VrT . 1 Recordemos que matrizes não singulares são matrizes de caracterı́stica completa e que se G for uma matriz de caracterı́stica completa então a caracterı́stica de F = GH é igual à caracterı́stica de H. Tópicos de Algebra Linear 16 Chegamos assim à forma reduzida da decomposição em valores singulares. • Se, na transformação IRm → IRn z = Ax, definirmos x̄ = S+ VrT x, teremos z = Ax = Ur x̄. Com car(A) = car(Ur ), A e Ur têm a mesma imagem e , consequentemente, as colunas de Ur são uma base ortonormal do subespaço gerado pelas colunas de A (im(A)). Como AT = Vr S+ UrT , concluı́mos, identicamente, que im(Vr ) = im(AT ) e que as colunas de Vr são uma base ortnormal para o subespaço gerado pelas linhas de A. • Dado que as colunas de V̄r são perpendiculares às de Vr , AV¯r = Ur S+ VrT V̄r = 0n×(m−r) , o que nos permite afirmar que as colunas de V̄r pertencem ao núcleo de A (ker(A)). Como car(V̄r )=car (ker(A)) = m − r, então im(V̄r ) = ker(A), sendo as colunas de V̄r uma base ortonormal do núcleo de A. Analogamente, as colunas de Ūr são uma base ortonormal do núcleo de AT . Resumindo, im(Ur ) = im(A) im(Vr ) = im(AT ) im(V̄r ) = ker(A) im(Ūr ) = ker(AT ). 5 Norma Quadrática de Matrizes Os vectores dum espaço IRn são habitualmente definidos pela combinação linear dos vectores 0 0 . . . 0 ∈ IRn i = 1, . . . , n, ei = 1 igésima linha 0 . .. 0 Tópicos de Algebra Linear 17 que formam a base canónica de IRn . Seja U = £ u1 u2 · · · un ¤ ∈ IRn uma matriz ortonormal. Como £ In = e1 e2 · · · en ¤ = UT U = UT £ u1 u2 · · · un ¤ = £ U T u1 U T u2 · · · U T un ¤ podemos concluir que U T ui = ei . Isto significa que a transformação U T x roda os eixos da base ortonormal {u1 , . . . , un } para os eixos da base canónica {e1 , . . . , en }. Por outras palavras, a transformação U T x é uma rotação que alinha os eixos u1 , . . . , un com e1 , . . . , en . Assim, chamaremos alinhador à matriz U T . Exemplo 7 : Alinhador no espaço IR2 Se U= £ u1 u2 ¤ for uma matriz ortogonal em IR2 então · T ¸ · T ¸ · ¸ u1 u1 u1 1 T U u1 = u1 = = e1 = T T u2 u2 u1 0 · T ¸ · T 2 ¸ · ¸ u1 u1 u 0 T U u2 = u2 = = e2 = T T u2 u1 u2 1 pois, sendo U uma matriz ortonormal, as suas colunas u1 e u2 têm módulo unitário e são mutuamente ortogonais. Podemos, então, concluir, que esta transformação roda todos os vectores de um ângulo θ (ângulo que u1 faz com e1 (ver figura 5). Seja agora x = α1 u1 + α2 u2 O vector z = U T x será · T T T z = U (α1 u1 + α2 u2 ) = α1 U u1 + α2 U u2 = α1 e1 + α2 e2 = α1 α2 ¸ ou seja, z é um vector cujas coordenadas são as de x no referencial definido pelos vectores u1 e u2 (ver figura 5). Verificamos, assim, que os eixos de u1 e u2 foram alinhados pelos de e1 e e2 e que, consequentemente, U T é o alinhador do referencial constituı́do pelos vectores u1 e u2 . Tópicos de Algebra Linear 18 UT α1 u1 1 u2 1 φ u1 x θ 1 −1 e 2 = U T u2 e1 = U T u1 α1 e1 1 φ −1 α2 e2 α 2 u2 −1 −1 UT x Figura 5: U T é o alinhador de {u1 , u2 } no espaço IR2 Como U = £ u1 u2 · · · un ¤ = U In = U £ e1 e2 · · · en ¤ , então U e i = ui , i = 1, . . . , n. Vemos, deste modo, que a transformação y = U x roda os eixos da base canónica {e1 , . . . , en } para os da base ortonormal {u1 , . . . , un }. Como os eixos da base canónica são pendurados nos da base ortonormal, chamaremos cabide a U . Exemplo 8 : Cabide no espaço IR2 Dado que a matriz U , definida no exemplo anterior, é ortonormal, U −1 = U T . Consequentemente z = U T x e x = U z são transformações inversas. Se a transformação definida por U T roda as colunas u1 e u2 de U para e1 e e2 , respectivamente, então a que é definida por U roda e1 e e2 para u1 e u2 . O vector ¸ · α1 z = α2 é transformado no vector x = Uz = £ u1 u2 ¤ · α1 α2 ¸ = α1 u1 + α2 u2 . Podemos, então, afirmar que as coordenadas α1 e α2 de z foram penduradas em u1 e u2 pelo cabide U . Tópicos de Algebra Linear 19 U e2 α1 u1 1 u2 = U e 2 1 e1 −1 α1 e1 1 φ −1 α2 e2 z −1 u 1 = U e1 φ θ 1 Uz α2 u2 −1 Figura 6: U é o cabide em {u1 , u2 } no espaço IR2 Seja D ∈ IRn×n d1 0 0 d2 D = .. .. . . 0 0 uma matriz diagonal, isto é, ··· 0 ··· 0 . . .. . .. · · · dn Se multiplicarmos D, á direita, pelo vector α1 α2 x = .. . αn obtemos xd = d1 α1 d2 α2 .. . dn αn onde as coordenadas nos eixos de e1 , e2 , . . . , en estão multiplicadas pelos elementos d1 , d2 , . . . , dn , respectivamente, de D. podemos afirmar, então, que as coordenadas de x foram deformadas pelos elementos de D e designaremos D por deformador . Exemplo 9 : Deformador no espaço IR2 Seja D = · 1 0 0 0, 5 ¸ Tópicos de Algebra Linear 20 uma matriz diagonal em IR2×2 e C2 (1) = {x : kxk2 = 1}, isto é, a circunferência de raio unitário. A transformação z = Dx transforma esta circunferência numa elipse E2 (1, 0.5) com semi-eixos de comprimento 1 e 0, 5. Vemos, assim, que a circunferência C2 foi deformada pelo deformador D. D 1 e2 C2 (1) e2 e1 −1 1 0, 5 e1 −1 1 −0, 5 −1 Figura 7: D é um deformador no espaço IR2 Como, através da decomposição em valores singulares, podemos decompor uma matriz na forma A = Ur S+ VrT onde Ur e Vr são matrizes ortonormais e S+ é uma matriz diagonal, podemos ver a transformação z = Ax = Ur S+ VrT x como a sequência das seguintes operações: • Alinhamento dos eixos de v1 , v2 , . . . , vr com os eixos de e1 , e2 , . . . , er da base canónica efectuado pelo alinhador VrT • Deformação da novas coordenadas de x pelo deformador S+ . • Suspensão das novas coordenadas deformadas de x no cabide Ur . Por outras palavras, os eixos v1 , v2 , . . . , vr são deformados de σ1 , σ2 , . . . , σr e rodados para u1 , u 2 , . . . , u r . Tópicos de Algebra Linear 21 Exemplo 10 : Transformação de uma elipse de IR2 para IR2 por uma matriz A matriz · A = 1, 44 0, 92 0, 08 1, 44 ¸ com a seguinte decomposição em valores singulares · ¸· ¸· ¸ 0, 8 −0, 6 2 0 0, 6 0, 8 A = 0, 6 0, 8 0 1 −0, 8 0, 6 transforma a elipse com os eixos alinhados com · ¸ · ¸ 0.6 0.8 v1 = e v2 = −0.8 0.6 de comprimentos 4 e 2, respectivamente, numa outra elipse com os eixos alinhados com · ¸ · ¸ 0.8 −0.6 u1 = e u2 = 0.6 0.8 e comprimentos 8 e 2. Exemplo 11 : Transformação da hiperesfera de raio unitário A hiperesfera de ordem m de raio unitário é transformada pela matriz A ∈ IRn×m com decomposição em valores singulares σ1 0 £ ¤ 0 σ2 A = u1 u2 · · · ur .. .. . . 0 0 ··· ··· ... 0 0 .. . · · · σr v1T v2T .. . vrT numa elipsoide de ordem r, com semi-eixos de comprimentos σ1 , σ2 , . . . , σr alinhados com os vectores u1 , u2 , . . . , ur . A norma quadrática duma matriz A ∈ IRn×m é designada por kAk2 e definida por kAk2 = sup kAxk2 kxk2 =1 isto é, é o módulo do maior vector z = Ax quando x tem módulo unitário. Como a hiperesfera de ordem m de raio unitário é transformada por A numa elipsóide com semi-eixos de comprimentos iguais aos seus valores singulares, então o maior vector z = Ax desta transformação tem o módulo igual ao do maior valor singular de A e, consequentemente, kAk2 = σ1 Tópicos de Algebra Linear 22 A 1 σ 3 u3 σ 1 u1 1 1 σ2 u2 Figura 8: Transformação da esfera unitária numa elipsóide em IR3 por uma matriz A ∈ IR3×3 com vectores singulares à esquerda u1 , u2 e u3 e valores singulares σ1 , σ2 e σ3 . Exemplo 12 : Norma quadrática duma matriz 2 por 2 Como a matriz ¸ · 1, 44 0, 92 A = 0, 08 1, 44 com a seguinte decomposição em valores singulares · ¸· ¸· ¸ 0, 8 −0, 6 2 0 0, 6 0, 8 A = 0, 6 0, 8 0 1 −0, 8 0, 6 transforma a circunferência unitária numa elipse com semi-eixos de comprimentos 2 e 1, então kAk2 = 2 = maior valor singular de A 6 Aproximação de uma Matriz por Outra de Caracterı́stica Inferior Seja A uma matriz com caracterı́stica r pertencente a IRn×m em que n > m. A sua decomposição em valores singulares A = U SV T Tópicos de Algebra Linear 23 A 1 σ2 u2 = u2 1 −1 σ1 u1 = 2u1 2 = kAk2 −1 Figura 9: A norma da matriz A é o comprimento do maior semi-eixo da elipse em que é transformada a circunferência de raio unitário permite-nos chegar à decomposição diática, dada por A = m X σi ui viT i=1 Para x = αj vj , um vector na direcção de vj , teremos Ax = m X i=1 σi ui viT x = m X σi αj ui viT vj = σj αj uj vjT vj = σj αj uj i=1 pois vj tem módulo unitário e é perpendicular a vi para i 6= j. Esta expressão evidencia o facto mencionado na secção anterior, de que os pontos no eixo de vj são reescalados (deformados) de um factor σj e rodados para o eixo de uj . Consideremos, agora, um vector x com componentes em todos os eixos vi , i = 1, . . . , m, ou seja, x = α1 v1 + α2 v2 + · · · + αr vr + αr+1 vr+1 + · · · + αm vm . Se car(A) = r e r < m, então σr+1 = σr+2 = · · · = σm = 0, significando isto que as componentes αr+1 vr+1 , αr+2 vr+2 , . . . , αm vm estão no núcleo de A sendo, por isso, eliminadas na transformação Ax. Teremos, assim, Ax = σ1 α1 u1 + σ2 α2 u2 + · · · + σr αr ur . Tópicos de Algebra Linear 24 Se os valores singulares σk+1 , . . . , σr forem muito pequenos, podemos fazer Ax ≈ α1 σ1 u1 + σ2 α2 u2 + · · · + σk αk uk = Ak x, em que Ak = £ u1 u2 ¤ · · · uk σ1 0 0 σ2 .. .. . . 0 0 ··· ··· .. . 0 0 .. . · · · σk v1T v2T .. . . vkT O erro desta aproximação é Ax − Ak x = (A − Ak ) x = σk+1 αk+1 uk+1 + σk+2 αk+1 uk+2 + · · · + αr σr ur , sendo q kAx − Ak xk2 = 2 2 2 2 σk+1 αk+1 + σk+2 αk+2 + · · · + σr2 αr2 pois uk+1 , uk+2 , . . . , ur são vectores de norma unitária mutuamente ortogonais. Como (Ax − Ak x)T Ak x = (σk+1 αk+1 uk+1 + · · · + αr σr ur )T (σ1 α1 u1 + · · · + αk σk uk ) = = σk+1 αk+1 uTk+1 (σ1 α1 u1 + · · · + αk σk uk ) + · · · + +σr αr uTr (σ1 α1 u1 + · · · + αk σk uk ) = = σk+1 αk+1 σ1 α1 uTk+1 u1 + · · · + σk+1 αk+1 σk αk uTk+1 uk + · · · + +σr αr σ1 α1 uTr u1 + · · · + σr αr σk αk uTr uk = 0, Ax − Ak x e Ak x são ortogonais. Isto significa que Ak x é a projecção ortogonal de Ax no subespaço gerado por u1 , u2 , . . . , uk , sendo, por isso, a sua melhor aproximação neste subespaço e , consequentemente, im(Ak ) é a melhor aproximação de dimensão k do subespaço im(A). Se z ∈ IRn for decomposto na forma z = β1 u1 + β2 u2 + · · · + βn un , podemos concluir , de forma semelhante, que ATk z é a melhor aproximação de AT z no subespaço gerado por v1 , v2 , . . . vk sendo im(ATk ) a melhor aproximação de dimensão k de im(AT ) Como im(Ak ) e im(ATk ) são as melhores aproximações de im(A) e im(AT ), respectivamente, podemos afirmar que Ak é a melhor aproximação com caracterı́stica k de A. Tópicos de Algebra Linear 7 25 Projecções Ortogonais de Subespaços Sejam x e y dois vectores em IRn . A projecção ortogonal de y em x, que designaremos por y\x é um vector na direcção de x com módulo kyk2 cos φ em que φ é o ângulo entre y e x. Sendo o produto interno entre x e y dado por y 1 y − y\x x y\x φ ex 1 −1 −1 Figura 10: Projecção ortogonal de y em x. xT y = kxk2 kyk2 cos φ, podemos exprimir y\x na forma y\x = ex xT y kxk2 em que ex é um vector unitário na direcção de x, ou seja, ex = x . kxk2 Substituindo ex pelo seu valor em (13), teremos y\x = x xT y T = xkxk−2 2 x y. kxk22 Como kxk22 = xT x podemos, finalmente, escrever, ¡ ¢−1 T y\x = x xT x x y. (13) Tópicos de Algebra Linear 26 Como y − y\x é perpendicular a x, então y\x é a melhor aproximação na direcção de x. Notemos, ainda, que a projecção y\x é uma combinação linear de x, isto é, y\x = xθ̂ em que θ̂ = ¡ xT x ¢−1 xT y. Vemos, assim, que θ̂ é o estimador de mı́nimos quadrados θ̂ = min ky − xθk2 . θ Se x for um vector na direcção de um dos vectores da base canónica, isto é, se x = Kx ei , Kx ∈ IR, então £ ¤−1 ¡ ¢−1 y\x = (Kx ei ) (Kx ei )T (Kx ei ) (Kx ei )T y = Kx ei Kx2 eTi ei Kx eTi y = ¡ ¢−1 T = Kx (Kx )−2 Kx ei eTi ei ei y = ei eTi y = 0 0 ··· 0 ··· 0 y1 0 .. .. .. .. .. .. .. .. . . . . . . . . i 0 0 ··· 1 · · · 0 yi yi = = . . . = yi ei .. .. .. .. .. .. .. ... . . . . yn 0 0 ··· 0 0 0 ··· i Como esta expressão é independente de Kx a projecção y\x , depende unicamente da direcção de x, ou seja, y\z = y\x para qualquer z na direcção de x. Vemos, deste modo, que projectar y em x é o mesmo que projectar y no subespaço gerado por x. Vamos agora ver o que acontece quando x é um vector com direcção arbitrária. Comecemos por definir uma base ortonormal {u1 , . . . , un } em que x = Kx u1 . A seguir podemos efectuar as seguintes operações • Alinhar u1 com e1 . • Projectar y em e1 no novo referencial. • Pendurar e1 em u1 . Tópicos de Algebra Linear 27 y y2 1 Kx e1 y1 e1 e1 −1 y1 1 −1 Figura 11: Projecção ortogonal de y no eixo de e1 . y u2 e 2 y x T U y U T u2 u1 e1 u2 e2 UT x U u1 U T y\U T x u1 e1 x y\x Figura 12: Projecção ortogonal de y em x: 1 - O plano é rodado para alinhar o eixo de x com o de e1 . 2 - y rodado é projectado no eixo de e1 . 3 - O plano é rodado para a posição inicial. Estas operações traduzem-se na seguinte expressão y\x = P y em que P = £ u1 u 2 ¤ · · · un 1 0 .. . 0 ··· 0 ··· .. .. . . 0 0 ··· 0 0 .. . 0 uT1 uT2 .. . = u1 uT1 (14) uTn Pode-se provar que P = x(xT x)−1 xT . Como (14) é a decomposição em valores singulares de P , concluı́mos que esta matriz tem caracterı́stica 1. Notemos que P é uma matriz simétrica (P T = P ) e idempotente (P 2 = P ). Tópicos de Algebra Linear 28 Suponhamos, agora, que pretendemos projectar y no plano gerado pelo par de vectores linearmente independentes x1 e x2 . Seja {u1 , u2 } uma base ortonormal desse plano incluı́da na base ortonormal {u1 , u2 , . . . , un }. Uma vez mais, a projecção pode ser feita através das seguintes operações: • Alinhar u1 e u2 com e1 e e2 , respectivamente. • Projectar y no novo referencial no plano gerado e1 e e2 . • Pendurar e1 e e2 em u1 e u2 , respectivamente. tal como anteriormente, estas projecções traduzem-se na expressão y\X = P y em que P = eX= £ £ ¤ · · · un u1 u 2 u3 0 ··· 0 0 ··· 0 0 ··· 0 .. .. .. . . . 0 0 0 ··· 0 1 0 0 .. . 0 1 0 .. . ¤ x1 x2 . Pode-se provar que uT1 uT2 uT3 .. . = u1 uT1 + u2 uT2 (15) uTn P = X(X T X)−1 X T sendo (15) a decomposição em valores singulares de P . Podemos alargar este conceito de projecção de um vector num plano, ao da projecção dum subespaço noutro subespaço. Neste contexto, a projecção da imagem de Y na imagem de X em que Y = X = £ £ y1 · · · y` ¤ x1 · · · xm ∈ IRn×` , n > ` ¤ ∈ IRn×m , n > m é a imagem da matriz Y \X = P Y (16) em que P = £ Ur Ūr ¤ · Ir 0r×(m−r) 0(n−r)×r 0(n−r)×(m−r) ¸· UrT ŪrT ¸ = Ur UrT (17) Tópicos de Algebra Linear 29 Se as colunas x1 , . . . , xm de X forem linearmente independentes, então r = m e P = X(X T X)−1 X T pois X T X é uma matriz não singular. Nestas condições, a projecção de Y em X é a combinação linear das colunas de X Y \X = X θ̂, em que θ̂ tem uma só solução, dada por ¡ ¢−1 T θ̂ = X T X X Y, (18) que podemos reconhecer como sendo o estimador de mı́nimos quadrados θ̂ = min kY − Xθk2 . θ (19) A projecção Y \X existe sempre mesmo quando as colunas de X não são linearmente independentes. No entanto, (19) deixa de ter uma única solução pois X T X é singular. Como obter uma solução θ nestas condições? Se X = Ur S+ VrT (20) for a forma reduzida da decomposição em valores singulares de X, e se em (18) substituirmos ¡ T ¢−1 T X X X por X † = Vr S+−1 UrT , (21) obtemos a estimador θ̂ = X † Y (22) que adiante provaremos ser o menor estimador de mı́nimos quadrados de θ. Pode-se provar que X † é a única matriz que obedece às seguintes condições (condições de Moore-Penrose): 1. XX † X = X 2. X † XX † = X † ¢T ¡ 3. XX † = X † X Tópicos de Algebra Linear 30 ¡ ¢T 4. X † X = XX † X † é designada como o inverso generalizado ou pseudo-inverso de X. Se car(X) = m, então X † = (X T X)−1 X T e X † X = Im . Se car(X) = n, então teremos X † = X T (XX T )−1 e XX † = In . Vamos agora provar que θ̂ definido em (22) é o menor estimador de mı́nimos quadrados. Lema 2 Se X ∈ IRn×m onde n > m for uma matriz com caracterı́stica r < m e y ∈ IRn com n > `, então ¡ ¢ θ̄(Ψ) = X † y + Im − X † X Ψ, ∀Ψ ∈ IRm é a solução geral do problema de mı́nimos quadrados min ky − Xθk2 . θ ∈ IRm×` (23) e θ̂ = θ̄(0m×` ) = X † y é a única solução de norma mı́nima, isto é, é a única solução tal que ° ° kθ̂k2 ≤ °θ̄(Ψ)°2 , ∀Ψ ∈ IRm . Demonstração: Todas soluções de (23) devem ser coeficientes de todas as combinações lineares de X que © ª geram y\X , isto é, o conjunto Θ = θ̄ : X θ̄ = y\X . Utilizando a forma reduzida da decomposição em valores singulares de X em (20) e as definições de P e de X † em (17) e (21), respectivamente, X θ̂ = XX † y = (Ur S+ VrT )(Vr S+−1 UrT )y = Ur S+ (VrT Vr )S+−1 UrT y = = Ur (S+ S+−1 )UrT y = Ur UrT y = P y = y\X . Vemos, deste modo, que θ̂ = X † y ∈ Θ sendo, por isso, uma solução de (23). As outras ³ ´ soluções são do tipo θ̂ + Υ tal que X θ̂ + Υ = y\X . Como X θ̂ = y\X , então XΥ = 0n×` . Isto significa que Υ pode ser qualquer vector no núcleo de X, ker(X). Υ pode então ser gerado através da projecção ortogonal de um vector qualquer Ψ ∈ IRm em ker(X). Vimos, anteriormente, que ker(X) é o complemento ortogonal de im(X T ) em que im(X T ) é Tópicos de Algebra Linear 31 o subespaço gerado pelas linhas de X. Se Vr for uma base ortonormal de im(X T ), então, de (16) e de (17), a projecção de Ψ em im(X T ) é dada por Ψ\X T = Vr VrT Ψ, sendo Υ = Ψ\(X T )⊥ = Ψ − Ψ\X T a projecção ortogonal de Ψ em (X T )⊥ . Se Vr for a base calculada na decomposição em valores singulares de X, então podemos gerar Υ através de ¡ ¢ ¡ ¢ Υ = Ψ − Ψ\X T = Ψ − Vr VrT Ψ = Im − Vr VrT Ψ = Im − X † X Ψ, ∀Ψ ∈ IRm . pois, X † X = Vr S+−1 UrT Ur S+ VrT = Vr VrT . A solução geral de (23) será ¡ ¢ θ̄(Ψ) = θ̂ + Im − X † X Ψ, ∀Ψ ∈ IRm em que Ψ é qualquer matriz de IRm . Como θ̂ = |{z} X † y = Vr S+−1 UrT y = Vr ȳ ∈ im(X T ) | {z } −1 T Vr S+ Ur ȳ e ¡ ¢ Υ = Im − X † X Ψ ∈ ker(X), então θ̂ e Υ são perpendiculares pois ker(X) é o complemento ortogonal de im(X T ). Teremos, assim, ° ° ° ° °θ̄(Ψ)°2 = kθ̂k22 + kΥk2 = kθ̂k22 + °(Im − X † X)Ψ°2 2 2 2 e, finalmente, ° ° ° ° kθ̂k2 = °X † y °2 ≤ °θ̄(Ψ)°2 onde só se verifica igualdade para Ψ = 0m , ficando assim concluı́da a demonstração. 2 Tópicos de Algebra Linear 32 O estimador de mı́nimos quadrados de norma mı́nima pode ser expresso através de θ̂ = X † Y = Vr S+−1 Ur Y = r X uT v i Y i i=1 σi Esta expressão mostra que, se o menor valor singular σr for muito menor que os outros, pequenas perturbações na matriz que provoquem pequenas alterações em ur ou vr causam, seguramente, perturbações muito significativas em θ̂. Se, no entanto, os valores singulares não forem muito diferentes uns dos outros, as perturbações nos diferentes vectores singulares tendem-se a compensar umas às outras, não fazendo variar significativamente θ̂. Vemos, assim, que a sensibilidade de θ̂ depende, fundamentalmente, da diferença entre os valores singulares de X. O número de condição de X definido por κ(X) = kXk2 kX † k2 = σ1 σr é utilizado como medida de sensibilidade de θ. Por definição é superior ou igual a 1. Se for muito grande, então X é uma matriz mal condicionada. Se se mantiver pequeno X é bem condicionada. Uma matriz ortonormal tem número de condição igual a 1 e, por isso, é perfeitamente condicionada. 8 Projecções Oblı́quas de Subespaços Seja y ∈ IRn dado por y = a1 x1 + a2 x2 onde a1 e a2 ∈ IR, x1 e x2 ∈ IRn . A projecção oblı́qua de y em x1 segundo x2 , designada por y\xx21 , é a1 x1 . Se y não estiver no plano gerado por x1 e x2 , a projecção oblı́qua de y em x1 segundo x2 é a projecção oblı́qua de y\h y\h x1 x2 i = x1 θ̂1 + x2 θ̂2 onde ¸ · £ ¤† θ̂1 x1 x2 y = θ̂2 x1 x2 i em x1 segundo x2 . Como Tópicos de Algebra Linear 33 y y\xx12 = a2 x1 x2 x1 y\xx21 = a1 x1 Figura 13: y\xx21 é a projecção oblı́qua de y em x1 segundo a direcção de x2 . y\xx12 é a projecção oblı́qua de y em x2 segundo a direcção de x1 . então y\xx21 = x1 θ̂1 . Dum modo geral, dizemos que a projecção de Y ∈ IRn×` em X1 ∈ IRn×m1 segundo X2 ∈ IRn×m2 com n > ` e n > m1 + m2 é 2 Y \X X1 = X1 θ̂1 onde · ¸ £ ¤† θ̂1 X1 X2 Y. = θ̂2 9 Projecções nos Subespaços gerados pelas linhas duma matriz Quando o número de colunas duma matriz é superior ao das linhas (m > n) as projecções são no subespaço gerado pelas linhas. Como, transpondo uma matriz, trocamos as linhas pelas colunas, tudo o que se disse sobre projecções nos subespaços gerados pelas colunas continua válido desde que todas as matrizes sejam transpostas. Se, no fim de todas as projecções, voltarmos a transpor as matrizes, obtemos ¡ ¢T Y /X = Y T \X T = Y X † X = θ̂X = Y Vr VrT em que θ̂ é o estimador de mı́nimos quadrados de menor norma dado por θ̂ = Y X † . Se car(X) = n, então X † = X T (XX T )−1 e Y /X = Y X T (XX T )−1 X Tópicos de Algebra Linear 34 A projecção oblı́qua de Y em X1 segundo X2 é definida como ³ ´T T T X2 2 = Y \ = θ̂1 X1 Y /X X1 XT 1 onde £ θ̂2 θ̂2 10 ¤ · = Y X1 X2 ¸† Produto de Kronecker e Vectorização de Matrizes Em controlo, especialmente nas áreas de estimação e redução de ordem do modelo, é frequente ter que se resolver equações de Lyapunov. Estas, são equações matriciais, do tipo ΠA1 + A2 Π + A3 ΠA4 + Q = 0n×n . (24) Embora sejam lineares na incógnita Π ∈ IRn×n , não podem ser resolvidas de uma forma directa porque, nuns termos a incógnita aparece multiplicada à direita , noutros é multiplicada à esquerda, podendo ainda ser multiplicada simultaneamente à direita e á esquerda noutros termos. Estas equações podem ser resolvidas de forma iterativa. No entanto, o facto de serem lineares na incógnita Π, indicia que existem métodos não iterativos para a sua resolução. Nesta secção iremos constatar que isso é verdade. Para esse efeito, iremos transformar a equação matricial num sistema de n2 equações lineares a n2 incógnitas que pode ser resolvido por qualquer algoritmo de resolução de sistemas de equações lineares. Esta transformação irá utilizar o produto de Kronecker e, por isso, antes de a estudarmos iremos ver em que é que consiste e quais são as suas propriedades. O produto de Kronecker é uma forma ordenada e compacta de exprimir uma matriz (ou vector) cujos elementos são os produtos de todos os elementos de outras duas matrizes (ou vectores). Trata-se dum operação bilinear muito utilizada nos modelos de sistemas não lineares. Dadas as matrizes A ∈ IRn×m e B ∈ IR`×p , o produto de Kronecker entre A e B, designado por A ⊗ B, tem a11 B a12 B a21 B a22 B A ⊗ B = .. .. . . an1 B an2 B a seguinte definição · · · a1m B · · · a2m B n`×mp , .. .. ∈ IR . . · · · anm B e goza das seguinte propriedades: Tópicos de Algebra Linear 35 Propriedade 1 - Associativa (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C) Propriedade 2 - Distributiva (A + B) ⊗ (C + D) = A ⊗ C + A ⊗ D + B ⊗ C + B ⊗ D Propriedade 3 - Transposição (A ⊗ B)T = AT ⊗ B T Propriedade 4 - Produto misturado (A ⊗ B)(C ⊗ D) = AC ⊗ BD Propriedade 5 - Matriz inversa (A × B)−1 = (A−1 ⊗ B −1 ) ∀A ∈ IRn×n , B ∈ IRm×m Propriedade 6 - Valores e vectores próprios ½ AvA = λA vA ⇒ (A ⊗ B)(vA ⊗ vB ) = λA λB (vA ⊗ vB ), BvB = λB vB ∀A ∈ IRn×n , B ∈ IRm×m , isto é, se λA for um valor próprio de A ∈ IRn×n associado ao vector próprio vA ∈ IRn e se λB for um valor próprio de B ∈ IRm×m associado ao vector próprio vB ∈ IRm , então λA λB é um valor próprio de A ⊗ B ∈ IRnm×nm associado ao vector próprio vA ⊗ vB ∈ IRnm . Propriedade 7 A ⊗ B ∈ IRnm×nm é uma matriz definida positiva se A ∈ IRn×n e B ∈ R I m×m forem matrizes simétricas, e ambas definidas positivas ou definidas negativas. Iremos, em seguida, demonstrar a propriedade 4 (produto misturado) deixando a demonstração das outras como exercı́cio para o leitor. Demonstração da Propriedade 4: A matriz A ⊗ B, com A ∈ IRn×m e B ∈ IR`×p a11 B a12 B · · · a1m B .. .. .. .. . . . . A ⊗ B = ai1 B ai2 B · · · aim B = . .. .. .. .. . . . an1 B an2 B · · · anm B pode ser expressa na forma AI B(1, :) .. . AI B(i, :) .. . AI B(n, :) Tópicos de Algebra Linear 36 em que AI B(i, :) = £ ai1 B ai2 B · · · aim B ¤ ∈ IR`×mp representa o bloco constituı́do pelas linhas (i − 1)` + 1 a i` de A ⊗ B. Por outro lado C ⊗ D com C ∈ IRm×q e D ∈ IRp×r pode ser expressa na forma c11 D · · · c1j D · · · c1q D c21 D · · · c2j D · · · c2q D £ ¤ C ⊗ D = .. .. .. .. .. = CJ D(:, 1) · · · CJ D(:, j) · · · CJ D(:, q) . . . . . . cm1 D · · · cmj D · · · cmq D Nesta matriz, o bloco c1j D c2j D CJ D(:, j) = .. . cmj D ∈ IRmp representa o bloco constituı́do pelas colunas (j − 1)r + 1 a jr de C ⊗ D. O bloco constituı́do pelas linhas (i−1)`+1 a i` e as colunas (j −1)r +1 a jr de (A⊗B)(C ⊗D) que designaremos por AI BCJ D(i, j), será o produto dos blocos AI B(i, :) e CJ D(:, j) que acabamos de definir, ou seja AI BCJ D(i, j) = AI B(i, :)CJ D(:, j) = m X aik Bckj D = " m X k=1 Como Pm k=1 # aik ckj BD. k=1 aik ckj é o elemento da linha i e coluna j de CA, então AI BCJ D(i, j) também vai ser o bloco constituı́do pelas linhas (i − 1)` + 1 a i` e as colunas (j − 1)r + 1 a jr de AC ⊗ BD que designaremos por AICJ BD(i, j). Como, qualquer que sejam i e j, AI BCJ D(i, j) = AICJ BD(i, j) então (A ⊗ B)(C ⊗ D) = AC ⊗ BD, ficando assim demonstrada a propriedade. 2 A operação vectorização consiste em transformar uma matriz num vector, empilhando as suas colunas umas em cima das outras. Assim, dada a matriz A= £ a1 a2 · · · ai · · · am ¤ , ai ∈ IRn , i = 1, . . . , m, Tópicos de Algebra Linear 37 a sua vectorização, designada por vec(A) é o vector a1 a2 .. . vec(A) = ai .. . ∈ IRnm . am Iremos, agora, enunciar uma propriedade que é fundamental para a determinação duma solução não iterativa de equações de Lyapunov idênticas à (24). Propriedade 8 vec(ABC) = (C T ⊗ A)vec(B), ∀A ∈ IRn×m , B ∈ IRm×` , C ∈ IR`×p Demonstração: Sejam A= aT1 aT2 .. . , B= £ b1 b2 · · · b` ¤ aTn , C= c11 c12 · · · c1p c21 c22 · · · c2p .. .. .. .. . . . . c`1 c`2 · · · c`p com ai ∈ IRm , i = 1, . . . , n e bi ∈ IRm , i = 1, . . . , `. O produto destas três matrizes é ABC = = = c11 c12 · · · c1j · · · c1p £ ¤ c21 c22 · · · c2j · · · c2p b1 b2 · · · b` .. .. .. .. .. .. = . . . . . . T an c`1 c`2 · · · c`j · · · c`p c11 c12 · · · c1j · · · c1p aT1 b1 aT1 b2 · · · a1 b` aT2 b1 aT2 b2 · · · a` c21 c22 · · · c2j · · · c2p . .. .. .. .. .. = .. .. .. .. . . . . . . . . . .. T T c`1 c`2 · · · c`j · · · c`p an b1 an b2 · · · an b` P` P` P P` ` T aT1 bi cij · · · aT1 bi ci2 · · · aT1 bi ci1 i=1 a1 bi cip i=1 i=1 i=1 P P P P` ` ` ` T T T T i=1 a2 bi cip i=1 a2 bi cij · · · i=1 a2 bi ci2 · · · i=1 a2 bi ci1 .. .. .. .. .. .. . . . . . . P` P` P` P` T T T T i=1 an bi cip i=1 an bi cij · · · i=1 an bi ci2 · · · i=1 an bi ci1 aT1 aT2 .. . . Tópicos de Algebra Linear 38 Vemos, daqui, que a coluna j de P` T i=1 a1 bi cij P ` aT b c 2 i ij ABC(:, j) = i=1 . . . P` aT bi cij i=1 n £ = c1j c2j em que cj = c1j c2j .. . ABC que designaremos por ABC(:, j) é c1j aT1 c2j aT1 · · · c`j aT1 b1 c1j aT c2j aT · · · c`j aT b2 2 2 2 = .. .. .. .. .. = . . . . . T T c1j an c2j an · · · c`j aTn b` aT1 T ¤ a2 · · · c`j ⊗ .. vec(B) = (cTj ⊗ A)vec(B) . aTn ∈ IR` c`j é a coluna j de C. Teremos então T (c1 ⊗ A)vec(B) ABC(:, 1) ABC(:, 2) (cT2 ⊗ A)vec(B) .. .. . . vec(ABC) = = T = ABC(:, j) (cj ⊗ A)vec(B) .. .. . . T ABC(:, p) (cp ⊗ A)vec(B) T T c1 ⊗ A c1 cT2 ⊗ A cT2 .. . . = T vec(B) = .. ⊗ A vec(B) = (C T ⊗ A)vec(B). cj ⊗ A . cT .. . j .. cTp cTp ⊗ A 2 Consideremos agora a equação (24). Podemos rescrever esta equação na forma In ΠA1 + A2 ΠIn + A3 ΠA4 + Q = 0n×n . Como vec(A + B) = vec(A) + vec(B), então vec (In ΠA1 + A2 ΠIn + A3 ΠA4 + Q) = = vec(In ΠA1 ) + vec(A2 ΠIn ) + vec(A2 ΠA4 ) + vec(Q) = vec(0n×n ) = 0n2 . Tópicos de Algebra Linear 39 Utilizando a propriedade 8, teremos vec(In ΠA1 ) = (AT1 ⊗ In )vec(Π) vec(A2 ΠIn ) = (In ⊗ A2 )vec(Π) vec(A3 ΠA4 ) = (AT4 ⊗ A3 )vec(Π) e, consequentemente, (AT1 ⊗ In )vec(Π) + (In ⊗ A2 )vec(Π) + (AT4 ⊗ A3 )vec(Π) + vec(Q) = 0n2 ⇔ ¡ ¢ ⇔ AT1 ⊗ In + In ⊗ A2 + AT4 ⊗ A3 vec(Π) = −vec(Q) Se AT1 ⊗ In + In ⊗ A2 + AT4 ⊗ A3 for uma matriz não singular a solução é única e é dada por ¡ ¢−1 vec(P ) = − AT1 ⊗ In + In ⊗ A2 + AT4 ⊗ A3 vec(Q). 11 Norma de Frobenius A norma de Frobenius duma matriz A ∈ IRn×m , também conhecida como norma de HilbertSchmidt, é definida de seguinte forma v uX n u m X kAkF = kvec(A)k2 = t a2ij . j=1 i=1 Esta definição mostra que a norma de Frobenius é muito semelhante à Euclidiana pois resulta num produto interno definido no espaço das matrizes através de < A, B >= vec(A)T vec(B). Veremos, em seguida, como é que podemos calcular a norma de Frobenius através dos valores singulares. Lema 3 Se σ1 , σ2 , . . . , σp forem os valores singulares da matriz A ∈ IRn×m com p = min(n, m), então v u p p uX σi2 = traço(AT A) kAkF = t i=1 (25) Tópicos de Algebra Linear 40 Demonstração: Vimos, anteriormente, que A pode ser decomposto na forma A = Up Sp VpT em que Up ∈ IRn×p e V ∈ IRm×p são matrizes ortonormais e Sp é uma matriz diagonal cujos elementos da diagonal principal são os valores singulares de A, Se σ1 , σ2 , . . . , σp . Utilizando a propriedade 8 para vectorizar A teremos vec(A) = (Vp ⊗ Up )vec(Sp ). (26) Podemos agora calcular a norma de Frobenius de A através de kAk2F = kvec(A)k22 = [(Vp ⊗ Up )vec(Sp )]T [(Vp ⊗ Up )vec(Sp )] = = vec(Sp )T (Vp ⊗ Up )T (Vp ⊗ Up )vec(Sp ) Utilizando as propriedades 3 e 4 do produto de Kronecker e recordando que Up e Vp são matrizes ortonormais, (Vp ⊗ Up )T (Vp ⊗ Up ) = (VpT ⊗ UpT )(Vp ⊗ Up ) = (VpT Vp ) ⊗ (UpT Up ) = Ip ⊗ Ip = Ip2 , sendo, por isso, kAk2F T T T = vec(Sp ) (Vp ⊗ Up ) (Vp ⊗ Up )vec(Sp ) = vec(Sp ) vec(Sp ) = p X σi2 , i=1 pois, sendo Sp uma matriz diagonal cujos elementos da diagonal principal são os valores singulares de A, os únicos elementos não nulos de vec(Sp ) são estes valores singulares. Recorrendo, de novo, à decomposição (26) traço(AT A) = traço(Vp Sp UpT Up Sp VpT ) = traço(Vp Sp2 VpT ) pois Up é uma matriz ortonormal. Como a operação traço é comutativa desde que as dimensões das matrizes sejam compatı́veis, então T traço(A A) = traço(Vp Sp2 VpT ) = traço(VpT Vp Sp2 ) = p X σi2 i=1 pois Vp é ortonormal e Sp2 é uma matriz diagonal cujos elementos da diagonal principal são os quadrados dos valores singulares de A. 2