DETECÇÃO DE FALHAS EM REDES DE
ESCOAMENTO ATRAVÉS DA ANÁLISE
DE COMPONENTES PRINCIPAIS
Carlos André Vaz Junior
Introdução
Os desafios...
Detectar
Se ocorreu....
Identificar a falha
O que ocorreu...
Localizar
Onde ocorreu...
Quantificar
Qual a gravidade do que
ocorreu...
Anomalias estudadas
Implementação de falhas
Falha de sensor
Vazamento
Metodologia
Panorama geral
SPE: square prediction error
Spca: similarity PCA
Sdist: distance similarity factor
SVI: índice de validade do sensor
• Metodologias
a)PCA
Metodologia PCA
Autovetor associado ao maior autovalor
R1
R2
Metodologia PCA
Falha em sensor
Falha em sensor
Falha em sensor
Falha em sensor
Metodologia PCA
Matriz de dados (X)
Matriz de variância e covariância (VC)
VC = cov ( X )
[16x16]
[251x16]
[V,D] = eig (VC)
Autovetores (V)
[16x16]
Autovalores (V)
Metodologia PCA
Caminho 1:
Matriz de componentes principais (MC):
Uma vez os autovetores ordenados a partir
dos respectivos autovalores associados,
procede-se a seleção dos n-componentes
principais e a montagem da matriz.
[16x16]
2
[16x8]
[251x16]
[251x16]
Dados
reconstruídos
Dados
originais
Mesma dimensão final!!
Metodologia PCA
Caminho 1:
Exemplo
[2x2]
[2x1]
[251x2]
[251x2]
Dados
reconstruídos
Dados
originais
O “Caminho 1” leva direto aos dados reconstruídos!
Metodologia PCA
Caminho 2:
Matriz de componentes principais (MC):
Uma vez os autovetores ordenados a partir
dos respectivos autovalores associados,
procede-se a seleção dos n-componentes
principais e a montagem da matriz.
[2x850]
2
[16x8]
[850x16]
PCAdataCol=MC’*Dados’
PCAdata=PCAdataCol’
[850x2]
Dados representados no
sistema de coordenadas
dos dois componentes principais
Dados
originais
Metodologia PCA
Caminho 2:
2
[16x8]
[2x850]
[850x16]
PCAdataCol=MC’*Dados’
PCAdata=PCAdataCol’
[850x2]
[16x850]
DadosModCol=MC*PCAdataCol’
DadosMod = DadosModCol’
[850x16]
Dados
reconstruídos
Dados
originais
Metodologia PCA
Caminho 2:
Exemplo
PCAdata:
O “Caminho 2” permite parar nos dados representados usando
os eixos dos componentes principais.
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
1ª Técnica de detecção de anomalias
Detecta-se falha quando o erro de previsão do modelo
extrapola os limites do intervalo de confiança:
T’
T’’
1ª Técnica de detecção de anomalias
Q: (somatório quadrático dos erros)
[251x1]
SPE:
Representa o erro quadrático da previsão (square prediction error).
O parâmetro SPE é o somatório do erro ponderado com o tempo. Ou seja, cria-se um “efeito
memória” onde erros no passado tem maior ou menor influência sobre o valor de SPE mais
recente. Tal ponderação é efetuada através do parâmetro lambda. Quanto mais próximo do
valor unitário lambda encontra-se, menor a influência do passado, sendo SPE função
principalmente dos valores mais recentes. Por outro lado, quanto mais próximo de zero o
valor de lambda se encontra, maior a influência do passado sobre o valor atual de SPE.
1ª Técnica de detecção de anomalias
Resultado sem ocorrência de falha:
6 dp
1 dp
1ª Técnica de detecção de anomalias
Resultado com ocorrência de falha:
2ª Técnica de detecção de anomalias
Baseia-se também na comparação das fases A e B,
agora através da aplicação de índices de “simetria” ou
“similaridade”.
T’
T’
2ª Técnica de detecção de anomalias
Spca:
A similaridade entre os dois grupos de dados é quantificada através da comparação
de seus componentes principais. Mais precisamente, o Spca compara os subespaços
gerados por cada modelo PCA através do cálculo do ângulo entre os componentes
principais. O fator de similaridade Spca é influenciado pela orientação espacial do
subespaço gerado pelos componentes principais.
Onde teta é o ângulo formado entre o “i-ésimo” componente principal do primeiro
conjunto de dados e o “j-ésimo” componente principal do segundo conjunto.
Na prática, porém, tendo-se as matrizes (MCA e MCB) compostas pelos “k”
componentes principais que descrevem os conjuntos de dados, torna-se mais simples
calcular Spca na sua forma matricial:
2ª Técnica de detecção de anomalias
Sdist:
Enquanto o fator de similaridade Spca é influenciado pela orientação espacial do subespaço
gerado pelos componentes principais, o fator Sdist (ou “distance similarity factor”) é usado
para situações onde os conjuntos de dados têm orientação espacial similar, mas estão
localizados em posições distantes. O fator Sdist é a probabilidade que o centro do conjunto
de dados H ( x H ) esteja ao menos a distância  do centro dos dados B (xS ). Calcula-se Sdist
através da equação abaixo:
Pseudo inversa da matriz de
covariância dos dados S
Vetor linha com a média dos dados de cada sensor
2ª Técnica de detecção de anomalias
SF:
O fator Sdist provê complemento as propriedades apresentadas pelo Spca, sendo natural
seu uso combinado. A junção dos dois fatores é denominada SF, e permite comparar os
conjuntos de dados tanto em relação à orientação de seus subespaços quanto a distancia
entre eles. A média ponderada é calculada pela equação:
2ª Técnica de detecção de anomalias
Abordagem estática:
Abordagem dinâmica:
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
Classificação hierárquica
Com anomalia
Sem anomalia
Dados brutos
Classificação hierárquica
A similaridade entre dois pontos pode ser entendida como sendo inversamente
proporcional a distância espacial entre esses pontos.
Para um espaço vetorial genérico de dimensão “n” (Rn), a distância entre um
ponto “i” e outro “j” pode ser definida como:
Distância Euclidiana
(r = 2)
Distância City Block
(r = 1)
Distância Minkowski
r=3 e 4
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
d) Identificação da origem da anomalia
Índice de validade dos sensores
SVI-D:
A metodologia aplicada na identificação do sensor em falha utiliza os “índices de validade dos
sensores” – SVI, descritos por Dunia et al [1996]. Foi usado o índice SVI-D, cujo cálculo é
apresentado abaixo. O valor de SVI varia entre 0 e 1, sendo 1 indicativo de máxima confiança
no correto funcionamento do sensor. Deste modo, os sensores que apresentam menores SVI são
os principais suspeitos de estarem apresentando falha.
Di = D(:,i)
Dados experimentais
Dados reconstruídos pelo modelo
D = D(:,i)
[16x16]
Cii = C(i,i)
Resíduo total (todos os sensores)
Participação relativa de cada sensor no resíduo
Protótipos
www.prevention.indiana.edu
falha de 2% no
sinal do sensor 16
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
d) Identificação da origem da anomalia
e) Quantificação da anomalia
Classificação Hierárquica
d
Dados brutos
Severidade
da anomalia
d
• Metodologias
a)PCA
b)Detecção de anomalias (PCA)
c)Detecção de anomalias (classif. hierárquica)
d) Identificação da origem da anomalia
e) Quantificação da anomalia
f) Definir o tipo de anomalia
Definir o tipo de anomalia
Sdist vs Spca:
Sdist
Spca
SVI-D + PCA:
Falha de sensor
Protótipos + Classificação Hierárquica:
Vazamento
>> whos CURSO
Name
Size
CURSO
66x11
Bytes Class
1452 char
Attributes
>> whos NOTAS
Name
Size
NOTAS
66x8
Bytes Class
Attributes
4224 double
>> MIN
MIN =
0.0600 0.0600
0
0 2.7700 2.0000 2.0000 5.0400
>> MAX
MAX =
3.9300 4.3600 1.1100 48.0000 97.0000 7.0000 7.0000 9.8400
>> whos X1 X2 X3 X4 X
Name
Size
Bytes Class
X
X1
X2
X3
X4
66x8
66x1
66x1
66x1
66x1
4224
528
528
528
528
double
double
double
double
double
Attributes
XMedio =
0.3117 0.3209
0.2113
0.1103
0.6014
0.4818
0.4333
0.6368
>> EE
>> percE
EE =
percE =
0.2861
0.0653
0.0259
0.0148
0.0111
0.0087
0.0032
0.0002
68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
0.0588
L=
0.0002
0.0032
0.0087
0.0111
0.0148
0.0259
0.0653
0.2861
IL =
1
2
3
4
5
6
7
8
>> percE
percE =
S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ...
68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
0.0588
... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368)
XMedio =
0.3117 0.3209
0.2113
0.1103
0.6014
0.4818
0.4333
0.6368
S1
S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ...
... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368)
>> percE
percE =
S2=-0.5049(X1-0.31168)-0.4742(X2-0.32086)+0.4565(X3-0.2113)+0.2967(X4-0.11027)+ ...
68.8564
15.7177
6.2445
3.5687
2.6778
2.1021
0.7741
0.0588
... -0.3949(X5-0.60135)+0.1895(X6-0.4818)+0.1786(X7-0. 4333)-0.0041 (X8-0.6368)
XMedio =
0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368
S2=-0.5049(X1-0.31168)-0.4742(X2-0.32086)+0.4565(X3-0.2113)+0.2967(X4-0.11027)+ ...
... -0.3949(X5-0.60135)+0.1895(X6-0.4818)+0.1786(X7-0. 4333)-0.0041 (X8-0.6368)
Dados plotados usando os valores calculados de S1
e S2. As cores referem-se as notas do CA.
Dados plotados usando os dois componentes principais
(caminho 2). As cores referem-se as notas do CA.
Perguntas feitas para crianças:
Componentes Principais:
1º componente
principal
2º componente
principal
3º componente
principal
1º componente
principal
2º componente
principal
autovalores
Variação explicada
3º componente
principal
Meço o valor de Componente 1, 2 e 3 para cada criança.
O maior coeficiente indica a classificação da criança.
1º componente
principal
2º componente
principal
Nome fictício em função dos coeficientes mais importantes. Cada criança vai ser
classificada com um desses nomes.
3º componente
principal
Perguntas feitas para os pais:
Perguntas feitas para os pais:
Perguntas feitas para os pais:
Perguntas feitas para os pais:
Tal pai, tal filho:
Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)
Fator 1 = 1 : indica que o número de pais que a parcela de pais com filhos tipo 1
que respondem YES é igual a parcela de pais total que diz YES. Ou seja, o tipo
de filho e a resposta do pais não parecem correlacionadas.
Tal pai, tal filho:
Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)
Fator 1 = 1.20 : indica que o número de pais que responderam NO é 20%
superior ao normal da população. Ou seja, filhos tipo 1 tendem a ter 20%
mais chance de terem pais que NÃO controlam o que ou quanto eles comem.
Tal pai, tal filho:
Existe alguma relação entre crianças “tipo 1” e pais que controlam o que e quanto seus filhos
comem?
Meço o número de pais que responderam YES e tem filhos tipo 1.
(Meço o número de pais que responderam NO e tem filhos tipo 1.)
Meço o número total de pais que responderam YES.
(Meço o número total de pais que responderam NO.)
Fator 1 = 0.71 : indica que o número de pais que responderam YES é 40%
superior ao normal da população. Ou seja, filhos tipo 1 tendem a ter 40%
mais chance de terem pais que controlam o que ou quanto eles comem.
0.71 * X = 1
X = 1.40
Tal pai, tal filho:
Download

Programando PCA no MATLAB