CENTRO UNIVERSITÁRIO UNISEB
TRABALHO DE CONCLUSÃO DE CURSO
BACHARELADO EM ENGENHARIA DE COMPUTAÇÃO
ESTUDO DA EPIGNÉTICA ATRAVÉS DE MÉTODOS ESTATÍSTICOS DE
ANÁLISE DE DADOS MULTIVARIADOS
Fernando Dutra Anastácio
Geanfrancisco Pontes Portugal
Matheus de Souza Tonetto
Orientador Profª. Drª. Daniela Maria Lemos Barbato Jacobovitz
RIBEIRÃO PRETO
2014
FERNANDO DUTRA ANASTÁCIO
GEANFRANCISCO PONTES PORTUGAL
MATHEUS DE SOUZA TONETTO
ESTUDO DA EPIGÉNETICA ATRAVÉS DE MÉTODOS ESTATÍSTICOS DE
ANÁLISE DE DADOS MULTIVARIADOS
Trabalho
de
apresentado
conclusão
ao
Centro
de
curso
Universitário
UNISEB de Ribeirão Preto, como parte dos
requisitos para obtenção do grau de
Bacharel em Engenharia de Computação.
Orientador: Profª. Drª. Daniela Maria L. B. Jacobovitz
RIBEIRÃO PRETO
2014
RESUMO
Doenças crônicas são as causas de morte de milhões de pessoas todos os
anos no mundo. Assim descobrir como fatores externos ou hereditários influenciam
no desenvolvimento dessas doenças é sempre um grande desafio. Este trabalho tem
como objetivo utilizar os métodos PCA (Principal Component Analysis) e IBM (Information
Bottleneck Method) para analisar uma base de dados contendo abstracts de artigos
retirados de uma biblioteca mundial de artigos científicos médicos e prontuários
eletrônicos, chamada Pubmed. As informações serão cruzadas a fim de identificar
como este dados podem estar correlacionados através de grupos e com base na
epigenética identificar vestígios que possam levar pessoas a desenvolver doenças
crônicas.
Palavras-chave: Dados Multivariado, Doenças crônicas, Epigenética, IBM, PCA.
ABSTRACT
Chronic diseases are the cause of death of millions of people every year in the
world, find out how external or hereditary factors influence the development of these
diseases in people is always a challenge. In this work, we use PCA (Principal
Component Analysis) and IBM (Information Bottleneck Method) methods in order to
analyze a database containing abstracts of articles taken from the Pubmed, a world
library of medical research papers. Thus crossing this information and identify how
this data can be correlated through groups and based on epigenetic identify traces that
might lead people to develop chronic diseases.
Keywords:, Chronic diseases, Epigenetics, IBM, Multivariate Data, PCA,
AGRADECIMENTOS
À nossa orientadora Profª Ms.Dra. Daniela Maria Barbato Lemos Jacobovitz, pela
paciência, dedicação e apoio oferecido para a conclusão deste trabalho. Ao Prof Dr
Jean-Jacques Georges Soares de Groote pela contribuição com o trabalho, a Juliana
Pollettini por disponibilizar sua base de dados. As nossas famílias pelo apoio. A todos
os Professores que passaram ao longo dos 5 anos ao nosso lado emprestando seu
conhecimento para nossa formação profissional.
SUMÁRIO
LISTA DE ABREVIATURAS E SIGLAS ............................................................................................ 7
LISTA DE TABELAS ............................................................................................................................ 7
LISTA DE ILUSTRAÇÕES .................................................................................................................. 7
1.
INTRODUÇÃO .............................................................................................................................. 8
OBJETIVOS .............................................................................................................................. 9
1.1.
2. NOCÕES DE ALGEBRA MATRICIAL E FERRAMENTAS MATEMÁTICAS E
ESTATÍSTICAS .................................................................................................................................. 10
MATRIZES............................................................................................................................... 10
2.1.
2.1.1.
MATRIZ TRANSPOSTA .................................................................................................... 10
2.1.2.
MATRIZ ORTOGONAL ..................................................................................................... 10
2.1.3.
MATRIZ SIMÉTRICA ......................................................................................................... 11
2.1.4.
DETERMINANTE DE UMA MATRIZ ............................................................................... 11
2.2.
VETOR UNITÁRIO ................................................................................................................. 12
2.3.
TRANSFORMAÇÕES LINEARES ....................................................................................... 12
2.4.
MÉDIA ...................................................................................................................................... 13
2.5.
MEDIDAS DE DISPERSÃO.................................................................................................. 13
2.6.
VARIÂNCIA E COVARIÂNCIA ............................................................................................. 14
2.7.
AUTORVALORES E AUTOVETORES ............................................................................... 16
3.
ANÁLISE FATORIAL ................................................................................................................. 18
3.1.
ANÁLISE DE COMPONESNTES PRINCIPAIS (PCA)..................................................... 20
3.2.
INFORMATION BOTTLENECK METHOD (IBM) .............................................................. 20
3.3.
MATERIAIS E MÉTODOS .................................................................................................... 21
4.
RESULTADOS ............................................................................................................................ 24
5.
CONCLUSÃO ............................................................................................................................. 33
6.
REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................................ 34
LISTA DE ABREVIATURAS E SIGLAS
PCA: Principal Component Analysis.
IBT/ IBM: Information Bottleneck Method/ Technique.
LISTA DE TABELAS
Tabela 1- Dados comparativos número de clusters vs Beta.
LISTA DE ILUSTRAÇÕES
Figura 1 - Resultado da seleção dos documentos com termos maiores ou iguais a 4.
Figura 2 – Conjunto de dados carregados no software
Figura 3 – Covariância dos dados
Figura 4 - Correlação entre os dados
Figura 5 - Auto vetores calculados a partir dos abstracts
Figura 6 - Obtenção das componentes principais
Figura 7 - Projeção das componentes principais
Figura 8 - Projeção dos resultados obtidos
Figura 9 - O gráfico indica possíveis clusters formados sobre os dados analisados
Figura 10 - Escolha do número de clusters com base nos resultados do PCA
Figura 11 - Probabilidade de um documento existir em um cluster
Figura 12 - Probabilidade de um termo estar em clusters
Figura 13 – Probabilidade de um termo pertencer a um cluster
Figura 14 - Visualização dos clusters formados com, beta utilizado 11
Figura 15 - Resultado obtido utilizando 6 clusters e Beta 19
Figura 16 - Resultado otimizado para a amostra de dados utilizada
1. INTRODUÇÃO
Segundo dados da OMS 2013, (ORGANIZAÇÃO MUNDIAL DA SAÚDE, 2013)
doenças crônicas matam aproximadamente 36 milhões de pessoas por ano, cerca de
60% das mortes, já no Brasil segundo dados do Ministério da Saúde, as mortes por
condições crônicas correspondem a 72% das mortes. Doença crônica é uma doença
de longa duração e, geralmente, de progressão lenta.
Algumas dessas doenças são herdadas pela Epigenética (do grego “epi” significa
“acima ou sobre algo”). Segundo Tang e Ho (PUBMED, 2007) a epigenética é definida
pelas mudanças herdáveis na expressão do gene que não alteram a sequência do
DNA pela mitose e ao longo das gerações. Já Feinberg (2004) a define como
modificações no genoma que são herdadas pela divisão celular, não tendo relação
com mudanças na sequência do DNA.
Com as mudanças ocorridas no estilo de vida da humanidade nos últimos 80 anos,
o aumento do estresse, sedentarismo e a introdução de substâncias químicas no meio
ambiente, a epigenética engloba a geração e a amplificação de muitas dessas
doenças crônicas. Segundo estudo publicado pela revista cientifica Scientific
American Brasil (SCIENTIFIC AMERICAN BRASIL, 2011) os cientistas demostraram
que vários tipos de estresses induziram mudanças epigenética, mas os fatores
subadjacentes envolvidos permanecem desconhecidos. Ao analisar as mutações nos
genes, observaram uma desorganização na estrutura da heterocromática e metilação
reduzida de proteínas histonas, o principal componente da cromatina. Outras análises
mostraram que as exposições destas células ao estresse osmótico e choque de calor
geraram uma desorganização da heterocromática que foi transmitida para a próxima
geração de células sem alterar sua sequência de DNA, em outras analises o choque
de calor provocou transmissões para duas gerações de células.
Outro caso apresentado por Brona McVittie (SCIENCE SCHOOL, 2006) trata de
dois irmãos gêmeos idênticos monozigóticos Jason e Gavin que geneticamente são
iguais, mas não epigeneticamente. Ambos os irmãos possuíam fatores de risco para
desenvolverem diabetes do tipo II, mas apenas Jason foi diagnosticado com a doença
após uma infecção pancreática e teve que iniciar a auto administração de insulina. Os
médicos não conseguiram estabelecer um diagnóstico preciso, mas segundo Fraga
(2005) se os médicos tivessem a sua disposição melhores ferramentas de
diagnósticos, como as que oferecem avanços na investigação epigenética, eles
poderiam ter descoberto o que havia de errado com Jason.
Nesse mesmo período houve um enorme avanço da tecnologia, gerando melhor
desempenho dos hardwares e softwares, resultando assim em melhores condições
para o tratamento de grandes quantidades de dados. Com base nessa evolução
encontra-se a possibilidade de criar aplicações computacionais que consigam
conectar características semelhantes em dados desconexos através de métodos
matemático-estatísticos. Toma-se como exemplo o método PCA (Principal
Component Analysis), um método matemático desenvolvido em 1901 por Karl
Pearson que utiliza uma transformação ortogonal para converter um conjunto de
características de variáveis possivelmente correlacionadas a um conjunto de valores
de variáveis linearmente descorrelacionadas chamadas componentes principais.
Dessa forma é possível desenvolver computacionalmente mecanismos que possam
relacionar os sintomas e características de cada doença com seus respectivos
diagnósticos, podendo assim facilitar a recomendação dessas informações no campo
da medicina.
Neste estudo será abordada a epigenética através de métodos matemáticos,
estatísticos e computacionais para os estudos dessas doenças crônicas para tentar
estabelecer fatores de riscos em pacientes através do seu histórico médico.
1.1. OBJETIVOS
O presente trabalho tem como objetivo analisar uma base de dados de artigos
científicos extraídos do PUBMED, uma base mundial de artigos científicos para
medicina, e prontuários médicos, a fim de encontrar uma correlação entre estes
arquivos científicos e os prontuários através do uso de métodos matemáticoestatísticos com o intuito de definir um perfil de pacientes que desenvolvem
determinados tipos de doenças crônicas.
Para isso será desenvolvido ao longo deste trabalho um software para realizar análise
dos dados através de técnicas de processamento de dados multivariados como PCA
(Análise de componente principal) e IBM.
2. NOCÕES DE ALGEBRA MATRICIAL E FERRAMENTAS MATEMÁTICAS E
ESTATÍSTICAS
Neste capítulo serão abordados tópicos referentes à Álgebra Linear e Estatística
necessárias para apresentação e compreensão dos métodos: Analise Fatorial, PCA e
IBM.
2.1. MATRIZES
2.1.1. MATRIZ TRANSPOSTA
A transposta da matriz A, de ordem m por n, é a matriz AT, de ordem n por m,
obtida a partir da matriz A permutando as linhas pelas colunas de mesmo índice.
Exemplo:
𝑎11
𝐴 = [𝑎
21
𝑎12
𝑎22
𝑎11
𝑎13
𝑇
𝑎
𝑎23 ] ; 𝐴 = [ 12
𝑎13
𝑎21
𝑎22 ]
𝑎23
Propriedades da Matriz Transposta

(𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵 𝑇

(𝑘𝐴)𝑇 = 𝑘𝐴𝑇

(𝐴𝑇 )𝑇 = 𝐴

(𝐴𝐵)𝑇 = 𝐵 𝑇 𝐴𝑇
2.1.2. MATRIZ ORTOGONAL
Uma matriz A cuja sua inversa coincide com a transposta é denominada matriz
ortogonal:
𝐴−1 = 𝐴𝑇
Isto é:
𝐴. 𝐴𝑇 = 𝐴𝑇 . 𝐴 = 1
Exemplo:
1 √3
2 ,
𝐴= 2
1
√3
−
[2
2]
1 √3
2
𝐴𝑇 = 2
1
√3
−
[2
2]
1 √3
1 √3
2 × 2
2 = [1
𝑠𝑒𝑗𝑎 𝐴 = 𝐴𝑇 , 𝑒𝑛𝑡ã𝑜 𝐴𝐴𝑇 = 𝐴𝑇 𝐴 = 2
0
√3
1
√3
1
−
−
[2
2] [ 2
2]
0
]
1
Tendo:
𝐴𝐴𝑇 = 𝐴𝑇 𝐴 = 1
Isto é:
𝐴𝑇 = 𝐴−1 a Matriz A é ortogonal.
2.1.3. MATRIZ SIMÉTRICA
Uma matriz quadrada 𝑆 = [𝑎𝑖𝑗 ] é simétrica se 𝑆 𝑇 = 𝑆. Seja 𝐴 = [𝑎𝑖𝑗 ] uma matriz
simétrica, seus elementos em relação a diagonal principal são dispostos
simetricamente, isto é, 𝑎𝑖𝑗 = 𝑎𝑗𝑖 . O produto de uma matriz quadrada A pela sua
transposta AT é uma matriz simétrica.
Exemplo:
2
𝐴 = [1
0
0 2
2
−1 2] ∴ 𝐴𝑇 = [0
3 0
2
1 0
−1 3]
2 0
2 0 2 2 1
𝑆 = 𝐴𝐴 = [1 −1 2] [0 −1
0 3 0 2 2
𝑇
0
8 6
0
3] = [6 4 −3]
0
0 −3 0
𝑆 = 𝑆𝑇
2.1.4. DETERMINANTE DE UMA MATRIZ
Determinante de uma matriz quadrada é a soma algébrica dos produtos que se
obtém efetuando todas as permutações dos segundos índices do terno principal,
fixados os primeiros índices, e fazendo-se preceder os produtos do sinal + ou -,
conforme a permutação dos segundos índices seja a classe par ou impar.
7
det 𝐴 = |
2
5
| = 7 × 4 − 2 × 5 = 28 − 10 = 18
4
2.2. VETOR UNITÁRIO
Vetor unitário ou versor é um vetor não nulo cujo módulo seja igual a 1 ou seja:
|𝑢| = 𝑢 = 1
Seja um vetor não nulo 𝑣⃗ do Rn sempre é possível transformar este vetor em
um vetor unitário de mesma direção e sentido de 𝑣⃗.
Para isto é necessário dividir 𝑣⃗ pelo seu módulo.
𝑢
⃗⃗ =
𝑣⃗
|𝑣⃗|
Exemplo:
Seja 𝑣⃗ = (2,2,1), em relação a uma base ortonormal, então o versor de 𝑣⃗ é o
vetor:
𝑢
⃗⃗ =
𝑣⃗
(2, 2, 1)
2 2 1
=
= ( , , )
|𝑣⃗|
3 3 3
√22 + 22 + 1
2.3. TRANSFORMAÇÕES LINEARES
Para se dizer que T é uma transformação do espaço vetorial V no espaço vetorial
W, escreve-se 𝑇: 𝑉 ⟶ 𝑊. Sendo T uma função de cada vetor v ∈ V tem um só vetor
imagem w ∈ W. que será indicado por w =T(v). (STEINBRUCH & WINTERLE, pág.
151).
Considere 𝑉 = ℝ2 𝑒 𝑊 = ℝ3 .
A transformação 𝑇 = ℝ2 ⟶ ℝ3 associa vetores 𝑣 = (𝑥, 𝑦) ∈ ℝ2 com vetores 𝑤 =
(𝑥, 𝑦, 𝑧) ∈ ℝ3 . Se a lei que define a transformação T for
𝑇(𝑥, 𝑦) = (3𝑥, −2𝑦, 𝑥 − 𝑦)
Para calcular o exemplo acima tem-se T(2,1), x = 2 e y = 1. Então
𝑇(2,1) = (3 × 2, −2 × 1, 2 − 1) = (6, −2, 1)
DEFINIÇÃO
Sejam V e W espaços vetoriais. Uma aplicação 𝑇: 𝑉 ⟶ 𝑊 é chamada
transformação linear de V em W se:

𝑇(𝑢 + 𝑣) = 𝑇(𝑢) + 𝑇(𝑣)

𝑇(𝛼𝑢) = 𝛼𝑇(𝑢)
Para ∀𝑢, 𝑣 ∈ 𝑉 𝑒 ∀𝛼 ∈ ℝ.
A transformação linear de V em V é chamada operador linear sobre V. Para mais
detalhes consultar (STEINBRUCH & WINTERLE, pág. 151).
2.4. MÉDIA
Média aritmética ou média amostral é tendência central mais comum para um
conjunto de dados. A média aritmética de uma amostra 𝑛 = (𝑥1 , 𝑥2 , 𝑥3 … 𝑥𝑛 ) é
̅ (le-se x – barra) ou µ e é calculada por:
representada pelo símbolo 𝒙
𝑥̅ =
∑𝑥
𝑠𝑜𝑚𝑎 𝑑𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑥
=
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠
𝑛
Exemplo:
Conjunto de observações (5, 1, 6, 2, 4): n = 5.
𝑥̅ =
∑𝑥
5+1+6+2+4
18
=
=
= 3,6
𝑛
5
5
2.5. MEDIDAS DE DISPERSÃO
São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou
dispersão, dos valores em torno da média. Servem para medira representatividade da
média.
Exemplo:
Sejam as séries: (a) 20, 20, 20 e (b) 15, 10, 20, 25, 30
Aplicando a média se obtém: ̅̅̅
𝑥𝑎 = 20 𝑒 ̅̅̅
𝑥𝑏 = 20. Apesar de as médias serem
iguais o exemplo (a) não mostra dispersão em torno da média, enquanto o exemplo
(b) representa uma dispersão em torno da média.
2.6. VARIÂNCIA E COVARIÂNCIA
Quando se deseja medir a dispersão dos dados em relação à média é
interessante que se análise o desvio de cada valor 𝑥𝑖 em relação à média 𝑥⃗, 𝑑𝑖 = (𝑥𝑖 −
𝑥⃗ ), se os valores de di forem baixos, existe pouca dispersão, caso contrário há uma
grande dispersão.
Para o cálculo da variância deve-se considerar o quadrado dos desvios, em um
conjunto de observação finito, a variância é definida como quociente da soma dos
quadrados dos desvios pelo número de observações do conjunto menos uma unidade.
A variância é representada por Var(X) tendo sua formula de cálculo desta maneira:
𝑛
𝑉𝑎𝑟 (𝑋) =
∑𝑖=1 𝑑𝑖2
𝑛−1
𝑛
=
∑𝑖=1(𝑥𝑖 − 𝑋̅)2
𝑛−1
Ao calcular a variância estabelece-se a soma dos quadrados dos desvios em
relação à média.
COVARIÂNCIA
A Covariância é uma medida que descreve a variabilidade dos componentes
das diferentes dimensões em relação com os restantes, mostra como as séries variam
entre si e estabelece uma relação entre duas séries de medidas.
Quando apresenta valores positivos as duas séries de valores aumentam ou
diminuem juntas, se o valor for negativo, uma aumenta enquanto a segunda diminui,
quando apresenta valor zero, as duas séries são independentes.
Seu cálculo está efetuado através da formula:
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅)
𝑐𝑜𝑣(𝑋, 𝑌) =
𝑛−1
A covariância indica o grau de similaridade entre os conjuntos X e Y, ou seja
como esses dados estão correlacionados entre eles. Quanto maior o valor, maior a
correlação entre os dados.
Para mais de dois conjuntos de dados é necessário se calcular a covariância
entre os pares do conjunto, que pode ser visto como uma matriz de covariância e tem
sua denotação como COV.
Exemplo:
𝐶𝑜𝑣 (𝑋, 𝑋) 𝐶𝑜𝑣(𝑋, 𝑌)
𝐶𝑂𝑉 = [ 𝐶𝑜𝑣(𝑌, 𝑋) 𝐶𝑜𝑣(𝑌, 𝑌)
𝐶𝑜𝑣(𝑍, 𝑋) 𝐶𝑜𝑣(𝑍, 𝑌)
𝐶𝑜𝑣 (𝑋, 𝑍)
𝐶𝑜𝑣(𝑌, 𝑍) ]
𝐶𝑜𝑣(𝑍, 𝑍)
A diagonal principal contém as variâncias das variáveis e nas demais posições,
aparecem as covariâncias ou correlações entre as direções.
𝐶𝑜𝑣(𝑋, 𝑌) =
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅)
∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅)
=
= 𝐶𝑜𝑣(𝑌, 𝑋)
𝑛−1
𝑛−1
Exemplo:
Considere as seguintes amostrar X1 = (2.6; 1.8; 2.1; 1.6) e X2 = (2.3; 2.1; 1.7;
1.5).
̅̅̅1 =
𝑋
2.6 + 1.8 + 2.1 + 1.6
= 2.7
3
̅̅̅2 =
𝑋
2.3 + 2.1 + 1.7 + 1.5
= 2.5
3
𝐶𝑜𝑣(𝑋1 , 𝑋1 ) = (2.6 − 2.7)(2.6 − 2.7) + (1.8 − 2.7)(1.8 − 2.7) + (2.1 − 2.7)(2.1 − 2.7)
+ (1.6 − 2.7)(1.6 − 2.7) = 2.39
𝐶𝑜𝑣(𝑋1 , 𝑋2 ) = (2.6 − 2.7)(2.3 − 2.5) + (1.8 − 2.7)(2.1 − 2.5) + (2.1 − 2.7)(1.7 − 2.5)
+ (1.6 − 2.7)(1.5 − 2.5) = 1.96
𝐶𝑜𝑣(𝑋2 , 𝑋2 ) = (2.6 − 2.5)(2.6 − 2.5) + (2.1 − 2.5)(2.1 − 2.5) + (1.7 − 2.5)(1.7 − 2.5)
+ (1.5 − 2.5)(1.5 − 2.5) = 1.81
Obtém-se:
𝐶𝑂𝑉 = [
2.39 1.96
]
1.96 1.81
2.7. AUTORVALORES E AUTOVETORES
Autovetores e autovalores tem uma ampla aplicação matemática e possibilitam
a solução de muitos problemas matemáticos e estatísticos. É um conceito
fundamental e está presente em quase todos os métodos de análise multivariada, por
este motivo é fundamental para estabelecer as técnicas do PCA. São definidos como
segue:
Seja 𝑇: 𝑉 ⟶ 𝑉 um operador linear. 𝑣 ≠ 0, é denominado autovetor do operador
T se existe 𝜆 ∈ ℝ tal que
𝑇(𝑣) = 𝜆𝑣
O escalar ou número real 𝜆 é denominado autovalor de T associado ao autovetor
v.
Pela definição, um vetor 𝑣 ≠ 0, é autovetor se a imagem T(v) for um múltiplo
escalar de v. No ℝ2 𝑒 𝑛𝑜 ℝ3 v e T(v) tem as mesma direção e dependendo do valor de
𝜆 , o operador T dilata, contrai, inverte o sentido ou anula v, neste caso de 𝜆 = 0.
Exemplo:
O vetor v = (5,2) é autovetor do operador linear.
𝑇: ℝ2 ⟶ ℝ2 ,
𝑇(𝑥, 𝑦) = (4𝑥 + 5𝑦, 2𝑥 + 𝑦)
Associado ao vetor próprio 𝜆 = 6, pois:
𝑇(𝑣) = 𝑇(5,2) = (30,12) = 6)5,2) = 6𝑣
Determinação dos autovalores
Considere o operador linear 𝑇: ℝ3 ⟶ ℝ3 , cuja matriz canônica é:
𝑎11
𝐴 = [𝑎21
𝑎31
𝑎12
𝑎22
𝑎32
ou seja, 𝐴 = [𝑇].
𝑎13
𝑎23 ]
𝑎33
Se v e 𝜆 são, respectivamente, autovetor e correspondente autovalor do
operador T, então temos:
𝐴. 𝑣 = 𝜆𝑣 (v [é matriz coluna 3x1)
ou
𝐴𝑣 − 𝜆𝑣 = 0
Sendo que 𝑣 = 𝐼𝑣 (𝐼 é a matriz identidade), pode escrever-se
𝐴. 𝑣 − 𝜆𝐼𝑣 = 0
ou
(𝐴 − 𝜆𝐼)𝑣 = 0
Para que este sistema homogêneo admita soluções não nulas, isto é:
𝑥
0
𝑉 = [𝑦] ≠ [0]
𝑧
0
Deve-se ter:
det(𝐴 − 𝜆𝐼) = 0
Ou
𝑎11
det ([𝑎21
𝑎31
𝑎12
𝑎22
𝑎32
𝑎13
𝑎23 ] −
𝑎33
𝑎11 − 𝜆
ou ainda 𝑑𝑒𝑡 [ 𝑎21
𝑎31
𝜆 0
[0 𝜆
0 0
0
0]) = 0
𝜆
𝑎12
𝑎22 − 𝜆
𝑎32
𝑎13
𝑎23 ] = 0
𝑎33 − 𝜆
A equação det(𝐴 − 𝜆𝐼) = 0 é denomiada equação característica do operador T
ou da matriz A, sua raízes são autovalores do operador T ou da matriz A. O
determinante de det(𝐴 − 𝜆𝐼) é um polinômio em 𝜆 denominado polinômio
característico.
Para mais detalhes consultar (STEINBRUCH, Alfredo & WINTERLE, Paulo pág.
276).
3. ANÁLISE FATORIAL
A técnica de Análise Fatorial (AF) foi criada no início do século passado por
Spearman (SPEARMAN, 1904) para obtenção de um índice geral de inteligência (fator
“g”). O grande número de variáveis consideradas em muitos problemas torna
necessário o conhecimento da interdependência (correlação) entre essas. Portanto o
analista deve se preocupar em identificar dimensões latentes no conjunto de variáveis
originais (SPEARMAN, 1904).
A análise fatorial é um método estatístico que descreve a estrutura de
dependência de um conjunto de variáveis, através da criação de fatores ou variáveis
latentes, variáveis estas que teoricamente, medem aspectos comuns. Assim é
possível abordar o problema analisando a estrutura de relacionamento entre um
grande número de variáveis, e definir um conjunto de dimensões latentes, chamado
de fatores. Muitas vezes é possível identificar as dimensões e determinar o grau em
que cada variável é explicada por cada dimensão. Essa é uma técnica de
interdependência em que todas as variáveis são consideradas ao mesmo tempo.
A análise fatorial fornece a melhor explicação sobre quais variáveis podem
atuar juntas e quantas variáveis podem impactar na análise, além disso, a análise
fatorial busca nos dados originais uma estrutura linear reduzida, gerando um novo
conjunto de variáveis independentes, os fatores. Esses fatores são combinações
lineares em que a estrutura de pesos foi estimada por componentes principais
(JOHNSON at al., 1992).
Objetivos da Análise Fatorial
O objetivo geral da análise fatorial é agrupar as informações contidas em um
grande número de variáveis originais, em um conjunto menor de fatores com o mínimo
de perda de informação. Em GONTIJO & AGUIRRE (1988) pode-se encontrar
descritos os seguintes objetivos da análise fatorial:
a) Harmonizar ou condensar um grande número de observações em grupos;
b) Obter o menor número de variáveis a partir do material original e reproduzir toda
a informação de forma resumida;
c) Obter os fatores que reproduzam um padrão separado de relações entre as
variáveis;
d) Interpretar de forma lógica o padrão de relações entre as variáveis;
e) Identificar variáveis apropriadas para uma posterior análise de regressão e
correlação ou análise discriminante.
Mais especificamente, as técnicas de análise fatorial atendem um entre dois
objetivos:
a) Identificar uma estrutura por meio do resumo dos dados - ao analisar as
correlações entre as variáveis, torna-se possível identificar as relações
estruturais existentes entre essas variáveis. A análise fatorial, aplicada a um
conjunto de variáveis é utilizada para identificar as dimensões latentes
(fatores), enquanto a análise fatorial aplicada a uma matriz de correlação de
respondentes individuais consiste em um método de agrupamento;
b) Redução de Dados - por meio da análise fatorial, é possível identificar as
variáveis representativas de um conjunto maior criando um novo conjunto de
variáveis, muito menor que o original, que poderá substituir sem muito prejuízo,
o conjunto original de variáveis.
Nos dois casos, o propósito é manter a natureza e o caráter das variáveis
originais, reduzindo seu número para simplificar a análise multivariada a ser aplicada
posteriormente sem comprometer o resultado da análise.
Análise de Agrupamento
A Análise de Agrupamento ou Cluster Analysis, é um método multivariado com
a finalidade de agregar objetos com base nas características em comum que eles
possuem. O objetivo é alcançar homogeneidade dentro dos grupos e heterogeneidade
entre os grupos.
A finalidade principal da análise de agrupamento é dividir um conjunto de
variáveis em agrupamentos, com base na semelhança dessas variáveis em relação a
um conjunto de características específicas, tornando-se uma ferramenta útil quando
se faz a análise de um conjunto de dados em muitas situações distintas, podendo
classificar a amostra em um pequeno número de grupos, mutuamente exclusivos,
baseados nas similaridades entre os indivíduos, pode-se obter uma simplificação das
observações, analisando-as como membros de um agrupamento distintos e não mais
como observações únicas.
3.1. ANÁLISE DE COMPONENTES PRINCIPAIS (PCA)
É uma técnica matemática da análise multivariada usada para simplificar a
dimensionalidade de conjunto de dados em um conjunto de dados de menor
dimensão. É basicamente um extrator de características. O novo conjunto de dados
possui
novas
variáveis
denominadas
componentes
principais(CP).
Essa
transformação ocorre com a menor perda de informação possível e possibilita a
identificação das medidas responsáveis pelas maiores variações entre os resultados.
A ideia central do PCA baseia-se na redução do conjunto de dados
principalmente quando os dados são constituídos de um grande número de variáveis
inter-relacionadas. Segundo Regazzi (2001, p.1) “procura-se redistribuir a variação
nas variáveis (eixos originais) de forma a obter o conjunto ortogonal de eixos não
correlacionados”. Permite através da observação de gráficos bi ou tridimensional o
agrupamento de indivíduos com características semelhantes.
O algoritmo basicamente se baseia-se na matriz de variância-covariância, ou
na matriz de correlação, de onde são extraídos os autovalores e os autovetores.
O novo conjunto de variáveis gerado pela aplicação do PCA possui
independência estatística e não são correlacionadas, ou seja as variáveis originais
devem estar correlacionadas ou o uso da técnica PCA não trará vantagem alguma.
Para determinação das componentes principais é necessário calcular a matriz
de variância-covariância (Σ), ou a matriz de correlação (R), através dela calcular os
autovalores e autovetores e depois escrever as combinações, que serão as novas
variáveis chamadas de componentes principais. Cada componente principal é a
combinação linear de todas as variáveis originais.
3.2. INFORMATION BOTTLENECK METHOD (IBM)
The Information Bottleneck Method é um método de análise de dados
multivariados que visa fornecer uma noção quantitativa da significância ou relevância
de um conjunto de dados/informações. É basicamente um princípio matemático que
foi formulado para a extração ou representação eficiente da relevância da informação.
A ideia central do IBM é mostrar matematicamente a relevância das
informações, dividindo-as em clusters, ou melhor, separando-as em grupos de
similaridade dessas informações. Dessa forma, informações que após a aplicação do
método estão em um mesmo cluster, possuem um grau relevante de similaridade.
Para isso, aplicam-se métodos estatístico-matemáticos a fim de encontrar as
probabilidades condicionais em cada um dos eixos da tabela de dados e a relação e
probabilidade de cada informação estar contida em seu eixo oposto. É dada uma
distribuição inicial de dados aleatórios, que também terá suas probabilidades
calculadas. Então se calcula a função de partição e tendo definido a quantidade de
clusters a ser calculada juntamente com o β(Beta) definido, que é respectivamente um
multiplicador de Lagrange utilizado para encontrar máximos e mínimos locais de uma
função, calcula-se a probabilidade de cada variável estar contida em cada cluster e
apresenta-se o resultado exibindo-se a quantidade de cluster encontrada com as
variáveis aplicadas é a quantidade ótima para a compressão desejada levando em
consideração o nível de relevância que se busca adquirir.
3.3. MATERIAIS E MÉTODOS
Foram utilizados neste trabalho uma base de dados contendo termos extraídos
de 282 abstracts retirados da PUBMED, os termos já estavam pré-classificados em
número de documentos, termo e frequência, classificação que foi realizada pelo
trabalho da autora Polletini (2011). A partir desta classificação foi feita uma seleção
dos termos que apresentavam frequência maior que 4(quatro).
Após a obtenção dos novos dados, que podem ter n dimensões, aplica-se o PCA
onde calcula-se a média de cada dimensão ou seja a média de cada coluna da matriz
e subtrai-se de cada elemento da coluna a respectiva média de sua coluna formando
assim uma nova matriz de valores. A partir desta nova tabela calcula-se a matriz de
covariância como foi visto na seção 2.6. Feito isso calcula-se os autovalores e
autovetores como indica a seção 2.7 encontrando assim as respectivas matrizes de
autovetores V e autovalores. O maior autovalor de um autovetor indica a relação mais
significativa entre as dimensões dos dados. Os autovetores são colocados em ordem
decrescente obtendo assim os componentes principais em ordem de relevância. A
partir destes dados monta-se uma nova matriz de características que será multiplicada
pela matriz inicial disposta de forma transposta pela matriz dos autovetores mais
significantes escolhidos.
𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 = 𝐴𝑇 × 𝑉
A partir dos resultados do PCA elabora-se um gráfico para visualização dos
possíveis grupos formados. Em seguida calculamos o método do IBM utilizando a
mesma base de dados onde x representara os termos(palavras) e y representara os
documentos a serem agrupados, t representará o número de clusters que serão
formados e β relaciona o grau de compressão com o grau de relevância. O objetivo
do método é encontrar a melhor distribuição dos documentos nos clusters P(t/x),
através da minimização da Lagrangeana £ = I(x, t) − 𝛽𝐼(𝑡, 𝑦) dados o número de
clusters t e β. A informação mútua I(x, t), está relacionada à compressão da
informação e 𝐼(𝑡, 𝑦), com a relevância. Se β = 0 então toda informação está
maximamente comprimida, à medida que β aumenta é possível medir a compressão
e a relevância. Este método baseia-se em equações iterativas que são caracterizadas
da seguinte forma:

1º Cálculo
𝑃(𝑡) = ∑ 𝑝(𝑥) ∗ 𝑝(𝑡/𝑥)
𝑃(𝑡) = 𝑝(𝑥1 ) ∗ 𝑝(𝑡1 /𝑥1 ) + 𝑝(𝑥2 ) ∗ 𝑝(𝑡2 /𝑥2 ) + … + 𝑝(𝑥𝑛 ) ∗ 𝑝(𝑡𝑛 /𝑥𝑛 )

2º Cálculo
𝑃(𝑦/𝑡) = ∑ 𝑝(𝑦/𝑥) ∗ 𝑃(𝑥/)
𝑃(𝑦/𝑡) = 𝑝(𝑦1 /𝑥1 ) ∗ 𝑝(𝑥1 /𝑡1 ) + 𝑝(𝑦1 /𝑥2 ) ∗ 𝑝(𝑥2 /𝑡1 ) + …

3º Cálculo
𝑃(𝑡/𝑥) =
𝑝(𝑦/𝑥)
𝑦
𝑝(𝑡)
−𝛽[∑𝑝( ).𝑙𝑜𝑔
𝑥
𝑝(𝑦/𝑡)
.ℯ
𝑍(𝑥, 𝛽)
Para cada β e t escolhidos, haverá convergência das equações. Quanto maior
o valor de β, mais próxima são as probabilidades condicionais, de modo que os
clusters formados serão a melhor configuração do sistema.
Afim de se aplicar os métodos foi desenvolvido um software na linguagem de
programação C#, onde os métodos foram implementados em módulos separados. O
software tem como objetivo executar os cálculos a partir de um conjunto de dados. Os
resultados são apresentados e um gráfico é gerado para comparação visual dos
resultados através de cores que indicam os pontos que apresentam similaridade.
Como apoio no desenvolvimento foi usada a biblioteca matemática ACCORD para a
realização de operações com matrizes, para a apresentação dos gráficos foi utilizada
a biblioteca HIGHCHARTS na linguagem de programação JavaScript.
O software recebe como entrada os termos e as frequências por meio de uma
tabela, onde será aplicado o PCA que permite avaliar os possíveis agrupamentos ou
clusters, com base na saída através da plotagem do gráfico. A partir desta avaliação
é possível estimar um número de cluster para aplicação do IBM, método que irá
encontrar a melhor distribuição de artigos por cluster.
4. RESULTADOS
Para testes dos resultados, eficiência do software e ajustes foi utilizado uma base
de dados conhecida POLIAKOV (POLIAKOV, 2003) em que os cálculos e resultados
já estavam apresentados. Para a obtenção do conjunto de dados a ser utilizado foi
feita uma seleção na base de dados disponibilizada pela aluna Juliana Pollettini
(POLLETTINI, 2011), obtidos através de seu trabalho de mestrado. Nesta seleção
estão apenas os documentos que contiveram termos que apresentaram frequência
maiores ou iguais a 4(quatro), do total de 842 abstracts analisados chegamos a 32
abstracts relevantes para o conjunto de dados.
Figura 1 - Resultado da seleção dos documentos com termos maiores ou iguais a 4.
A partir destes dados foi aplicado o método PCA com o uso do software
desenvolvido.
Figura 2 – Conjunto de dados carregados no software
Ao clicar em computar o software realiza todos os passos necessários para a
aplicação do método PCA sobre os dados analisados e exibe na tela alguns dados
importantes da aplicação do método como:
Figura 3 – Covariância dos dados
Figura 4 - Correlação entre os dados
Figura 5 - Auto-vetores calculados a partir dos abstracts
Figura 6 - Obtenção das componentes principais
A projeção dos componentes principais é onde se identifica a proporção em
porcentagem de quanto cada componente representa do total da massa de dados
analisados e também os auto valores(Eigen Values)
Figura 7 - Projeção das componentes principais
A projeção dos resultados exibe a matriz com a nova base de dados formada
pela multiplicação da matriz de dados original e a matriz de auto vetores, ordenados
pelos autovalores de maior valor.
Figura 8 - Projeção dos resultados obtidos
Ao final da analise o software exibe um gráfico 3D, que possibilita a avaliação
dos dados para identificação de possíveis clusters.
Distribuição de dados resultante da aplicação da técnica de PCA.
Figura 9 - O gráfico indica possíveis clusters formados sobre os dados analisados
Foi possível observar através da análise do gráfico a formação de 4 possíveis
clusters, então foi aplicado o método IBM iniciando-se em 4 clusters e ajuste do beta
em 11 número obtido com experimentação. Então obteve-se os resultados a seguir:
Figura 10 - Escolha do número de clustes com base nos resultados do PCA
Ao computar os dados se obtém a probabilidade de um documento Y estar em
um Cluster T.
Figura 11 - Probabilidade de um documento existir em um cluster
A Seguir calculou-se a probabilidade de um termo estar contido em um cluster.
Figura 12 - Probabilidade de um termo estar em clusters
Figura 13 – Probabilidade de um termo pertencer a um cluster
Figura 14 - Visualização dos clusters formados com, β = 11
Observou-se que com 4 clusters e β = 11 os grupos formados pelo método do
PCA se confirmaram, mas para descobrir a melhor configuração entre a quantidade
de clusters e o valor do parâmetro β a ser utilizado, aplicamos os dados apresentados
na tabela abaixo.
QUANTIDADE DE CLUSTERS
1
2
3
4
4
5
6
7
8
9
10
11
12
13
14
15
16
BETA UTILIZADO
1
11
9
11
100
13
19
27
16
16
17
17
20
20
44
44
51
Tabela 1 – Quantidade de clusters vs valor de β utilizado
Os campos em amarelo representam o valor máximo possível do parâmetro β e
que mesmo assim não há convergência completa desses dados. Para valores de β
acima dos destacados em amarelos ocasionaram erro de cálculo. A partir do 17º
cluster os valores começaram a se repetir.
Figura 15 - Resultado obtido utilizando 6 clusters e β = 19
Após realizada todas as análises e observados os erros chegamos ao resultado
otimizado de 4 clusters com β = 100.
Figura 16 - Resultado otimizado para a amostra de dados utilizada
5. CONCLUSÃO
Ao aplicar o PCA temos uma noção do grau de similaridade dos documentos, ou
seja, como eles estão agrupados e as possíveis relações entre os documentos e
prontuários médicos através da análise do gráfico. A confirmação da configuração dos
clusters é obtida através da aplicação do método IBM o qual otimiza os resultados
fornecendo a probabilidade de um documento pertencer a um cluster.
Também pudemos aprender sobre métodos dos quais não teríamos contato
durante o período do curso, métodos que nos abriram horizontes para futuras
aplicações em análise de imagens e BIG DATA para a análise de comportamentos de
compras e recomendações.
Para trabalhos futuros pode-se estudar a possibilidade de desenvolver um
software a ser integrado com o sistema de prontuários médicos que ao realizar a
análise do histórico de saúde do paciente possa indicar dentro da literatura de artigos
científicos médicos, estudos que, correlacionem seu histórico ao possível
aparecimento de doenças crônicas ou seja traços que indiquem epigeneticamente
quais paciente são propensos a certas doenças.
6. REFERÊNCIAS BIBLIOGRÁFICAS
ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE, Indicadores de Saúde. Disponível
em:
<http://www.paho.org/bra/index.php?option=com_content&view=category&layout=blo
g&id=758&Itemid=347> Acesso em: 06 mai. 2014.
TANG, Wy; Ho, Sm, PUBMED, Epigenetic reprogramming and imprint in origins
of disease. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/17638084> Acesso
em: 15 mai. 2014.
FEINBERG, Andrew P; TYCKO, Benjamin, NATURE, The history of câncer
epigenetics. Disponível em:
<http://www.nature.com/nrc/journal/v4/n2/full/nrc1279.html> Acesso em: 15 mai.
2014.
SCIENTIFIC AMERICAN BRASIL, Estudo descobre mecanismo de herança
epigenética induzido por estresse. Disponível em:
<http://www2.uol.com.br/sciam/noticias/estudo_descobre_mecanismo_de_heranca_
epigenetica_induzido_por_estresse.html> Acesso em: 15 mai. 2014.
MCVITTIE, Brona, SCIENCE SCHOOL, Como a epigenética molda a vida,
Disponível em: <http://www.scienceinschool.org/print/192> Acesso em: 15 mai.2014.
TISHBY, NAFTALI, COMPUTER SCIENCE AND ENGINEERING, The information
Bottleneck
Method.
Disponível
em:
<http://www.cs.huji.ac.il/labs/learning/Papers/allerton.pdf> Acesso em: 10 jun. 2014.
MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. 3ª Ed. São Paulo:
Atlas, 2010.
BOLDRINI, José Luiz. et al. Álgebra Linear. 3ª Ed. São Paulo: Harbra, 1986.
HOFFMAN, K; KUNZE, R. Álgebra Linear. 1ª Ed. São Paulo: Polígono, 1970.
WINTERLE, Paulo; STEINBRUCH, Alfredo. Álgebra Linear. 2ª Ed São Paulo: Makron
Books, 2000.
POLLETTINI, Juliana T; Auxílio na Prevenção de Doenças Crônicas por meio de
Mapeamento e Relacionamento Conceitual de Informações em Biomedicina,
2011.
ACCORD Framework, Disponível em:< http://accord-framework.net/ > Acesso em
29.Nov. 2014
Highcharts, Interactive JavaScript charts for your webpage.Disponível em
<http://www.highcharts.com/ > Acesso em: 29.Nov.2014.
POLIAKOV, Felix; Maximum Likelihood and the Information Bottleneck, 2003.
Disponível em : <
http://www.wisdom.weizmann.ac.il/~vision/courses/2004_2/files/bottleneck_vs_ML/IB
_ML.ppt> Acesso em : 01.Dez.2014
Download

centro universitário uniseb trabalho de conclusão de curso