CENTRO UNIVERSITÁRIO UNISEB TRABALHO DE CONCLUSÃO DE CURSO BACHARELADO EM ENGENHARIA DE COMPUTAÇÃO ESTUDO DA EPIGNÉTICA ATRAVÉS DE MÉTODOS ESTATÍSTICOS DE ANÁLISE DE DADOS MULTIVARIADOS Fernando Dutra Anastácio Geanfrancisco Pontes Portugal Matheus de Souza Tonetto Orientador Profª. Drª. Daniela Maria Lemos Barbato Jacobovitz RIBEIRÃO PRETO 2014 FERNANDO DUTRA ANASTÁCIO GEANFRANCISCO PONTES PORTUGAL MATHEUS DE SOUZA TONETTO ESTUDO DA EPIGÉNETICA ATRAVÉS DE MÉTODOS ESTATÍSTICOS DE ANÁLISE DE DADOS MULTIVARIADOS Trabalho de apresentado conclusão ao Centro de curso Universitário UNISEB de Ribeirão Preto, como parte dos requisitos para obtenção do grau de Bacharel em Engenharia de Computação. Orientador: Profª. Drª. Daniela Maria L. B. Jacobovitz RIBEIRÃO PRETO 2014 RESUMO Doenças crônicas são as causas de morte de milhões de pessoas todos os anos no mundo. Assim descobrir como fatores externos ou hereditários influenciam no desenvolvimento dessas doenças é sempre um grande desafio. Este trabalho tem como objetivo utilizar os métodos PCA (Principal Component Analysis) e IBM (Information Bottleneck Method) para analisar uma base de dados contendo abstracts de artigos retirados de uma biblioteca mundial de artigos científicos médicos e prontuários eletrônicos, chamada Pubmed. As informações serão cruzadas a fim de identificar como este dados podem estar correlacionados através de grupos e com base na epigenética identificar vestígios que possam levar pessoas a desenvolver doenças crônicas. Palavras-chave: Dados Multivariado, Doenças crônicas, Epigenética, IBM, PCA. ABSTRACT Chronic diseases are the cause of death of millions of people every year in the world, find out how external or hereditary factors influence the development of these diseases in people is always a challenge. In this work, we use PCA (Principal Component Analysis) and IBM (Information Bottleneck Method) methods in order to analyze a database containing abstracts of articles taken from the Pubmed, a world library of medical research papers. Thus crossing this information and identify how this data can be correlated through groups and based on epigenetic identify traces that might lead people to develop chronic diseases. Keywords:, Chronic diseases, Epigenetics, IBM, Multivariate Data, PCA, AGRADECIMENTOS À nossa orientadora Profª Ms.Dra. Daniela Maria Barbato Lemos Jacobovitz, pela paciência, dedicação e apoio oferecido para a conclusão deste trabalho. Ao Prof Dr Jean-Jacques Georges Soares de Groote pela contribuição com o trabalho, a Juliana Pollettini por disponibilizar sua base de dados. As nossas famílias pelo apoio. A todos os Professores que passaram ao longo dos 5 anos ao nosso lado emprestando seu conhecimento para nossa formação profissional. SUMÁRIO LISTA DE ABREVIATURAS E SIGLAS ............................................................................................ 7 LISTA DE TABELAS ............................................................................................................................ 7 LISTA DE ILUSTRAÇÕES .................................................................................................................. 7 1. INTRODUÇÃO .............................................................................................................................. 8 OBJETIVOS .............................................................................................................................. 9 1.1. 2. NOCÕES DE ALGEBRA MATRICIAL E FERRAMENTAS MATEMÁTICAS E ESTATÍSTICAS .................................................................................................................................. 10 MATRIZES............................................................................................................................... 10 2.1. 2.1.1. MATRIZ TRANSPOSTA .................................................................................................... 10 2.1.2. MATRIZ ORTOGONAL ..................................................................................................... 10 2.1.3. MATRIZ SIMÉTRICA ......................................................................................................... 11 2.1.4. DETERMINANTE DE UMA MATRIZ ............................................................................... 11 2.2. VETOR UNITÁRIO ................................................................................................................. 12 2.3. TRANSFORMAÇÕES LINEARES ....................................................................................... 12 2.4. MÉDIA ...................................................................................................................................... 13 2.5. MEDIDAS DE DISPERSÃO.................................................................................................. 13 2.6. VARIÂNCIA E COVARIÂNCIA ............................................................................................. 14 2.7. AUTORVALORES E AUTOVETORES ............................................................................... 16 3. ANÁLISE FATORIAL ................................................................................................................. 18 3.1. ANÁLISE DE COMPONESNTES PRINCIPAIS (PCA)..................................................... 20 3.2. INFORMATION BOTTLENECK METHOD (IBM) .............................................................. 20 3.3. MATERIAIS E MÉTODOS .................................................................................................... 21 4. RESULTADOS ............................................................................................................................ 24 5. CONCLUSÃO ............................................................................................................................. 33 6. REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................................ 34 LISTA DE ABREVIATURAS E SIGLAS PCA: Principal Component Analysis. IBT/ IBM: Information Bottleneck Method/ Technique. LISTA DE TABELAS Tabela 1- Dados comparativos número de clusters vs Beta. LISTA DE ILUSTRAÇÕES Figura 1 - Resultado da seleção dos documentos com termos maiores ou iguais a 4. Figura 2 – Conjunto de dados carregados no software Figura 3 – Covariância dos dados Figura 4 - Correlação entre os dados Figura 5 - Auto vetores calculados a partir dos abstracts Figura 6 - Obtenção das componentes principais Figura 7 - Projeção das componentes principais Figura 8 - Projeção dos resultados obtidos Figura 9 - O gráfico indica possíveis clusters formados sobre os dados analisados Figura 10 - Escolha do número de clusters com base nos resultados do PCA Figura 11 - Probabilidade de um documento existir em um cluster Figura 12 - Probabilidade de um termo estar em clusters Figura 13 – Probabilidade de um termo pertencer a um cluster Figura 14 - Visualização dos clusters formados com, beta utilizado 11 Figura 15 - Resultado obtido utilizando 6 clusters e Beta 19 Figura 16 - Resultado otimizado para a amostra de dados utilizada 1. INTRODUÇÃO Segundo dados da OMS 2013, (ORGANIZAÇÃO MUNDIAL DA SAÚDE, 2013) doenças crônicas matam aproximadamente 36 milhões de pessoas por ano, cerca de 60% das mortes, já no Brasil segundo dados do Ministério da Saúde, as mortes por condições crônicas correspondem a 72% das mortes. Doença crônica é uma doença de longa duração e, geralmente, de progressão lenta. Algumas dessas doenças são herdadas pela Epigenética (do grego “epi” significa “acima ou sobre algo”). Segundo Tang e Ho (PUBMED, 2007) a epigenética é definida pelas mudanças herdáveis na expressão do gene que não alteram a sequência do DNA pela mitose e ao longo das gerações. Já Feinberg (2004) a define como modificações no genoma que são herdadas pela divisão celular, não tendo relação com mudanças na sequência do DNA. Com as mudanças ocorridas no estilo de vida da humanidade nos últimos 80 anos, o aumento do estresse, sedentarismo e a introdução de substâncias químicas no meio ambiente, a epigenética engloba a geração e a amplificação de muitas dessas doenças crônicas. Segundo estudo publicado pela revista cientifica Scientific American Brasil (SCIENTIFIC AMERICAN BRASIL, 2011) os cientistas demostraram que vários tipos de estresses induziram mudanças epigenética, mas os fatores subadjacentes envolvidos permanecem desconhecidos. Ao analisar as mutações nos genes, observaram uma desorganização na estrutura da heterocromática e metilação reduzida de proteínas histonas, o principal componente da cromatina. Outras análises mostraram que as exposições destas células ao estresse osmótico e choque de calor geraram uma desorganização da heterocromática que foi transmitida para a próxima geração de células sem alterar sua sequência de DNA, em outras analises o choque de calor provocou transmissões para duas gerações de células. Outro caso apresentado por Brona McVittie (SCIENCE SCHOOL, 2006) trata de dois irmãos gêmeos idênticos monozigóticos Jason e Gavin que geneticamente são iguais, mas não epigeneticamente. Ambos os irmãos possuíam fatores de risco para desenvolverem diabetes do tipo II, mas apenas Jason foi diagnosticado com a doença após uma infecção pancreática e teve que iniciar a auto administração de insulina. Os médicos não conseguiram estabelecer um diagnóstico preciso, mas segundo Fraga (2005) se os médicos tivessem a sua disposição melhores ferramentas de diagnósticos, como as que oferecem avanços na investigação epigenética, eles poderiam ter descoberto o que havia de errado com Jason. Nesse mesmo período houve um enorme avanço da tecnologia, gerando melhor desempenho dos hardwares e softwares, resultando assim em melhores condições para o tratamento de grandes quantidades de dados. Com base nessa evolução encontra-se a possibilidade de criar aplicações computacionais que consigam conectar características semelhantes em dados desconexos através de métodos matemático-estatísticos. Toma-se como exemplo o método PCA (Principal Component Analysis), um método matemático desenvolvido em 1901 por Karl Pearson que utiliza uma transformação ortogonal para converter um conjunto de características de variáveis possivelmente correlacionadas a um conjunto de valores de variáveis linearmente descorrelacionadas chamadas componentes principais. Dessa forma é possível desenvolver computacionalmente mecanismos que possam relacionar os sintomas e características de cada doença com seus respectivos diagnósticos, podendo assim facilitar a recomendação dessas informações no campo da medicina. Neste estudo será abordada a epigenética através de métodos matemáticos, estatísticos e computacionais para os estudos dessas doenças crônicas para tentar estabelecer fatores de riscos em pacientes através do seu histórico médico. 1.1. OBJETIVOS O presente trabalho tem como objetivo analisar uma base de dados de artigos científicos extraídos do PUBMED, uma base mundial de artigos científicos para medicina, e prontuários médicos, a fim de encontrar uma correlação entre estes arquivos científicos e os prontuários através do uso de métodos matemáticoestatísticos com o intuito de definir um perfil de pacientes que desenvolvem determinados tipos de doenças crônicas. Para isso será desenvolvido ao longo deste trabalho um software para realizar análise dos dados através de técnicas de processamento de dados multivariados como PCA (Análise de componente principal) e IBM. 2. NOCÕES DE ALGEBRA MATRICIAL E FERRAMENTAS MATEMÁTICAS E ESTATÍSTICAS Neste capítulo serão abordados tópicos referentes à Álgebra Linear e Estatística necessárias para apresentação e compreensão dos métodos: Analise Fatorial, PCA e IBM. 2.1. MATRIZES 2.1.1. MATRIZ TRANSPOSTA A transposta da matriz A, de ordem m por n, é a matriz AT, de ordem n por m, obtida a partir da matriz A permutando as linhas pelas colunas de mesmo índice. Exemplo: 𝑎11 𝐴 = [𝑎 21 𝑎12 𝑎22 𝑎11 𝑎13 𝑇 𝑎 𝑎23 ] ; 𝐴 = [ 12 𝑎13 𝑎21 𝑎22 ] 𝑎23 Propriedades da Matriz Transposta (𝐴 + 𝐵)𝑇 = 𝐴𝑇 + 𝐵 𝑇 (𝑘𝐴)𝑇 = 𝑘𝐴𝑇 (𝐴𝑇 )𝑇 = 𝐴 (𝐴𝐵)𝑇 = 𝐵 𝑇 𝐴𝑇 2.1.2. MATRIZ ORTOGONAL Uma matriz A cuja sua inversa coincide com a transposta é denominada matriz ortogonal: 𝐴−1 = 𝐴𝑇 Isto é: 𝐴. 𝐴𝑇 = 𝐴𝑇 . 𝐴 = 1 Exemplo: 1 √3 2 , 𝐴= 2 1 √3 − [2 2] 1 √3 2 𝐴𝑇 = 2 1 √3 − [2 2] 1 √3 1 √3 2 × 2 2 = [1 𝑠𝑒𝑗𝑎 𝐴 = 𝐴𝑇 , 𝑒𝑛𝑡ã𝑜 𝐴𝐴𝑇 = 𝐴𝑇 𝐴 = 2 0 √3 1 √3 1 − − [2 2] [ 2 2] 0 ] 1 Tendo: 𝐴𝐴𝑇 = 𝐴𝑇 𝐴 = 1 Isto é: 𝐴𝑇 = 𝐴−1 a Matriz A é ortogonal. 2.1.3. MATRIZ SIMÉTRICA Uma matriz quadrada 𝑆 = [𝑎𝑖𝑗 ] é simétrica se 𝑆 𝑇 = 𝑆. Seja 𝐴 = [𝑎𝑖𝑗 ] uma matriz simétrica, seus elementos em relação a diagonal principal são dispostos simetricamente, isto é, 𝑎𝑖𝑗 = 𝑎𝑗𝑖 . O produto de uma matriz quadrada A pela sua transposta AT é uma matriz simétrica. Exemplo: 2 𝐴 = [1 0 0 2 2 −1 2] ∴ 𝐴𝑇 = [0 3 0 2 1 0 −1 3] 2 0 2 0 2 2 1 𝑆 = 𝐴𝐴 = [1 −1 2] [0 −1 0 3 0 2 2 𝑇 0 8 6 0 3] = [6 4 −3] 0 0 −3 0 𝑆 = 𝑆𝑇 2.1.4. DETERMINANTE DE UMA MATRIZ Determinante de uma matriz quadrada é a soma algébrica dos produtos que se obtém efetuando todas as permutações dos segundos índices do terno principal, fixados os primeiros índices, e fazendo-se preceder os produtos do sinal + ou -, conforme a permutação dos segundos índices seja a classe par ou impar. 7 det 𝐴 = | 2 5 | = 7 × 4 − 2 × 5 = 28 − 10 = 18 4 2.2. VETOR UNITÁRIO Vetor unitário ou versor é um vetor não nulo cujo módulo seja igual a 1 ou seja: |𝑢| = 𝑢 = 1 Seja um vetor não nulo 𝑣⃗ do Rn sempre é possível transformar este vetor em um vetor unitário de mesma direção e sentido de 𝑣⃗. Para isto é necessário dividir 𝑣⃗ pelo seu módulo. 𝑢 ⃗⃗ = 𝑣⃗ |𝑣⃗| Exemplo: Seja 𝑣⃗ = (2,2,1), em relação a uma base ortonormal, então o versor de 𝑣⃗ é o vetor: 𝑢 ⃗⃗ = 𝑣⃗ (2, 2, 1) 2 2 1 = = ( , , ) |𝑣⃗| 3 3 3 √22 + 22 + 1 2.3. TRANSFORMAÇÕES LINEARES Para se dizer que T é uma transformação do espaço vetorial V no espaço vetorial W, escreve-se 𝑇: 𝑉 ⟶ 𝑊. Sendo T uma função de cada vetor v ∈ V tem um só vetor imagem w ∈ W. que será indicado por w =T(v). (STEINBRUCH & WINTERLE, pág. 151). Considere 𝑉 = ℝ2 𝑒 𝑊 = ℝ3 . A transformação 𝑇 = ℝ2 ⟶ ℝ3 associa vetores 𝑣 = (𝑥, 𝑦) ∈ ℝ2 com vetores 𝑤 = (𝑥, 𝑦, 𝑧) ∈ ℝ3 . Se a lei que define a transformação T for 𝑇(𝑥, 𝑦) = (3𝑥, −2𝑦, 𝑥 − 𝑦) Para calcular o exemplo acima tem-se T(2,1), x = 2 e y = 1. Então 𝑇(2,1) = (3 × 2, −2 × 1, 2 − 1) = (6, −2, 1) DEFINIÇÃO Sejam V e W espaços vetoriais. Uma aplicação 𝑇: 𝑉 ⟶ 𝑊 é chamada transformação linear de V em W se: 𝑇(𝑢 + 𝑣) = 𝑇(𝑢) + 𝑇(𝑣) 𝑇(𝛼𝑢) = 𝛼𝑇(𝑢) Para ∀𝑢, 𝑣 ∈ 𝑉 𝑒 ∀𝛼 ∈ ℝ. A transformação linear de V em V é chamada operador linear sobre V. Para mais detalhes consultar (STEINBRUCH & WINTERLE, pág. 151). 2.4. MÉDIA Média aritmética ou média amostral é tendência central mais comum para um conjunto de dados. A média aritmética de uma amostra 𝑛 = (𝑥1 , 𝑥2 , 𝑥3 … 𝑥𝑛 ) é ̅ (le-se x – barra) ou µ e é calculada por: representada pelo símbolo 𝒙 𝑥̅ = ∑𝑥 𝑠𝑜𝑚𝑎 𝑑𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑥 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑛 Exemplo: Conjunto de observações (5, 1, 6, 2, 4): n = 5. 𝑥̅ = ∑𝑥 5+1+6+2+4 18 = = = 3,6 𝑛 5 5 2.5. MEDIDAS DE DISPERSÃO São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. Servem para medira representatividade da média. Exemplo: Sejam as séries: (a) 20, 20, 20 e (b) 15, 10, 20, 25, 30 Aplicando a média se obtém: ̅̅̅ 𝑥𝑎 = 20 𝑒 ̅̅̅ 𝑥𝑏 = 20. Apesar de as médias serem iguais o exemplo (a) não mostra dispersão em torno da média, enquanto o exemplo (b) representa uma dispersão em torno da média. 2.6. VARIÂNCIA E COVARIÂNCIA Quando se deseja medir a dispersão dos dados em relação à média é interessante que se análise o desvio de cada valor 𝑥𝑖 em relação à média 𝑥⃗, 𝑑𝑖 = (𝑥𝑖 − 𝑥⃗ ), se os valores de di forem baixos, existe pouca dispersão, caso contrário há uma grande dispersão. Para o cálculo da variância deve-se considerar o quadrado dos desvios, em um conjunto de observação finito, a variância é definida como quociente da soma dos quadrados dos desvios pelo número de observações do conjunto menos uma unidade. A variância é representada por Var(X) tendo sua formula de cálculo desta maneira: 𝑛 𝑉𝑎𝑟 (𝑋) = ∑𝑖=1 𝑑𝑖2 𝑛−1 𝑛 = ∑𝑖=1(𝑥𝑖 − 𝑋̅)2 𝑛−1 Ao calcular a variância estabelece-se a soma dos quadrados dos desvios em relação à média. COVARIÂNCIA A Covariância é uma medida que descreve a variabilidade dos componentes das diferentes dimensões em relação com os restantes, mostra como as séries variam entre si e estabelece uma relação entre duas séries de medidas. Quando apresenta valores positivos as duas séries de valores aumentam ou diminuem juntas, se o valor for negativo, uma aumenta enquanto a segunda diminui, quando apresenta valor zero, as duas séries são independentes. Seu cálculo está efetuado através da formula: ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅) 𝑐𝑜𝑣(𝑋, 𝑌) = 𝑛−1 A covariância indica o grau de similaridade entre os conjuntos X e Y, ou seja como esses dados estão correlacionados entre eles. Quanto maior o valor, maior a correlação entre os dados. Para mais de dois conjuntos de dados é necessário se calcular a covariância entre os pares do conjunto, que pode ser visto como uma matriz de covariância e tem sua denotação como COV. Exemplo: 𝐶𝑜𝑣 (𝑋, 𝑋) 𝐶𝑜𝑣(𝑋, 𝑌) 𝐶𝑂𝑉 = [ 𝐶𝑜𝑣(𝑌, 𝑋) 𝐶𝑜𝑣(𝑌, 𝑌) 𝐶𝑜𝑣(𝑍, 𝑋) 𝐶𝑜𝑣(𝑍, 𝑌) 𝐶𝑜𝑣 (𝑋, 𝑍) 𝐶𝑜𝑣(𝑌, 𝑍) ] 𝐶𝑜𝑣(𝑍, 𝑍) A diagonal principal contém as variâncias das variáveis e nas demais posições, aparecem as covariâncias ou correlações entre as direções. 𝐶𝑜𝑣(𝑋, 𝑌) = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑦𝑖 − 𝑌̅) ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)(𝑋𝑖 − 𝑋̅) = = 𝐶𝑜𝑣(𝑌, 𝑋) 𝑛−1 𝑛−1 Exemplo: Considere as seguintes amostrar X1 = (2.6; 1.8; 2.1; 1.6) e X2 = (2.3; 2.1; 1.7; 1.5). ̅̅̅1 = 𝑋 2.6 + 1.8 + 2.1 + 1.6 = 2.7 3 ̅̅̅2 = 𝑋 2.3 + 2.1 + 1.7 + 1.5 = 2.5 3 𝐶𝑜𝑣(𝑋1 , 𝑋1 ) = (2.6 − 2.7)(2.6 − 2.7) + (1.8 − 2.7)(1.8 − 2.7) + (2.1 − 2.7)(2.1 − 2.7) + (1.6 − 2.7)(1.6 − 2.7) = 2.39 𝐶𝑜𝑣(𝑋1 , 𝑋2 ) = (2.6 − 2.7)(2.3 − 2.5) + (1.8 − 2.7)(2.1 − 2.5) + (2.1 − 2.7)(1.7 − 2.5) + (1.6 − 2.7)(1.5 − 2.5) = 1.96 𝐶𝑜𝑣(𝑋2 , 𝑋2 ) = (2.6 − 2.5)(2.6 − 2.5) + (2.1 − 2.5)(2.1 − 2.5) + (1.7 − 2.5)(1.7 − 2.5) + (1.5 − 2.5)(1.5 − 2.5) = 1.81 Obtém-se: 𝐶𝑂𝑉 = [ 2.39 1.96 ] 1.96 1.81 2.7. AUTORVALORES E AUTOVETORES Autovetores e autovalores tem uma ampla aplicação matemática e possibilitam a solução de muitos problemas matemáticos e estatísticos. É um conceito fundamental e está presente em quase todos os métodos de análise multivariada, por este motivo é fundamental para estabelecer as técnicas do PCA. São definidos como segue: Seja 𝑇: 𝑉 ⟶ 𝑉 um operador linear. 𝑣 ≠ 0, é denominado autovetor do operador T se existe 𝜆 ∈ ℝ tal que 𝑇(𝑣) = 𝜆𝑣 O escalar ou número real 𝜆 é denominado autovalor de T associado ao autovetor v. Pela definição, um vetor 𝑣 ≠ 0, é autovetor se a imagem T(v) for um múltiplo escalar de v. No ℝ2 𝑒 𝑛𝑜 ℝ3 v e T(v) tem as mesma direção e dependendo do valor de 𝜆 , o operador T dilata, contrai, inverte o sentido ou anula v, neste caso de 𝜆 = 0. Exemplo: O vetor v = (5,2) é autovetor do operador linear. 𝑇: ℝ2 ⟶ ℝ2 , 𝑇(𝑥, 𝑦) = (4𝑥 + 5𝑦, 2𝑥 + 𝑦) Associado ao vetor próprio 𝜆 = 6, pois: 𝑇(𝑣) = 𝑇(5,2) = (30,12) = 6)5,2) = 6𝑣 Determinação dos autovalores Considere o operador linear 𝑇: ℝ3 ⟶ ℝ3 , cuja matriz canônica é: 𝑎11 𝐴 = [𝑎21 𝑎31 𝑎12 𝑎22 𝑎32 ou seja, 𝐴 = [𝑇]. 𝑎13 𝑎23 ] 𝑎33 Se v e 𝜆 são, respectivamente, autovetor e correspondente autovalor do operador T, então temos: 𝐴. 𝑣 = 𝜆𝑣 (v [é matriz coluna 3x1) ou 𝐴𝑣 − 𝜆𝑣 = 0 Sendo que 𝑣 = 𝐼𝑣 (𝐼 é a matriz identidade), pode escrever-se 𝐴. 𝑣 − 𝜆𝐼𝑣 = 0 ou (𝐴 − 𝜆𝐼)𝑣 = 0 Para que este sistema homogêneo admita soluções não nulas, isto é: 𝑥 0 𝑉 = [𝑦] ≠ [0] 𝑧 0 Deve-se ter: det(𝐴 − 𝜆𝐼) = 0 Ou 𝑎11 det ([𝑎21 𝑎31 𝑎12 𝑎22 𝑎32 𝑎13 𝑎23 ] − 𝑎33 𝑎11 − 𝜆 ou ainda 𝑑𝑒𝑡 [ 𝑎21 𝑎31 𝜆 0 [0 𝜆 0 0 0 0]) = 0 𝜆 𝑎12 𝑎22 − 𝜆 𝑎32 𝑎13 𝑎23 ] = 0 𝑎33 − 𝜆 A equação det(𝐴 − 𝜆𝐼) = 0 é denomiada equação característica do operador T ou da matriz A, sua raízes são autovalores do operador T ou da matriz A. O determinante de det(𝐴 − 𝜆𝐼) é um polinômio em 𝜆 denominado polinômio característico. Para mais detalhes consultar (STEINBRUCH, Alfredo & WINTERLE, Paulo pág. 276). 3. ANÁLISE FATORIAL A técnica de Análise Fatorial (AF) foi criada no início do século passado por Spearman (SPEARMAN, 1904) para obtenção de um índice geral de inteligência (fator “g”). O grande número de variáveis consideradas em muitos problemas torna necessário o conhecimento da interdependência (correlação) entre essas. Portanto o analista deve se preocupar em identificar dimensões latentes no conjunto de variáveis originais (SPEARMAN, 1904). A análise fatorial é um método estatístico que descreve a estrutura de dependência de um conjunto de variáveis, através da criação de fatores ou variáveis latentes, variáveis estas que teoricamente, medem aspectos comuns. Assim é possível abordar o problema analisando a estrutura de relacionamento entre um grande número de variáveis, e definir um conjunto de dimensões latentes, chamado de fatores. Muitas vezes é possível identificar as dimensões e determinar o grau em que cada variável é explicada por cada dimensão. Essa é uma técnica de interdependência em que todas as variáveis são consideradas ao mesmo tempo. A análise fatorial fornece a melhor explicação sobre quais variáveis podem atuar juntas e quantas variáveis podem impactar na análise, além disso, a análise fatorial busca nos dados originais uma estrutura linear reduzida, gerando um novo conjunto de variáveis independentes, os fatores. Esses fatores são combinações lineares em que a estrutura de pesos foi estimada por componentes principais (JOHNSON at al., 1992). Objetivos da Análise Fatorial O objetivo geral da análise fatorial é agrupar as informações contidas em um grande número de variáveis originais, em um conjunto menor de fatores com o mínimo de perda de informação. Em GONTIJO & AGUIRRE (1988) pode-se encontrar descritos os seguintes objetivos da análise fatorial: a) Harmonizar ou condensar um grande número de observações em grupos; b) Obter o menor número de variáveis a partir do material original e reproduzir toda a informação de forma resumida; c) Obter os fatores que reproduzam um padrão separado de relações entre as variáveis; d) Interpretar de forma lógica o padrão de relações entre as variáveis; e) Identificar variáveis apropriadas para uma posterior análise de regressão e correlação ou análise discriminante. Mais especificamente, as técnicas de análise fatorial atendem um entre dois objetivos: a) Identificar uma estrutura por meio do resumo dos dados - ao analisar as correlações entre as variáveis, torna-se possível identificar as relações estruturais existentes entre essas variáveis. A análise fatorial, aplicada a um conjunto de variáveis é utilizada para identificar as dimensões latentes (fatores), enquanto a análise fatorial aplicada a uma matriz de correlação de respondentes individuais consiste em um método de agrupamento; b) Redução de Dados - por meio da análise fatorial, é possível identificar as variáveis representativas de um conjunto maior criando um novo conjunto de variáveis, muito menor que o original, que poderá substituir sem muito prejuízo, o conjunto original de variáveis. Nos dois casos, o propósito é manter a natureza e o caráter das variáveis originais, reduzindo seu número para simplificar a análise multivariada a ser aplicada posteriormente sem comprometer o resultado da análise. Análise de Agrupamento A Análise de Agrupamento ou Cluster Analysis, é um método multivariado com a finalidade de agregar objetos com base nas características em comum que eles possuem. O objetivo é alcançar homogeneidade dentro dos grupos e heterogeneidade entre os grupos. A finalidade principal da análise de agrupamento é dividir um conjunto de variáveis em agrupamentos, com base na semelhança dessas variáveis em relação a um conjunto de características específicas, tornando-se uma ferramenta útil quando se faz a análise de um conjunto de dados em muitas situações distintas, podendo classificar a amostra em um pequeno número de grupos, mutuamente exclusivos, baseados nas similaridades entre os indivíduos, pode-se obter uma simplificação das observações, analisando-as como membros de um agrupamento distintos e não mais como observações únicas. 3.1. ANÁLISE DE COMPONENTES PRINCIPAIS (PCA) É uma técnica matemática da análise multivariada usada para simplificar a dimensionalidade de conjunto de dados em um conjunto de dados de menor dimensão. É basicamente um extrator de características. O novo conjunto de dados possui novas variáveis denominadas componentes principais(CP). Essa transformação ocorre com a menor perda de informação possível e possibilita a identificação das medidas responsáveis pelas maiores variações entre os resultados. A ideia central do PCA baseia-se na redução do conjunto de dados principalmente quando os dados são constituídos de um grande número de variáveis inter-relacionadas. Segundo Regazzi (2001, p.1) “procura-se redistribuir a variação nas variáveis (eixos originais) de forma a obter o conjunto ortogonal de eixos não correlacionados”. Permite através da observação de gráficos bi ou tridimensional o agrupamento de indivíduos com características semelhantes. O algoritmo basicamente se baseia-se na matriz de variância-covariância, ou na matriz de correlação, de onde são extraídos os autovalores e os autovetores. O novo conjunto de variáveis gerado pela aplicação do PCA possui independência estatística e não são correlacionadas, ou seja as variáveis originais devem estar correlacionadas ou o uso da técnica PCA não trará vantagem alguma. Para determinação das componentes principais é necessário calcular a matriz de variância-covariância (Σ), ou a matriz de correlação (R), através dela calcular os autovalores e autovetores e depois escrever as combinações, que serão as novas variáveis chamadas de componentes principais. Cada componente principal é a combinação linear de todas as variáveis originais. 3.2. INFORMATION BOTTLENECK METHOD (IBM) The Information Bottleneck Method é um método de análise de dados multivariados que visa fornecer uma noção quantitativa da significância ou relevância de um conjunto de dados/informações. É basicamente um princípio matemático que foi formulado para a extração ou representação eficiente da relevância da informação. A ideia central do IBM é mostrar matematicamente a relevância das informações, dividindo-as em clusters, ou melhor, separando-as em grupos de similaridade dessas informações. Dessa forma, informações que após a aplicação do método estão em um mesmo cluster, possuem um grau relevante de similaridade. Para isso, aplicam-se métodos estatístico-matemáticos a fim de encontrar as probabilidades condicionais em cada um dos eixos da tabela de dados e a relação e probabilidade de cada informação estar contida em seu eixo oposto. É dada uma distribuição inicial de dados aleatórios, que também terá suas probabilidades calculadas. Então se calcula a função de partição e tendo definido a quantidade de clusters a ser calculada juntamente com o β(Beta) definido, que é respectivamente um multiplicador de Lagrange utilizado para encontrar máximos e mínimos locais de uma função, calcula-se a probabilidade de cada variável estar contida em cada cluster e apresenta-se o resultado exibindo-se a quantidade de cluster encontrada com as variáveis aplicadas é a quantidade ótima para a compressão desejada levando em consideração o nível de relevância que se busca adquirir. 3.3. MATERIAIS E MÉTODOS Foram utilizados neste trabalho uma base de dados contendo termos extraídos de 282 abstracts retirados da PUBMED, os termos já estavam pré-classificados em número de documentos, termo e frequência, classificação que foi realizada pelo trabalho da autora Polletini (2011). A partir desta classificação foi feita uma seleção dos termos que apresentavam frequência maior que 4(quatro). Após a obtenção dos novos dados, que podem ter n dimensões, aplica-se o PCA onde calcula-se a média de cada dimensão ou seja a média de cada coluna da matriz e subtrai-se de cada elemento da coluna a respectiva média de sua coluna formando assim uma nova matriz de valores. A partir desta nova tabela calcula-se a matriz de covariância como foi visto na seção 2.6. Feito isso calcula-se os autovalores e autovetores como indica a seção 2.7 encontrando assim as respectivas matrizes de autovetores V e autovalores. O maior autovalor de um autovetor indica a relação mais significativa entre as dimensões dos dados. Os autovetores são colocados em ordem decrescente obtendo assim os componentes principais em ordem de relevância. A partir destes dados monta-se uma nova matriz de características que será multiplicada pela matriz inicial disposta de forma transposta pela matriz dos autovetores mais significantes escolhidos. 𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 = 𝐴𝑇 × 𝑉 A partir dos resultados do PCA elabora-se um gráfico para visualização dos possíveis grupos formados. Em seguida calculamos o método do IBM utilizando a mesma base de dados onde x representara os termos(palavras) e y representara os documentos a serem agrupados, t representará o número de clusters que serão formados e β relaciona o grau de compressão com o grau de relevância. O objetivo do método é encontrar a melhor distribuição dos documentos nos clusters P(t/x), através da minimização da Lagrangeana £ = I(x, t) − 𝛽𝐼(𝑡, 𝑦) dados o número de clusters t e β. A informação mútua I(x, t), está relacionada à compressão da informação e 𝐼(𝑡, 𝑦), com a relevância. Se β = 0 então toda informação está maximamente comprimida, à medida que β aumenta é possível medir a compressão e a relevância. Este método baseia-se em equações iterativas que são caracterizadas da seguinte forma: 1º Cálculo 𝑃(𝑡) = ∑ 𝑝(𝑥) ∗ 𝑝(𝑡/𝑥) 𝑃(𝑡) = 𝑝(𝑥1 ) ∗ 𝑝(𝑡1 /𝑥1 ) + 𝑝(𝑥2 ) ∗ 𝑝(𝑡2 /𝑥2 ) + … + 𝑝(𝑥𝑛 ) ∗ 𝑝(𝑡𝑛 /𝑥𝑛 ) 2º Cálculo 𝑃(𝑦/𝑡) = ∑ 𝑝(𝑦/𝑥) ∗ 𝑃(𝑥/) 𝑃(𝑦/𝑡) = 𝑝(𝑦1 /𝑥1 ) ∗ 𝑝(𝑥1 /𝑡1 ) + 𝑝(𝑦1 /𝑥2 ) ∗ 𝑝(𝑥2 /𝑡1 ) + … 3º Cálculo 𝑃(𝑡/𝑥) = 𝑝(𝑦/𝑥) 𝑦 𝑝(𝑡) −𝛽[∑𝑝( ).𝑙𝑜𝑔 𝑥 𝑝(𝑦/𝑡) .ℯ 𝑍(𝑥, 𝛽) Para cada β e t escolhidos, haverá convergência das equações. Quanto maior o valor de β, mais próxima são as probabilidades condicionais, de modo que os clusters formados serão a melhor configuração do sistema. Afim de se aplicar os métodos foi desenvolvido um software na linguagem de programação C#, onde os métodos foram implementados em módulos separados. O software tem como objetivo executar os cálculos a partir de um conjunto de dados. Os resultados são apresentados e um gráfico é gerado para comparação visual dos resultados através de cores que indicam os pontos que apresentam similaridade. Como apoio no desenvolvimento foi usada a biblioteca matemática ACCORD para a realização de operações com matrizes, para a apresentação dos gráficos foi utilizada a biblioteca HIGHCHARTS na linguagem de programação JavaScript. O software recebe como entrada os termos e as frequências por meio de uma tabela, onde será aplicado o PCA que permite avaliar os possíveis agrupamentos ou clusters, com base na saída através da plotagem do gráfico. A partir desta avaliação é possível estimar um número de cluster para aplicação do IBM, método que irá encontrar a melhor distribuição de artigos por cluster. 4. RESULTADOS Para testes dos resultados, eficiência do software e ajustes foi utilizado uma base de dados conhecida POLIAKOV (POLIAKOV, 2003) em que os cálculos e resultados já estavam apresentados. Para a obtenção do conjunto de dados a ser utilizado foi feita uma seleção na base de dados disponibilizada pela aluna Juliana Pollettini (POLLETTINI, 2011), obtidos através de seu trabalho de mestrado. Nesta seleção estão apenas os documentos que contiveram termos que apresentaram frequência maiores ou iguais a 4(quatro), do total de 842 abstracts analisados chegamos a 32 abstracts relevantes para o conjunto de dados. Figura 1 - Resultado da seleção dos documentos com termos maiores ou iguais a 4. A partir destes dados foi aplicado o método PCA com o uso do software desenvolvido. Figura 2 – Conjunto de dados carregados no software Ao clicar em computar o software realiza todos os passos necessários para a aplicação do método PCA sobre os dados analisados e exibe na tela alguns dados importantes da aplicação do método como: Figura 3 – Covariância dos dados Figura 4 - Correlação entre os dados Figura 5 - Auto-vetores calculados a partir dos abstracts Figura 6 - Obtenção das componentes principais A projeção dos componentes principais é onde se identifica a proporção em porcentagem de quanto cada componente representa do total da massa de dados analisados e também os auto valores(Eigen Values) Figura 7 - Projeção das componentes principais A projeção dos resultados exibe a matriz com a nova base de dados formada pela multiplicação da matriz de dados original e a matriz de auto vetores, ordenados pelos autovalores de maior valor. Figura 8 - Projeção dos resultados obtidos Ao final da analise o software exibe um gráfico 3D, que possibilita a avaliação dos dados para identificação de possíveis clusters. Distribuição de dados resultante da aplicação da técnica de PCA. Figura 9 - O gráfico indica possíveis clusters formados sobre os dados analisados Foi possível observar através da análise do gráfico a formação de 4 possíveis clusters, então foi aplicado o método IBM iniciando-se em 4 clusters e ajuste do beta em 11 número obtido com experimentação. Então obteve-se os resultados a seguir: Figura 10 - Escolha do número de clustes com base nos resultados do PCA Ao computar os dados se obtém a probabilidade de um documento Y estar em um Cluster T. Figura 11 - Probabilidade de um documento existir em um cluster A Seguir calculou-se a probabilidade de um termo estar contido em um cluster. Figura 12 - Probabilidade de um termo estar em clusters Figura 13 – Probabilidade de um termo pertencer a um cluster Figura 14 - Visualização dos clusters formados com, β = 11 Observou-se que com 4 clusters e β = 11 os grupos formados pelo método do PCA se confirmaram, mas para descobrir a melhor configuração entre a quantidade de clusters e o valor do parâmetro β a ser utilizado, aplicamos os dados apresentados na tabela abaixo. QUANTIDADE DE CLUSTERS 1 2 3 4 4 5 6 7 8 9 10 11 12 13 14 15 16 BETA UTILIZADO 1 11 9 11 100 13 19 27 16 16 17 17 20 20 44 44 51 Tabela 1 – Quantidade de clusters vs valor de β utilizado Os campos em amarelo representam o valor máximo possível do parâmetro β e que mesmo assim não há convergência completa desses dados. Para valores de β acima dos destacados em amarelos ocasionaram erro de cálculo. A partir do 17º cluster os valores começaram a se repetir. Figura 15 - Resultado obtido utilizando 6 clusters e β = 19 Após realizada todas as análises e observados os erros chegamos ao resultado otimizado de 4 clusters com β = 100. Figura 16 - Resultado otimizado para a amostra de dados utilizada 5. CONCLUSÃO Ao aplicar o PCA temos uma noção do grau de similaridade dos documentos, ou seja, como eles estão agrupados e as possíveis relações entre os documentos e prontuários médicos através da análise do gráfico. A confirmação da configuração dos clusters é obtida através da aplicação do método IBM o qual otimiza os resultados fornecendo a probabilidade de um documento pertencer a um cluster. Também pudemos aprender sobre métodos dos quais não teríamos contato durante o período do curso, métodos que nos abriram horizontes para futuras aplicações em análise de imagens e BIG DATA para a análise de comportamentos de compras e recomendações. Para trabalhos futuros pode-se estudar a possibilidade de desenvolver um software a ser integrado com o sistema de prontuários médicos que ao realizar a análise do histórico de saúde do paciente possa indicar dentro da literatura de artigos científicos médicos, estudos que, correlacionem seu histórico ao possível aparecimento de doenças crônicas ou seja traços que indiquem epigeneticamente quais paciente são propensos a certas doenças. 6. REFERÊNCIAS BIBLIOGRÁFICAS ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE, Indicadores de Saúde. Disponível em: <http://www.paho.org/bra/index.php?option=com_content&view=category&layout=blo g&id=758&Itemid=347> Acesso em: 06 mai. 2014. TANG, Wy; Ho, Sm, PUBMED, Epigenetic reprogramming and imprint in origins of disease. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/17638084> Acesso em: 15 mai. 2014. FEINBERG, Andrew P; TYCKO, Benjamin, NATURE, The history of câncer epigenetics. Disponível em: <http://www.nature.com/nrc/journal/v4/n2/full/nrc1279.html> Acesso em: 15 mai. 2014. SCIENTIFIC AMERICAN BRASIL, Estudo descobre mecanismo de herança epigenética induzido por estresse. Disponível em: <http://www2.uol.com.br/sciam/noticias/estudo_descobre_mecanismo_de_heranca_ epigenetica_induzido_por_estresse.html> Acesso em: 15 mai. 2014. MCVITTIE, Brona, SCIENCE SCHOOL, Como a epigenética molda a vida, Disponível em: <http://www.scienceinschool.org/print/192> Acesso em: 15 mai.2014. TISHBY, NAFTALI, COMPUTER SCIENCE AND ENGINEERING, The information Bottleneck Method. Disponível em: <http://www.cs.huji.ac.il/labs/learning/Papers/allerton.pdf> Acesso em: 10 jun. 2014. MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. 3ª Ed. São Paulo: Atlas, 2010. BOLDRINI, José Luiz. et al. Álgebra Linear. 3ª Ed. São Paulo: Harbra, 1986. HOFFMAN, K; KUNZE, R. Álgebra Linear. 1ª Ed. São Paulo: Polígono, 1970. WINTERLE, Paulo; STEINBRUCH, Alfredo. Álgebra Linear. 2ª Ed São Paulo: Makron Books, 2000. POLLETTINI, Juliana T; Auxílio na Prevenção de Doenças Crônicas por meio de Mapeamento e Relacionamento Conceitual de Informações em Biomedicina, 2011. ACCORD Framework, Disponível em:< http://accord-framework.net/ > Acesso em 29.Nov. 2014 Highcharts, Interactive JavaScript charts for your webpage.Disponível em <http://www.highcharts.com/ > Acesso em: 29.Nov.2014. POLIAKOV, Felix; Maximum Likelihood and the Information Bottleneck, 2003. Disponível em : < http://www.wisdom.weizmann.ac.il/~vision/courses/2004_2/files/bottleneck_vs_ML/IB _ML.ppt> Acesso em : 01.Dez.2014