UNIVERSIDADE DE SÃO PAULO FACULDADE DE MEDICINA DE RIBEIRÃO PRETO DEPARTAMENTO DE GENÉTICA LUCIANO ANGELO DE SOUZA BERNARDES Agrupamento in silico de genes por fatores de transcrição e expressão diferencial Ribeirão Preto – SP 2010 Livros Grátis http://www.livrosgratis.com.br Milhares de livros grátis para download. LUCIANO ANGELO DE SOUZA BERNARDES Agrupamento in silico de genes por fatores de transcrição e expressão diferencial Ribeirão Preto – SP 2010 i LUCIANO ANGELO DE SOUZA BERNARDES Agrupamento in silico de genes por fatores de transcrição e expressão diferencial Tese apresentada à Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo para a obtenção do título de Doutor em Ciências Biológicas Área de concentração: Genética Orientadora: Profa. Dra. Silvana Giuliatti Ribeirão Preto – SP 2010 ii Nome: Bernardes, Luciano Angelo de Souza Título: Agrupamento in silico de genes por fatores de transcrição e expressão diferencial Tese apresentada à Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo para a obtenção do título de Doutor em Ciências Biológicas Aprovado em: Banca Examinadora Prof. Dr.: Instituição: Prof. Dr.: Instituição: Prof. Dr.: Instituição: Prof. Dr.: Instituição: Prof. Dr.: Instituição: iii Dedico este trabalho Aos meus queridos pais, Diva e Jadir, pelo carinho e compreensão. iv AGRADECIMENTOS Agradeço à prof. Dra. Silvana Giuliatti, pela oportunidade e confiança. À Dra. Mônica Campiteli pelas discussões e contribuições. Ao prof. Dr. Ademilson Espencer Egea Soares, coordenador da Pós-graduação do Departamento de Genética, pelo apoio. Aos amigos contemporâneos que integram ou já integraram o Grupo de Bioinformática (GBi) do Departamento de Genética, Daniel Macedo de Melo Jorge, Renato David Puga, Saulo Amui, André Luis da Silva Breve, Gabriela Félix Persinoti, Nilson Nicolau Junior, Luiz Fernando Martins Pignata e Pablo Rodrigo Sanches, pela convivência e paciência. Aos amigos do Laboratório de Biologia Molecular da Faculdade de Ciências Farmacêuticas de Ribeirão Preto – USP, pelos esclarecimentos relativos a área biológica. A Daniel Macedo de Melo Jorge, Ricardo Vêncio, Gláucia e Meilyn pela amizade. Aos alunos, funcionários e professores do Departamento de Genética com os quais convivi ao longo dos anos de doutoramento. À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo suporte financeiro. v RESUMO Os organismos vivos apresentam milhares de genes, os quais, geralmente de forma conjunta, são continuamente modulados. Entretanto, em resposta as alterações do ambiente, utilizando sua capacidade bioquímica, podem se reprogramarem em função da disponibilidade de nutrientes e as condições físicas e químicas do meio. Assim, se torna uma questão de suma importância compreender os mecanismos que controlam e os elementos característicos envolvidos na modulação dos genes das diferentes fases do desenvolvimento. Pouco ainda é conhecido sobre o complexo que envolve a regulação gênica, mas os fatores de transcrição são um desses elementos. A hipótese levantada é que se os fatores de transcrição são um dos responsáveis pelo perfil de modulação gênica ao longo do tempo, os genes deveriam ser agrupados pelos fatores induzidos que compartilham a cada tempo amostral observado, permitindo um acompanhamento mais dinâmico e não somente pelo perfil de expressão. Desenvolver métodos computacionais eficientes para analisar grande quantidade de dados obtidos em experimentos é um problema desafiante para a computação/bioinformática. Os métodos de agrupamento, atualmente, consideram todos os pontos do perfil de modulação dos genes e quanto maior for a quantidade destes pontos melhor para o agrupamento. O objetivo do projeto proposto foi agrupar genes utilizando fatores de transcrição e perfis de modulação. Para permitir o agrupamento desta forma foi criada uma matriz de presença/ausência de fatores de transcrição para genes, e perfis de modulação foram temporalmente acumulados. Os resultados obtidos mostraram-se melhores que aqueles do método de agrupamento por expressão, estes foram observados pelas interações dos fatores com os genes em subgrupos analisados, chegando em sua maioria a abranger todos eles. A correlação dos subgrupos dos dois métodos mostrou-se parcial, isto é, alguns genes em alguns subgrupos compartilham mesmos TFs e tem perfil de expressão bastante similar. vi ABSTRACT In silico gene clustering by transcription factors and differential expression Living organisms have thousands of genes, which usually are continuously modulated. However, in response to environmental changes, they can reprogram in function of nutrient availability and physical and chemical conditions of the environmental. Thus, it becomes a matter of paramount importance to understand the mechanisms that control and the elements characteristic involved in the genes modulating process, on the various stages of development. Little is known about the complex that involves gene regulation, but the transcription factors are one of these elements. The basic hypothesis is that transcription factors are responsible for a profile of gene modulation over time. Genes should be grouped by the induced factors that share each sampling time observed, allowing a more dynamic monitoring and not just the expression profile alone. Developing efficient computational methods for analyzing large amount of data obtained in experiments is a challenging problem in computer science/bioinformatics. The current clustering methods consider all the genes modulation profile points and the higher the amount of these points the better the cluster. The aim of the proposed project was to group genes using transcription factors and modulation profiles. To allow the grouping it was created a presence/absence matrix of the transcription factors for genes and modulation profiles that were temporally accumulated. The results obtained using this approach were better than those used in expression clustering methods. They were observed by the interactions of factors with the genes in analyzed subgroups, and in general they to cover mostly all. The correlation of the subgroups of the two methods proved to be partial, that is, some genes in some subgroups share the same TFs and have very similar expression profile. vii LISTA DE FIGURAS Figura 1. Exemplo de proteína helix-turned-helix................................................................. 18 Figura 2. Exemplo de proteína do tipo zinc finger. ............................................................... 18 Figura 3. Exemplo de proteína bZIP..................................................................................... 19 Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH).................................. 19 Figura 5. Exemplo de proteína homeodomain....................................................................... 20 Figura 6. Montagem e ativação de complexo de transcrição ................................................. 21 Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia proposta. .............................................................................................................................. 27 Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) ................................................ 30 Figura 9. Fragmento exemplo de arquivo tabulado (TTFR) .................................................. 31 Figura 10. Fragmento exemplo de arquivo tabulado (TFI) .................................................... 31 Figura 11. Fragmento exemplo da criação de tabelas cumulativas ........................................ 32 Figura 12. Fragmento exemplo da seleção de genes em TVMR............................................ 33 Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs, chamados TDS..................................................................................................................... 34 Figura 14. Exemplo da construção da matriz de presença/ausência....................................... 36 Figura 15. Fragmento exemplo de matriz de presença/ausência ............................................ 37 Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento.. 38 Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM..................... 39 Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos subgrupos pelos ATF ou AVM.............................................................................................. 41 Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas) ........................................................................................................................... 42 Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas) pelas quantidades de subgrupos criados.............................................................. 43 Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos amostrais, por ATF e AVM ................................................................................................... 44 Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência, segundo a equação de Scott.................................................................................................. 45 Figura 19. Dendrograma criado por ATF .............................................................................. 46 Figura 20. Dendrograma criado por AVM............................................................................. 59 Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF ....................................... 71 viii Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM...................................... 72 Figura 21. categorização dos genes em subgrupos de ATF.................................................... 77 Figura 22. Categorização dos genes em subgrupos de AVM ................................................. 79 ix LISTA DE TABELAS Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos...... 46 Tabela 2 – Genes e VMs do subgrupo ATFa119sg01 ............................................................ 47 Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01 48 Tabela 4 - Genes e VMs do subgrupo ATFa119sg02 ............................................................. 49 Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02 50 Tabela 6 - Genes e VMs do subgrupo ATFa119sg03 ............................................................. 51 Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03 52 Tabela 8 - Genes e VMs do subgrupo ATFa119sg04 ............................................................. 53 Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04 53 Tabela 10 - Genes e VMs do subgrupo ATFa119sg05 ........................................................... 54 Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05 ............................................................................................................................................ 54 Tabela 12 - Genes e VMs do subgrupo ATFa119sg06 ........................................................... 55 Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06 ............................................................................................................................................ 55 Tabela 14 - Genes e VMs do subgrupo ATFa119sg07 ........................................................... 56 Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07 ............................................................................................................................................ 56 Tabela 16 - Genes e VMs do subgrupo ATFa119sg08 ........................................................... 57 Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08 ............................................................................................................................................ 57 Tabela 18 - Genes e VMs do subgrupo ATFa119sg09 ........................................................... 58 Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09 ............................................................................................................................................ 58 Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119 minutos .. 59 Tabela 21 - Genes e VMs do subgrupo AVMa119sg01 ......................................................... 60 Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01 ............................................................................................................................................ 61 Tabela 23 - Genes e VMs do subgrupo AVMa119sg02 ......................................................... 62 Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02 ............................................................................................................................................ 62 Tabela 25 - Genes e VMs do subgrupo AVMa119sg03 ......................................................... 63 x Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03 ............................................................................................................................................ 64 Tabela 27 - Genes e VMs do subgrupo AVMa119sg04 ......................................................... 65 Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04 ............................................................................................................................................ 65 Tabela 29 - Genes e VMs do subgrupo AVMa119sg05 ......................................................... 66 Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05 ............................................................................................................................................ 67 Tabela 31 - Genes e VMs do subgrupo AVMa119sg06 ......................................................... 68 Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06 ............................................................................................................................................ 68 Tabela 33 - Genes e VMs do subgrupo AVMa119sg07 ......................................................... 69 Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07 ............................................................................................................................................ 69 Tabela 35 - Correlações gênicas entre os métodos ATF e AVM............................................. 73 Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias ........................ 75 Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos 76 Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos ............................................................................................................................................ 78 xi LISTA DE SIGLAS ATF Agrupamento por fatores de transcrição AVM Agrupamento por valores de modulação bp Pares de bases (base pairs) cDNA DNA complementar DNA Ácido desoxirribonucléico (Desoxiribonucleic acid) EST Etiqueta de Sequência Expressa (Expressed Sequence Tag) HSE Choque de temperatura (heat-shock) PCR Reação em cadeia de Polimerase (Polimerase Chain Reaction) RNA Ácido ribonucléico (Ribonucleic acid) TAC Tabelas Acumulativas Completas TAR Tabelas Acumulativas Refinadas TARS Tabelas Acumulativas Refinadas Selecionadas TDS Tabela de Dados Sincronizados TF Fator de transcrição (Transcription factor) TFI Tabela de funções inferidas TPA Tabela Presença Ausência TRE Tabela Resultado Embaralhamento TREG Tabela Resultados Embaralhamento Geral TTFR Tabela de fatores de transcrição refinada TVMR Tabela de valores de modulação refinada VM Valores de modulação xii SUMÁRIO 1. Introdução........................................................................................................................ 14 1.1. Expressão gênica........................................................................................................... 14 1.1.1. Expressed Sequence Tags (EST)................................................................................. 14 1.1.2. Microarray ................................................................................................................. 15 1.2. Fatores de transcrição.................................................................................................... 16 1.3. Agrupamento................................................................................................................. 22 1.4. Algoritmos de busca de motifs ....................................................................................... 24 2. Objetivos.......................................................................................................................... 26 3. Metodologia..................................................................................................................... 27 3.1. Recursos computacionais .............................................................................................. 28 3.2. Dados do experimento alpha-factor............................................................................... 28 3.3. Valores de modulação.................................................................................................... 29 3.4. Fatores de transcrição.................................................................................................... 30 3.5. Secção acumulativa ....................................................................................................... 32 3.6. Seleção dos genes.......................................................................................................... 33 3.7. Sincronização................................................................................................................ 34 3.8. Agrupamento de genes por valores de modulação.......................................................... 35 3.9. Matriz de presença/ausência de TFs............................................................................... 35 3.10. Agrupamento de genes por TFs ................................................................................... 37 3.11. Subgrupos ................................................................................................................... 37 3.12. Correlações entre os métodos de agrupamento............................................................. 39 3.13. Classificação funcional dos genes................................................................................ 39 3.14. Embaralhamento dos genes ......................................................................................... 40 3.15. Representação gráfica linear ........................................................................................ 40 4. Resultados e discussões.................................................................................................... 42 4.1. Valores de modulação (VM).......................................................................................... 44 4.2. Agrupamento por fatores de transcrição (ATF) .............................................................. 45 4.2.1. ATFa119sg01 ............................................................................................................. 46 4.2.2. ATFa119sg02 ............................................................................................................. 49 4.2.3. ATFa119sg03 ............................................................................................................. 51 4.2.4. ATFa119sg04 ............................................................................................................. 53 4.2.5. ATFa119sg05 ............................................................................................................. 54 xiii 4.2.6. ATFa119sg06 ............................................................................................................. 55 4.2.7. ATFa119sg07 ............................................................................................................. 56 4.2.8. ATFa119sg08 ............................................................................................................. 57 4.2.9. ATFa119sg09 ............................................................................................................. 58 4.3. Agrupamento por valores de modulação gênica (AVM) ................................................. 59 4.3.1. AVMa119sg01............................................................................................................ 60 4.3.2. AVMa119sg02............................................................................................................ 62 4.3.3. AVMa119sg03............................................................................................................ 63 4.3.4. AVMa119sg04............................................................................................................ 65 4.3.5. AVMa119sg05............................................................................................................ 66 4.3.6. AVMa119sg06............................................................................................................ 68 4.3.7. AVMa119sg07............................................................................................................ 69 4.4. Comparação entre ATF e AVM ...................................................................................... 70 4.5. Correlações entre ATF e AVM ....................................................................................... 73 4.6. Categorização MIPS-CYGD ......................................................................................... 75 5. Conclusões....................................................................................................................... 81 6. Referências bibliográficas ................................................................................................ 82 Apêndice A .......................................................................................................................... 89 Apêndice B .......................................................................................................................... 91 Apêndice C .......................................................................................................................... 95 Apêndice D........................................................................................................................ 101 Apêndice E ........................................................................................................................ 105 Apêndice F ........................................................................................................................ 109 Apêndice G: Manuscrito .................................................................................................... 113 Introdução 14 1. Introdução Os organismos vivos, procariotos ou eucariotos, em sua maioria apresentam milhares de genes. Durante toda sua vida eles produzem diversas proteínas através da modulação diferenciada (repressão ou indução) de genes, estimulados por características intrínsecas ou extrínsecas. Normalmente, em organismos multicelulares, o genoma é idêntico em todas as células, o que as difere umas das outras é o conjunto distinto de genes que modulam. Em organismos mais simples (unicelulares), conjuntos distintos de genes também se modulam, considerando a disponibilidade de nutrientes, as condições físicas e químicas do meio, entre outras e, ainda, em resposta, às alterações podem reprogramar esta modulação gênica, através de sua capacidade bioquímica (CAUSTON et al, 2001). Assim, se torna uma questão de suma importância compreender os mecanismos que controlam e os elementos característicos envolvidos na modulação dos genes das diferentes fases do desenvolvimento. 1.1. Expressão gênica Para estudo do transcriptoma, termo adotado para um conjunto de transcritos gênicos (produto da modulação) (KATAYAMA et al, 2005), já foram desenvolvidas várias técnicas, dentre elas estão o sequenciamento aleatório e parcial de um grande número de clones em bibliotecas de cDNA, (ADAMS et al, 1991) e os microarranjos (do inglês microarray) de oligonucleotídeos ou DNA (SCHENA et al, 1995). Essas técnicas permitem a obtenção rápida e paralela de quantidade, com boa qualidade, de transcritos de milhares de genes em um único experimento, o que pode favorecer o entendimento das funções e interpretações de regulações. 1.1.1. Expressed Sequence Tags (EST) A técnica de sequenciamento parcial e aleatório dos clones das bibliotecas de cDNA é uma maneira de obter informações da expressão gênica. Esta se baseia no sequenciamento de fragmentos de DNA (400 – 650pb), a partir das extremidades (3’ e/ou 5’), obtidos pela clonagem de transcritos. A sequência nucleotídica destes fragmentos é obtida pelo processamento de máquinas sequenciadoras automáticas (SMITH et al, 1986) e são Introdução 15 denominados Etiquetas de Sequências Expressas (do inglês Expressed Sequence Tags [EST]) (ADAMS et al, 1991). Vários genomas de organismos, sejam eles parciais ou completos, foram obtidos através dessa técnica, que provou ser útil para os estudos da expressão gênica, anotação funcional, dentre outras (GOLDMAN et al, 2003; RUDD, 2003). O crescimento da utilização dessa técnica para obtenção de ESTs de diferentes organismos motivou o desenvolvimento de uma base pública de dados denominada GenBank (BOGUSKI et al, 1993) e para uma melhor classificação foi em seguida criado o dbEST, um banco de dados específico para ESTs (<http://www.ncbi.nlm.nih.gov/projects/dbEST>). Com a disponibilidade destas ESTs foi possível esboçar análises do genoma funcional de vários organismos (GERHOLD; CASKEY, 1996). As ESTs ainda podem ser utilizadas pela técnica de microarray, depois que amplificadas por Polimerase Chain Reaction (PCR). 1.1.2. Microarray Desenvolvida na década de 1990, a tecnologia de microarray proporcionou uma revolução na forma como os genes eram estudados. Ela permite a análise da expressão de milhares de genes, simultaneamente, e identificação de padrões de expressão gênica relacionados à fisiologia celular. Assim, é possível observar quais genes tem modulação aumentada (induzidos) e diminuída (reprimidos) quando as células crescem, dividem ou respondem a determinados estímulos (SCHENA et al., 1995). Experimentos de microarray envolvem a comparação de duas condições biológicas, geralmente células em estado normal e células em um estado adverso (ex: choque térmico, tumor, entre outros) (STOUGHTON, 2005). Para esta verificação, um tipo de célula é marcado com fluoróforo verde e outro marcado com fluoróforo vermelho, em seguida estes cDNAs são misturados e, em seguida, hibridizados a milhares de genes ou fragmentos, os quais foram previamente fixados de forma precisa e ordenada, por um braço mecânico, na superfície de um suporte sólido (lâminas de vidro ou náilon). Para determinar a intensidade da fluorescência de cada ponto na lâmina, elas são analisadas por uma máquina através de varredura digital. Esta relação de fluorescência dos elementos na lâmina permite determinar os níveis relativos de expressão dos genes nos dois tipos de células. Com o uso de microarrays de DNA pode-se medir as alterações nas taxas de transcrição, que ocorrem em quase todos os genes numa determinada célula durante, por exemplo, seu desenvolvimento, em resposta a perturbações experimentais, deleções gênicas, Introdução 16 entre outras (BRENTANI et al, 2005; KIM et al, 2001; STOUGHTON, 2005). Pesquisadores utilizam esta técnica para pesquisa sobre genomas de diversos organismos, dentre eles fungos. Microarrays contendo genes de levedura foram utilizados em várias análises, como a comparação da expressão gênica de células crescidas em meio contendo glicose (DERISI et al, 1997), também na identificação de genes fase-específica durante a transição dimórfica dos fungos patogênicos humanos Histoplasma capsulatum e Paracoccidioides brasiliensis (DE GOUVÊA et al, 2008; HIRASAWA; FURUSAWA; SHIMIZU, 2010; NUNES et al, 2005). Baseado em resultados da técnica de microarray, os agrupamentos de genes são criados conforme suas modulações (indução ou repressão), dados os diversos tempos amostrais dos experimentos realizados. Genes com modulações similares são dispostos mais próximos uns dos outros em clados de uma estrutura em forma de dendrograma. Porém, diversos mecanismos atuam nas modulações dos genes e, segundo Caddick e Dobson (2007), o padrão de expressão não é, necessariamente, sincronizado. Agrupar genes com base no seu perfil de expressão não diz como eles são regulados. Tal abordagem tem significantes limitações. A regulação paralela de genes pode resultar em respostas similares originadas de mecanismos, funcionalmente, diferentes. Suportado por esta declaração, mesmo que, vários genes tenham suas modulações similares, não é garantido que o mesmo mecanismo seja o atuante. Assim, quando uma determinada pesquisa objetiva hipotetizar os fatores de transcrição atuantes na modulação de um ou grupo de genes, esse tipo de agrupamento pode não ser o mais adequando, levando pesquisadores a interpretações equivocadas. 1.2. Fatores de transcrição Fatores de transcrição (TF) é uma família de proteínas que desempenham um papel importante na regulação da transcrição gênica. Elas se ligam a determinados pontos da sequência de DNA, e por esta ligação controlam a transcrição da informação genética contida no DNA em RNA, em resposta a estímulos específicos. A transcrição é um dos processos mais amplamente estudados na biologia molecular (WASSERMAN; SANDELIN, 2004). Pontos de ligação ao DNA são sequências curtas, entre 5 e 25 pares de bases de comprimento (KARIN, 1990), com possíveis degenerações em seu padrão, chamados binding sites, geralmente localizados anterior ao início do gene, estendendo-se por 800-1000 pares de bases, em eucariotos inferiores; entretanto, não existe um consenso sobre isso. Após a transcrição, o produto gerado é submetido, automaticamente, aos demais estágios da expressão gênica, tal Introdução 17 como RNA splicing, resultando na produção da proteína correspondente (LATCHMAN, 1997). O estudo das regiões regulatórias de genes, com padrões de transcrição similares, revelaram a presença de sequências curtas de DNA comuns entre eles, o mesmo não foi observado para genes que não tiveram o mesmo padrão de expressão. Por exemplo, genes cuja transcrição é induzida em resposta a elevada temperatura contêm um elemento regulatório comum conhecido como heat-shock (HSE), o qual é ausente em genes que não mostram a mesma indução. A prova de que tais sequências são de crítica importância na produção do transcrito gênico foram experimentos que transferiram o elemento HSE de um gene induzível por temperatura para um gene de timidina kinase, que, normalmente, não é induzível nesta condição. Esse gene híbrido foi introduzido em uma célula e a temperatura foi elevada, logo se notou um aumento na produção de timidina kinase, indicando que o HSE foi o indutor direto desse gene. Por este experimento, ficou provado que o elemento transferido é um binding site de proteínas regulatórias conhecidas como TFs, as quais, alternativamente, regulam a transcrição positiva ou negativamente do gene, de modo a produzir o efeito observado na transcrição (LATCHMAN, 1995). O mecanismo de ação do TF é a ligação ao DNA e sua influência na transcrição. A análise detalhada de uma quantidade de TFs indicou que eles têm uma estrutura modular com regiões específicas responsáveis por se ligarem ao DNA, enquanto outras regiões produzem um efeito estimulatório ou inibitório a transcrição. Estudos sobre essas regiões de ligação, em diferentes TFs, revelaram vários elementos, estruturalmente, distintos. Portanto, TFs são frequentemente classificados com base em seus domínios. Os domínios são as porções do TF que se ligam ao DNA, chamados DNA-binding domain, os mais bem caracterizados incluem: O motivo helix-turned-helix: composto de duas α hélices unidas por uma fita curta de amino ácidos (WINTJENS; ROOMAN, 1996) (Figura 1); Introdução 18 Figura 1. Exemplo de proteína helix-turned-helix. Obtida de Religa e colaboradores (2007). O motivo zinc finger: constitui uma proteína com uma pequeno trecho de 28-40 amino ácidos, contendo um domínio característico de duas cisteinas e duas histidinas, a qual pode centralizar um ou mais íons de zinco (LAITY; LEE; WRIGHT, 2001; PAPWORTH; KOLASINSKA; MINCZUK, 2006) (Figura 2); Figura 2. Exemplo de proteína do tipo zinc finger. Imagem obtida de <http://en.wikipedia.org/wiki/File: Zinc_finger_rendered.png> O motivo Basic Leucine Zipper Domain (bZIP domain): encontrado em muitos domínios de ligação ao DNA de proteínas eucarióticas (VINSON et al., 2002) (Figura 3) Introdução 19 Figura 3. Exemplo de proteína bZIP. Imagem obtida de <http://upload.wikimedia.org/wikipedia/commons/ thumb/7/72/1FOS.png/300px-1FOS.png> O motivo basic helix-loop-helix (bHLH): formado por duas α hélices conectados por um curto laço (LITTLEWOOD; EVAN, 1995) (Figura 4); Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH). Imagem obtida de <http://en.wikipedia .org/wiki/File:Basic_helix_loop_helix.png> O domínio homeodomain: se liga a sequências de DNA do tipo homeobox que, por sua vez, codifica outros fatores de transcrição. Estas proteínas desempenham um papel crítico na regulação do desenvolvimento (GEHRING; AFFOLTER; BÜRGLIN, 1994) (Figura 5). Introdução 20 Figura 5. Exemplo de proteína homeodomain. Figura obtida de Lynch e colaboradores (2006). Muitos fatores de transcrição contêm regiões específicas, as quais são necessárias para a ativação da transcrição. Estes domínios ativadores parecem funcionar por interagirem com componentes do complexo transcricional basal. Este é um complexo de RNA polimerase II e vários TFs, tais como TFIIB e TFIID, que são montados na região promotora do gene e essenciais para que a transcrição ocorra. Estudos têm mostrado que domínios de ativação interagem diretamente, com componentes deste complexo ou indiretamente, como moléculas co-ativadoras, as quais, então, interagem com o complexo montado ou estimulam o seu nível de atividade (Figura 6). Introdução 21 Figura 6. Montagem e ativação de complexo de transcrição. Um ativador (A) ligado a seu binding site (ABS) pode estimular a montagem com complexo transcricional basal consistindo de RNA polimerase e seus fatores associados, ou estimular sua atividade uma vez que esteja montado. Figura adaptada de Latchman (1997). No caminho inverso aos ativadores, estão os repressores da transcrição, que atuam como inibidores da transcrição de genes específicos. Tais TFs inibidores mostraram atuar na interferência de fatores que atuariam positivamente, bloqueando, assim, seu efeito estimulatório a transcrição. Este efeito inibitório pode ser alcançado pelo impedimento da ligação de fatores com ação positiva ao DNA via ação negativa do TF ligado ao DNA ou por formação de um complexo proteína-proteína entre TFs que atuam positiva e negativamente. Esses TFs inibitórios podem, assim, reduzir o nível de transcrição basal abaixo do observado por interagir direta ou indiretamente com o complexo transcricional basal. Desta forma, eles constituem uma antítese das moléculas de ativação. Portanto, o balanço entre a ligação de ativadores e repressores transcricionais, às regiões regulatórias de genes, em particular, irá determinar a taxa de sua transcrição em uma particular situação. TFs podem ser regulados em dois níveis, chamados regulação da síntese de TF e regulação da atividade de TF. Em uma variedade de diferentes situações, quando um TF é sintetizado em um particular tecido ou tipo celular e não em outros tecidos, isto caracteriza um tipo de regulação de síntese. A regulação da síntese de transcrição é um ponto de controle Introdução 22 importante; entretanto, ele não pode ser o único mecanismo que controla a atividade dos TFs. Se esse fosse o caso, o aumento da síntese de TFs em resposta a um particular estímulo seria controlado pelo aumento da transcrição de seu gene correspondente, que por sua vez seria requerido a de novo síntese de demais TFs, resultando, assim, na necessidade de transcrição destes novos genes e assim por diante. Portanto, é necessário que exista um mecanismo adicional o qual permita de novo transcrição de genes pela ativação de pré existentes TFs. A ativação de TFs pré existentes pode ocorrer por diferentes mecanismos, o qual pode envolver ligação ao DNA, alterações em interações proteína-proteína e fosforilação de TFs (LATCHMAN, 2007). Dado o importante papel dos TFs nos mais variados processos celulares, não seria difícil relacionar alterações destes a causa de doenças. Uma quantidade de anormalidades no desenvolvimento pode ser resultado de mutações que inativam ou super ativam TFs. Por exemplo, mutações em genes da família POU que codificam o TF Pit-1 têm sido identificados em pacientes com uma deficiência na glândula pituitária, pela qual não são produzidos os hormônios do crescimento, prolactina e tirotropina, resultando em retardo mental e crescimento deficiente (KELBERMAN et al, 2009; RADOVICK et al, 1992). Outra deficiências já foram notadas em TFs das famílias PAX (TASSABEHJI et al, 1992; ZHOU et al, 2008) e CBP (D’ARCANGELO; CURRAN, 1995; HALLAM; BOURTCHOULADZE, 2006; PETRIJ et al, 1995). O crescimento de células é controlado pela ativação de uma variedade de proteínas que estimulam ou inibem o crescimento. O câncer pode surgir de um aberrante aumento da ativação de genes específicos que codificam o crescimento. Estes genes são conhecidos como oncogenes (JONES; THOMPSON, 2009; KOEFFLER; MCCORMICK; DENNY, 1991). Similarmente, o câncer também pode surgir devido a inativação de proteínas que inibem o crescimento, conhecidas como anti-oncogenes (KNUDSON, 1993; MORANGE, 2007). 1.3. Agrupamento Tal como uma técnica explorativa, a análise por agrupamento fornece uma descrição ou uma redução na dimensão dos dados. Ela dispõe um conjunto de observações em dois ou mais grupos desconhecidos, mutualmente exclusivos, baseado na combinação de variáveis. Seu objetivo é construir grupos de forma que os perfis dos objetos de um mesmo grupo sejam relativamente homogêneos, enquanto os perfis de objetos de diferentes grupos são Introdução relativamente 23 heterogêneos, geralmente dispostos em forma de dendrograma (HIERARCHICAL CLUSTERING, 2010; MANNING; RAGHAVAN; SCHÜTZE, 2009; XPLORE, 2010). Agrupamento de dados não requer informações a priori, isto é, não há quantidade de grupos ou regra pré-determinada. Estes têm de ser descobertos a partir dos dados fornecidos sem qualquer referência ou treinamento. A técnica de agrupamento de dados permite diferentes escolhas relacionadas à natureza do algoritmo para combinação de dados em grupos. Em geral as técnicas de agrupamento são dividas em hierárquica e não hierárquica. Exemplos de técnicas hierárquicas são single linkage, complete linkage, average linkage, median e ward (CLUSTERING, 2010; FRANCETIC, 2010; JAIN; MURTY; FLYNN, 1999). A determinação do algoritmo mais adequado ao conjunto de dados é dependente do tipo de dados disponíveis e do propósito da análise. Portanto, é melhor executar mais de um algoritmo e analisar e comparar os resultados cuidadosamente. Uma forma mais objetiva de análises é através das simulações pelas quais pode ser observada a estabilidade dos grupos (XPLORE, 2010). As distâncias entre pontos desempenham um importante papel no agrupamento de dados. Existem várias medidas de distância, como Euclidiana, diagonal, Mahalanobis. A medida ou métrica de distância deve ser cuidadosamente escolhida, considerando a correlação entre as variáveis. A métrica Euclidiana não deve ser utilizada onde diferentes atributos têm ampla variação dos valores médios e desvio padrão, uma vez que quantidade e valores maiores em um dado atributo irão prevalecer sobre outros menores. Com as métricas diagonal e Mahalanobis, os dados de entrada têm de ser convertidos antes do uso. Para utilização da métrica diagonal o conjunto de dados deve ser modificado de modo com que todos os atributos tenham igual variância. Enquanto para a métrica de Mahalanobis o conjunto de dados deve ser modificado de forma que todos os atributos tenham médias zero e variância unitária (DE MAESSCHALCK; JOUAN-RIMBAUD; MASSART, 2000). Em qualquer estágio do procedimento de agrupamento hierárquico, esta técnica executa a união ou divisão daquele que foi dado como grupo em um estágio anterior. Assim, conceitualmente, irá dar origem a uma árvore como estrutura do processo de agrupamento. Desta forma os grupos estruturados em qualquer fase não se sobrepõem ou são mutualmente exclusivos. Os resultados deste método podem ser dispostos em forma de dendrograma. Esta estrutura é um diagrama em forma de árvore que pode descrever as uniões e divisões que foram feitas nos sucessivos níveis de agrupamento (XPLORE, 2010). O método Ward (WARD, 1963) propõe um procedimento de agrupamento buscando Introdução 24 formar partições, de uma maneira que minimize a perda associada a cada agrupamento e a quantifique de uma forma facilmente interpretável. Ward definiu a informação de perda sob termos do critério da soma do quadrado do erro. A principal diferença entre o método de Ward e métodos de linkage consiste no procedimento de unificação. Linkage não une os grupos com pequenas distâncias, mas ele junta grupos que não aumentem muito a partir de uma medida de heterogeneidade. O propósito do método de Ward é unificar grupos tal que a variação dentro destes grupos não é aumentada tão drasticamente, assim os grupos resultantes de um agrupamento são os mais homogêneos possíveis. 1.4. Algoritmos de busca de motifs O genoma representa a forma mais completa da informação hereditária dos organismos. Codificado por DNA, o genoma é composto de trechos que codificam genes e de trechos não codificantes. Estes trechos que codificam genes são aqueles que serão lidos pela maquinaria de transcrição, através da qual serão gerados aos transcritos, também conhecidos por RNA mensageiros (RNAm). Após passarem por um processo de amadurecimento, promovido por splicings alternativos, são secretados para o citoplasma, onde os RNAm são lidos e traduzidos em proteínas, pelos ribossomos. Muitas dessas proteínas da família dos fatores de transcrição. A parte não codificante, geralmente entre genes ou conjunto deles, é chamada região intergênica. Constituída por trechos de DNA com poucos ou nenhum gene e, em uma observação mais minuciosa, alguns destes trechos podem ser responsáveis pelo controle da expressão de genes próximos, neste caso, chamados de região promotora. Ainda que, não exista um consenso, para eucariotos inferiores (ex: fungos), é estimada que esta região promotora seja constituída de 800 até 1.000 bases nucléicas (bp), e esteja localizada, imediatamente, anterior ao trecho que codifica o gene (região cis reguladora). Nestas regiões cis reguladoras encontram-se os motifs. Estes são trechos curtos, entre 5 e 25 bp, onde, por seus domínios, se ligam as proteínas da família fatores de transcrição, chamados sítios de ligação dos fatores de transcrição (transcription factor binding sites; TFBS). Há mais de três décadas, pesquisadores buscam por estes motifs (SANDVE; DRABLOS, 2006). Para tal, diversos algoritmos foram escritos, os primeiros métodos foram baseados em consenso. Que consiste na busca trechos similares em grupos de sequências, permitindo ou não variações nos comprimentos e/ou nas posições. Os trechos comuns Introdução 25 encontrados, assumidos como motifs, são, então, alinhados a um perfil correspondente, que recebem uma pontuação. Assim, é gerado um novo consenso, o qual é considerado um possível ponto de ligação para o fator de transcrição (PAVESI; MAURI; PESOLE, 2004). Após o surgimento da técnica de microarray (KULESH et al, 1987; SCHENA et al, 1995) criou-se a possibilidade de que fossem gerados agrupamentos com base na expressão desses genes, por agrupamento hierárquico ou k-means. Com base nestes, a busca por motifs, passou a ser feita em grupos de genes com modulações similares, porém, a expressão gênica pode ser originada por mecanismos funcionalmente diferentes. Considerando esse comportamento, pesquisadores desenvolveram novos tipos de algoritmos, baseados em probabilidade conjunta (HOLMES; BRUNO, 2000), os quais esboçam um modelo para a relação sequência-expressão que usam o algoritmo de Gibbs (LAWRENCE et al, 1993) e expectation/maximazation (DEMPSTER; LAIRD; RUBIM, 1977). Uma visão diferenciada proporcionou o desenvolvimento um algoritmo que usa expressão logarítmica, que considera conjuntos únicos de razões de expressões e retorna motifs estatisticamente significantes (BUSSEMAKER; LI; SIGGIA, 2001). Seguindo a linha do tempo, nova abordagem possibilitou a criação de um algoritmo que usa matriz e regressão de expressão, o qual reconhece motifs em mudanças de expressão sob determinadas condições (CONLON et al, 2003). A utilização de parâmetros a priori, também, inspiraram algoritmos, estes consideram algum conhecimento ou expectativa prévia sobre os conjuntos de dados, os quais podem ser pré-requisitos para quaisquer tipos de algoritmos relacionados acima (PAVESI; MAURI; PESOLE, 2004). Da mesma forma, um conjunto de dados utilizado como background, funcionando como controle negativo, também seria um parâmetro adicional, visando a obtenção de resultados diferenciados (GANESH; SIEGELE; IOERGER, 2003). Utilizando comparação genômica, foram buscadas regiões e elementos filogeneticamente conservados entre genomas de humano, diferentes raças de ratos e cães para criar uma catálogo sistemático de motifs comuns em regiões promotoras. Uma abordagem foi desenvolvida e aplicada para calcular e estatisticamente avaliar o perfil de conservação de múltiplas sequências alinhadas de espécies próximo relacionadas (DERMITZAKIS; REYMOND; ANTONARAKIS, 2005; OVCHARENKO; BOFFELLI; LOOTS, 2004). Métodos mais avançados tendem a integrar múltiplos métodos computacionais e dados experimentais. Em uma abordagem chamada seqVISTA, pesquisadores integraram dados de CHIP-on-chip, motifs e microarray (HU et al, 2006; LEMMENS et al, 2006). Objetivos 26 2. Objetivos Desenvolver uma metodologia de agrupamento de genes utilizando os fatores de transcrição (TF) que demonstram interação com suas regiões promotoras e com modulação positiva (induzidos) em experimentos de microarray, através da qual seja possível inferir TFs atuantes na síntese de conjuntos de genes. Metodologia 27 3. Metodologia A Figura 7 demonstra todo o fluxo de processamentos da metodologia deste trabalho. Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia proposta. Metodologia 28 3.1. Recursos computacionais O computador servidor – Hewlett-Packard (HP), modelo ProLiant ML150 – utilizado para execução dos processamentos in silico, possui como configuração de hardware: processador Intel Xeon 3.2 gigahertz (GHz), corpo duplo (dual core), bi-processado; 2 gigabytes (GB) de memória Random Access Memory (RAM) e 4 Hard Disk (HD) de 160 GB. Como configuração de software (utilizados neste trabalho): sistema operacional (SO) GNU/Linux Fedora 6, kernel versão 2.6.22.7-57.fc6; linguagem de programação script Practical Extraction and Report Language (Perl), versão 5.8.8; linguagem de processamentos estatísticos e gráficos R, versão 2.9.0. Acessado remotamente por Secure Shell (SSH). 3.2. Dados do experimento alpha-factor O experimento chamado alpha-factor foi obtido da cepa DBY8724, genótipo MATa GAL2 ura3 bar1::URA3. Esta foi crescida em meio Yeast Extract Phosphate (YEP) a base de glucose, quando uma amostra assíncrona foi retirada, em seguida foi adicionado alpha-factor (feromônio) para sincronização/paralisação do ciclo celular na fase G1. A levedura tem dois tipos sexuais, a e (genótipos MATa e MAT, respectivamente) que se fundem para formar um diplóide MATa/MAT. Assim que as células MATa são expostas ao alpha-factor (o feromônio purificado do tipo sexual oposto), entram em um processo reversível de diferenciação celular, quando células em crescimento vegetativo adquirem características de gametas. Então, elas cessam a divisão e começam a se alongar em direção a maior concentração de feromônio, formando uma estrutura denominada projeção de cruzamento (BARDWELL, 2004). As células de leveduras são não-móveis; elas possuem uma parede rígida e não podem formar filopódios, como alguns protozoários. Esta morfogênese quimiotrófica envolve uma série de modificações na parede celular. Proteínas envolvidas em sinalização, polarização, adesão celular e fusão são localizadas na projeção de cruzamento (BULAWA, 1993; GUSTIN et al, 1998). Por outro lado, no caminho de resposta da levedura, retroalimentações negativas operam em muitos níveis para promover a dessensibilização/adaptação e recuperação. Estes mecanismos de retroalimentação negativa, fosforilação e desfosforilação exercem papel crucial na modulação da intensidade do sinal. Metodologia 29 Após 120 minutos o feromônio (alpha-factor) foi retirado por meio de centrifugação e, a cada 7 minutos, durante os 140 correntes próximos minutos (0, 7, 14, 21, 28, 35, 42, 49, 56, 63, 70, 77, 84, 91, 98 105, 112 e 119 minutos), amostras foram retiradas para análises de conteúdo do DNA. O RNA foi extraído de cada amostra coletada, assim como a amostra controle (culturas assíncronas das mesmas células exponencialmente crescentes, na mesma temperatura e mesmo meio de cultura). O cDNA foi marcado com reagente fluorescente (Cy3 [verde] para amostras controle e Cy5 [vermelho] para amostras experimentais). Em seguida, eles foram misturados e, competitivamente hibridizados em lâmina de microarray contendo essencialmente todos os genes de levedura (DE-RISI et al, 1997). A razão do experimento (vermelho) para o controle (verde) foi medida por microscopia de varredura laser (SHALON et al, 1996). 3.3. Valores de modulação Foi utilizado, como conjunto de dados de entrada, um arquivo tabulado (RAWDATA, 2008), contendo os resultados, obtidos pela técnica de microarray, oriundos dos experimentos de Spellman e colaboradores, 1998. Este arquivo contém valores de modulação de 6.178 genes em diferentes condições experimentais. Para o conjunto de dados, referentes ao experimento chamado alpha factor, foram selecionados todos os 18 pontos amostrais. Neste experimento, os pesquisadores identificaram 800 genes envolvidos em ciclo celular (CELLCYCLE, 2008), dos quais, foram extraídos os valores de modulação gênica referentes a alpha factor, disponíveis na tabela RAWDATA (2008), para cada um dos pontos amostrais selecionados. Os resultados foram armazenados em arquivos tabulados individuais, denominados Tabela de valores de modulação refinada (TVMR) (Figura 8). Metodologia 30 Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) que contém o conjunto de dados de genes transcritos e seus valores de modulação gênicas nos diversos tempos amostrais, para alpha factor. 3.4. Fatores de transcrição A cada gene modulado foi relacionado a atuação de um ou mais fatores de transcrição (TF) com sua região promotora. Existem aqueles TFs que tem atuação inferida por processamento in silico e, aqueles cuja interação com a região promotora do gene alvo já foi comprovada por experimentos em bancada, e posterior divulgação em literatura científica, que são referidos como documentados. Estes TFs documentados, foram obtidos do web site Yeast Search for Transcriptional Regulators And Consensus Tracking (YEASTRACT, 2010), onde estão disponíveis, como arquivo em formato tabulado (FLATFILES, 2008). Este arquivo foi processado, com base na lista dos 800 genes contidos no arquivo TVMR, gerando um novo arquivo, também, em formato tabulado, com a relação dos TFs que interagem com estes genes, chamado Tabela de fatores de transcrição refinada (TTFR) (Figura 9). Genes sem TFs documentados foram desconsiderados. Metodologia 31 Figura 9. Fragmento exemplo de arquivo tabulado (TTFR) contendo TFs documentados que interagem com a região promotora dos genes. As funções inferidas aos TF foram obtidas do conteúdo disponibilizado pelo serviço Locus Information, localizado no web site do YEASTRACT (LOCUS INFORMATION, 2008), de onde foram capturadas as informações contidas nos itens: Standard Name (ex: SOK2); Systematic Name (ex: YMR016C) e Description (função inferida). O armazenamento destas informações foi feito em arquivo, formato tabulado, chamado de Tabela de funções inferidas (TFI) (Figura 10). Figura 10. Fragmento exemplo de arquivo tabulado (TFI) contendo os TFs e suas funções inferidas obtidas, por acesso remoto, do site YEASTRACT. Metodologia 32 3.5. Secção acumulativa Para gerar as tabelas acumuladas, um script recebeu como conjunto de dados de entrada a tabela RAWDATA (2008) e, desta selecionou, acumulativamente, os valores de modulação referentes aos pontos amostrais, do primeiro até o último. Para alpha factor foram criados 18 arquivos, formato tabulado, referentes aos 6.178 genes dos pontos amostrais 0 a 119 minutos. A cada processamento executado, correspondente a um tempo amostral, os valores de modulação deste foram gravados em um novo arquivo. Estes arquivo foram referenciados como Tabelas Acumulativas Completas (TAC). Por exemplo, o arquivo tabulado referente ao tempo amostral alpha factor 49 minutos acumula todos os valores de modulação dos tempos amostrais anteriores (0, 7, 14, 21, 28, 35, 42 minutos), inclusive os valores do corrente. Seguindo esta dinâmica, o arquivo tabulado referente ao tempo amostral 0 minuto contêm somente os valores de modulação deste tempo. Enquanto, o arquivo tabulado referente ao tempo amostral 119 minutos contêm todos os valores de modulação de todos os tempos amostrais. Os mesmos processamentos foram aplicados para o arquivo tabulado TVMR, o qual contêm os valores de modulação referentes aos genes envolvidos em ciclo celular. Tais dados geraram os arquivos tabulados referenciados como Tabelas Acumulativas Refinadas (TAR) (Figura 11). Figura 11. Fragmento exemplo da criação de tabelas cumulativas, através do processamento dos conjuntos de dados RAWDATA (2008) e TVMR, nos diversos tempos amostrais do experimento alpha factor . Metodologia 33 3.6. Seleção dos genes Foram selecionados, do arquivo TAR de alpha factor, como induzidos, aqueles genes cujo seu valor de modulação, no tempo amostral corrente, fosse igual ou superior a 0,5 (xi 0,5). Para estes também deveria existir uma quantidade mínima de valores de modulação dos pontos amostrais considerados, dado por: MMU = int(qtd ij / 2) + 1 (1) Onde qtdij é a quantidade de valores de modulação para o gene i do primeiro ponto amostral até o ponto amostral j (ponto corrente). É importante notar que o conjunto original de dados era incompleto, estando ausentes vários valores de modulação. A equação 1 foi usada para seleção de um número de valores de modulação suficientes para a construção da matriz de distâncias (seções 3.8 e 3.10). Seguindo esta regra, por exemplo, para um determinado gene do tempo amostral alpha factor 49 minutos (oitavo tempo amostral) deveriam existir, no mínimo, 5 (cinco) valores de modulação. Os genes que não preencheram este requisito foram desconsiderados (Figura 12). Foi desenvolvido um script que tornou o processo de seleção e gravação dos dados em arquivos, formato tabulado, chamados Tabelas Acumulativas Refinadas Selecionadas (TARS), automatizado. Figura 12. Fragmento exemplo da seleção de genes em TVMR, que demonstraram valor de modulação 0,5, no ponto amostral corrente e metade mais um (MMU) dos tempos amostrais analisados, para alpha factor. Metodologia 34 3.7. Sincronização Para que os dados estivessem disponíveis de forma completa (nome do gene, valores de modulação e fatores de transcrição), a cada processamento, relativo ao tempo amostral corrente, foi feita a sincronização de TFs e valores de modulação, utilizando os arquivos tabulados TARS e TTFR. Os arquivos gerados foram gravados em formato tabulado, chamados Tabela de Dados Sincronizados (TDS). Por este procedimento, aqueles genes que não satisfizeram as regras para valores de modulação (seção 3.6) foram eliminados, mesmo que tivessem TFs documentados relacionados e vice-versa (seção 3.4). As regras deste algoritmo foram implementadas em script, o qual automatizou o processamento e garantiu que todos os dados, a partir de então, estivessem aptos aos demais processamentos (Figura 13). Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs, chamados TDS, nos diversos tempos amostrais corrente para alpha factor . A coluna em destaque evidencia o tempo amostral corrente. Metodologia 35 3.8. Agrupamento de genes por valores de modulação Para cada tempo amostral, a partir do terceiro (14 minutos em alpha factor) até o tempo amostral corrente, foi criada uma matriz de distâncias referente, utilizando os valores de modulação dos arquivos tabulados TDS. Para confecção desta matriz foi utilizada a função dist, da linguagem de processamentos estatísticos e gráficos R (R, 2008), configurado o método euclidiano, dado pela equação: (2) Onde p e q são os genes comparados a cada momento. Cada valor da matriz de distâncias foi dividido pelo maior valor desta matriz, para que estas distâncias não ultrapassassem o intervalo [0,1], utilizando a função max. Pelos valores da matriz, foi feito o agrupamento hierárquico (do inglês hierarchical clustering), utilizando a função hclust, configurado o método ward (visa a mínima variância buscando grupos compactos), e por fim a função plot, para gerar os dendrogramas (R, 2008). 3.9. Matriz de presença/ausência de TFs A cada tempo amostral, a partir do terceiro, para os genes constantes em TDS (sessão 3.7), foi resgatada a diversidade não redundante de todos os TFs, que dispostos de forma alfabética crescente, foram utilizados como rótulo de colunas. Individualmente, para os genes analisados, oriundo de TDS, foram resgatados os respectivos TFs. Em seguida, foram obtidos os Systematic names (arquivo TFI) e, assim, checados os valores de modulação dos genes responsáveis pela síntese destes TFs, no arquivo tabulado TAC do tempo amostral corrente. Àqueles TFs, cujos genes sintetizadores demonstraram, no mínimo, um valor de modulação igual ou superior a 0,5 (xi 0,5), o bit 1 (um) foi atribuído a célula (formada pelo encontro do gene [linha] com o TF [coluna]) correspondente. O bit 1 indica a presença ativa do TFs para o gene. Por exemplo, tomado o gene YDR307W, no quinto tempo amostral alpha factor (28 minutos), a ele estão relacionados os TFs Pho2 e Yap1. Para estes dois foram resgatados os genes responsáveis (Systematic names) por suas sínteses (YDL106C para Pho2 e YML007W Metodologia 36 para Yap1). Foram então, avaliadas individualmente suas modulações nos tempos amostrais, desde o primeiro (0 minuto) até o corrente (28 minutos), buscando por valores iguais ou superiores a 0,5. Quando encontrado, foi atribuído bit 1 (um) à célula correspondente. Em caso negativo, foi atribuído bit 0 (zero) (Figura 14). Figura 14. Exemplo da construção da matriz de presença/ausência. Em TDS, no tempo amostral 3, os VM3 de todos os genes são 0,5 (cor vermelha). Os TFs dos genes foram checados em TCC por, no mínimo, um valor de modulação 0,5. Quando encontrado, o TF relativo ao gene recebeu o bit 1 na matriz. Caso negativo, recebeu bit zero. Para aqueles TFs, cujo genes sintetizadores não foram encontrados ou modulados iguais ou superiores a 0,5, foram atribuídos o bit 0 (zero) às células. Implementadas tais regras em um script, cada gene ganhou uma sequência de zeros e uns referentes a seus TFs, e assim, foi montada uma matriz de presença/ausência de TFs para cada tempo amostral, que foram gravadas em arquivos, formato tabulado, chamados Tabela Presença Ausência (TPA) (Figura 15). Metodologia 37 Figura 15. Fragmento exemplo de matriz de presença/ausência referentes aos TFs atribuídos a cada gene, para os diversos tempos amostrais em alpha factor. O bit 1 representa a presença do TF para o gene e bit 0 representa a ausência. 3.10. Agrupamento de genes por TFs Utilizando o conteúdo dos arquivos tabulados TPA para cada tempo amostral, foram criadas matrizes de distâncias. As distâncias foram calculadas pela função dist.binary, pacote ade4 (DRAY; DUFOUR; CHESSEL, 2007), que utiliza o coeficiente de Gower & Legendre (GOWER; LEGENDRE, 1986), dada pela equação: d(i,j) = a / (a + b + c + d) (3) Onde a: i = 1 e j = 1; b: i = 1 e j = 0; c: i = 0 e j = 1 e d: i = 0 e j = 0. A partir da matriz de distâncias, os processamentos foram os mesmos da seção 3.8. 3.11. Subgrupos Para efeitos de análises individualizadas, o dendrograma gerado para cada tempo amostral, foi seccionado. Assim, foi criada uma quantidade tal de subgrupos (sub-árvores), cujo critério de corte (divisão) foi que cada um destes contivesse, no mínimo, 3 genes (Systematic names). Este processamento foi realizado utilizando a função rect.hclust (R, 2008). Esta função evidência os subgrupos na figura do dendrograma. Para que fosse Metodologia 38 adicionada numeração crescente, relacionada aos subgrupos criados, ela teve seu código fonte modificado. Este procedimento gerou vários arquivos individualizados, contendo os Systematic names dos genes, em cada tempo amostral, os quais foram gravados em diretórios correspondentes aos tempos amostrais. Esta secção de dendrogramas foi aplicada aos agrupamentos obtidos pelos dois diferentes métodos (Figura 16). Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento, considerando o critério de, no mínimo, 3 genes por subgrupo para os diversos tempos amostrais de alpha factor. Em seguida a criação destes arquivos individualizados, contendo os Systematic names dos genes dos subgrupos, foram inseridas informações adicionais, relativas aos genes, como: modulação mínima e máxima; TFs e suas funções inferidas. Foram, também, calculadas as participações dos TFs para os genes dos subgrupos, e disponibilizadas em forma de razão e porcentagem. Metodologia 39 3.12. Correlações entre os métodos de agrupamento Tomados como referência os subgrupos gerados pelo agrupamento por TFs (ATF), os genes destes, foram buscados nos subgrupos gerados pelo agrupamento por valores de modulação (AVM), para cada um dos tempos amostrais. Por exemplo, para o tempo amostral 21 minutos, foram tomados os genes do subgrupo 1 de ATF. Estes foram buscados em todos os subgrupos gerados por AVM, do mesmo tempo amostral. Desta forma, o subgrupo 1 de ATF foi comparado com todos os subgrupos de AVM e o mesmo acontece para os demais subgrupos de ATF (Figura 17). O desenvolvimento e implementação do algoritmo, para comparações, em um script tornou o processo automatizado. Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM, para os diversos tempos amostrais de alpha factor. Genes de subgrupos criado em ATF podem estar em diferentes subgrupos de AVM e vice-versa. 3.13. Classificação funcional dos genes Para conhecer a diversidade biológica funcional dos genes nos subgrupos, foi acessado o web site Munich Information Center for Protein Sequences (MIPS), que mantém o banco de dados Comprehensive Yeast Genome Database (CYGD), o qual disponibiliza o serviço Functional Classification of Proteins (funCat; FUNCAT, 2008), de onde foi obtido o arquivo com a relação gene/categoria funcional. O funCat categoriza cada gene em uma ou mais categorias, com vários níveis de especificações. Entretanto, para esta análise foram utilizadas somente as categorias mais generalistas. Metodologia 40 3.14. Embaralhamento dos genes Almejando verificar se os agrupamentos foram consistentes, realmente dispondo os genes mais relacionados nos mesmos subgrupos e não uma obra ao acaso, seja para agrupamento obtido por ATF ou AVM, foi realizado o embaralhamento destes genes. Depois que todos os genes já estavam dispostos em subgrupos, eles foram remanejados, aleatoriamente, 2.000 vezes. Porém, a quantidade inicial de subgrupos foi mantida. Todos os procedimentos descritos na sessão 3.11 foram refeitos e a maior porcentagem, de cada subgrupo, foi capturada e gravada em arquivo, em formato tabulado, chamado Tabela Resultado Embaralhamento (TRE). Para cada tempo amostral, foram realizadas 1.000 iterações. O arquivo TRE, de cada iteração, teve seus resultados somados, e por este, foi posicionado, de forma decrescente, em arquivo tabulado, único, contendo os 1.000 registros, chamado Tabela Resultados Embaralhamento Geral (TREG). 3.15. Representação gráfica linear A fim de facilitar a visualização dos resultados a cada tempo amostral e, também, permitir a comparação dos resultados obtidos por ATF, AVM e embaralhamentos, foi extraído de cada subgrupo a melhor participação de um TF (porcentagem). Para subgrupos gerados por embaralhamento, foram extraídos os 5 primeiros e os 5 últimos registros em TREG. Estes valores foram disponibilizados em um arquivo, formato tabulado. A partir do qual, um script gerou o gráfico de linhas, que dispõe na abscissa a quantidade de subgrupos e na ordenada valores de 0 a 100 relativos às porcentagens (Figura 18). No gráfico, a linha azul grossa representa a melhor participação de um TF no subgrupo e as demais linhas finas representam os 10 resultados de TREG. Metodologia Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos subgrupos pelos ATF ou AVM (linha grossa na cor azul) e embaralhamento (linhas finas), para alpha factor . 41 Resultados e discussões 42 4. Resultados e discussões Para cada tempo amostral foi realizada a secção cumulativa do arquivo que contém os valores de modulação dos genes, os quais, juntamente com o arquivo de TFs, foram submetidos a todos os processos descritos no capítulo 3. Este seccionamento não é uma abordagem usual em agrupamento de genes por valores de modulação, pois quanto maior a quantidade de tempos amostrais, melhor para que o algoritmo teça relações mais estáveis entre os genes e, assim, crie dendrogramas robustos e confiáveis (ERNST; BAR-JOSEPH, 2006). Contudo, este procedimento foi adotado para que se pudesse observar o comportamento e desempenho da metodologia proposta (ATF), para diferentes conjuntos de dados e, ainda, criar condições igualitárias de comparação entre os métodos. O Gráfico 1 demonstra a comparação dos resultados dos métodos, para os diversos tempos amostrais. Nele, estão representadas as médias das porcentagens máximas, de cada subgrupo. Estas porcentagens máximas, foram calculadas pela atuação de TFs na síntese de genes dos subgrupos. Comparativo da média das porcentagens máximas de subgrupos de ATF e AVM, em alpha factor 120 110 100 Porcentagens médias 90 80 70 60 50 40 30 20 10 0 119min 112min 105min 98min 91min 84min 77min 70min 63min 56min 49min 42min 35min 28min 21min AVM 14min ATF Tem pos am ostrais Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas), pelas médias das porcentagens máximas dos subgrupos, para cada tempo amostral em alpha factor. A marcação no topo de cada barra corresponde ao desvio padrão. O Gráfico 1 demonstra que, de forma sistêmica, ATF alcançou médias de porcentagens máximas maiores que AVM. Sendo, assim, mais eficiente no agrupamento de genes, em Resultados e discussões 43 função do compartilhamento de TFs. Na definição de subgrupos (Gráfico 2), ATF, também, demonstrou barras mais altas que aquelas de AVM. Excetuando dois tempos amostrais (63 e 105 minutos), ATF criou mais subgrupos por tempo amostral. Comparativo da quantidade de subgrupos de ATF e AVM, em alpha factor 25 Qtds. subgrupos 20 15 10 5 0 119min 112min 105min 98min 91min 84min 77min 70min 63min 56min 49min 42min 35min 28min 21min AVM 14min ATF Tempos amostrais Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas) pelas quantidades de subgrupos criados, para cada tempo amostral de alpha factor. Poderia ser dito que, a criação de uma maior quantidade de subgrupos, concentrando menos genes, os isolou de melhor forma, e propiciou o alcance de melhores máximas. Entretanto, mesmo quando ATF gerou menos subgrupos (63 e 105 minutos) suas médias de porcentagens máximas mantiveram-se mais altas. Considerando todas as porcentagens de alpha factor, desde a maior até a menor, de cada subgrupo e tempo amostral, o Gráfico 3 demonstra os desempenhos de ATF e AVM. Resultados e discussões 44 Comparativo de todas as porcentagens de subgrupos de ATF e AVM, em alpha factor 110 100 90 Porcentagens 80 70 60 50 40 30 20 10 0 176 169 162 155 148 141 134 127 120 113 106 99 92 85 78 71 64 AVM 57 50 43 36 29 22 15 8 1 ATF Quantidades Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos amostrais, por ATF e AVM em apha factor. As linhas do Gráfico 3 demonstram a diferença entre ATF e AVM, no que tange a quantidade e porcentagens obtidas. ATF, utilizando o mesmo conjunto de dados que AVM, obteve mais valores máximos e, ainda, quando estes valores declinaram, em ATF foi de uma forma mais acentuada que AVM. Evidenciando que, a quantidade de TFs que não interagem com todos os genes dos subgrupos é reduzida, em relação a AVM. O procedimento de analisar cada um dos pontos amostrais foi repetitivo, o qual gerou uma tamanha quantidade de resultados. Em virtude disto, foram abordados mais detalhadamente, neste capítulo, apenas o tempo amostral alpha factor 119 minutos. Os resultados relativos aos demais tempos amostrais, deste experimento, foram citados ao longo do texto e relacionados no capítulo Apêndices. 4.1. Valores de modulação (VM) Dos 800 genes, inicialmente selecionados no tempo amostral 119 minutos: 25 não continham valores de modulação; 67 foram ≥ 0,5; 708 genes foram < 0,5. O histograma apresentado no Gráfico 4, cujo intervalo de frequência foi definido pela equação de Scott (TURLACH, 1993), demonstra a distribuição dos valores de modulação. Resultados e discussões 45 Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência, segundo a equação de Scott, para alpha factor 119 minutos. Inicialmente, foram selecionados 67 genes com valores de modulação ≥ 0,5 (induzido). Para cada um destes (67), foram resgatados os fatores de transcrição induzidos e com interações documentadas. Após a sincronização (capítulo 3, 66 genes se adequaram aos requisitos (TFs e VMs). A estes 66 genes estavam relacionados 757 TFs, que depois de checados suas induções, foram reduzidos a 349 (Apêndice A). O gene ausente na análise foi o YCL013W, que segundo o site Saccharomyces Genome Data base (SGD) (SGD, 2010), foi excluído devido a correção de sequência. Valores de expressão gênica são altamente sujeitos a ruídos, o que pode comprometer a integridade da análise (CAMPITELI et al, 2009). Por este motivo, o valor 0,5, que demonstra a medida da expressão gênica, resultado da equação log2(razão), em relação a um valor referencial (zero) (SPELLMAN et al, 1998), foi eleito como o limiar para seleção dos genes, como o menor valor, biologicamente, relevante para padronização do método ATF. Este valor é, geralmente, escolhido de forma arbitrária (CAMPITELI et al, 2009). 4.2. Agrupamento por fatores de transcrição (ATF) Tomados os 66 genes selecionados e os 349 TFs a eles relacionados, foi criada a matriz de presença/ausência de TFs (Apêndice B). A partir desta, foi criada a matriz de distâncias que, depois de normalizada, foi utilizada para confecção do dendrograma (Figura 19). Resultados e discussões 46 Figura 19. Dendrograma criado por ATF, considerando os genes induzidos em 119 minutos do experimento alpha factor. Para uma análise mais detalhada das relações entre os genes, em função de TFs, foram criados subgrupos. A quantidade destes, foi determinada por procedimento iterativo de divisão do dendrograma, cuja condição de parada foi a quantidade mínima de 3 genes em algum(ns) dos subgrupo(s), conforme ilustra a Figura 19, pelos retângulos de borda vermelha e detalhada na Tabela 1. Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos Id. do subgrupo ATFa119sg01 ATFa119sg02 ATFa119sg03 ATFa119sg04 ATFa119sg05 ATFa119sg06 ATFa119sg07 ATFa119sg08 ATFa119sg09 Total Nro. no dendrograma 1 2 3 4 5 6 7 8 9 Qtd. de genes 17 5 9 6 7 7 5 3 7 66 Satisfeita a condição de parada, foram criados, ao todo, 9 subgrupos. Alguns deles (subgrupos 5, 6 e 9) contendo a mesma quantidade, 7 genes. Entretanto, de forma geral, a distribuição foi bastante heterogênea. 4.2.1. ATFa119sg01 Para os 17 genes do subgrupo ATFa119sg01, foram isolados seus maior e menor VM (Tabela 2). Resultados e discussões 47 Tabela 2 – Genes e VMs do subgrupo ATFa119sg01 Systematic name YML034W YGL021W YLR190W YML119W YNL058C YDR146C YJR092W YMR032W YPL155C YPL141C YHR023W YGR108W YPR156C YJL051W YGL116W YMR001C YPL242C Maior VM 0,76 1,16 1,19 1,21 1,53 0,75 0,75 1,28 0,64 1,13 0,99 1,20 1,51 1,17 0,93 1,22 1,16 Menor VM -0,97 -1,39 -1,26 -1,28 -1,81 -1,29 -1,10 -0,94 -0,84 -1,31 -1,19 -1,88 -1,86 -0,92 -0,77 -1,59 -1,13 Depois dos subgrupos formados e VMs detalhadas, foram resgatados: os TFs, as anotações (Apêndice C), e efetuados os cálculos de interações dos TFs para com os genes (Tabela 3). Resultados e discussões 48 Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01 TF Razão Porcentagem Systematic names Fkh1 17/17 100,00 YML034W;YGL021W;YLR190W;YML119W;YNL058C; YDR146C;YJR092W;YMR032W;YPL155C;YPL141C; YHR023W;YGR108W;YPR156C;YJL051W;YGL116W; YMR001C; YPL242C Fkh2 17/17 100,00 YML034W;YGL021W;YLR190W;YML119W;YNL058C; YDR146C;YJR092W;YMR032W;YPL155C;YPL141C; YHR023W;YGR108W;YPR156C;YJL051W;YGL116W; YMR001C; YPL242C Mcm1 14/17 82,35 Ste12 9/17 52,94 Rap1 6/17 35,29 Sok2 Ino4 Yox1 Reb1 Swi4 Mbp1 Abf1 Stp2 Azf1 Rlm1 Cha4 Pho4 Ino2 Cin5 Hap4 Ash1 Ume6 Smp1 Bas1 Tec1 4/17 3/17 3/17 3/17 2/17 2/17 2/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 1/17 23,53 17,65 17,65 17,65 11,76 11,76 11,76 5,88 5,88 5,88 5,88 5,88 5,88 5,88 5,88 5,88 5,88 5,88 5,88 5,88 YGL021W;YLR190W;YML119W;YNL058C;YDR146C; YJR092W;YMR032W;YHR023W;YGR108W;YPR156C; YJL051W;YGL116W; YMR001C;YPL242C YDR146C;YJR092W;YMR032W;YPL155C;YPL141C; YHR023W;YGR108W;YPR156C; YGL116W YLR190W;YDR146C;YJR092W;YGR108W; YJL051W; YGL116W YDR146C;YHR023W;YGR108W;YPR156C YDR146C;YPL155C;YGL116W YGL116W;YMR001C;YPL242C YML119W;YDR146C;YMR001C YGR108W;YPR156C YGR108W;YPL242C YMR032W;YPL242C YHR023W YDR146C YNL058C YPL242C YJL051W YDR146C YML119W YML119W YJR092W YJL051W YGL116W YGL116W YPR156C Pela observação da tabela 3, nota-se que Fkh1, anotado como fatores de transcrição da família forkhead com um menor papel na expressão de genes da fase G2/M, além disso regulam negativamente o alongamento da transcrição, possui um regulação positiva no silenciamento da cromatina no HML e HMR e regula a preferência do doador durante a mudança de fase (Forkhead family transcription factor with a minor role in the expression of G2/M phase genes; negatively regulates transcriptional elongation; positive role in chromatin silencing at HML and HMR; regulates donor preference during switching) e Fkh2, anotado como fatores de transcrição da família forkhead com um maior papel na expressão de genes da fase G2/M, além disso regulam positivamente o alongamento da transcrição, possui um Resultados e discussões 49 regulação negativa no silenciamento da cromatina no HML e HMR e atua como substrato da Quinase Cdc28p/Clb5p (Forkhead family transcription factor with a major role in the expression of G2/M phase genes; positively regulates transcriptional elongation; negative role in chromatin silencing at HML and HMR; substrate of the Cdc28p/Clb5p kinase) (LOCUS INFORMATION, 2008), são os TFs mais ativos, interagindo com 100% dos genes. 4.2.2. ATFa119sg02 Os 5 genes que compõem o subgrupo ATFa119sg02, são (Tabela 4): Tabela 4 - Genes e VMs do subgrupo ATFa119sg02 Systematic name YOR315W YPR149W YPR013C YLR413W YBR054W Maior VM 1.07 1.44 0.76 0.82 1.54 Menor VM -1.09 -1.98 -0.28 -1.90 -1.84 Em seguida, foram anexados os TFs, as anotações (Apêndice C), e efetuados os cálculos de interações dos TFs relativos aos genes (Tabela 5). Resultados e discussões 50 Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02 TF Razão Porcentagem Systematic names Sok2 Ste12 Yap6 Cin5 Swi4 Tec1 Stp2 Fkh2 Ino4 Phd1 Fkh1 Rap1 Azf1 Rlm1 Rgm1 Hap4 Sum1 Cup9 Hsf1 Mig1 Hcm1 Abf1 Mcm1 5/5 5/5 5/5 4/5 4/5 4/5 3/5 3/5 2/5 2/5 2/5 2/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 1/5 100,00 100,00 100,00 80,00 80,00 80,00 60,00 60,00 40,00 40,00 40,00 40,00 20,00 20,00 20,00 20,00 20,00 20,00 20,00 20,00 20,00 20,00 20,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W YOR315W;YPR149W;YPR013C;YLR413W;YBR054W YOR315W;YPR149W;YPR013C;YLR413W;YBR054W YOR315W;YPR013C;YLR413W;YBR054W YOR315W;YPR149W;YPR013C;YBR054W YOR315W;YPR149W;YPR013C;YLR413W YPR149W;YLR413W;YBR054W YOR315W;YPR149W;YBR054W YOR315W;YPR013C YOR315W;YPR013C YOR315W;YPR013C YOR315W;YPR149W YPR013C YOR315W YBR054W YBR054W YOR315W YPR013C YBR054W YPR149W YPR013C YBR054W YOR315W A Tabela 5 indica, que 3 TFs tem participação em todos os genes de ATFa119sg02: Sok2, anotado como proteína nuclear que desempenha um papel regulador na AMP cíclico (cAMP) dependentes da proteína quinase (PKA) na via de transdução de sinal; regula negativamente a diferenciação da pseudohifa; homólogos a diversos fatores de transcrição (Nuclear protein that plays a regulatory role in the cyclic AMP (cAMP)-dependent protein kinase (PKA) signal transduction pathway; negatively regulates pseudohyphal differentiation; homologous to several transcription factors); Ste12, anotado como fator de transcrição que é ativado por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na interação ou crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p para regular os genes específicos para o crescimento invasivo (Transcription factor that is activated by a MAP kinase signaling cascade, activates genes involved in mating or pseudohyphal/invasive growth pathways; cooperates with Tec1p transcription factor to regulate genes specific for invasive growth; e Yap6, anotado como provável fator de transcrição formado por leucina básica de zipper (bZIP), aumenta a super-expressão de sódio e lítio (Putative basic leucine zipper (bZIP) transcription factor; overexpression increases Resultados e discussões 51 sodium and lithium tolerance) (LOCUS INFORMATION, 2008). 4.2.3. ATFa119sg03 Para o subgrupo ATFa119sg03 foram isolados 9 genes, com os seguintes VMs (Tabela 6): Tabela 6 - Genes e VMs do subgrupo ATFa119sg03 Systematic name YLR452C YKL185W YNL327W YKL164C YER145C YHR005C YDR055W YHL028W YBR202W Maior VM 2,41 2,18 2,71 2,53 0,52 0,99 2,23 0,73 1,04 Menor VM -0,91 -1,5 -2,14 -2,24 -1,12 -1,01 -1,46 -0,46 -1,21 Em seguida, para cada gene foram atribuídos seus TFs, totalizados e exibidos na Tabela 7. Resultados e discussões 52 Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03 TF Razão Porcentagem Systematic names Sok2 9/9 100,00 Ste12 7/9 77,78 Mcm1 7/9 77,78 Phd1 Rap1 Tec1 Ace2 Swi5 Rlm1 Smp1 Swi4 Mal33 Azf1 Pho4 Yox1 Hap4 Mig1 Hsf1 Ash1 Ume6 Abf1 Fkh2 Xbp1 5/9 5/9 5/9 5/9 4/9 3/9 3/9 2/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 55,56 55,56 55,56 55,56 44,44 33,33 33,33 22,22 11,11 11,11 11,11 11,11 11,11 11,11 11,11 11,11 11,11 11,11 11,11 11,11 YLR452C;YKL185W;YNL327W;YKL164C;YER145C; YHR005C;YDR055W;YHL028W;YBR202W YLR452C;YKL164C;YER145C;YHR005C;YDR055W; YHL028W;YBR202W YLR452C;YKL185W;YNL327W;YKL164C;YHR005C; YHL028W;YBR202W YKL164C;YER145C;YHR005C;YHL028W;YBR202W YLR452C;YNL327W;YER145C;YHL028W;YBR202W YKL164C;YER145C;YHR005C;YDR055W;YBR202W YKL185W;YNL327W;YKL164C;YDR055W;YHL028W YKL185W;YNL327W;YKL164C;YDR055W YKL164C;YDR055W;YHL028W YKL185W;YKL164C;YHL028W YER145C;YDR055W YHL028W YNL327W YDR055W YBR202W YDR055W YHL028W YHL028W YDR055W YDR055W YHL028W YHL028W YHL028W O subgrupo ATFa119sg03 apresenta, apenas, Sok2 (abordados em ATFa119sg02), seguindo Sok2, os TFs Ste12 e Mcm1 estão presentes em mais de 3/4 destes genes. Ste12, que, também, foi abordado em ATFa119sg02, e Mcm1, anotado como fator de transcrição que atuam em células específicas de transcrição e da resposta ao feromônio; desempenha um papel central na formação de complexos ativadores e repressores (Transcription factor involved in cell-type-specific transcription and pheromone response; plays a central role in the formation of both repressor and activator complexes) (LOCUS INFORMATION, 2008). Resultados e discussões 53 4.2.4. ATFa119sg04 Para ATFa119sg04 foram relacionados os seguintes genes (Tabela 8) Tabela 8 - Genes e VMs do subgrupo ATFa119sg04 Systematic name Maior VM Menor VM YDR033W YMR031C YJL157C YEL032W YLR274W YAR018C 1.61 0.63 2.12 0.98 0.95 0.82 -1.96 -0.94 -1.41 -1.14 -0.84 -0.79 Em seguida, foram calculadas as interações do TFs com os seus genes (Tabela 9): Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04 TF Razão Porcentagem Systematic names Mcm1 Ste12 Fkh2 Yox1 Cin5 Reb1 6/6 3/6 3/6 3/6 1/6 1/6 100,00 50,00 50,00 50,00 16,67 16,67 YDR033W;YMR031C;YJL157C;YEL032W; YLR274W;YAR018C YMR031C;YJL157C;YEL032W YDR033W;YMR031C;YAR018C YEL032W;YLR274W;YAR018C YDR033W YLR274W A tabela 9, destaca Mcm1, anotado como fator de transcrição que atuam em células específicas de transcrição e da resposta ao feromônio; desempenha um papel central na formação de complexos ativadores e repressores (Transcription factor involved in cell-typespecific transcription and pheromone response; plays a central role in the formation of both repressor and activator complexes), que é o TF dominante (LOCUS INFORMATION, 2008). Resultados e discussões 54 4.2.5. ATFa119sg05 Para o subgrupo 5 de agrupamento por TFs foram relacionados os seguintes genes (Tabela 10): Tabela 10 - Genes e VMs do subgrupo ATFa119sg05 Systematic name YHL040C YNR067C YAL022C YBL023C YBR069C YOR066W YPR019W Maior VM 0,91 2,74 0,61 1,08 0,62 1,36 1,32 Menor VM -1,16 -1,71 -0,52 -1,01 -0,77 -0,92 -1,01 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 11). Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05 TF Razão Porcentagem Systematic names Yox1 Ste12 Hcm1 Phd1 Cin5 Hap4 Yap6 Mbp1 Mcm1 Swi5 Ace2 Stp2 Mal33 Thi2 Ime4 Swi4 Stb1 Sut1 Smp1 6/7 4/7 3/7 2/7 2/7 2/7 2/7 2/7 2/7 2/7 2/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 85,71 57,14 42,86 28,57 28,57 28,57 28,57 28,57 28,57 28,57 28,57 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 YNR067C;YAL022C;YBL023C;YBR069C;YOR066W; YPR019W YHL040C;YNR067C;YBR069C;YOR066W YHL040C;YBL023C;YOR066W YHL040C;YBR069C YHL040C;YBR069C YHL040C;YPR019W YNR067C;YAL022C YBL023C;YOR066W YAL022C;YOR066W YNR067C;YAL022C YNR067C;YBL023C YBR069C YAL022C YHL040C YAL022C YBL023C YAL022C YNR067C YAL022C Presente em 85% dos genes, o TF Yox1, anotado como homeodomínio contendo repressor transcricional, liga-se a Mcm1p e células iniciais do ciclo (ECBs) nos promotores de genes do ciclo celular, regulando expressão em M/G1 fase, a expressão é regulada pelo ciclo celular; potencial substrato Cdc28p (Homeodomain-containing transcriptional repressor, binds to Mcm1p and to early cell cycle boxes (ECBs) in the promoters of cell cycle-regulated Resultados e discussões 55 genes expressed in M/G1 phase; expression is cell cycle-regulated; potential Cdc28p substrate) (LOCUS INFORMATION, 2008). Este só não atua sobre o gene YHL040C, que é regulado por outros 6 diferentes TFs. 4.2.6. ATFa119sg06 Para o subgrupo 6 de ATF, foram relacionados os seguintes genes (Tabela 12): Tabela 12 - Genes e VMs do subgrupo ATFa119sg06 Systematic name YOR153W YPL025C YOR114W YGL008C YOL114C YBR093C YPR119W Maior VM 0,87 0,63 0,50 0,82 0,68 1,47 1,54 Menor VM -0,74 -0,47 -0,46 -0,65 -0,38 -1,00 -2,36 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 13). TF Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06 Razão Porcentagem Systematic names Swi4 7/7 100,00 Fkh2 Rap1 Sok2 Mbp1 Ash1 Fkh1 Mcm1 Ace2 Thi2 Azf1 Ino4 Pho4 Phd1 Hap4 Hsf1 Sut1 Xbp1 Tec1 Reb1 5/7 4/7 3/7 3/7 3/7 2/7 2/7 2/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 71,43 57,14 42,86 42,86 42,86 28,57 28,57 28,57 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 YOR153W;YPL025C;YOR114W;YGL008C;YOL114C;YBR093C; YPR119W YPL025C;YGL008C;YOL114C;YBR093C;YPR119W YOR153W;YGL008C;YBR093C;YPR119W YOR153W;YPL025C;YOR114W YOR153W;YGL008C;YPR119W YOR153W;YPL025C;YOL114C YOL114C;YPR119W YGL008C;YPR119W YPL025C;YGL008C YBR093C YGL008C YOR153W YBR093C YPL025C YOR153W YGL008C YBR093C YPR119W YBR093C YPR119W Resultados e discussões 56 Swi4, anotado como componente de interação do DNA e um complexo SBF (Swi4pSwi6p), um ativador de transcrição que, em conjunto com MBF (Mbp1-Swi6p) regula a transcrição tardia em alvos específicos de G1, incluindo ciclinas e genes necessários para a síntese e reparo de DNA (DNA binding component of the SBF complex (Swi4p-Swi6p), a transcriptional activator that in concert with MBF (Mbp1-Swi6p) regulates late G1-specific transcription of targets including cyclins and genes required for DNA synthesis and repair) (LOCUS INFORMATION, 2008). É o TF que está presente em todos os genes deste subgrupo. 4.2.7. ATFa119sg07 Para o subgrupo 7 de ATF foram relacionados os seguintes genes (Tabela 14): Tabela 14 - Genes e VMs do subgrupo ATFa119sg07 Systematic name YNL057W YPL036W YNL216W YPL128C YPL124W Maior VM 1,14 0,72 0,74 0,60 0,62 Menor VM -1,17 -0,67 -0,63 -0,57 -0,46 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 15): Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07 TF Ste12 Azf1 Abf1 Ime4 Swi4 Rgm1 Fkh2 Rap1 Reb1 Razão Porcentagem Systematic names 3/5 2/5 2/5 1/5 1/5 1/5 1/5 1/5 1/5 60,00 40,00 40,00 20,00 20,00 20,00 20,00 20,00 20,00 YPL036W;YNL216W;YPL128C YPL036W;YPL124W YNL057W;YPL036W YPL036W YPL124W YPL036W YNL057W YNL216W YNL216W Para o subgrupo ATFa119sg07, Ste12, anotado como fator de transcrição que é ativado por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na interação ou crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p para regular os genes específicos para o crescimento invasivo (Transcription factor that is activated by a Resultados e discussões 57 MAP kinase signaling cascade, activates genes involved in mating or pseudohyphal/invasive growth pathways; cooperates with Tec1p transcription factor to regulate genes specific for invasive growth) (LOCUS INFORMATION, 2008). É o TF mais atuante, entretanto, diferente do observado em ATFa119sg02, para este subgrupo corresponde a apenas 60% dos genes. 4.2.8. ATFa119sg08 Para o subgrupo 8 de ATF, foram relacionados os seguintes genes (Tabela 16): Tabela 16 - Genes e VMs do subgrupo ATFa119sg08 Systematic name YPL264C YPL269W YPL158C Maior VM 0,64 0,64 2,10 Menor VM -0,32 -0,61 -1,65 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 17). Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08 TF Razão Porcentagem Systematic names Mbp1 Swi5 Ino4 Ace2 3/3 1/3 1/3 1/3 100,00 33,33 33,33 33,33 YPL264C;YPL269W;YPL158C YPL158C YPL158C YPL158C Mbp1, anotado como fator de transcrição envolvido na regulação da progressão do ciclo celular de G1 para fase S, forma um complexo com Swi6p que liga ao complexo regulatório do MluI do ciclo celular em promotores de genes da síntese do DNA (Transcription factor involved in regulation of cell cycle progression from G1 to S phase, forms a complex with Swi6p that binds to MluI cell cycle box regulatory element in promoters of DNA synthesis genes) (LOCUS INFORMATION, 2008). É o TF mais atuante, porém, este subgrupo é constituído por poucos genes. Resultados e discussões 58 4.2.9. ATFa119sg09 Para o subgrupo 9 de ATF, foram relacionados os seguintes genes (Tabela 18): Tabela 18 - Genes e VMs do subgrupo ATFa119sg09 Systematic name Maior VM Menor VM YPR111W YOR298W YOL132W YHR006W YOR383C YOR235W YOR258W 0,67 0,57 0,70 0,57 1,28 0,88 0,76 -0,44 -0,50 -0,43 -0,48 -1,67 -0,54 -0,40 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 19): Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09 TF Razão Porcentagem Systematic names Ino4 Sok2 Rme1 Stp2 YPR015C Yap6 Mig1 Rap1 Pho4 Mcm1 Yrr1 Ifh1 Tye7 5/7 3/7 2/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 71,43 42,86 28,57 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 YPR111W;YOR298W;YHR006W;YOR235W; YOR258W YOR298W;YOL132W;YOR383C YOR383C;YOR235W YHR006W YOR383C YOR235W YOR383C YPR111W YOR383C YHR006W YOR258W YOR235W YHR006W Ino4, anotado como fator de transcrição necessários para inbir a repressão dos genes regulados do inositol e colina envolvidos na síntese de fosfolípides e forma um complexo com Ino2p, que liga o complexo do inositol e colina através de um domínio básico hélice-loophélice (Transcription factor required for derepression of inositol-choline-regulated genes involved in phospholipid synthesis; forms a complex, with Ino2p, that binds the inositolcholine-responsive element through a basic helix-loop-helix domain) (LOCUS INFORMATION, 2008). Obteve neste subgrupo, sua maior representação, porém, ainda assim, não interagiu com todos os genes. Resultados e discussões 59 4.3. Agrupamento por valores de modulação gênica (AVM) O agrupamento dos genes por sua expressão gerou o dendrograma (Figura 20): Figura 20. Dendrograma criado por AVM, considerando os genes induzidos em 119 minutos do experimento alpha factor. A mesma metodologia utilizada em ATF, foi aplicada para este método de agrupamento, portanto, subgrupos foram criados. Da mesma forma foi estabelecida a condição de parada, subgrupo(s) com a quantidade mínima de 3 genes. Para o dendrograma referente a 119 minutos, foram criados os seguintes subgrupos (Tabela 20): Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119 minutos Id. do subgrupo AVMa119sg01 AVMa119sg02 AVMa119sg03 AVMa119sg04 AVMa119sg05 AVMa119sg06 AVMa119sg07 Total Nro. no dendrograma 1 2 3 4 5 6 7 Qtd. de genes 13 7 7 10 15 3 11 66 Resultados e discussões 60 Depois dos subgrupos formados, da mesma forma que para ATF, foram adicionadas informações de maior e menor modulação, TFs, anotações e efetuados cálculos de participação dos TFs. 4.3.1. AVMa119sg01 Para o subgrupo 1 de AVM, foram relacionados os seguintes genes (Tabela 21). Tabela 21 - Genes e VMs do subgrupo AVMa119sg01 Systematic name YDR033W YOL132W YPL158C YER145C YBR093C YHL040C YOR383C YLR413W YBR054W YAL022C YBR202W YBR069C YAR018C Maior VM 1,61 0,70 2,10 0,52 1,47 0,91 1,28 0,82 1,54 0,61 1,04 0,62 0,82 Menor VM -1,96 -0,43 -1,65 -1,12 -1,00 -1,16 -1,67 -1,90 -1,84 -0,52 -1,21 -0,77 -0,79 Em seguida, para o subgrupo 1, foram calculadas as interações dos TFs com as sínteses dos genes (Tabela 22). Resultados e discussões 61 Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01 TF Razão Porcentagem Systematic names Sok2 Ste12 Cin5 Phd1 Yox1 Mcm1 Fkh2 Tec1 Stp2 Yap6 Swi4 Rap1 Thi2 Pho4 Hap4 Swi5 Mal33 YPR015C Rgm1 Rme1 Ino4 Ime4 Mbp1 Hsf1 Mig1 Stb1 Smp1 Hcm1 Sut1 Abf1 Ace2 6/13 6/13 5/13 4/13 4/13 4/13 4/13 4/13 3/13 3/13 3/13 3/13 2/13 2/13 2/13 2/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 1/13 46,15 46,15 38,46 30,77 30,77 30,77 30,77 30,77 23,08 23,08 23,08 23,08 15,38 15,38 15,38 15,38 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 7,69 YOL132W;YER145C;YOR383C;YLR413W;YBR054W;YBR202W YER145C;YHL040C;YLR413W;YBR054W;YBR202W;YBR069C YDR033W;YHL040C;YLR413W;YBR054W;YBR069C YER145C;YHL040C;YBR202W;YBR069C YAL022C;YBR202W;YBR069C;YAR018C YDR033W;YAL022C;YBR202W;YAR018C YDR033W;YBR093C;YBR054W;YAR018C YER145C;YBR093C;YLR413W;YBR202W YLR413W;YBR054W;YBR069C YLR413W;YBR054W;YAL022C YER145C;YBR093C;YBR054W YER145C;YBR093C;YBR202W YBR093C;YHL040C YBR093C;YOR383C YHL040C;YBR054W YPL158C;YAL022C YAL022C YOR383C YBR054W YOR383C YPL158C YAL022C YPL158C YBR054W YOR383C YAL022C YAL022C YHL040C YBR093C YBR054W YPL158C Pela observação da tabela 22, é notado que Sok2, anotado como proteína nuclear que desempenha um papel regulador na AMP cíclico (cAMP) dependentes da proteína quinase (PKA) na via de transdução de sinal; regula negativamente a diferenciação da pseudohifa; homólogos a diversos fatores de transcrição (Nuclear protein that plays a regulatory role in the cyclic AMP (cAMP)-dependent protein kinase (PKA) signal transduction pathway; negatively regulates pseudohyphal differentiation; homologous to several transcription factors) e Ste12, anotado como fator de transcrição que é ativado por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na interação ou crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p para regular os genes específicos para o crescimento invasivo (Transcription factor that is activated by a MAP kinase signaling cascade, activates genes involved in mating or pseudohyphal/ invasive growth pathways; Resultados e discussões 62 cooperates with Tec1p transcription factor to regulate genes specific for invasive growth) . São os TFs mais ativos no subgrupo, porém suas participações (46,15%), abrangem menos da metade dos genes do subgrupo. 4.3.2. AVMa119sg02 Para o subgrupo 2 de AVM, foram relacionados os seguintes genes (Tabela 23). Tabela 23 - Genes e VMs do subgrupo AVMa119sg02 Systematic name YMR031C YHR005C YBL023C YOR066W YEL032W YLR274W YPR019W Maior VM 0,63 0,99 1,08 1,36 0,98 0,95 1,32 Menor VM -0,94 -1,01 -1,01 -0,92 -1,14 -0,84 -1,01 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 24). Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02 TF Razão Porcentagem Systematic names Mcm1 Yox1 Ste12 Mbp1 Hcm1 Swi4 Sok2 Fkh2 Phd1 Tec1 Hap4 Reb1 Ace2 5/7 5/7 4/7 2/7 2/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 71,43 71,43 57,14 28,57 28,57 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 YMR031C;YHR005C;YOR066W;YEL032W;YLR274W YBL023C;YOR066W;YEL032W;YLR274W;YPR019W YMR031C;YHR005C;YOR066W;YEL032W YBL023C;YOR066W YBL023C;YOR066W YBL023C YHR005C YMR031C YHR005C YHR005C YPR019W YLR274W YBL023C Na tabela 24, três quartos dos genes são regulados por Mcm1, anotado como fator de transcrição que atuam em células específicas de transcrição e da resposta ao feromônio; desempenha um papel central na formação de complexos ativadores e repressores (Transcription factor involved in cell-type-specific transcription and pheromone response; plays a central role in the formation of both repressor and activator complexes) e Yox1, Resultados e discussões 63 anotado como homeodomínio contendo repressor transcricional, liga-se a Mcm1p e células iniciais do ciclo (ECBs) nos promotores de genes do ciclo celular, regulando expressão em M/G1 fase, a expressão é regulada pelo ciclo celular; potencial substrato Cdc28p (Homeodomain-containing transcriptional repressor, binds to Mcm1p and to early cell cycle boxes (ECBs) in the promoters of cell cycle-regulated genes expressed in M/G1 phase; expression is cell cycle-regulated; potential Cdc28p substrate) (LOCUS INFORMATION, 2008). Contudo, sem unanimidade, esses dois TFs interagem com todos os genes do subgrupo. 4.3.3. AVMa119sg03 Para o subgrupo 3 de AVM, foram relacionados os seguintes genes (Tabela 25). Tabela 25 - Genes e VMs do subgrupo AVMa119sg03 Systematic name YLR452C YJL157C YKL185W YNL327W YKL164C YDR055W YNR067C Maior VM 2,41 2,12 2,18 2,71 2,53 2,23 2,74 Menor VM -0,91 -1,41 -1,50 -2,14 -2,24 -1,46 -1,71 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 26). Resultados e discussões 64 Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03 TF Razão Porcentagem Systematic names Sok2 Ste12 Mcm1 Swi5 Ace2 Rlm1 Rap1 Smp1 Tec1 Azf1 Pho4 Phd1 Yox1 Hap4 Yap6 Swi4 Ash1 Ume6 Sut1 5/7 5/7 5/7 5/7 5/7 2/7 2/7 2/7 2/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 1/7 71,43 71,43 71,43 71,43 71,43 28,57 28,57 28,57 28,57 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 14,29 YLR452C;YKL185W;YNL327W;YKL164C;YDR055W YLR452C;YJL157C;YKL164C;YDR055W;YNR067C YLR452C;YJL157C;YKL185W;YNL327W;YKL164C YKL185W;YNL327W;YKL164C;YDR055W;YNR067C YKL185W;YNL327W;YKL164C;YDR055W;YNR067C YKL164C;YDR055W YLR452C;YNL327W YKL185W;YKL164C YKL164C;YDR055W YNL327W YDR055W YKL164C YNR067C YDR055W YNR067C YDR055W YDR055W YDR055W YNR067C Neste subgrupo existe uma quantidade maior de TFs com razão, chegando perto de 3/4 dos genes, são eles: Sok2, Ste12, Mcm1, Swi5 e Ace2. Entretanto, somente Swi5 e Ace2 compartilham os mesmos genes. Swi5 anotado como fator de transcrição que ativa a transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização do núcleo ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p (Transcription factor that activates transcription of genes expressed at the M/G1 phase boundary and in G1 phase; localization to the nucleus occurs during G1 and appears to be regulated by phosphorylation by Cdc28p kinase) e Ace2, anotado como fator de transcrição que ativa a transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização do núcleo ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p (Transcription factor that activates expression of early G1-specific genes, localizes to daughter cell nuclei after cytokinesis and delays G1 progression in daughters, localization is regulated by phosphorylation; potential Cdc28p substrate) (LOCUS INFORMATION, 2008), são concordantes, como TFs ativadores. Resultados e discussões 65 4.3.4. AVMa119sg04 Para o subgrupo 4 de AVM, foram relacionados os seguintes genes (Tabela 27). Tabela 27 - Genes e VMs do subgrupo AVMa119sg04 Systematic name Maior VM Menor VM YML034W YGL021W YJR092W YPL155C YPL141C YGR108W YOR153W YPR119W YOR315W YMR001C 0,76 1,16 0,75 0,64 1,13 1,20 0,87 1,54 1,07 1,22 -0,97 -1,39 -1,10 -0,84 -1,31 -1,88 -0,74 -2,36 -1,09 -1,59 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 28). Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04 TF Razão Porcentagem Systematic names Fkh1 9/10 90,00 Fkh2 9/10 90,00 Mcm1 6/10 60,00 Ste12 Rap1 Swi4 Ino4 Sok2 Mbp1 Ash1 Reb1 Rlm1 Phd1 Cin5 Yox1 Sum1 Hap4 Yap6 Tec1 Xbp1 5/10 5/10 4/10 3/10 3/10 3/10 2/10 2/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 50,00 50,00 40,00 30,00 30,00 30,00 20,00 20,00 10,00 10,00 10,00 10,00 10,00 10,00 10,00 10,00 10,00 YML034W;YGL021W;YJR092W;YPL155C;YPL141C; YGR108W;YPR119W;YOR315W;YMR001C YML034W;YGL021W;YJR092W;YPL155C;YPL141C; YGR108W;YPR119W;YOR315W;YMR001C YGL021W;YJR092W;YGR108W;YPR119W;YOR315W; YMR001C YJR092W;YPL155C;YPL141C;YGR108W;YOR315W YJR092W;YGR108W;YOR153W;YPR119W;YOR315W YGR108W;YOR153W;YPR119W;YOR315W YPL155C;YOR153W;YOR315W YGR108W;YOR153W;YOR315W YGR108W;YOR153W;YPR119W YJR092W;YOR153W YPR119W;YMR001C YOR315W YOR315W YOR315W YMR001C YOR315W YOR153W YOR315W YOR315W YPR119W Resultados e discussões 66 Dois diferentes TFs neste subgrupo (4) são atuantes em 9 dos 10 genes. Fkh1 e Fkh2, com as, respectivas, anotações: fatores de transcrição da família forkhead com um menor papel na expressão de genes da fase G2/M, além disso regulam negativamente o alongamento da transcrição, possui um regulação positiva no silenciamento da cromatina no HML e HMR e regula a preferência do doador durante a mudança de fase (Forkhead family transcription factor with a minor role in the expression of G2/M phase genes; negatively regulates transcriptional elongation; positive role in chromatin silencing at HML and HMR; regulates donor preference during switching) e fatores de transcrição da família forkhead com um maior papel na expressão de genes da fase G2/M, além disso regulam positivamente o alongamento da transcrição, possui um regulação negativa no silenciamento da cromatina no HML e HMR e atua como substrato da Quinase Cdc28p/Clb5p (Forkhead family transcription factor with a major role in the expression of G2/M phase genes; positively regulates transcriptional elongation; negative role in chromatin silencing at HML and HMR; substrate of the Cdc28p/Clb5p kinase) (LOCUS INFORMATION, 2008). Pela anotação é possível notar que um desempenha função contrária do outro. 4.3.5. AVMa119sg05 Para o subgrupo 5 de AVM, foram relacionados os seguintes genes (Tabela 29). Tabela 29 - Genes e VMs do subgrupo AVMa119sg05 Systematic name Maior VM Menor VM YNL057W YLR190W YML119W YNL058C YDR146C YPL036W YMR032W YHR023W YGL008C YPR156C YJL051W YHL028W YPR149W YGL116W YPL242C 1,14 1,19 1,21 1,53 0,75 0,72 1,28 0,99 0,82 1,51 1,17 0,73 1,44 0,93 1,16 -1,17 -1,26 -1,28 -1,81 -1,29 -0,67 -0,94 -1,19 -0,65 -1,86 -0,92 -0,46 -1,98 -0,77 -1,13 Resultados e discussões 67 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 30). TF Fkh2 Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05 Razão Porcentagem Systematic names 14/15 93,33 Mcm1 12/15 80,00 Fkh1 10/15 66,67 Ste12 8/15 53,33 Rap1 7/15 46,67 Sok2 Abf1 Azf1 Swi4 Rlm1 Ino4 Mbp1 Smp1 Ace2 Stp2 Yox1 Hsf1 Mig1 Tec1 Reb1 Rgm1 Cin5 Yap6 Ume6 Bas1 Xbp1 Mal33 Cha4 Ime4 Pho4 Phd1 Ino2 Hap4 5/15 5/15 3/15 3/15 2/15 2/15 2/15 2/15 2/15 2/15 2/15 2/15 2/15 2/15 2/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 33,33 33,33 20,00 20,00 13,33 13,33 13,33 13,33 13,33 13,33 13,33 13,33 13,33 13,33 13,33 6,67 6,67 6,67 6,67 6,67 6,67 6,67 6,67 6,67 6,67 6,67 6,67 6,67 YNL057W;YLR190W;YML119W;YNL058C;YDR146C;YMR032W; YHR023W;YGL008C;YPR156C;YJL051W;YHL028W;YPR149W; YGL116W;YPL242C YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W; YGL008C;YPR156C;YJL051W;YHL028W; YGL116W;YPL242C YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W; YPR156C;YJL051W;YGL116W;YPL242C YDR146C;YPL036W;YMR032W;YHR023W;YPR156C;YHL028W; YPR149W;YGL116W YLR190W;YDR146C;YGL008C;YJL051W;YHL028W;YPR149W; YGL116W YDR146C;YHR023W;YPR156C;YHL028W;YPR149W YNL057W;YPL036W;YMR032W;YHL028W;YPL242C YDR146C;YPL036W;YGL008C YGL008C;YPR156C;YPR149W YNL058C;YHL028W YDR146C;YGL116W YGL008C;YPL242C YHL028W;YGL116W YGL008C;YHL028W YHR023W;YPR149W YGL116W;YPL242C YGL008C;YHL028W YHL028W;YPR149W YPR156C;YPR149W YML119W;YDR146C YPL036W YML119W YPR149W YJL051W YGL116W YHL028W YHL028W YPL242C YPL036W YJL051W YHL028W YDR146C YML119W Presente em 93,33% dos genes, o TF Fkh2, já citado no subgrupo 4, é o mais atuante. Este só não atua sobre o gene YPL036W, que é regulado por outros 5 diferentes TFs. Resultados e discussões 68 4.3.6. AVMa119sg06 Para o subgrupo 6 de AVM, foram relacionados os seguintes genes (Tabela 31). Tabela 31 - Genes e VMs do subgrupo AVMa119sg06 Systematic name Maior VM Menor VM YOR298W YOR114W YPL124W 0,57 0,50 0,62 -0,50 -0,46 -0,46 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 32). Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06 TF Razão Porcentagem Systematic names Swi4 Sok2 Azf1 Ino4 2/3 2/3 1/3 1/3 66,67 66,67 33,33 33,33 YOR114W;YPL124W YOR298W;YOR114W YPL124W YOR298W Mesmo estando no limiar da quantidade mínima de genes por subgrupo. No subgrupo 6, nenhum TF foi predominante, atuando sobre todos eles. Os dois mais atuantes que interagem com 2 dos 3 genes são: Swi4, anotado como componente de interação do DNA e um complexo SBF (Swi4p-Swi6p), um ativador de transcrição que, em conjunto com MBF (Mbp1-Swi6p) regula a transcrição tardia em alvos específicos de G1, incluindo ciclinas e genes necessários para a síntese e reparo de DNA (DNA binding component of the SBF complex (Swi4p-Swi6p), a transcriptional activator that in concert with MBF (Mbp1-Swi6p) regulates late G1-specific transcription of targets including cyclins and genes required for DNA synthesis and repair) e Sok2, anotado como proteína nuclear que desempenha um papel regulador na AMP cíclico (cAMP) dependentes da proteína quinase (PKA) na via de transdução de sinal; regula negativamente a diferenciação da pseudohifa; homólogos a diversos fatores de transcrição (Nuclear protein that plays a regulatory role in the cyclic AMP (cAMP)-dependent protein kinase (PKA) signal transduction pathway; negatively regulates pseudohyphal differentiation; homologous to several transcription factors) (LOCUS INFORMATION, 2008). Os genes do subgrupo 6 tem seus valores de modulação bem próximos do limiar de exclusão, talvez essa fraca expressão explique a falta de um TF predominante, assim como, a contraversão destes dois, mais atuantes. Resultados e discussões 69 4.3.7. AVMa119sg07 Para o subgrupo 7 de AVM, foram relacionados os seguintes genes (Tabela 33). Tabela 33 - Genes e VMs do subgrupo AVMa119sg07 Systematic name Maior VM Menor VM YPL264C YPL269W YPR111W YNL216W YPL128C YPL025C YOL114C YHR006W YPR013C YOR235W YOR258W 0,64 0,64 0,67 0,74 0,60 0,63 0,68 0,57 0,76 0,88 0,76 -0,32 -0,61 -0,44 -0,63 -0,57 -0,47 -0,38 -0,48 -0,28 -0,54 -0,40 Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela 34). Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07 TF Razão Porcentagem Systematic names Ino4 Ste12 Swi4 Sok2 Phd1 Yap6 Mbp1 Ash1 Rap1 Fkh1 Fkh2 Stp2 Azf1 Rme1 Cin5 Cup9 Hcm1 Mcm1 Yrr1 Ifh1 Tec1 Tye7 Ace2 Reb1 5/11 3/11 3/11 2/11 2/11 2/11 2/11 2/11 2/11 2/11 2/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 1/11 45,45 27,27 27,27 18,18 18,18 18,18 18,18 18,18 18,18 18,18 18,18 9,09 9,09 9,09 9,09 9,09 9,09 9,09 9,09 9,09 9,09 9,09 9,09 9,09 YPR111W;YHR006W;YPR013C;YOR235W;YOR258W YNL216W;YPL128C;YPR013C YPL025C;YOL114C;YPR013C YPL025C;YPR013C YPL025C;YPR013C YPR013C;YOR235W YPL264C;YPL269W YPL025C;YOL114C YPR111W;YNL216W YOL114C;YPR013C YPL025C;YOL114C YHR006W YPR013C YOR235W YPR013C YPR013C YPR013C YHR006W YOR258W YOR235W YPR013C YHR006W YPL025C YNL216W Resultados e discussões 70 Este último subgrupo de AVM, contendo 11 genes, não é notada a predominância de qualquer TF. Analogicamente ao subgrupo 6, os VMs máximos estão bem próximos do limiar de exclusão. Neste subgrupo, é destacado um TF diferente, Ino4, anotado como fator de transcrição necessários para inbir a repressão dos genes regulados do inositol e colina envolvidos na síntese de fosfolípides e forma um complexo com Ino2p, que liga o complexo do inositol e colina através de um domínio básico hélice-loop-hélice (Transcription factor required for derepression of inositol-choline-regulated genes involved in phospholipid synthesis; forms a complex, with Ino2p, that binds the inositol-choline-responsive element through a basic helix-loop-helix domain) (LOCUS INFORMATION, 2008). 4.4. Comparação entre ATF e AVM Comparando os métodos ATF e AVM, por suas capacidades de agrupamento de genes, em função da interação com TFs, é possível notar que, de forma sistêmica, ATF obteve melhores porcentagens máximas, as quais, representam as interações dos TFs para com os genes dos subgrupos. Ele foi capaz de dispor genes que têm TFs compartilhadas, mais próximos no dendrograma, montado a partir da matriz de distâncias. A linha azul (mais grossa) do Gráfico 5, demonstra as porcentagens máximas obtidas por ATF. Resultados e discussões 71 Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF, em alpha factor 119 minutos. Os resultados obtidos por AVM, são demonstrados, também, pela linha azul (mais grossa) no Gráfico 6. Resultados e discussões 72 Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM, em alpha factor 119 minutos. Juntamente, nos Gráficos 5 e 6, é possível observar o resultado do embaralhamento dos genes. No método ATF (Gráfico 5) é possível notar alguns picos que chegam a 100%, os quais, para alguns subgrupos, foram até mais relevantes que os obtidos pelo método ATF. Entretanto, quando se observa o resultado como um todo, são notáveis as melhores porcentagens máximas deste método desenvolvido. Enquanto que, no Gráfico 6, os resultados do embaralhamento e do método AVM, se confundem. O método de ATF, de forma geral obteve melhores picos, chegando, a maioria deles, a 100%. Este mesmo comportamento, é pouco notado em AVM. Esta tendência foi observada em todos os tempos amostrais, pela secção do conjunto de dados (Apêndice D). Resultados e discussões 73 4.5. Correlações entre ATF e AVM A correlação dos resultados obtidos pelos métodos ATF e AVM, mostrou genes que compartilham perfil de modulação e TFs (Tabela 35). Tabela 35 - Correlações gênicas entre os métodos ATF e AVM SATF ATFa119sg01 SAVM AVMa119sg04 Qtd. correl. Systematic names 7 YML034W;YGL021W;YJR092W;YPL155C; YPL141C;YGR108W;YMR001C ATFa119sg01 AVMa119sg05 10 YLR190W;YML119W;YNL058C;YDR146C; YMR032W;YHR023W;YPR156C;YJL051W; YGL116W;YPL242C ATFa119sg02 AVMa119sg01 2 YLR413W;YBR054W ATFa119sg02 AVMa119sg04 1 YOR315W ATFa119sg02 AVMa119sg05 1 YPR149W ATFa119sg02 AVMa119sg07 1 YPR013C ATFa119sg03 AVMa119sg01 2 YER145C;YBR202W ATFa119sg03 AVMa119sg02 1 YHR005C ATFa119sg03 AVMa119sg03 5 YLR452C;YKL185W;YNL327W;YKL164C; YDR055W ATFa119sg03 AVMa119sg05 1 YHL028W ATFa119sg04 AVMa119sg01 2 YDR033W;YAR018C ATFa119sg04 AVMa119sg02 3 YMR031C;YEL032W;YLR274W ATFa119sg04 AVMa119sg03 1 YJL157C ATFa119sg05 AVMa119sg01 3 YHL040C;YAL022C;YBR069C ATFa119sg05 AVMa119sg02 3 YBL023C;YOR066W;YPR019W ATFa119sg05 AVMa119sg03 1 YNR067C ATFa119sg06 AVMa119sg01 1 YBR093C ATFa119sg06 AVMa119sg04 2 YOR153W;YPR119W ATFa119sg06 AVMa119sg05 1 YGL008C ATFa119sg06 AVMa119sg06 1 YOR114W ATFa119sg06 AVMa119sg07 2 YPL025C;YOL114C ATFa119sg07 AVMa119sg05 2 YNL057W;YPL036W ATFa119sg07 AVMa119sg06 1 YPL124W ATFa119sg07 AVMa119sg07 2 YNL216W;YPL128C ATFa119sg08 AVMa119sg01 1 YPL158C ATFa119sg08 AVMa119sg07 2 YPL264C;YPL269W ATFa119sg09 AVMa119sg01 2 YOL132W;YOR383C ATFa119sg09 AVMa119sg06 1 YOR298W ATFa119sg09 AVMa119sg07 4 YPR111W;YHR006W;YOR235W;YOR258W Legenda: SATF: subgrupos gerados em ATF; SAVM: subgrupos gerados em AVM; Qtd. correl: Quantidade de correlações; Systematic names: identificação das sequências. Para checar a correlação entre ATF e AVM, foram buscados os genes constantes nos subgrupos de ATF em todos os subgrupos de AVM. Quando, a quantidade de genes correlacionados foi igual ou superior a dois, pôde-se observar que estes compartilham TFs e têm perfil de modulação similar (Tabela 35). Resultados e discussões 74 Os genes de ATFa119sg01 estão divididos entre os subgrupos AVMa119sg04 e AVMa119sg05. Para ATFa119sg01 os TFs prevalentes, com 100% de participação, são Fkh1 e Fkh2, os mesmos observados em AVMa119sg04, porém, as porcentagens são inferiores. Em AVMa119sg05, Fkh1 não aparece como o mais atuante, apenas Fkh2 está no topo, mas tal como em AVMa119sg04, não atua sobre todos o genes. Estudos indicam que Fkh2 é essencial para a correta expressão de SWI5 e CLB2, durante certos períodos do ciclo celular, e, também, é fosforilado em tempo adequado. Além disso, o seu relacionamento com a proteína Fkh1, demonstrou que estas proteínas atuam em vias de sobreposição para regular a morfologia e separação celular (PIC et al, 2000). A maior correlação de ATFa119sg02 e ATFFa119sg03 são com AVMa119sg01 e AVMa119sg03, os quais demonstram interações com os TF Sok2 e Ste12, porém, com intensidade diferente, para os dois métodos. ATFa119sg04 demonstra maior correlação com AVMa119sg02, cuja interação principal é dada por Mcm1. Este TF, essencial para viabilidade, participa na ativação e repressão da transcrição e, também, na replicação do DNA (KUO; GRAYHACK, 1994). O subgrupo ATFa119sg05 correlaciona com os subgrupos AVMa119sg01 e AVMa119sg02, porém, em AVMa119sg02 o TF Yox1 demonstram maior atividade. Estudos demonstraram que a ausência de uma expressão essencial (mínima) deste TF leva a perda da regulação do ciclo celular em princípio de fases (early cell cycle boxes [ECB]) (PRAMILA et al, 2002). O subgrupo ATFa119sg06 tem baixa correlação com AVMa119sg04, o que os liga não é o TF mais atuante Swi4, mas sim Fkh2, já discutido em ATFa1119sg01. Aquele que, em AVM, tem como Swi4 o TF mais interativo é AVMa119sg06. Entretanto, a correlação, também é baixa, apenas 2 dentre 7 genes. Em S. cerevisiae, Swi4 forma um complexo com Swi6, o qual ativa a expressão gênica durante a transição de fases G1/S do ciclo celular mitótico (BAETZ et al, 2001). O gene que sintetiza Swi6 não faz parte da lista de genes de ciclo celular (CELLCYCLE, 2008). Em ATFa119sg07, o TF mais atuante é Ste12, porém, ele não interage com todos o genes do subgrupo. Suas maiores correlações são com os subgrupos AVMa119sg05 e AVMa119sg07, ainda assim baixa, apenas 2 genes com cada. Para esses dois últimos subgrupos, Ste12 tem baixa interação com seus genes. O subgrupo ATFa119sg08, talvez o mais interessante, pelo predominância do TF Mbp1, o mais ativo. Este, não apareceu de forma relevante em qualquer dos subgrupos de AVM. Sua correlação é indicada a AVMa119sg07, o qual tem Mbp1 interagindo apenas com 2 Resultados e discussões 75 de 11 genes. Estudos mostraram que cepas que tiveram os genes MBP1 e SWI4 deletados foram inviáveis, demonstrando que suas atividades trancricionais têm papel importante na transição das fases G1/S (RAITHATHA; STUART, 2005; KOCH et al, 1993). O último subgrupo, ATFa119sg09, tem maior correlação com AVMa119sg07 (4 genes), destacando Ino4 como TF mais ativo, porém, em ATF a atividade é maior. 4.6. Categorização MIPS-CYGD Para se conhecer a distribuição dos genes, segundo a categoria de suas funções, dentro dos subgrupos, foi utilizado o catálogo MIPS-CYGD, que dispõe 28 categorias, mais generalistas (RUEPP et al, 2004). Este catálogo, permite que, um determinado gene seja enquadrado em uma ou mais categorias. Portanto, a soma dos genes categorizados, nos subgrupos, é, de modo geral, maior que o total original. Alguns genes, não tiveram categoria definida, para estes foi criada a categoria “00 - There are no MIPS data gene”. Os genes desta categoria foram relacionados somente a ela. Da diversidade original de categorias, 17 foram relacionadas ao conjunto de dados estudado, porém, em nenhum dos subgrupos, este conjunto de categorias foi completamente observado. A soma de todos os genes, categorizados em uma ou mais categorias, totalizou 161 (Tabela 36). Cód. Cat. 10 00 16 20 32 01 43 42 34 11 14 40 18 30 02 12 41 Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias Categorias Qtd. genes CELL CYCLE AND DNA PROCESSING 26 There are no MIPS data gene 16 PROTEIN WITH BINDING FUNCTION OR COFACTOR 14 REQUIREMENT (structural or catalytic) CELLULAR TRANSPORT, TRANSPORT FACILITATION AND 13 TRANSPORT ROUTES CELL RESCUE, DEFENSE AND VIRULENCE 12 METABOLISM 11 CELL TYPE DIFFERENTIATION 11 BIOGENESIS OF CELLULAR COMPONENTS 11 INTERACTION WITH THE ENVIRONMENT 10 TRANSCRIPTION 8 PROTEIN FATE (folding, modification, destination) 8 CELL FATE 7 REGULATION OF METABOLISM AND PROTEIN FUNCTION 5 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION 4 MECHANISM ENERGY 3 PROTEIN SYNTHESIS 1 DEVELOPMENT (Systemic) 1 Total 161 Resultados e discussões 76 A contagem de todas as categorias, em todos os subgrupos oriundos de ATF, totalizou 83 (Tabela 37), o que gerou, uma média de 9,2 categorias por subgrupo. Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos Id. Subgrupo ATFa119sg01 ATFa119sg02 ATFa119sg03 ATFa119sg04 ATFa119sg05 ATFa119sg06 ATFa119sg07 ATFa119sg08 ATFa119sg09 Total Qtd. Genes 17 5 9 6 7 7 5 3 7 66 Qtd. Categorias 14 6 14 12 6 10 11 2 8 83 A Figura 20 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF (Apêndice E). Resultados e discussões 77 ATFa119sg01 43; 4 ATFa119sg02 00; 5 00; 1 43; 1 42; 4 ATFa119sg03 01; 3 10; 3 41; 1 02; 1 40; 3 43; 2 01; 1 42; 2 11; 2 40; 2 32; 1 14; 1 34; 1 11; 2 10; 9 32; 4 16; 3 34; 5 20; 3 20; 1 11; 1 18; 2 16; 3 ATFa119sg04 43; 2 ATFa119sg05 01; 1 32; 1 30; 3 ATFa119sg06 43; 1 00; 1 01; 1 42; 2 20; 2 32; 2 14; 1 14; 4 00; 1 18; 1 00; 3 34; 2 10; 4 20; 3 40; 2 01; 1 32; 2 34; 1 02; 1 10; 3 14; 1 10; 1 32; 1 18; 1 30; 1 16; 3 16; 2 ATFa119sg07 42; 2 20; 2 18; 1 ATFa119sg08 ATFa119sg09 00; 1 43; 1 01; 1 34; 1 02; 1 16; 1 00; 2 42; 1 10; 1 20; 1 32; 1 20; 1 10; 3 14; 1 01; 3 00; 2 16; 2 11; 1 12; 1 11; 2 10; 2 00 - There are no MIPS data gene 01 - METABOLISM 02 - ENERGY 10 - CELL CYCLE AND DNA PROCESSING 11 - TRANSCRIPTION 12 - PROTEIN SYNTHESIS 14 - PROTEIN FATE (folding, modification, destination) 16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) 18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION 20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES 30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM 32 - CELL RESCUE, DEFENSE AND VIRULENCE 34 - INTERACTION WITH THE ENVIRONMENT 40 - CELL FATE 41 - DEVELOPMENT (Systemic) 42 - BIOGENESIS OF CELLULAR COMPONENTS 43 - CELL TYPE DIFFERENTIATION Figura 21. categorização dos genes em subgrupos de ATF, para alpha factor 119 minutos, segundo o catálogo MIPS-CYGD. Resultados e discussões 78 Da mesma forma foi feito para os subgrupos obtidos por AVM. A contagem de todas as categorias, em todos os subgrupos, totalizou 70 (Tabela 38), o que gerou uma média de 10 categorias por subgrupo. Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos Id. Subgrupo AVMa119sg01 AVMa119sg02 AVMa119sg03 AVMa119sg04 AVMa119sg05 AVMa119sg06 AVMa119sg07 Total Qtd. Genes 13 7 7 10 15 3 11 66 Qtd. Categorias 11 5 14 12 14 5 9 70 A Figura 21 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF (Apêndice F). Resultados e discussões 79 AVMa119sg01 43; 1 42; 2 AVMa119sg02 00; 2 AVMa119sg03 00; 2 01; 3 40; 1 10; 4 42; 2 41; 1 30; 1 34; 1 01; 2 43; 3 34; 1 11; 2 40; 3 10; 2 14; 1 32; 4 14; 1 34; 3 16; 1 32; 1 20; 5 10; 4 AVMa119sg04 43; 3 AVMa119sg05 00; 1 43; 3 01; 3 42; 1 16; 2 18; 2 30; 2 20; 1 AVMa119sg06 00; 5 43; 1 00; 1 42; 4 02; 3 34; 1 40; 3 32; 2 10; 5 10; 5 42; 1 01; 1 34; 4 20; 2 11; 1 11; 1 18; 2 14; 2 32; 4 16; 2 14; 3 20; 5 16; 2 10; 2 AVMa119sg07 32; 1 16; 2 42; 1 00; 5 14; 1 12; 1 01; 2 11; 4 10; 4 00 - There are no MIPS data gene 01 - METABOLISM 02 - ENERGY 10 - CELL CYCLE AND DNA PROCESSING 11 - TRANSCRIPTION 12 - PROTEIN SYNTHESIS 14 - PROTEIN FATE (folding, modification, destination) 16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) 18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION 20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES 30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM 32 - CELL RESCUE, DEFENSE AND VIRULENCE 34 - INTERACTION WITH THE ENVIRONMENT 40 - CELL FATE 41 - DEVELOPMENT (Systemic) 42 - BIOGENESIS OF CELLULAR COMPONENTS 43 - CELL TYPE DIFFERENTIATION Figura 22. Categorização dos genes em subgrupos de AVM, para alpha factor 119 minutos, segundo o catálogo MIPS-CYGD. Resultados e discussões 80 Os dois métodos de agrupamento seguiram a mesma tendência. Para os subgrupos com mais genes, a diversidade de categorias foi maior e para aqueles com menos genes, tal diversidade foi menor. Este comportamento, faz supor que não existe um conjunto de genes dentro da mesma categoria, o qual utiliza um ou conjunto de TFs específicos. Genes de diferentes categorias, podem interagir com os mesmos TFs ou vice-versa. Conclusões 81 5. Conclusões A metodologia desenvolvida é uma abordagem diferenciada dos dados, a qual proporciona resultados em função dos fatores de transcrição. O agrupamento por fatores de transcrição demonstrou uma disposição diferenciada dos fatores de transcrição, em relação àquela observada no agrupamento por valores de modulação. A criação de subgrupos possibilitou isolamento de genes sob a atuação de um ou grupo determinado de fatores de transcrição. Pela quantidade de subgrupos gerados em agrupamento por fatores de transcrição, os genes foram melhor distribuídos, o que proporcionou a identificação de fatores de transcrição atuantes, na maioria dos subgrupos, para todos os genes do subgrupo. Esta abordagem é limitada a organismos que tenham os fatores de transcrição já disponíveis na literatura. A correlação entre os dois métodos de agrupamento demonstrou que, para vários genes os fatores de transcrição são compartilhados e os perfis de modulação são similares. O embaralhamento dos genes demonstrou que o agrupamento por fatores de transcrição é consistente para uma abordagem geral dos dados analisados. A categorização MIPS demonstrou que existem genes, nos subgrupos, com diversas categorias atribuídas, para os dois métodos de agrupamento, evidenciando que determinados fatores de transcrição ou grupos destes e perfis de modulação não são exclusivos de genes de uma mesma categoria. Referências bibliográficas 82 6. Referências bibliográficas1 ADAMS, M.D., KELLEY, J.M., GOCAYNE, J.D., DUBNICK, M., POLYMEROPOULOS, M.H., XIAO, H., MERRIL, C.R., WU, A., OLDE, B., MORENO, R.F., KERLAVAGE, A.R., McCOMBIE, W.R., VENTER, J.C., Complementary DNA sequencing: expressed sequence tags and human genome project. Science. Jun 21;252(5013):1651-6, 1991 BAETZ, K., MOFFAT, J., HAYNES, J., CHANG, M., ANDREWS, B., Transcriptional coregulation by the cell integrity mitogen-activated protein kinase Slt2 and the cell cycle regulator Swi4. Mol. Cell. Biol, p. 6515-6528, Vol. 21, No. 19, 2001. BARDWELL, L. A walk-through of the yeast mating pheromone response pathway. Peptides, vol. 26, pp. 339-350, 2004. BOGUSKI, M.Ss, LOWE, T.M., TOLSTOSHEV, C.M., dbEST--database for "expressed sequence tags", Nat Genet. Aug;4(4):332-3, 1993. BRENTANI, R.R., CARRARO, D.M., VERJOVSKI-ALMEIDA, S., REIS, E.M., NEVES, E.J., DE SOUZA, S.J., CARVALHO, A.F., BRENTANI, H., REIS, L.F., Gene expression arrays in cancer research: methods and applications. Crit Rev Oncol Hematol. May;54(2):95-105, 2005 BULAWA, C.E., Genetics and molecular biology of chitin synthesis in fungi. Annu Rev Microbiol.; 47:505-34, 1993. BUSSEMAKER, H.J., LI, H., SIGGIA, E.D., Regulatory element detection using correlation with expression. Nat Genet., 27(2):167–71, 2001. CADDICK, M.X., DOBSON, C., Gene Regulation, in: GOLDMAN, G.H. (Ed.), OSMANI, S.A., (Ed.), The Aspergilli: Genomics, Medical Aspects, Biotechnology, and Research Methods (Hardcover). New York, CRC Press, 2007. CAMPITELI, M.G., SORIANI, F.M., MALAVAZI, I., KINOUCHI, O., PEREIRA, C.A., GOLDMAN, G.H. A reliable measure of similarity based on dependency for short time series: an application to gene expression networks.BMC Bioinformatics. Londres, 10:270, 2009. CAUSTON, H.C., REN, B., KOH, S.S., HARBISON, C.T., KANIN, E., JENNINGS, E.G., LEE, T.I., TRUE, H.L., LANDER, E.S., YOUNG, R.A., Remodeling of yeast genome expression in response to environmental changes. Mol Biol Cell. Feb;12(2):323-37, 2001. CELLCYCLE. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/ CellCycle98.xls> . Acesso em jun. 2008. CLUSTERING. Disponível em: <http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/ hierarchical.html>. Acesso em mar. 2010. 1 De acordo com a Associação Brasileira de Normas Técnicas (ABNT). Referências bibliográficas 83 CONLON, E.M., LIU, X.S., LIEB, J.D., LIU, J.S., Integrating regulatory motif discovery and genome-wide expression analysis. Proc Natl Acad Sci U S A, Mar 18;100(6):3339-44, 2003. DE GOUVÊA, P.F., SORIANI, F.M., MALAVAZI, I., SAVOLDI, M., GOLDMAN, M.H., LOSS, O., BIGNELL, E., DA SILVA FERREIRA, M.E., GOLDMAN, G.H., Functional characterization of the Aspergillus fumigatusPHO80 homologue. Fungal Genet Biol. ;45(7):1135-46, 2008. DE MAESSCHALCK, R., JOUAN-RIMBAUD, D., MASSART, D.L. The Mahalanobis distance. Chemometrics and Intelligent Laboratory Systems, Volume 50, Issue 1, 4, Pages 1-18, January 2000. DEMPSTER, A.P.; LAIRD, N.M.; RUBIN, D.B., Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39 (1): 1–38, 1977. DERISI, J.L., IYER, V.R., BROWN, P.O., Exploring the metabolic and genetic control of gene expression on a genomic scale. Science. Oct 24;278(5338):680-6, 1997. DERMITZAKIS, E.T., REYMOND, A., ANTONARAKIS, S.E., Conserved non-genic sequences - an unexpected feature of mammalian genomes. Nat Rev Genet. Feb;6(2):151-7, 2005. DRAY, S., Dufour, A.B., Chessel, D., The ade4 package-II: Two-table and K-table methods. R News. 7(2): 47-52, 2007. ERNST, J., BAR-JOSEPH, Z. Stem: a tool for the analysis of short time series data. BMC Bioinformatics, vol. 7, no. 191, 2006. FLATFILES. Disponível em: <http://www.yeastract.com/download/ RegulationTwoColumnTable_Documented_20090427.tsv.gz>. Acesso em jun. 2008. FRANCETIC. Disponível Acesso em mar. 2010. em: <http://mrvar.fdv.uni-lj.si/pub/mz/mz2.1/francetic.pdf>. FUNCAT. Disponível em: <http://mips.helmholtz-muenchen.de/genre/proj/yeast/Search/ Catalogs/catalog.jsp>. Acesso em: jun. 2008. GANESH, R., SIEGELE, D.A., IOERGER, T.R., MOPAC: motif finding by preprocessing and agglomerative clustering from microarrays. Pac Symp Biocomput., 41-52, 2003. GEHRING, W.J., AFFOLTER, M., BÜRGLIN, T., Homeodomain proteins. Annual review of biochemistry. 63: 487–526, 1994. GERHOLD, D., CASKEY, C.T., It's the genes! EST access to human genome content. Bioessays. Dec;18(12):973-81, 1996. Referências bibliográficas 84 GOLDMAN, G.H., DOS REIS MARQUES, E., DUARTE RIBEIRO, D.C., DE SOUZA BERNARDES, L.A., QUIAPIN, A.C., VITORELLI, P.M., SAVOLDI, M., SEMIGHINI, C.P., DE OLIVEIRA, R.C., NUNES, L.R., TRAVASSOS, L.R., PUCCIA, R., BATISTA, W.L., FERREIRA, L.E., MOREIRA, J.C., BOGOSSIAN, A.P., TEKAIA, F., NOBREGA, M.P., NOBREGA, F.G., GOLDMAN, M.H., Expressed sequence tag analysis of the human pathogen Paracoccidioides brasiliensis yeast phase: identification of putative homologues of Candida albicans virulence and pathogenicity genes. Eukaryot Cell. Feb;2(1):34-48, 2003. GOWER, J.C., LEGENDRE, P., Metric and Euclidean Properties of Dissimilarity Coefficients. Journal of Classification, New York, 3, 5-48, 1986. GUSTIN, M. C., ALBERTYN, J., ALEXANDER, M., DAVENPORT, K., Map kinase pathways in the yeast saccharomyces cerevisiae. Microbiology and Molecular biology reviews, p. 1264-1300, Vol. 62, No. 4, 1998. HALLAM, T.M., BOURTCHOULADZE, R., Rubinstein-Taybi syndrome: molecular findings and therapeutic approaches to improve cognitive dysfunction. Cell Mol Life Sci. Aug;63(15):1725-35, 2006. HIRASAWA, T., FURUSAWA, C., SHIMIZU, H., Saccharomyces cerevisiae and DNA microarray analyses: what did we learn from it for a better understanding and exploitation of yeast biotechnology? Appl Microbiol Biotechnol. Jun;87(2):391-400, 2010. HOLMES, I., BRUNO, W.J., Finding regulatory elements using joint likelihoods for sequence and expression profile data. Proc Int Conf Intell Syst Mol. Biol., 8:202–10, 2000. HIERARCHICAL CLUSTERING. Disponível em: <http://www.resample.com/xlminer/help/ HClst/HClst_intro.htm>. Acesso em mar. 2010. HU, Z., FU, Y., HALEES, A., KIELBASA, S., WENG, S., SeqVISTA: a new module of integrated computational tools for studying transcriptional regulation. Proc Natl Acad Sci USA. 32:W235–W241, 2004. JAIN, A.K., MURTY, M.N., FLYNN, P.J., Data Clustering: A Review. ACM Computing Surveys, Vol. 31, No. 3, September, 1999. JONES, R.G., THOMPSON, C.B., Tumor suppressors and cell metabolism: a recipe for cancer growth. Genes Dev. Mar 1;23(5):537-48, 2009 KARIN, M., Too many transcription factors: positive and negative interactions. New Biol. 2 (2): 126–31, 1990. Referências bibliográficas 85 KATAYAMA, S., TOMARU, Y., KASUKAWA, T., WAKI, K., NAKANISHI, M., NAKAMURA, M., NISHIDA, H., YAP, C.C., SUZUKI, M., KAWAI, J., SUZUKI, H., CARNINCI, P., HAYASHIZAKI, Y., WELLS, C., FRITH, M., RAVASI, T., PANG, K.C., HALLINAN, J., MATTICK, J., HUME, D.A., LIPOVICH, L., BATALOV, S., ENGSTROM, P.G., MIZUNO, Y., FAGHIHI, M.A., SANDELIN, A., CHALK, A.M., MOTTAGUI-TABAR, S., LIANG, Z., LENHARD, B., WAHLESTEDT, C., RIKEN Genome Exploration Research Group, Genome Science Group (Genome Network Project Core Group), FANTOM Consortium, Antisense transcription in the mammalian transcriptome. Science. Sep 2;309(5740):1564-6, 2005. KIM, S.K., LUND, J., KIRALY, M., DUKE, K., JIANG, M., STUART, J.M., EIZINGER, A., WYLIE, B.N., DAVIDSON, G.S.. A gene expression map for Caenorhabditis elegans. Science. Sep 14;293(5537):2087-92, 2001. KELBERMAN, D., RIZZOTI, K., LOVELL-BADGE, R., ROBINSON, I.C., DATTANI, M.T., Genetic regulation of pituitary gland development in human and mouse. Endocr Rev. Dec;30(7):790-829. Epub 2009 Oct 16, 2009. KOCH, C., MOLL, T., NEUBERG, M., AHORN, H., NASMYTH, K., A role for the transcription factors Mbp1 and Swi4 in progression from G1 to S phase. Science, Sep 17;261(5128):1551-7, 1993. KOEFFLER, H.P., MCCORMICK, F., DENNY, C., Molecular mechanisms of cancer. West J Med. Nov;155(5):505-14, 1991. KULESH, D.A., CLIVE, D.R., ZARLENGA, D.S., GREENE, J.J., Identification of interferon-modulated proliferation-related cDNA sequences. Proc Natl Acad Sci USA; 84 (23): 8453–8457, 1987. KUO, M.H., GRAYHACK, E., A library of yeast genomic MCM1 binding sites contains genes involved in cell cycle control, cell wall and membrane structure, and metabolism. Mol. Cell. Biol. Jan;14(1):348-59, 1994. LAITY, J.H., LEE, B.M., WRIGHT, P.E., Zinc finger proteins: new insights into structural and functional diversity. Current opinion in structural biology 11 (1): 39–46, 2001. LATCHMAN, D.S. Transcription factors: an overview. Int. J. Biochem. Cell Biol. 29 (12): 1305–12, 1997. LATCHMAN, D.S., Regulation of transcription factor activity. In:______. Eukaryotic trancription factor. 5ed. Londres:Academic Press, p.312-372, 2007. LAWRENCE, C.E., ALTSCHUL, S.F., BOGUSKI, M.S., LIU, J.S., NEUWALD, A.F., WOOTTON, J.C., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, Oct 8;262(5131):208-14, 1993. LEMMENS, K., DHOLLANDER, T., DE BIE. T., MONSIEURS, P., ENGELEN, K., SMETS, B., WINDERICKX, J., DE MOOR, B., MARCHAL, K., Inferring transcriptional modules from ChIP-chip, motif and microarray data.Genome Biol. 7(5):R37, 2006. Referências bibliográficas 86 LITTLEWOOD, T.D., EVAN, G.I. Transcription factors 2: helix-loop-helix. Protein profile 2 (6): 621–702, 1995. LOCUS INFORMATION. Disponível em: <http://www.yeastract.com/view.php? existing=locus&orfname=[gene_name]>. Acessado em jun. 2008. LYNCH, V.J., ROTH, J.J., WAGNER, G.P., Adaptive evolution of Hox-gene homeodomains after cluster duplications. BMC Evolutionary Biology, 6:86, 2006. MANNING, C. D., RAGHAVAN, P., SCHÜTZE, H. Hierarchical Clustering. In:______. An Introduction to Information Retrieval, Cambridge:Cambridge University Press, p.377-402, 2009. MORANGE, M., The field of cancer research: an indicator of present transformations in biology. Oncogene. Dec 6;26(55):7607-10, 2007. NUNES, L.R., COSTA DE OLIVEIRA, R., LEITE, D.B., DA SILVA, V.S., DOS REIS MARQUES, E., DA SILVA FERREIRA, M.E., RIBEIRO, D.C., DE SOUZA BERNARDES, L.A., GOLDMAN, M.H., PUCCIA, R., TRAVASSOS, L.R., BATISTA, W.L., NOBREGA, M.P., NOBREGA, F.G., YANG, D.Y., DE BRAGANCA PEREIRA, C.A., GOLDMAN, G.H., Transcriptome analysis of Paracoccidioides brasiliensis cells undergoing mycelium-to-yeast transition. Eukaryot Cell. Dec;4(12):2115-28, 2005. OVCHARENKO, I., BOFFELLI, D., LOOTS, G.G., eShadow: a tool for comparing closely related sequences.Genome Res. Jun;14(6):1191-8, 2004. PAPWORTH, M., KOLASINSKA, P., MINCZUK, M., Designer zinc-finger proteins and their applications.Gene. Jan 17;366(1):27-38, 2005. PAVESI, G., MAURI, G., PESOLE, G., In silico representation and discovery of transcription factor binding sites. Brief Bioinform., 5: 217-236, 2004. PIC, A., LIM, F.L., ROSS, S.J., VEAL, E.A., JOHNSON, A.L., SULTAN, M.R., WEST, A.G., JOHNSTON, L.H., SHARROCKS, A.D., MORGAN, B.A. The forkhead protein Fkh2 is a component of the yeast cell cycle transcription factor SFF. The EMBO Journal, 19, 3750 – 3761, 2000. PRAMILA, T., MILES, S., GUHATHAKURTA, D., JEMIOLO, D., BREEDEN, L.L.Conserved homeodomain proteins interact with MADS box protein Mcm1 to restrict ECB-dependent transcription to the M/G1 phase of the cell cycle. Genes Dev. December 1; 16(23): 3034–3045, 2002. R development Core Team: R: A language and environment for statistical computing. In: R Foundation for Statistical Computing, Vienna, Austria. 2008. Disponível em:<http://www.R-project.org>. Acesso em : nov. 2008. Referências bibliográficas 87 RAITHATHA, S.A., STUART, D.T. Meiosis-specific regulation of the Saccharomyces cerevisiae S-phase cyclin CLB5 is dependent on MluI cell cycle box (MCB) elements in its promoter but is independent of MCB-binding factor activity. Genetics, Vol. 169, 1329-1342, March, 2005. RAWDATA. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/ combined.txt>. Acesso em jun. 2008. RELIGA, T.L., JOHNSON, C.M., VU, D.M., BREWER, S.H., DYER, R.B., FERSHT, A.R., The helix-turn-helix motif as an ultrafast independently folding domain: The pathway of folding of Engrailed homeodomain. Proc Natl Acad Sci U S A, 104, 9272-9277, 2007. RUDD, S., Expressed sequence tags: alternative or complement to whole genome sequences? Trends Plant Sci. Jul;8(7):321-9, 2003. RUEPP, A., ZOLLNER, A., MAIER, D., ALBERMANN, K., HANI, J., MOKREJS, M., TETKO, I., GÜLDENER, U., MANNHAUPT, G., MÜNSTERKÖTTER, M., MEWES, H.W., The FunCat, a functional annotation scheme for systematic classification of proteins from whole genomes. Nucleic Acids Res 32, 5539-5545, 2004. SANDVE, G.K., DRABLØS, F., A survey of motif discovery methods in an integrated framework. Biol Direct., Apr 6;1:11, 2006. SCHENA, M., SHALON, D., DAVIS, R.W., BROWN, P.O.,Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science. Oct 20;270(5235):46770, 1995. SGD. Disponível em: <http://www.yeastgenome.org>. Acesso em: mar. 2010. SMITH, L.M., SANDERS, J.Z., KAISER, R.J., HUGHES, P., DODD, C., CONNELL, C.R., HEINER, C., KENT, S.B., HOOD, L.E. Fluorescence detection in automated DNA sequence analysis. Nature. Jun 12-18;321(6071):674-9, 1986. SPELLMAN, P.T., SHERLOCK, G., ZHANG, M.Q., IYER, V.R., ANDERS, K., EISEN, M.B., BROWN, .PO., BOTSTEIN, D., FUTCHER, B., Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell. Dec;9(12):3273-97, 1998. STOUGHTON, R.B., Applications of DNA microarrays in biology.Annu Rev Biochem.; 74:53-82, 2005. TASSABEHJI, M., READ, A.P., NEWTON, V.E., HARRIS, R., BALLING, R., GRUSS, P., STRACHAN, T., Waardenburg's syndrome patients have mutations in the human homologue of the Pax-3 paired box gene. Nature. Feb 13;355(6361):635-6, 1992. TURLACH, B.A., Bandwidth selection in kernel density estimation: a review. In CORE and Institut de Statistique, pp. 23-493, 1993. Referências bibliográficas 88 VINSON, C., MYAKISHEV, M., ACHARYA, A., MIR, A.A., MOLL, J.R., BONOVICH, M., Classification of human B-ZIP proteins based on dimerization properties. Molecular and cellular biology, 22 (18): 6321–35, 2002. WARD, J.H., Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association, Vol. 58, No. 301, pp. 236-244, 1963. WASSERMAN, W.W., SANDELIN, A., Applied bioinformatics for the identification of regulatory elements. Nature Reviews Genetics, 5, 276-287, 2004. WINTJENS, R., ROOMAN, M., Structural classification of HTH DNA-binding domains and protein-DNA interaction modes. Journal of molecular biology, 262 (2): 294–313, 1996. XPLORE. Disponível em: <http://fedc.wiwi.hu-berlin.de/xplore/tutorials/ xaghtmlframe142.html>. Acesso em: mar. 2010. YEASTRACT. Disponível em: <http://www.yeastract.com>. Acesso em: mar. 2010. ZHOU, H.M., WANG, J., ROGERS, R., CONWAY, S.J., Lineage-specific responses to reduced embryonic Pax3 expression levels. Dev Biol. Mar 15;315(2):369-82, 2007. Apêndices 89 Apêndice A – Tabela contendo a relação de TFs induzidos atribuídos aos genes. Tabela contendo a relação de TFs induzidos atribuídos aos genes Systematic names TFA TFU TFs YAL022C YAR018C YBL023C YBR054W 18 4 7 31 8 3 5 11 YBR069C YBR093C YBR202W YDR033W YDR055W 12 21 12 12 18 5 7 7 3 11 YDR146C 16 10 YEL032W YER145C YGL008C YGL021W YGL116W 5 19 15 6 19 3 6 8 3 9 YGR108W YHL028W 21 28 8 14 YHL040C YHR005C YHR006W YHR023W YJL051W YJL157C YJR092W YKL164C 19 10 6 12 8 7 7 16 6 5 4 6 6 2 6 9 YKL185W YLR190W YLR274W YLR413W YLR452C YML034W YML119W YMR001C YMR031C YMR032W YNL057W YNL058C YNL216W YNL327W YNR067C YOL114C YOL132W YOR066W Continua 6 6 5 17 12 3 14 6 9 7 4 5 4 12 13 9 3 7 5 4 3 6 4 2 6 5 3 5 2 4 3 6 6 4 1 5 Ime4; Mal33; Mcm1; Smp1; Stb1; Swi5; Yap6; Yox1 Fkh2; Mcm1; Yox1 Ace2; Hcm1; Mbp1; Swi4; Yox1 Abf1; Cin5; Fkh2; Hap4; Hsf1; Rgm1; Sok2; Ste12; Stp2; Swi4; Yap6 Cin5; Phd1; Ste12; Stp2; Yox1 Fkh2; Pho4; Rap1; Sut1; Swi4; Tec1; Thi2 Mcm1; Phd1; Rap1; Sok2; Ste12; Tec1; Yox1 Cin5; Fkh2; Mcm1 Ace2; Ash1; Hap4; Pho4; Rlm1; Sok2; Ste12; Swi4; Swi5; Tec1; Ume6 Azf1; Fkh1; Fkh2; Ino2; Ino4; Mcm1; Rap1; Reb1; Sok2; Ste12 Mcm1; Ste12; Yox1 Phd1; Rap1; Sok2; Ste12; Swi4; Tec1 Ace2; Azf1; Fkh2; Hsf1; Mbp1; Mcm1; Rap1; Swi4 Fkh1; Fkh2; Mcm1 Bas1; Fkh1; Fkh2; Ino4; Mcm1; Rap1; Smp1; Ste12; Yox1 Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Sok2; Ste12; Swi4 Abf1; Ace2; Fkh2; Hsf1; Mal33; Mcm1; Mig1; Phd1; Rap1; Rlm1; Smp1; Sok2; Ste12; Xbp1 Cin5; Hap4; Hcm1; Phd1; Ste12; Thi2 Mcm1; Phd1; Sok2; Ste12; Tec1 Ino4; Mcm1; Stp2; Tye7 Fkh1; Fkh2; Mcm1; Sok2; Ste12; Stp2 Fkh1; Fkh2; Mcm1; Pho4; Rap1; Ume6 Mcm1; Ste12 Ash1; Fkh1; Fkh2; Mcm1; Rap1; Ste12 Ace2; Mcm1; Phd1; Rlm1; Smp1; Sok2; Ste12; Swi5; Tec1 Ace2; Mcm1; Smp1; Sok2; Swi5 Fkh1; Fkh2; Mcm1; Rap1 Mcm1; Reb1; Yox1 Cin5; Sok2; Ste12; Stp2; Tec1; Yap6 Mcm1; Rap1; Sok2; Ste12 Fkh1; Fkh2 Cin5; Fkh1; Fkh2; Hap4; Mcm1; Reb1 Fkh1; Fkh2; Mcm1; Reb1; Yox1 Fkh2; Mcm1; Ste12 Abf1; Fkh1; Fkh2; Mcm1; Ste12 Abf1; Fkh2 Fkh1; Fkh2; Mcm1; Rlm1 Rap1; Reb1; Ste12 Ace2; Azf1; Mcm1; Rap1; Sok2; Swi5 Ace2; Ste12; Sut1; Swi5; Yap6; Yox1 Ash1; Fkh1; Fkh2; Swi4 Sok2 Hcm1; Mbp1; Mcm1; Ste12; Yox1 Apêndices 90 conclusão Systematic names YOR114W YOR153W YOR235W YOR258W YOR298W YOR315W TFA 2 29 9 5 7 34 TFU 2 7 4 2 2 14 YOR383C YPL025C YPL036W YPL124W YPL128C YPL141C YPL155C YPL158C YPL242C YPL264C YPL269W YPR013C 20 10 19 5 3 4 5 6 11 4 4 26 5 6 5 2 1 3 4 4 7 1 1 12 YPR019W YPR111W YPR119W YPR149W 6 6 12 29 2 2 8 9 TFs Sok2; Swi4 Ash1; Hap4; Ino4; Mbp1; Rap1; Sok2; Swi4 Ifh1; Ino4; Rme1; Yap6 Ino4; Yrr1 Ino4; Sok2 Cin5; Fkh1; Fkh2; Ino4; Mcm1; Phd1; Rap1; Rlm1; Sok2; Ste12; Sum1; Swi4; Tec1; Yap6 Mig1; Pho4; Rme1; Sok2; YPR015C Ace2; Ash1; Fkh2; Phd1; Sok2; Swi4 Abf1; Azf1; Ime4; Rgm1; Ste12 Azf1; Swi4 Ste12 Fkh1; Fkh2; Ste12 Fkh1; Fkh2; Ino4; Ste12 Ace2; Ino4; Mbp1; Swi5 Abf1; Cha4; Fkh1; Fkh2; Mbp1; Mcm1; Yox1 Mbp1 Mbp1 Azf1; Cin5; Cup9; Fkh1; Hcm1; Ino4; Phd1; Sok2; Ste12; Swi4; Tec1; Yap6 Hap4; Yox1 Ino4; Rap1 Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Reb1; Swi4; Xbp1 Fkh2; Mig1; Rap1; Sok2; Ste12; Stp2; Swi4; Tec1; Yap6 Fkh1; Fkh2; Mcm1; Sok2; Ste12; Swi4; Tec1 YPR156C 10 7 Total 757 349 Legenda: Systematic names: Identificação das sequências; TFA: Todos os TFs inicialmente atribuídos aos genes; TFU: Apenas TFs induzidos; TFs: Relação dos TFs dos genes. Apêndices 91 Apêndice B - Matriz de presença/ausência de TFs para os 66 genes selecionados em alpha Mbp1 Mcm1 Mig1 Phd1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 0 0 1 1 0 0 0 1 0 0 1 1 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 1 0 Rlm1 Mal33 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 Rgm1 Ino4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Reb1 Ino2 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Pho4 Ime4 1 1 0 0 1 1 1 0 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 1 1 0 1 0 1 1 0 0 0 0 0 0 1 0 1 0 0 Rap1 Ifh1 1 0 0 0 1 0 1 0 1 1 0 0 1 0 0 0 1 1 0 0 1 1 0 1 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 Hsf1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Hcm1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Fkh2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Hap4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Fkh1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 Cin5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 Cup9 Azf1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 1 1 1 0 0 0 0 0 0 Bas1 Ash1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Cha4 Abf1 YML034W YNL057W YPL264C YPL269W YGL021W YDR033W YLR190W YPR111W YML119W YNL058C YOR298W YOL132W YDR146C YLR452C YPL036W YNL216W YJR092W YMR032W YMR031C YJL157C YPL155C YPL141C YPL128C YHR023W YGR108W YOR153W YPL025C YOR114W YGL008C YOL114C YPL124W YKL185W YNL327W YPL158C YKL164C YER145C YPR156C YHR005C YBR093C YHL040C YHR006W Continua Ace2 factor 119 minutos. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 Apêndices 92 continua Yrr1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Yox1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Yap6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 Xbp1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 YPR015C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 Ume6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 1 1 0 1 0 0 Thi2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 Tye7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Tec1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Swi5 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 Sut1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Swi4 Sum1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 1 1 0 1 1 1 1 0 0 0 Stp2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 Stb1 Sok2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Ste12 Smp1 YML034W YNL057W YPL264C YPL269W YGL021W YDR033W YLR190W YPR111W YML119W YNL058C YOR298W YOL132W YDR146C YLR452C YPL036W YNL216W YJR092W YMR032W YMR031C YJL157C YPL155C YPL141C YPL128C YHR023W YGR108W YOR153W YPL025C YOR114W YGL008C YOL114C YPL124W YKL185W YNL327W YPL158C YKL164C YER145C YPR156C YHR005C YBR093C YHL040C YHR006W Rme1 continuação 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Apêndices 93 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 1 1 0 0 1 1 1 1 1 1 1 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 Rlm1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Reb1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 Rgm1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Rap1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Pho4 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 Phd1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 Mig1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 Mbp1 0 1 1 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 Mcm1 Fkh2 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Ino4 Fkh1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 Mal33 Cup9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 Ino2 Cin5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 Ifh1 Cha4 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Ime4 Bas1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Hsf1 Azf1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 Hap4 Ash1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 Hcm1 Abf1 YDR055W YJL051W YPR119W YHL028W YOR383C YOR315W YPR149W YPR013C YLR413W YBR054W YOR235W YNR067C YAL022C YBR202W YBL023C YBR069C YGL116W YOR066W YEL032W YMR001C YLR274W YPL242C YAR018C YPR019W YOR258W continua Ace2 continuação 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Apêndices 94 Yrr1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Yox1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Yap6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Xbp1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 YPR015C 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 Ume6 1 0 1 0 0 1 1 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 Thi2 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 Tye7 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Tec1 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 Swi5 1 0 0 1 0 1 1 1 1 1 0 1 0 1 0 1 1 1 1 0 0 0 0 0 0 Sut1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 Swi4 Sum1 1 0 0 1 1 1 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 Stp2 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 Stb1 Sok2 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Ste12 Smp1 YDR055W YJL051W YPR119W YHL028W YOR383C YOR315W YPR149W YPR013C YLR413W YBR054W YOR235W YNR067C YAL022C YBR202W YBL023C YBR069C YGL116W YOR066W YEL032W YMR001C YLR274W YPL242C YAR018C YPR019W YOR258W Rme1 conclusão 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Apêndices 95 Apêndice C – Tabela das anotações funcionais dos genes induzidos (xi ≥ 0,5) em alpha factor 119 minutos. Systematic Name Standard Alias Name Description YAL022C FUN26 YAL022C YAR018C KIN3 YBL023C MCM2 FUN52, NPK1 YBL023C Nucleoside transporter with broad nucleoside selectivity; localized to intracellular membranes Nonessential protein kinase with unknown cellular role YBR054W YRO2 YBR054W Putative protein of unknown function; the authentic, nontagged protein is detected in a phosphorylated state in highly purified mitochondria in high-throughput studies; transcriptionally regulated by Haa1p YBR069C TAT1 TAP1, VAP1 Amino acid transport protein for valine, leucine, isoleucine, and tyrosine, low-affinity tryptophan and histidine transporter; overexpression confers FK506 and FTY720 resistance YBR093C PHO5 PHOE Repressible acid phosphatase (1 of 3) that also mediates extracellular nucleotide-derived phosphate hydrolysis; secretory pathway derived cell surface glycoprotein; induced by phosphate starvation and coordinately regulated by PHO4 and PHO2 YBR202W MCM7 CDC47 Component of the hexameric MCM complex, which is important for priming origins of DNA replication in G1 and becomes an active ATP-dependent helicase that promotes DNA melting and elongation when activated by Cdc7p-Dbf4p in S-phase Protein involved in DNA replication; component of the Mcm2-7 hexameric complex that binds chromatin as a part of the pre-replicative complex YDR033W MRH1 YDR033W Protein that localizes primarily to the plasma membrane, also found at the nuclear envelope; the authentic, non-tagged protein is detected in mitochondria in a phosphorylated state; has similarity to Hsp30p and Yro2p YDR055W PST1 HPF2 Cell wall protein that contains a putative GPI-attachment site; secreted by regenerating protoplasts; up-regulated by activation of the cell integrity pathway, as mediated by Rlm1p; upregulated by cell wall damage via disruption of FKS1 YDR146C SWI5 YDR146C Transcription factor that activates transcription of genes expressed at the M/G1 phase boundary and in G1 phase; localization to the nucleus occurs during G1 and appears to be regulated by phosphorylation by Cdc28p kinase YEL032W MCM3 YEL032W Protein involved in DNA replication; component of the Mcm2-7 hexameric complex that binds chromatin as a part of the pre-replicative complex YER145C FTR1 YER145C continua High affinity iron permease involved in the transport of iron across the plasma membrane; forms complex with Fet3p; expression is regulated by iron Apêndices 96 continuação Systematic Name Standard Alias Name Description YGL008C PMA1 KTI10 Plasma membrane H+-ATPase, pumps protons out of the cell; major regulator of cytoplasmic pH and plasma membrane potential; part of the P2 subgroup of cation-transporting ATPases YGL021W ALK1 YGL021W Protein kinase; accumulation and phosphorylation are periodic during the cell cycle; phosphorylated in response to DNA damage; contains characteristic motifs for degradation via the APC pathway; similar to Alk2p and to mammalian haspins YGL116W CDC20 PAC5 Cell-cycle regulated activator of anaphase-promoting complex/cyclosome (APC/C), which is required for metaphase/anaphase transition; directs ubiquitination of mitotic cyclins, Pds1p, and other anaphase inhibitors; potential Cdc28p substrate YGR108W CLB1 SCB1 B-type cyclin involved in cell cycle progression; activates Cdc28p to promote the transition from G2 to M phase; accumulates during G2 and M, then targeted via a destruction box motif for ubiquitin-mediated degradation by the proteasome YHL028W WSC4 YFW1, YHC8 YHL040C ARN1 YHL040C ER membrane protein involved in the translocation of soluble secretory proteins and insertion of membrane proteins into the ER membrane; may also have a role in the stress response but has only partial functional overlap with WSC1-3 Transporter, member of the ARN family of transporters that specifically recognize siderophore-iron chelates; responsible for uptake of iron bound to ferrirubin, ferrirhodin, and related siderophores YHR005C GPA1 CDC70, DAC1, SCG1 GTP-binding alpha subunit of the heterotrimeric G protein that couples to pheromone receptors; negatively regulates the mating pathway by sequestering G(beta)gamma and by triggering an adaptive response; activates Vps34p at the endosome YHR006W STP2 YHR006W Transcription factor, activated by proteolytic processing in response to signals from the SPS sensor system for external amino acids; activates transcription of amino acid permease genes YHR023W MYO1 YHR023W Type II myosin heavy chain, required for wild-type cytokinesis and cell separation; localizes to the actomyosin ring; binds to myosin light chains Mlc1p and Mlc2p through its IQ1 and IQ2 motifs respectively YJL051W IRC8 YJL051W Bud tip localized protein of unknown function; mRNA is targeted to the bud by a She2p dependent transport system; mRNA is cell cycle regulated via Fkh2p, peaking in G2/M phase; null mutant displays increased levels of spontaneous Rad52p foc YJL157C FAR1 YJL157C Cyclin-dependent kinase inhibitor that mediates cell cycle arrest in response to pheromone; also forms a complex with Cdc24p, Ste4p, and Ste18p that may specify the direction of polarized growth during mating; potential Cdc28p substrate continua Apêndices 97 continuação Systematic Name Standard Alias Name Description YJR092W BUD4 YJR092W Protein involved in bud-site selection and required for axial budding pattern; localizes with septins to bud neck in mitosis and may constitute an axial landmark for next round of budding; potential Cdc28p substrate YKL164C PIR1 CCW6 O-glycosylated protein required for cell wall stability; attached to the cell wall via beta-1,3-glucan; mediates mitochondrial translocation of Apn1p; expression regulated by the cell integrity pathway and by Swi5p during the cell cycle YKL185W ASH1 YKL185W Zinc-finger inhibitor of HO transcription; mRNA is localized and translated in the distal tip of anaphase cells, resulting in accumulation of Ash1p in daughter cell nuclei and inhibition of HO expression; potential Cdc28p substrate YLR190W MMR1 YLR190W Phosphorylated protein of the mitochondrial outer membrane, localizes only to mitochondria of the bud; interacts with Myo2p to mediate mitochondrial distribution to buds; mRNA is targeted to the bud via the transport system involving She2p YLR274W MCM5 BOB1, CDC46 YLR413W NO_C YLR452C SST2 YLR413W Putative protein of unknown function; YLR413W is not an essential gene YLR452C GTPase-activating protein for Gpa1p, regulates desensitization to alpha factor pheromone; also required to prevent receptor-independent signaling of the mating pathway; member of the RGS (regulator of G-protein signaling) family Component of the hexameric MCM complex, which is important for priming origins of DNA replication in G1 and becomes an active ATP-dependent helicase that promotes DNA melting and elongation when activated by Cdc7p-Dbf4p in S-phase YML034W SRC1 HEH1, Inner nuclear membrane (INM) protein with a putative role in YML033W sister chromatid segregation, potentially phosphorylated by Cdc28p; contains helix-extension-helix (HEH) motif, nuclear localization signal sequence YML119W NO_C YML119W Putative protein of unknown funtion; YML119W is not an essential gene; potential Cdc28p substrate MSD2, Polo-like kinase with similarity to Xenopus Plx1 and S. pombe PKX2 Plo1p; found at bud neck, nucleus and SPBs; has multiple functions in mitosis and cytokinesis through phosphorylation of substrates; may be a Cdc28p substrate YMR001C CDC5 YMR031C NO_C YMR032W HOF1 continua YMR031C Protein of unknown function with similarity to Ykl050cp and Uso1p; the authentic, non-tagged protein is detected in a phosphorylated state in highly purified mitochondria in highthroughput studies; YMR031C is not an essential gene CYK2 Bud neck-localized, SH3 domain-containing protein required for cytokinesis; regulates actomyosin ring dynamics and septin localization; interacts with the formins, Bni1p and Bnr1p, and with Cyk3p, Vrp1p, and Bni5p Apêndices 98 continuação Systematic Name Standard Alias Name YNL057W NO_C YNL058C NO_C YNL216W RAP1 GRF1, TBA1, TUF1 YNL327W EGT2 YNL327W Glycosylphosphatidylinositol (GPI)-anchored cell wall endoglucanase required for proper cell separation after cytokinesis, expression is activated by Swi5p and tightly regulated in a cell cycle-dependent manner YNR067C DSE4 ENG1 YOL114C NO_C YOL114C YOL132W GAS4 YOL132W 1,3-beta-glucanosyltransferase, involved with Gas2p in spore wall assembly; has similarity to Gas1p; localizes to the cell wall YOR29-17 Activator of G1-specific transcription factors, MBF and SBF, that regulates both the timing of G1-specific gene transcription, and cell cycle initiation; potential Cdc28p substrate YOR066W MSA1 Description YNL057W Dubious open reading frame unlikely to encode a protein, based on available experimental and comparative sequence data YNL058C Putative protein of unknown function; green fluorescent protein (GFP)-fusion protein localizes to the vacuole; YNL058C is not an essential gene DNA-binding protein involved in either activation or repression of transcription, depending on binding site context; also binds telomere sequences and plays a role in telomeric position effect (silencing) and telomere structure Daughter cell-specific secreted protein with similarity to glucanases, degrades cell wall from the daughter side causing daughter to separate from mother Putative protein of unknown function with similarity to human ICT1 and prokaryotic factors that may function in translation termination; YOL114C is not an essential gene YOR114W NO_C YOR153W PDR5 YOR114W LEM1, STS1, YDR1 YOR235W NO_C YOR235W Hypothetical protein; null mutant displays increased levels of spontaneous Rad52 foci YOR258W Member of the third branch of the histidine triad (HIT) superfamily of nucleotide-binding proteins; similar to Aprataxin, a Hint related protein that is mutated in individuals with ataxia with oculomotor apraxia YOR258W HNT3 YOR298W MUM3 Hypothetical protein Plasma membrane ATP-binding cassette (ABC) transporter, short-lived multidrug transporter actively regulated by Pdr1p; also involved in steroid transport, cation resistance, and cellular detoxification during exponential growth YOR315W SFG1 YOR298W Protein of unknown function involved in the organization of the outer spore wall layers; has similarity to the tafazzins superfamily of acyltransferases YOR315W Nuclear protein, putative transcription factor required for growth of superficial pseudohyphae (which do not invade the agar substrate) but not for invasive pseudohyphal growth; may act together with Phd1p; potential Cdc28p substrate YOR383C YOR383C continua FIT3 Mannoprotein that is incorporated into the cell wall via a glycosylphosphatidylinositol (GPI) anchor, involved in the retention of siderophore-iron in the cell wall Apêndices 99 continuação Systematic Standard Alias Name Name Description YPL025C YPL036W NO_C PMA2 YPL025C YPL036W Hypothetical protein Plasma membrane H+-ATPase, isoform of Pma1p, involved in pumping protons out of the cell; regulator of cytoplasmic pH and plasma membrane potential YPL124W SPC29 LPH3, NIP29 Inner plaque spindle pole body (SPB) component, links the central plaque component Spc42p to the inner plaque component Spc110p; required for SPB duplication YPL128C TBF1 LPI16 Telobox-containing general regulatory factor; binds to TTAGGG repeats within subtelomeric anti-silencing regions (STARs) and possibly throughout the genome and mediates their insulating capacity by blocking silent chromatin propagation YPL141C NO_C YPL141C YPL155C KIP2 YPL155C Putative protein kinase; similar to Kin4p; green fluorescent protein (GFP)-fusion protein localizes to the cytoplasm; YPL141C is not an essential gene Kinesin-related motor protein involved in mitotic spindle positioning, stabilizes microtubules by targeting Bik1p to the plus end; Kip2p levels are controlled during the cell cycle YPL158C NO_C YPL158C Protein of unknown function; null mutant displays increased frequency of mitochondrial genome loss (petite formation) and reduced growth rate in minimal glycerol media YPL242C IQG1 CYK1 Essential protein required for determination of budding pattern, promotes localization of axial markers Bud4p and Cdc12p and functionally interacts with Sec3p, localizes to the contractile ring during anaphase, member of the IQGAP family YPL264C NO_C YPL264C Putative membrane protein of unknown function; physically interacts with Hsp82p; YPL264C is not an essential gene YPL269W KAR9 YPL269W Karyogamy protein required for correct positioning of the mitotic spindle and for orienting cytoplasmic microtubules, localizes at the shmoo tip in mating cells and at the tip of the growing bud in small-budded cells through anaphase YPR013C NO_C YPR013C Putative zinc finger protein; YPR013C is not an essential gene YPR019W MCM4 CDC54, HCD21 Essential helicase component of heterohexameric MCM2-7 complexes which bind pre-replication complexes on DNA and melt the DNA prior to replication; accumulates in the nucleus in G1; homolog of S. pombe Cdc21p YPR111W DBF20 YPR111W Ser/Thr kinase involved in late nuclear division, one of the mitotic exit network (MEN) proteins; necessary for the execution of cytokinesis YPR119W CLB2 YPR119W B-type cyclin involved in cell cycle progression; activates Cdc28p to promote the transition from G2 to M phase; accumulates during G2 and M, then targeted via a destruction box motif for ubiquitin-mediated degradation by the proteasome continua Apêndices 100 conclusão Systematic Name Standard Alias Name Description YPR149W NCE102 NCE2 Protein of unknown function; contains transmembrane domains; involved in secretion of proteins that lack classical secretory signal sequences; component of the detergentinsoluble glycolipid-enriched complexes (DIGs) YPR156C TPO3 YPR156C Polyamine transport protein specific for spermine; localizes to the plasma membrane; member of the major facilitator superfamily NO_C: UNCHARACTERIZED Apêndices 101 Apêndice D - Gráficos dos agrupamentos ATF e AVM originais e embaralhados referentes aos diversos tempos amostrais de alpha factor continua Apêndices continuação continua 102 Apêndices continuação continua 103 Apêndices conclusão 104 Apêndices 105 Apêndice E – Identificação dos genes agrupados por ATF distribuídos em categorias MIPS. Genes, separados em subgrupos de ATF, enquadrados em uma ou mais categorias, para alpha factor 119 minutos Id. Subgrupo ATFa119sg01 Cód. Cat. 10 ATFa119sg01 00 There are no MIPS data gene '5/17 ATFa119sg01 14 '4/17 ATFa119sg01 42 ATFa119sg01 43 ATFa119sg01 32 ATFa119sg01 20 PROTEIN FATE (folding, modification, destination) BIOGENESIS OF CELLULAR COMPONENTS CELL TYPE DIFFERENTIATION CELL RESCUE, DEFENSE AND VIRULENCE CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES ATFa119sg01 16 PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '3/17 17,65 YJR092W; YMR032W; YPL242C ATFa119sg01 40 CELL FATE '3/17 ATFa119sg01 01 METABOLISM '3/17 ATFa119sg01 18 REGULATION OF METABOLISM AND PROTEIN FUNCTION '2/17 17,65 YMR032W; YHR023W; YPL242C 17,65 YGL021W; YPL141C; YMR001C 11,76 YGR108W; YGL116W ATFa119sg01 ATFa119sg01 ATFa119sg01 11 02 34 TRANSCRIPTION ENERGY INTERACTION WITH THE ENVIRONMENT '1/17 '1/17 '1/17 5,88 YDR146C 5,88 YHR023W 5,88 YDR146C ATFa119sg02 ATFa119sg02 11 14 '2/5 '1/5 40,00 YOR315W; YPR013C 20,00 YPR149W ATFa119sg02 32 '1/5 20,00 YBR054W ATFa119sg02 ATFa119sg02 00 43 '1/5 '1/5 20,00 YLR413W 20,00 YOR315W ATFa119sg02 20 TRANSCRIPTION PROTEIN FATE (folding, modification, destination) CELL RESCUE, DEFENSE AND VIRULENCE There are no MIPS data gene CELL TYPE DIFFERENTIATION CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '1/5 20,00 YPR149W continua Categorias Razão Perc. Systematic name genes CELL CYCLE AND DNA PROCESSING '9/17 52,94 YGL021W; YDR146C; YMR032W; YPL155C; YHR023W; YGR108W; YGL116W; YMR001C; YPL242C 29,41 YML034W; YLR190W; YML119W; YNL058C; YJL051W 23,53 YGL021W; YPL141C; YGL116W; YMR001C 23,53 YMR032W; YPL155C; YHR023W; YPL242C 23,53 YJR092W; YMR032W; YHR023W; YPL242C 23,53 YGL021W; YHR023W; YPR156C; YPL242C 17,65 YPL155C; YHR023W; YPR156C '4/17 '4/17 '4/17 '3/17 Apêndices continuação Id. Subgrupo 106 ATFa 119sg03 Cód. Cat. 34 ATFa 119sg03 10 ATFa 119sg03 16 ATFa 119sg03 Categorias Razão Perc. Systematic name genes INTERACTION WITH THE ENVIRONMENT '5/9 CELL CYCLE AND DNA PROCESSING PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '3/9 30 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM '3/9 33,33 YLR452C; YHR005C; YHL028W ATFa 119sg03 ATFa 119sg03 11 42 '2/9 '2/9 22,22 YLR452C; YKL185W 22,22 YKL164C; YHL028W ATFa 119sg03 43 '2/9 22,22 YKL185W; YDR055W ATFa 119sg03 20 '2/9 22,22 YKL164C; YER145C ATFa 119sg03 32 '2/9 22,22 YKL164C; YHL028W ATFa 119sg03 ATFa 119sg03 40 14 '2/9 '1/9 22,22 YKL185W; YNL327W 11,11 YLR452C ATFa 119sg03 ATFa 119sg03 ATFa 119sg03 41 01 18 TRANSCRIPTION BIOGENESIS OF CELLULAR COMPONENTS CELL TYPE DIFFERENTIATION CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES CELL RESCUE, DEFENSE AND VIRULENCE CELL FATE PROTEIN FATE (folding, modification, destination) DEVELOPMENT (Systemic) METABOLISM REGULATION OF METABOLISM AND PROTEIN FUNCTION '1/9 '1/9 '1/9 11,11 YKL185W 11,11 YNL327W 11,11 YLR452C ATFa119sg04 10 '4/6 ATFa119sg04 16 CELL CYCLE AND DNA PROCESSING PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) 66,67 YJL157C; YEL032W; YLR274W; YAR018C 50,00 YJL157C; YEL032W; YLR274W ATFa119sg04 43 '2/6 33,33 YJL157C; YAR018C ATFa119sg04 42 '2/6 33,33 YJL157C; YAR018C ATFa119sg04 ATFa119sg04 40 14 '2/6 '1/6 33,33 YJL157C; YAR018C 16,67 YAR018C ATFa119sg04 ATFa119sg04 00 32 CELL TYPE DIFFERENTIATION BIOGENESIS OF CELLULAR COMPONENTS CELL FATE PROTEIN FATE (folding, modification, destination) There are no MIPS data gene CELL RESCUE, DEFENSE AND VIRULENCE '1/6 '1/6 16,67 YMR031C 16,67 YDR033W continua '3/9 '3/6 55,56 YLR452C; YKL185W; YER145C; YHR005C; YHL028W 33,33 YNL327W; YDR055W; YBR202W 33,33 YLR452C; YHR005C; YBR202W Apêndices continuação Id. Subgrupo 107 ATFa119sg04 Cód. Cat. 30 ATFa119sg04 ATFa119sg04 01 34 ATFa119sg04 18 ATFa119sg05 10 ATFa119sg05 20 ATFa119sg05 Categorias Razão Perc. Systematic name genes CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM METABOLISM INTERACTION WITH THE ENVIRONMENT REGULATION OF METABOLISM AND PROTEIN FUNCTION '1/6 16,67 YJL157C '1/6 '1/6 16,67 YAR018C 16,67 YJL157C '1/6 16,67 YJL157C CELL CYCLE AND DNA PROCESSING CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '3/7 42,86 YNR067C; YBL023C; YPR019W 42,86 YHL040C; YAL022C; YBR069C 16 PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '2/7 28,57 YBL023C; YPR019W ATFa119sg05 32 '1/7 14,29 YHL040C ATFa119sg05 ATFa119sg05 00 01 CELL RESCUE, DEFENSE AND VIRULENCE There are no MIPS data gene METABOLISM '1/7 '1/7 14,29 YOR066W 14,29 YNR067C ATFa119sg06 00 There are no MIPS data gene '3/7 ATFa119sg06 20 CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '2/7 42,86 YPL025C; YOR114W; YOL114C 28,57 YOR153W; YGL008C ATFa119sg06 32 '2/7 28,57 YOR153W; YBR093C ATFa119sg06 34 '2/7 28,57 YOR153W; YGL008C ATFa119sg06 10 '1/7 14,29 YPR119W ATFa119sg06 43 '1/7 14,29 YPR119W ATFa119sg06 ATFa119sg06 02 16 CELL RESCUE, DEFENSE AND VIRULENCE INTERACTION WITH THE ENVIRONMENT CELL CYCLE AND DNA PROCESSING CELL TYPE DIFFERENTIATION ENERGY PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '1/7 '1/7 14,29 YGL008C 14,29 YOR153W ATFa119sg06 ATFa119sg06 01 18 METABOLISM REGULATION OF METABOLISM AND PROTEIN FUNCTION '1/7 '1/7 14,29 YBR093C 14,29 YPR119W ATFa119sg07 10 CELL CYCLE AND DNA PROCESSING '3/5 60,00 YNL216W; YPL128C; YPL124W continua '3/7 Apêndices conclusão Id. Subgrupo 108 ATFa119sg07 ATFa119sg07 Cód. Cat. 11 42 ATFa119sg07 16 ATFa119sg07 ATFa119sg07 Categorias Razão Perc. Systematic name genes TRANSCRIPTION BIOGENESIS OF CELLULAR COMPONENTS PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '2/5 '2/5 40,00 YNL216W; YPL128C 40,00 YNL216W; YPL124W '2/5 40,00 YNL216W; YPL128C 00 20 There are no MIPS data gene CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '1/5 '1/5 20,00 YNL057W 20,00 YPL036W ATFa119sg07 ATFa119sg07 02 32 '1/5 '1/5 20,00 YPL036W 20,00 YNL216W ATFa119sg07 ATFa119sg07 ATFa119sg07 12 01 34 ENERGY CELL RESCUE, DEFENSE AND VIRULENCE PROTEIN SYNTHESIS METABOLISM INTERACTION WITH THE ENVIRONMENT '1/5 '1/5 '1/5 20,00 YNL216W 20,00 YNL216W 20,00 YPL036W ATFa119sg08 ATFa119sg08 00 10 There are no MIPS data gene CELL CYCLE AND DNA PROCESSING '2/3 '1/3 66,67 YPL264C; YPL158C 33,33 YPL269W ATFa119sg09 01 METABOLISM '3/7 ATFa119sg09 10 '2/7 ATFa119sg09 ATFa119sg09 00 14 '2/7 '1/7 28,57 YOR235W; YOR258W 14,29 YPR111W ATFa119sg09 ATFa119sg09 11 42 '1/7 '1/7 14,29 YHR006W 14,29 YOL132W ATFa119sg09 43 '1/7 14,29 YOR298W ATFa119sg09 20 CELL CYCLE AND DNA PROCESSING There are no MIPS data gene PROTEIN FATE (folding, modification, destination) TRANSCRIPTION BIOGENESIS OF CELLULAR COMPONENTS CELL TYPE DIFFERENTIATION CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES 42,86 YPR111W; YOR298W; YOL132W 28,57 YPR111W; YOR298W '1/7 14,29 YOR383C Apêndices 109 Apêndice F – Identificação dos genes agrupados por AVM distribuídos em categorias MIPS. Genes, separados em subgrupos de AVM, enquadrados em uma ou mais categorias, para alpha factor 119 minutos Id. Subgrupo AVMa119sg01 Cód. Cat. 20 AVMa119sg01 32 AVMa119sg01 01 AVMa119sg01 10 AVMa119sg01 AVMa119sg01 00 42 AVMa119sg01 14 AVMa119sg01 43 AVMa119sg01 16 AVMa119sg01 AVMa119sg01 40 34 CELL FATE INTERACTION WITH THE ENVIRONMENT '1/13 '1/13 7,69 YAR018C 7,69 YER145C AVMa119sg02 16 PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '5/7 71,43 YHR005C; YBL023C; YEL032W; YLR274W; YPR019W AVMa119sg02 10 '4/7 AVMa119sg02 AVMa119sg02 00 30 '2/7 '1/7 57,14 YBL023C; YEL032W; YLR274W; YPR019W 28,57 YMR031C; YOR066W 14,29 YHR005C AVMa119sg02 34 CELL CYCLE AND DNA PROCESSING There are no MIPS data gene CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM INTERACTION WITH THE ENVIRONMENT '1/7 14,29 YHR005C AVMa119sg03 10 CELL CYCLE AND DNA PROCESSING '4/7 57,14 YJL157C; YNL327W; YDR055W; YNR067C continua Categorias Razão Perc. Systematic name genes CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '5/13 38,46 YER145C; YHL040C; YOR383C; YAL022C; YBR069C CELL RESCUE, DEFENSE AND VIRULENCE METABOLISM '4/13 CELL CYCLE AND DNA PROCESSING There are no MIPS data gene BIOGENESIS OF CELLULAR COMPONENTS PROTEIN FATE (folding, modification, destination) CELL TYPE DIFFERENTIATION PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '2/13 30,77 YDR033W; YBR093C; YHL040C; YBR054W 23,08 YOL132W; YBR093C; YAR018C 15,38 YBR202W; YAR018C '2/13 '2/13 15,38 YPL158C; YLR413W 15,38 YOL132W; YAR018C '1/13 7,69 YAR018C '1/13 7,69 YAR018C '1/13 7,69 YBR202W '3/13 Apêndices continuação Id. Subgrupo 110 AVMa119sg03 Cód. Cat. 43 AVMa119sg03 40 AVMa119sg03 34 AVMa119sg03 AVMa119sg03 11 42 AVMa119sg03 16 AVMa119sg03 Categorias Razão Perc. Systematic name genes CELL TYPE DIFFERENTIATION CELL FATE '3/7 '2/7 '2/7 42,86 YJL157C; YKL185W; YDR055W 42,86 YJL157C; YKL185W; YNL327W 42,86 YLR452C; YJL157C; YKL185W 28,57 YLR452C; YKL185W 28,57 YJL157C; YKL164C INTERACTION WITH THE ENVIRONMENT TRANSCRIPTION BIOGENESIS OF CELLULAR COMPONENTS PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '3/7 '2/7 28,57 YLR452C; YJL157C 30 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM '2/7 28,57 YLR452C; YJL157C AVMa119sg03 AVMa119sg03 01 18 METABOLISM REGULATION OF METABOLISM AND PROTEIN FUNCTION PROTEIN FATE (folding, modification, destination) DEVELOPMENT (Systemic) CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES CELL RESCUE, DEFENSE AND VIRULENCE '2/7 '2/7 28,57 YNL327W; YNR067C 28,57 YLR452C; YJL157C AVMa119sg03 14 '1/7 14,29 YLR452C AVMa119sg03 AVMa119sg03 41 20 '1/7 '1/7 14,29 YKL185W 14,29 YKL164C AVMa119sg03 32 '1/7 14,29 YKL164C AVMa119sg04 10 CELL CYCLE AND DNA PROCESSING '5/10 50,00 YGL021W; YPL155C; YGR108W; YPR119W; YMR001C AVMa119sg04 14 '3/10 AVMa119sg04 43 AVMa119sg04 01 PROTEIN FATE (folding, modification, destination) CELL TYPE DIFFERENTIATION METABOLISM AVMa119sg04 20 CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '2/10 30,00 YGL021W; YPL141C; YMR001C 30,00 YJR092W; YPR119W; YOR315W 30,00 YGL021W; YPL141C; YMR001C 20,00 YPL155C; YOR153W continua '3/7 '3/10 '3/10 Apêndices continuação Id. Subgrupo 111 AVMa119sg04 Cód. Cat. 16 AVMa119sg04 32 AVMa119sg04 18 AVMa119sg04 AVMa119sg04 AVMa119sg04 11 00 42 AVMa119sg04 34 AVMa119sg05 10 CELL CYCLE AND DNA PROCESSING '5/15 33,33 YDR146C; YMR032W; YHR023W; YGL116W; YPL242C AVMa119sg05 00 There are no MIPS data gene '5/15 33,33 YNL057W; YLR190W; YML119W; YNL058C; YJL051W AVMa119sg05 20 CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES '5/15 33,33 YPL036W; YHR023W; YGL008C; YPR156C; YPR149W AVMa119sg05 42 BIOGENESIS OF CELLULAR COMPONENTS '4/15 26,67 YMR032W; YHR023W; YHL028W; YPL242C AVMa119sg05 32 '4/15 AVMa119sg05 34 AVMa119sg05 43 AVMa119sg05 02 CELL RESCUE, DEFENSE AND VIRULENCE INTERACTION WITH THE ENVIRONMENT CELL TYPE DIFFERENTIATION ENERGY AVMa119sg05 40 CELL FATE '3/15 AVMa119sg05 14 PROTEIN FATE (folding, modification, destination) '2/15 26,67 YHR023W; YPR156C; YHL028W; YPL242C 26,67 YDR146C; YPL036W; YGL008C; YHL028W 20,00 YMR032W; YHR023W; YPL242C 20,00 YPL036W; YHR023W; YGL008C 20,00 YMR032W; YHR023W; YPL242C 13,33 YPR149W; YGL116W continua Categorias Razão Perc. Systematic name genes PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '2/10 20,00 YJR092W; YOR153W CELL RESCUE, DEFENSE AND VIRULENCE REGULATION OF METABOLISM AND PROTEIN FUNCTION '2/10 20,00 YGL021W; YOR153W '2/10 20,00 YGR108W; YPR119W TRANSCRIPTION There are no MIPS data gene BIOGENESIS OF CELLULAR COMPONENTS INTERACTION WITH THE ENVIRONMENT '1/10 '1/10 '1/10 10,00 YOR315W 10,00 YML034W 10,00 YPL155C '1/10 10,00 YOR153W '4/15 '3/15 '3/15 Apêndices conclusão Id. Subgrupo 112 AVMa119sg05 Cód. Cat. 16 Categorias Razão Perc. Systematic name genes PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '2/15 13,33 YMR032W; YPL242C AVMa119sg05 AVMa119sg05 11 30 TRANSCRIPTION CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM REGULATION OF METABOLISM AND PROTEIN FUNCTION '1/15 '1/15 6,67 YDR146C 6,67 YHL028W AVMa119sg05 18 '1/15 6,67 YGL116W AVMa119sg06 10 CELL CYCLE AND DNA PROCESSING There are no MIPS data gene BIOGENESIS OF CELLULAR COMPONENTS METABOLISM CELL TYPE DIFFERENTIATION '2/3 66,67 YOR298W; YPL124W AVMa119sg06 AVMa119sg06 00 42 '1/3 '1/3 33,33 YOR114W 33,33 YPL124W AVMa119sg06 AVMa119sg06 01 43 '1/3 '1/3 33,33 YOR298W 33,33 YOR298W AVMa119sg07 00 There are no MIPS data gene '5/11 45,45 YPL264C; YPL025C; YOL114C; YOR235W; YOR258W AVMa119sg07 10 '4/11 AVMa119sg07 11 CELL CYCLE AND DNA PROCESSING TRANSCRIPTION AVMa119sg07 16 PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic) '2/11 36,36 YPL269W; YPR111W; YNL216W; YPL128C 36,36 YNL216W; YPL128C; YHR006W; YPR013C 18,18 YNL216W; YPL128C AVMa119sg07 AVMa119sg07 01 14 '2/11 '1/11 18,18 YPR111W; YNL216W 9,09 YPR111W AVMa119sg07 42 '1/11 9,09 YNL216W AVMa119sg07 32 '1/11 9,09 YNL216W AVMa119sg07 12 METABOLISM PROTEIN FATE (folding, modification, destination) BIOGENESIS OF CELLULAR COMPONENTS CELL RESCUE, DEFENSE AND VIRULENCE PROTEIN SYNTHESIS '1/11 9,09 YNL216W '4/11 Apêndices 113 Apêndice G: Manuscrito In silico gene clustering by transcription factors and differential expression Luciano Angelo de Souza Bernardes1; Silvana Giuliatti1 1 Department of genetics of Faculdade de Medicina de Ribeirão Preto – FMRP - USP Abstract Living organisms are continuously modulating their genes in response to intrinsic and extrinsic changes. Little is known about the complex that involves gene regulation, but the transcription factors are one of these elements. The basic hypothesis is that if the transcription factors are responsible for a gene modulation profile along the time, genes should be grouped by the factors that induced the share each time the sample was observed, allowing a more dynamic follow-up and not only by the expression profile. To develop efficient computational methods to analyze large amount of data obtained in experiments is a challenging problem for computational / bioinformatics. The goal was to group genes using transcription factors and modulation profiles. The clustering methods are currently considering all points of the modulation profile of genes and the greater the amount of these items, better is for clustering. To enable cluster by transcription factors it was created a matrix of presence / absence of genes for transcription factors and modulation profiles were temporally accumulated. The results obtained were better than those of the clustering method for expression, which were observed by the interactions of factors with the genes in analyzed subgroups, resulting in its majority to cover all of them. The correlation of the subgroups of the two methods was partial, which means, some genes in some subgroups share the same TFs and have very similar expression profile. Introduction Living organisms, prokaryotes or eukaryotes, in general have thousands of genes. Throughout its life they produce different proteins through differentiate modulating (repression or induction) of genes, stimulated by intrinsic or extrinsic characteristics. Usually, in multicellular organisms, the genome is identical in all cells, what differs from each other is the distinct set of genes that modulates. In simpler organisms (unicellular), distinct sets of Apêndices 114 genes also modulate, considering the availability of nutrients, the physical and chemical environment, among others, and also in response to changes that may reprogram gene modulation, through its biochemical capacity (CAUSTON et al, 2001). Thus, it becomes a matter great importance to understand the mechanisms that control and the characteristic elements of genes involved in modulating the different stages of development. Transcription Factors Transcription factors (TF) is a family of proteins that play an important role in regulating gene transcription. They bind to certain points of the sequence of DNA, and by this connection, in response to specific stimuli, control the transcription of genetic information in DNA into RNA. Transcription is one of the most widely studied processes in molecular biology (WASSEMAN; SANDELIN, 2004). Points of DNA binding (binding sites or motifs) are short sequences, between 5 and 25 pairs of length base (KARIN, 1990) with possible degeneration into its patterns. In lower eukaryotes, it is estimated that these points are located immediately preceding the beginning of the gene, a region that comprises 800-1000 pair bases. However there is no consensus about this. After the transcription, the product generated is automatically submitted to the other stages of gene expression such as RNA splicing, resulting in the production of the corresponding protein (LATCHMAN, 1997). The study of regulatory regions of genes with similar transcription patterns revealed the presence of short sequences of DNA shared between them, the same was not observed in genes that have not had the same pattern of expression. For example, genes which transcription is induced in response to high temperature contain a common regulatory element known as heat-shock (HSE), which is absent in genes that do not show the same induction. Evidence that these sequences are of critical importance in the production of gene transcription were experiments that transferred the HSE element of a temperature-inducible gene to a thymidine kinase gene, which is usually not inducible in this condition. This hybrid gene was introduced into a cell and the temperature was heighten, soon it was noticed an increase in the production of thymidine kinase, indicating that the HSE was the direct inducer of this gene. This experiment proved that the transferred element is a binding site for regulatory proteins known as TFs, which alternatively regulate the gene transcription positively or negatively, to produce the observed effect on transcription (LATCHMAN, 1995). Apêndices 115 Searching Algorithms for motifs For over three decades, researchers search for these motifs (SANDVE; DRABLOS, 2006). For this, several algorithms were written, the first methods were based on consensus which is the search of snippets into groups of similar sequences, allowing or not variations in the lengths and / or heading. The passages commonly encountered assumed as motifs, are then aligned with a corresponding profile, which receives a score. Therefore, it generated a new consensus, which is considered a potential hotspot for the transcription factor (PAVESE; MAURI; PESOLA, 2004). After the advent of microarray (KULESK et al, 1987, SCHENA et al, 1995) it was created the possibility that clusters were generated based on the expression of these genes by hierarchical clustering or k-means. On this basis, the search for motifs began to be conducted in groups of genes with similar modulations, however, gene expression could be caused by functionally different mechanisms. Considering this behavior, researchers have developed new types of algorithms, based on joint probability (HOLMES, BRUNO, 2000), which outlines a model for the relation sequence-expression using the Gibbs algorithm (LAWRENCE et al, 1993) and Expectation / maximization (DEMPSTER, LAIRD; RUBIM, 1977). A different perspective enabled the development of an algorithm that uses logarithmic term, which considers only unique sets of expression reasons and returns statistically significant motifs (BUSSEMAKER, LI; SIGGGIA, 2001). Following the timeline, a new approach enabled the creation of an algorithm using the matrix and regression of expression, which recognizes motifs in changes of expression under certain conditions (COLON et al, 2003). The use of parameters in the beginning, also, inspired algorithms, they consider any prior knowledge or expectation about the data sets, which may be prerequisites for any type of algorithms listed above (PAVESE; MAURI; PESOLA, 2004). Similarly, a set of data used as a background, working as a negative control, would also be an additional parameter, in order to obtain different results (GANESH; SIEGEL; IOERGER, 2003). Using genomic comparison, regions and elements were sought phylogenetically conserved regions between the genomes of humans, and different breeds of rats and dogs to create a systematic catalog of common motifs in promoter regions. An approach was developed and applied to compute and statistically evaluate conservation profiles of multiple sequences aligned closely related species (DERMITZAKIS; REYMOND; ANTONARAKIS, 2005; OVCHARENKO; BOFFELLI; LOOTS, 2004). More advanced methods tend to Apêndices 116 integrate multiple computational methods and experimental data. In an approach called seqVISTA, researchers incorporated data from CHIP-on-chip, microarray and motifs (HU et al, 2006; LEMMENS et al, 2006). Dados de Saccharomyces cerevisiae Many experiments were performed, whether sideboard or in silico motifs on this and also on certain bodies, which allowed the creation of specialized databases on organisms. The Saccharomyces cerevisiae Genome Database (SGD; CHERRY et al., 1997) is perhaps the broadest, which provides information on the various genes of this organism. This allows approaches and processes that are only nowadays are currently possible. For example, the analytical tools available on the site Yeast Search for Transcriptional Regulators And Consensus Tracking (YEASTRACT; TEIXEIRA et al., 2006). From this last one, we collected data of transcription factors and functional notes needed for the development of the proposed analysis, while data on gene modulation were obtained from the experiment by Spellman and colleagues (1998). Methodology Modulation values were used (VM), obtained by the microarray technique, of 800 genes involved in cell cycle, the Saccharomyces cerevisiae fungus, available by Spellman and colleagues (1998; these data have been used in many other studies). The TFs, whose interaction with the target gene has been proved by experiments in sideboards and subsequent disclosure statement in the scientific literature, were obtained from the site YEASTRACT (TEIXEIRA et al., 2006). VMs and TFs data related to genes were synchronized. Then, we selected genes with MV equal to or greater than a threshold value at a sample time of 119 minutes. After that, it was made the diversity of all TFs, and created a matrix of presence / absence that gave a bit 1 for the presence of TF gene or bit 0 otherwise. Using this matrix of presence / absence it was created a distance matrix of genes and from this the dendrogram was created. Next step was to divide the dendrogram for the creation of subgroups, with at least three genes each. For each subgroup, we calculated the ratio and percentages of interactions of TFs with the genes of the subgroups. Still, were performed processes such as: functional categorization; shuffling of Apêndices 117 genes to test the efficiency of the methodology, and correlation between the methodologies by cluster transcription factors (ATF) and grouping by modulation profile (AVM). Results and Discussion Graph 1 shows the maximum percentage of the more interactive TF, for each of the created subgroups. On the left one it is shown the performance of ATF (thick blue line) and the right performance of AVM (thick blue line). The remaining lines (thin) show the results obtained by the shuffling of genes. Graph 1. Maximum percentage of the more interactive TFs in the subgroups, obtained by ATF (left) and AVM (direct), in 119 minutes alpha factor. The layout of the thick blue line obtained by the ATF method (left) showed that various subgroups have at least one TF that interacts with all the genes of the subgroup (100%), while in AVM (right) this was not observed. The other lines, results of the mixture, several peaks that reach 100%, which, for some subgroups, were even more relevant than those obtained by the method ATF. However, when we see the result as a whole best maximum percentage of ATF are noticed. While in the chart on the right, the results of the method of scrambling and AVM, were confounded. Aiming to understand the behavior of the ATF with smaller amounts of data, we performed a cumulative section, for sampling times, of the data set. Thus, we created 16 different subsets, with values of gene modulation, which, along with the file of TFs, were subjected to all processes of the methodology. This sectioning is not an usual approach in clustering of genes modulated by values, since the greater the amount of time sampling, the better for the algorithm to weave more stable relationships between genes and thus create robust and reliable dendrograms (ERNST; BAR -JOSEPH, 2006). However, this procedure was adopted so that they could observe the behavior and performance of the proposed Apêndices 118 methodology (ATF), for different data sets, and also create conditions of equal comparison between the methods. Figure 2 shows the comparison of method results for the different sampling times. In it are represented the average maximum percentage of each subgroup. These maximum percentages were calculated by the performance of TFs in the gene synthesis of the subgroups. Comparativo da média das porcentagens máximas de subgrupos de ATF e AVM, em alpha factor 120 110 100 Porcentagens médias 90 80 70 60 50 40 30 20 10 0 119min 112min 105min 98min 91min 84min 77min 70min 63min 56min 49min 42min 35min 28min 21min AVM 14min ATF Tempos amostrais Graph 2. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the maximum average percentages of subgroups, for each sampling time in alpha factor. The mark on top of each bar corresponds to standard deviation. Figure 2 shows that, systemically, ATF had averages of maximum percentage greater than AVM. So, it is more efficient in the clustering of genes, because of the sharing of TFs. In the definition of the subgroups (Figure 3), ATF, also demonstrated higher bars than those of AVM. Except for two sampling times (63 and 105 minutes), ATF has created more time subgroups by sampling time. Comparativo da quantidade de subgrupos de ATF e AVM, em alpha factor 25 Qtds. subgrupos 20 15 10 5 0 119min 112min 105min 98min 91min 84min 77min 70min 63min 56min 49min 42min 35min 28min 21min A VM 14min A TF Tempos amostrais Graph 3. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the quantities of subgroups created for each sampling time of alpha factor. Apêndices 119 We could say that the creation of a greater number of subgroups, concentrating less genes, has isolated them in a better way, and facilitated the achievement of better maximums. However, even when ATF generated fewer subgroups (63 and 105 minutes) their maximum average percentage remained higher. Considering all the percentages of all the sampling times of the alpha factor experiment, from the largest to the smallest, in each subgroup and sampling time, graph 4 shows the performance of ATF and AVM. Comparativo de todas as porcentagens de subgrupos de ATF e AVM, em alpha factor 110 100 90 Porcentagens 80 70 60 50 40 30 20 10 0 176 169 162 155 148 141 134 127 120 113 106 99 92 85 78 71 64 57 50 43 36 29 22 15 8 1 ATF Quantidades AVM Graph 4. Comparison of all the percentages obtained in subgroups of all sampling times by ATF and AVM in alpha factor. The lines of graph 4 show the difference between ATF and AVM, in terms of quantity and percentages obtained. ATF, using the same set of data of AVM obtained more maximum values and, moreover, when these figures have declined, in ATF it was more pronounced than an AVM. Showing that the number of TFs that do not interact with all of the genes of the subgroups is reduced in comparison with AVM. Conclusions This analysis was a different approach from previous ones because it did not require complex mathematical methods, neither so few parameters in the beginning. The upkeep of the performance with different data sets showed that ATF can be used even in experiments with few sampling times. According to the researchers Ernst and Bar-Joseph (2006), about a third of microarray experiments has 3 to 8 sampling times. The matrix of presence / absence provided a measurement of distances between the genes on the basis of their TFs. With the value of distance matrices were created the Apêndices 120 dendrograms. The ATF dendrogram showed better proximity to genes that showed more homogeneous characteristics, and also managed to isolate well the heterogeneity of the subgroups. This arrangement allowed the creation of better defined subgroups, which resulted in more interactive TFs with the genes of the subgroups. The analysis of several sets of data showed that the ATF arrange them in a better way when compared to AVM, and also that this arrangement was not random, according to the fine lines of Chart 1. The MIPS categorization also contributes to the validation of ATF, because the diversity of categories was large for both methods, demonstrating that there is not one or group of TF directly related to one category or the modulation profile. Even with all the positive points highlighted, this methodology only limits those organisms that have defined TFs, because unlike most of the tools and methods, it does not seek to discover the TFs, but to use them, assuming that these are the right ones. Indeed, this limitation will diminish as more experiments, looking for this kind of data, are performed for different organisms. Livros Grátis ( http://www.livrosgratis.com.br ) Milhares de Livros para Download: Baixar livros de Administração Baixar livros de Agronomia Baixar livros de Arquitetura Baixar livros de Artes Baixar livros de Astronomia Baixar livros de Biologia Geral Baixar livros de Ciência da Computação Baixar livros de Ciência da Informação Baixar livros de Ciência Política Baixar livros de Ciências da Saúde Baixar livros de Comunicação Baixar livros do Conselho Nacional de Educação - CNE Baixar livros de Defesa civil Baixar livros de Direito Baixar livros de Direitos humanos Baixar livros de Economia Baixar livros de Economia Doméstica Baixar livros de Educação Baixar livros de Educação - Trânsito Baixar livros de Educação Física Baixar livros de Engenharia Aeroespacial Baixar livros de Farmácia Baixar livros de Filosofia Baixar livros de Física Baixar livros de Geociências Baixar livros de Geografia Baixar livros de História Baixar livros de Línguas Baixar livros de Literatura Baixar livros de Literatura de Cordel Baixar livros de Literatura Infantil Baixar livros de Matemática Baixar livros de Medicina Baixar livros de Medicina Veterinária Baixar livros de Meio Ambiente Baixar livros de Meteorologia Baixar Monografias e TCC Baixar livros Multidisciplinar Baixar livros de Música Baixar livros de Psicologia Baixar livros de Química Baixar livros de Saúde Coletiva Baixar livros de Serviço Social Baixar livros de Sociologia Baixar livros de Teologia Baixar livros de Trabalho Baixar livros de Turismo