UNIVERSIDADE DE SÃO PAULO
FACULDADE DE MEDICINA DE RIBEIRÃO PRETO
DEPARTAMENTO DE GENÉTICA
LUCIANO ANGELO DE SOUZA BERNARDES
Agrupamento in silico de genes por fatores de transcrição
e expressão diferencial
Ribeirão Preto – SP
2010
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
LUCIANO ANGELO DE SOUZA BERNARDES
Agrupamento in silico de genes por fatores de transcrição
e expressão diferencial
Ribeirão Preto – SP
2010
i
LUCIANO ANGELO DE SOUZA BERNARDES
Agrupamento in silico de genes por fatores de transcrição
e expressão diferencial
Tese apresentada à Faculdade de
Medicina de Ribeirão Preto da
Universidade de São Paulo para a
obtenção do título de Doutor em Ciências
Biológicas
Área de concentração: Genética
Orientadora: Profa. Dra. Silvana Giuliatti
Ribeirão Preto – SP
2010
ii
Nome: Bernardes, Luciano Angelo de Souza
Título: Agrupamento in silico de genes por fatores de transcrição e expressão
diferencial
Tese apresentada à Faculdade de
Medicina de Ribeirão Preto da
Universidade de São Paulo para a
obtenção do título de Doutor em Ciências
Biológicas
Aprovado em:
Banca Examinadora
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
iii
Dedico este trabalho
Aos meus queridos pais, Diva e Jadir, pelo carinho e compreensão.
iv
AGRADECIMENTOS
Agradeço à prof. Dra. Silvana Giuliatti, pela oportunidade e confiança.
À Dra. Mônica Campiteli pelas discussões e contribuições.
Ao prof. Dr. Ademilson Espencer Egea Soares, coordenador da Pós-graduação do
Departamento de Genética, pelo apoio.
Aos amigos contemporâneos que integram ou já integraram o Grupo de Bioinformática (GBi)
do Departamento de Genética, Daniel Macedo de Melo Jorge, Renato David Puga, Saulo
Amui, André Luis da Silva Breve, Gabriela Félix Persinoti, Nilson Nicolau Junior, Luiz
Fernando Martins Pignata e Pablo Rodrigo Sanches, pela convivência e paciência.
Aos amigos do Laboratório de Biologia Molecular da Faculdade de Ciências Farmacêuticas
de Ribeirão Preto – USP, pelos esclarecimentos relativos a área biológica.
A Daniel Macedo de Melo Jorge, Ricardo Vêncio, Gláucia e Meilyn pela amizade.
Aos alunos, funcionários e professores do Departamento de Genética com os quais convivi ao
longo dos anos de doutoramento.
À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo suporte
financeiro.
v
RESUMO
Os organismos vivos apresentam milhares de genes, os quais, geralmente de forma conjunta,
são continuamente modulados. Entretanto, em resposta as alterações do ambiente, utilizando
sua capacidade bioquímica, podem se reprogramarem em função da disponibilidade de
nutrientes e as condições físicas e químicas do meio. Assim, se torna uma questão de suma
importância compreender os mecanismos que controlam e os elementos característicos
envolvidos na modulação dos genes das diferentes fases do desenvolvimento. Pouco ainda é
conhecido sobre o complexo que envolve a regulação gênica, mas os fatores de transcrição
são um desses elementos. A hipótese levantada é que se os fatores de transcrição são um dos
responsáveis pelo perfil de modulação gênica ao longo do tempo, os genes deveriam ser
agrupados pelos fatores induzidos que compartilham a cada tempo amostral observado,
permitindo um acompanhamento mais dinâmico e não somente pelo perfil de expressão.
Desenvolver métodos computacionais eficientes para analisar grande quantidade de dados
obtidos em experimentos é um problema desafiante para a computação/bioinformática. Os
métodos de agrupamento, atualmente, consideram todos os pontos do perfil de modulação dos
genes e quanto maior for a quantidade destes pontos melhor para o agrupamento. O objetivo
do projeto proposto foi agrupar genes utilizando fatores de transcrição e perfis de modulação.
Para permitir o agrupamento desta forma foi criada uma matriz de presença/ausência de
fatores de transcrição para genes, e perfis de modulação foram temporalmente acumulados.
Os resultados obtidos mostraram-se melhores que aqueles do método de agrupamento por
expressão, estes foram observados pelas interações dos fatores com os genes em subgrupos
analisados, chegando em sua maioria a abranger todos eles. A correlação dos subgrupos dos
dois métodos mostrou-se parcial, isto é, alguns genes em alguns subgrupos compartilham
mesmos TFs e tem perfil de expressão bastante similar.
vi
ABSTRACT
In silico gene clustering by transcription factors and differential
expression
Living organisms have thousands of genes, which usually are continuously modulated.
However, in response to environmental changes, they can reprogram in function of nutrient
availability and physical and chemical conditions of the environmental. Thus, it becomes a
matter of paramount importance to understand the mechanisms that control and the elements
characteristic involved in the genes modulating process, on the various stages of
development. Little is known about the complex that involves gene regulation, but the
transcription factors are one of these elements. The basic hypothesis is that transcription
factors are responsible for a profile of gene modulation over time. Genes should be grouped
by the induced factors that share each sampling time observed, allowing a more dynamic
monitoring and not just the expression profile alone. Developing efficient computational
methods for analyzing large amount of data obtained in experiments is a challenging problem
in computer science/bioinformatics. The current clustering methods consider all the genes
modulation profile points and the higher the amount of these points the better the cluster. The
aim of the proposed project was to group genes using transcription factors and modulation
profiles. To allow the grouping it was created a presence/absence matrix of the transcription
factors for genes and modulation profiles that were temporally accumulated. The results
obtained using this approach were better than those used in expression clustering methods.
They were observed by the interactions of factors with the genes in analyzed subgroups, and
in general they to cover mostly all. The correlation of the subgroups of the two methods
proved to be partial, that is, some genes in some subgroups share the same TFs and have very
similar expression profile.
vii
LISTA DE FIGURAS
Figura 1. Exemplo de proteína helix-turned-helix................................................................. 18
Figura 2. Exemplo de proteína do tipo zinc finger. ............................................................... 18
Figura 3. Exemplo de proteína bZIP..................................................................................... 19
Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH).................................. 19
Figura 5. Exemplo de proteína homeodomain....................................................................... 20
Figura 6. Montagem e ativação de complexo de transcrição ................................................. 21
Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia
proposta. .............................................................................................................................. 27
Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) ................................................ 30
Figura 9. Fragmento exemplo de arquivo tabulado (TTFR) .................................................. 31
Figura 10. Fragmento exemplo de arquivo tabulado (TFI) .................................................... 31
Figura 11. Fragmento exemplo da criação de tabelas cumulativas ........................................ 32
Figura 12. Fragmento exemplo da seleção de genes em TVMR............................................ 33
Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs,
chamados TDS..................................................................................................................... 34
Figura 14. Exemplo da construção da matriz de presença/ausência....................................... 36
Figura 15. Fragmento exemplo de matriz de presença/ausência ............................................ 37
Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento.. 38
Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM..................... 39
Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos
subgrupos pelos ATF ou AVM.............................................................................................. 41
Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras
vermelhas) ........................................................................................................................... 42
Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras
vermelhas) pelas quantidades de subgrupos criados.............................................................. 43
Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos
amostrais, por ATF e AVM ................................................................................................... 44
Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência,
segundo a equação de Scott.................................................................................................. 45
Figura 19. Dendrograma criado por ATF .............................................................................. 46
Figura 20. Dendrograma criado por AVM............................................................................. 59
Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF ....................................... 71
viii
Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM...................................... 72
Figura 21. categorização dos genes em subgrupos de ATF.................................................... 77
Figura 22. Categorização dos genes em subgrupos de AVM ................................................. 79
ix
LISTA DE TABELAS
Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos...... 46
Tabela 2 – Genes e VMs do subgrupo ATFa119sg01 ............................................................ 47
Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01 48
Tabela 4 - Genes e VMs do subgrupo ATFa119sg02 ............................................................. 49
Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02 50
Tabela 6 - Genes e VMs do subgrupo ATFa119sg03 ............................................................. 51
Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03 52
Tabela 8 - Genes e VMs do subgrupo ATFa119sg04 ............................................................. 53
Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04 53
Tabela 10 - Genes e VMs do subgrupo ATFa119sg05 ........................................................... 54
Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05
............................................................................................................................................ 54
Tabela 12 - Genes e VMs do subgrupo ATFa119sg06 ........................................................... 55
Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06
............................................................................................................................................ 55
Tabela 14 - Genes e VMs do subgrupo ATFa119sg07 ........................................................... 56
Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07
............................................................................................................................................ 56
Tabela 16 - Genes e VMs do subgrupo ATFa119sg08 ........................................................... 57
Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08
............................................................................................................................................ 57
Tabela 18 - Genes e VMs do subgrupo ATFa119sg09 ........................................................... 58
Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09
............................................................................................................................................ 58
Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119 minutos .. 59
Tabela 21 - Genes e VMs do subgrupo AVMa119sg01 ......................................................... 60
Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01
............................................................................................................................................ 61
Tabela 23 - Genes e VMs do subgrupo AVMa119sg02 ......................................................... 62
Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02
............................................................................................................................................ 62
Tabela 25 - Genes e VMs do subgrupo AVMa119sg03 ......................................................... 63
x
Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03
............................................................................................................................................ 64
Tabela 27 - Genes e VMs do subgrupo AVMa119sg04 ......................................................... 65
Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04
............................................................................................................................................ 65
Tabela 29 - Genes e VMs do subgrupo AVMa119sg05 ......................................................... 66
Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05
............................................................................................................................................ 67
Tabela 31 - Genes e VMs do subgrupo AVMa119sg06 ......................................................... 68
Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06
............................................................................................................................................ 68
Tabela 33 - Genes e VMs do subgrupo AVMa119sg07 ......................................................... 69
Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07
............................................................................................................................................ 69
Tabela 35 - Correlações gênicas entre os métodos ATF e AVM............................................. 73
Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias ........................ 75
Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos 76
Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos
............................................................................................................................................ 78
xi
LISTA DE SIGLAS
ATF
Agrupamento por fatores de transcrição
AVM
Agrupamento por valores de modulação
bp
Pares de bases (base pairs)
cDNA
DNA complementar
DNA
Ácido desoxirribonucléico (Desoxiribonucleic acid)
EST
Etiqueta de Sequência Expressa (Expressed Sequence Tag)
HSE
Choque de temperatura (heat-shock)
PCR
Reação em cadeia de Polimerase (Polimerase Chain Reaction)
RNA
Ácido ribonucléico (Ribonucleic acid)
TAC
Tabelas Acumulativas Completas
TAR
Tabelas Acumulativas Refinadas
TARS
Tabelas Acumulativas Refinadas Selecionadas
TDS
Tabela de Dados Sincronizados
TF
Fator de transcrição (Transcription factor)
TFI
Tabela de funções inferidas
TPA
Tabela Presença Ausência
TRE
Tabela Resultado Embaralhamento
TREG
Tabela Resultados Embaralhamento Geral
TTFR
Tabela de fatores de transcrição refinada
TVMR
Tabela de valores de modulação refinada
VM
Valores de modulação
xii
SUMÁRIO
1. Introdução........................................................................................................................ 14
1.1. Expressão gênica........................................................................................................... 14
1.1.1. Expressed Sequence Tags (EST)................................................................................. 14
1.1.2. Microarray ................................................................................................................. 15
1.2. Fatores de transcrição.................................................................................................... 16
1.3. Agrupamento................................................................................................................. 22
1.4. Algoritmos de busca de motifs ....................................................................................... 24
2. Objetivos.......................................................................................................................... 26
3. Metodologia..................................................................................................................... 27
3.1. Recursos computacionais .............................................................................................. 28
3.2. Dados do experimento alpha-factor............................................................................... 28
3.3. Valores de modulação.................................................................................................... 29
3.4. Fatores de transcrição.................................................................................................... 30
3.5. Secção acumulativa ....................................................................................................... 32
3.6. Seleção dos genes.......................................................................................................... 33
3.7. Sincronização................................................................................................................ 34
3.8. Agrupamento de genes por valores de modulação.......................................................... 35
3.9. Matriz de presença/ausência de TFs............................................................................... 35
3.10. Agrupamento de genes por TFs ................................................................................... 37
3.11. Subgrupos ................................................................................................................... 37
3.12. Correlações entre os métodos de agrupamento............................................................. 39
3.13. Classificação funcional dos genes................................................................................ 39
3.14. Embaralhamento dos genes ......................................................................................... 40
3.15. Representação gráfica linear ........................................................................................ 40
4. Resultados e discussões.................................................................................................... 42
4.1. Valores de modulação (VM).......................................................................................... 44
4.2. Agrupamento por fatores de transcrição (ATF) .............................................................. 45
4.2.1. ATFa119sg01 ............................................................................................................. 46
4.2.2. ATFa119sg02 ............................................................................................................. 49
4.2.3. ATFa119sg03 ............................................................................................................. 51
4.2.4. ATFa119sg04 ............................................................................................................. 53
4.2.5. ATFa119sg05 ............................................................................................................. 54
xiii
4.2.6. ATFa119sg06 ............................................................................................................. 55
4.2.7. ATFa119sg07 ............................................................................................................. 56
4.2.8. ATFa119sg08 ............................................................................................................. 57
4.2.9. ATFa119sg09 ............................................................................................................. 58
4.3. Agrupamento por valores de modulação gênica (AVM) ................................................. 59
4.3.1. AVMa119sg01............................................................................................................ 60
4.3.2. AVMa119sg02............................................................................................................ 62
4.3.3. AVMa119sg03............................................................................................................ 63
4.3.4. AVMa119sg04............................................................................................................ 65
4.3.5. AVMa119sg05............................................................................................................ 66
4.3.6. AVMa119sg06............................................................................................................ 68
4.3.7. AVMa119sg07............................................................................................................ 69
4.4. Comparação entre ATF e AVM ...................................................................................... 70
4.5. Correlações entre ATF e AVM ....................................................................................... 73
4.6. Categorização MIPS-CYGD ......................................................................................... 75
5. Conclusões....................................................................................................................... 81
6. Referências bibliográficas ................................................................................................ 82
Apêndice A .......................................................................................................................... 89
Apêndice B .......................................................................................................................... 91
Apêndice C .......................................................................................................................... 95
Apêndice D........................................................................................................................ 101
Apêndice E ........................................................................................................................ 105
Apêndice F ........................................................................................................................ 109
Apêndice G: Manuscrito .................................................................................................... 113
Introdução
14
1. Introdução
Os organismos vivos, procariotos ou eucariotos, em sua maioria apresentam milhares
de genes. Durante toda sua vida eles produzem diversas proteínas através da modulação
diferenciada (repressão ou indução) de genes, estimulados por características intrínsecas ou
extrínsecas. Normalmente, em organismos multicelulares, o genoma é idêntico em todas as
células, o que as difere umas das outras é o conjunto distinto de genes que modulam. Em
organismos mais simples (unicelulares), conjuntos distintos de genes também se modulam,
considerando a disponibilidade de nutrientes, as condições físicas e químicas do meio, entre
outras e, ainda, em resposta, às alterações podem reprogramar esta modulação gênica, através
de sua capacidade bioquímica (CAUSTON et al, 2001). Assim, se torna uma questão de suma
importância compreender os mecanismos que controlam e os elementos característicos
envolvidos na modulação dos genes das diferentes fases do desenvolvimento.
1.1. Expressão gênica
Para estudo do transcriptoma, termo adotado para um conjunto de transcritos gênicos
(produto da modulação) (KATAYAMA et al, 2005), já foram desenvolvidas várias técnicas,
dentre elas estão o sequenciamento aleatório e parcial de um grande número de clones em
bibliotecas de cDNA, (ADAMS et al, 1991) e os microarranjos (do inglês microarray) de
oligonucleotídeos ou DNA (SCHENA et al, 1995). Essas técnicas permitem a obtenção rápida
e paralela de quantidade, com boa qualidade, de transcritos de milhares de genes em um único
experimento, o que pode favorecer o entendimento das funções e interpretações de
regulações.
1.1.1. Expressed Sequence Tags (EST)
A técnica de sequenciamento parcial e aleatório dos clones das bibliotecas de cDNA é
uma maneira de obter informações da expressão gênica. Esta se baseia no sequenciamento de
fragmentos de DNA (400 – 650pb), a partir das extremidades (3’ e/ou 5’), obtidos pela
clonagem de transcritos. A sequência nucleotídica destes fragmentos é obtida pelo
processamento de máquinas sequenciadoras automáticas (SMITH et al, 1986) e são
Introdução
15
denominados Etiquetas de Sequências Expressas (do inglês Expressed Sequence Tags [EST])
(ADAMS et al, 1991). Vários genomas de organismos, sejam eles parciais ou completos,
foram obtidos através dessa técnica, que provou ser útil para os estudos da expressão gênica,
anotação funcional, dentre outras (GOLDMAN et al, 2003; RUDD, 2003).
O crescimento da utilização dessa técnica para obtenção de ESTs de diferentes
organismos motivou o desenvolvimento de uma base pública de dados denominada GenBank
(BOGUSKI et al, 1993) e para uma melhor classificação foi em seguida criado o dbEST, um
banco de dados específico para ESTs (<http://www.ncbi.nlm.nih.gov/projects/dbEST>). Com
a disponibilidade destas ESTs foi possível esboçar análises do genoma funcional de vários
organismos (GERHOLD; CASKEY, 1996). As ESTs ainda podem ser utilizadas pela técnica
de microarray, depois que amplificadas por Polimerase Chain Reaction (PCR).
1.1.2. Microarray
Desenvolvida na década de 1990, a tecnologia de microarray proporcionou uma
revolução na forma como os genes eram estudados. Ela permite a análise da expressão de
milhares de genes, simultaneamente, e identificação de padrões de expressão gênica
relacionados à fisiologia celular. Assim, é possível observar quais genes tem modulação
aumentada (induzidos) e diminuída (reprimidos) quando as células crescem, dividem ou
respondem a determinados estímulos (SCHENA et al., 1995).
Experimentos de microarray envolvem a comparação de duas condições biológicas,
geralmente células em estado normal e células em um estado adverso (ex: choque térmico,
tumor, entre outros) (STOUGHTON, 2005). Para esta verificação, um tipo de célula é
marcado com fluoróforo verde e outro marcado com fluoróforo vermelho, em seguida estes
cDNAs são misturados e, em seguida, hibridizados a milhares de genes ou fragmentos, os
quais foram previamente fixados de forma precisa e ordenada, por um braço mecânico, na
superfície de um suporte sólido (lâminas de vidro ou náilon). Para determinar a intensidade da
fluorescência de cada ponto na lâmina, elas são analisadas por uma máquina através de
varredura digital. Esta relação de fluorescência dos elementos na lâmina permite determinar
os níveis relativos de expressão dos genes nos dois tipos de células.
Com o uso de microarrays de DNA pode-se medir as alterações nas taxas de
transcrição, que ocorrem em quase todos os genes numa determinada célula durante, por
exemplo, seu desenvolvimento, em resposta a perturbações experimentais, deleções gênicas,
Introdução
16
entre outras (BRENTANI et al, 2005; KIM et al, 2001; STOUGHTON, 2005). Pesquisadores
utilizam esta técnica para pesquisa sobre genomas de diversos organismos, dentre eles fungos.
Microarrays contendo genes de levedura foram utilizados em várias análises, como a
comparação da expressão gênica de células crescidas em meio contendo glicose (DERISI et
al, 1997), também na identificação de genes fase-específica durante a transição dimórfica dos
fungos patogênicos humanos Histoplasma capsulatum e Paracoccidioides brasiliensis (DE
GOUVÊA et al, 2008; HIRASAWA; FURUSAWA; SHIMIZU, 2010; NUNES et al, 2005).
Baseado em resultados da técnica de microarray, os agrupamentos de genes são
criados conforme suas modulações (indução ou repressão), dados os diversos tempos
amostrais dos experimentos realizados. Genes com modulações similares são dispostos mais
próximos uns dos outros em clados de uma estrutura em forma de dendrograma. Porém,
diversos mecanismos atuam nas modulações dos genes e, segundo Caddick e Dobson (2007),
o padrão de expressão não é, necessariamente, sincronizado. Agrupar genes com base no seu
perfil de expressão não diz como eles são regulados. Tal abordagem tem significantes
limitações. A regulação paralela de genes pode resultar em respostas similares originadas de
mecanismos, funcionalmente, diferentes. Suportado por esta declaração, mesmo que, vários
genes tenham suas modulações similares, não é garantido que o mesmo mecanismo seja o
atuante. Assim, quando uma determinada pesquisa objetiva hipotetizar os fatores de
transcrição atuantes na modulação de um ou grupo de genes, esse tipo de agrupamento pode
não ser o mais adequando, levando pesquisadores a interpretações equivocadas.
1.2. Fatores de transcrição
Fatores de transcrição (TF) é uma família de proteínas que desempenham um papel
importante na regulação da transcrição gênica. Elas se ligam a determinados pontos da
sequência de DNA, e por esta ligação controlam a transcrição da informação genética contida
no DNA em RNA, em resposta a estímulos específicos. A transcrição é um dos processos
mais amplamente estudados na biologia molecular (WASSERMAN; SANDELIN, 2004).
Pontos de ligação ao DNA são sequências curtas, entre 5 e 25 pares de bases de comprimento
(KARIN, 1990), com possíveis degenerações em seu padrão, chamados binding sites,
geralmente localizados anterior ao início do gene, estendendo-se por 800-1000 pares de bases,
em eucariotos inferiores; entretanto, não existe um consenso sobre isso. Após a transcrição, o
produto gerado é submetido, automaticamente, aos demais estágios da expressão gênica, tal
Introdução
17
como RNA splicing, resultando na produção da proteína correspondente (LATCHMAN,
1997).
O estudo das regiões regulatórias de genes, com padrões de transcrição similares,
revelaram a presença de sequências curtas de DNA comuns entre eles, o mesmo não foi
observado para genes que não tiveram o mesmo padrão de expressão. Por exemplo, genes
cuja transcrição é induzida em resposta a elevada temperatura contêm um elemento
regulatório comum conhecido como heat-shock (HSE), o qual é ausente em genes que não
mostram a mesma indução. A prova de que tais sequências são de crítica importância na
produção do transcrito gênico foram experimentos que transferiram o elemento HSE de um
gene induzível por temperatura para um gene de timidina kinase, que, normalmente, não é
induzível nesta condição. Esse gene híbrido foi introduzido em uma célula e a temperatura foi
elevada, logo se notou um aumento na produção de timidina kinase, indicando que o HSE foi
o indutor direto desse gene. Por este experimento, ficou provado que o elemento transferido é
um binding site de proteínas regulatórias conhecidas como TFs, as quais, alternativamente,
regulam a transcrição positiva ou negativamente do gene, de modo a produzir o efeito
observado na transcrição (LATCHMAN, 1995).
O mecanismo de ação do TF é a ligação ao DNA e sua influência na transcrição. A
análise detalhada de uma quantidade de TFs indicou que eles têm uma estrutura modular com
regiões específicas responsáveis por se ligarem ao DNA, enquanto outras regiões produzem
um efeito estimulatório ou inibitório a transcrição. Estudos sobre essas regiões de ligação, em
diferentes TFs, revelaram vários elementos, estruturalmente, distintos. Portanto, TFs são
frequentemente classificados com base em seus domínios. Os domínios são as porções do TF
que se ligam ao DNA, chamados DNA-binding domain, os mais bem caracterizados incluem:

O motivo helix-turned-helix: composto de duas α hélices unidas por uma fita curta
de amino ácidos (WINTJENS; ROOMAN, 1996) (Figura 1);
Introdução
18
Figura 1. Exemplo de proteína helix-turned-helix. Obtida de Religa e colaboradores (2007).

O motivo zinc finger: constitui uma proteína com uma pequeno trecho de 28-40
amino ácidos, contendo um domínio característico de duas cisteinas e duas
histidinas, a qual pode centralizar um ou mais íons de zinco (LAITY; LEE;
WRIGHT, 2001; PAPWORTH; KOLASINSKA; MINCZUK, 2006) (Figura 2);
Figura 2. Exemplo de proteína do tipo zinc finger. Imagem obtida de <http://en.wikipedia.org/wiki/File:
Zinc_finger_rendered.png>

O motivo Basic Leucine Zipper Domain (bZIP domain): encontrado em muitos
domínios de ligação ao DNA de proteínas eucarióticas (VINSON et al., 2002)
(Figura 3)
Introdução
19
Figura 3. Exemplo de proteína bZIP. Imagem obtida de <http://upload.wikimedia.org/wikipedia/commons/
thumb/7/72/1FOS.png/300px-1FOS.png>

O motivo basic helix-loop-helix (bHLH): formado por duas α hélices conectados
por um curto laço (LITTLEWOOD; EVAN, 1995) (Figura 4);
Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH). Imagem obtida de <http://en.wikipedia
.org/wiki/File:Basic_helix_loop_helix.png>

O domínio homeodomain: se liga a sequências de DNA do tipo homeobox que, por
sua vez, codifica outros fatores de transcrição. Estas proteínas desempenham um
papel crítico na regulação do desenvolvimento (GEHRING; AFFOLTER;
BÜRGLIN, 1994) (Figura 5).
Introdução
20
Figura 5. Exemplo de proteína homeodomain. Figura obtida de Lynch e colaboradores (2006).
Muitos fatores de transcrição contêm regiões específicas, as quais são necessárias para
a ativação da transcrição. Estes domínios ativadores parecem funcionar por interagirem com
componentes do complexo transcricional basal. Este é um complexo de RNA polimerase II e
vários TFs, tais como TFIIB e TFIID, que são montados na região promotora do gene e
essenciais para que a transcrição ocorra. Estudos têm mostrado que domínios de ativação
interagem diretamente, com componentes deste complexo ou indiretamente, como moléculas
co-ativadoras, as quais, então, interagem com o complexo montado ou estimulam o seu nível
de atividade (Figura 6).
Introdução
21
Figura 6. Montagem e ativação de complexo de transcrição. Um ativador (A) ligado a seu binding site (ABS)
pode estimular a montagem com complexo transcricional basal consistindo de RNA polimerase e seus fatores
associados, ou estimular sua atividade uma vez que esteja montado. Figura adaptada de Latchman (1997).
No caminho inverso aos ativadores, estão os repressores da transcrição, que atuam
como inibidores da transcrição de genes específicos. Tais TFs inibidores mostraram atuar na
interferência de fatores que atuariam positivamente, bloqueando, assim, seu efeito
estimulatório a transcrição. Este efeito inibitório pode ser alcançado pelo impedimento da
ligação de fatores com ação positiva ao DNA via ação negativa do TF ligado ao DNA ou por
formação de um complexo proteína-proteína entre TFs que atuam positiva e negativamente.
Esses TFs inibitórios podem, assim, reduzir o nível de transcrição basal abaixo do observado
por interagir direta ou indiretamente com o complexo transcricional basal. Desta forma, eles
constituem uma antítese das moléculas de ativação. Portanto, o balanço entre a ligação de
ativadores e repressores transcricionais, às regiões regulatórias de genes, em particular, irá
determinar a taxa de sua transcrição em uma particular situação.
TFs podem ser regulados em dois níveis, chamados regulação da síntese de TF e
regulação da atividade de TF. Em uma variedade de diferentes situações, quando um TF é
sintetizado em um particular tecido ou tipo celular e não em outros tecidos, isto caracteriza
um tipo de regulação de síntese. A regulação da síntese de transcrição é um ponto de controle
Introdução
22
importante; entretanto, ele não pode ser o único mecanismo que controla a atividade dos TFs.
Se esse fosse o caso, o aumento da síntese de TFs em resposta a um particular estímulo seria
controlado pelo aumento da transcrição de seu gene correspondente, que por sua vez seria
requerido a de novo síntese de demais TFs, resultando, assim, na necessidade de transcrição
destes novos genes e assim por diante. Portanto, é necessário que exista um mecanismo
adicional o qual permita de novo transcrição de genes pela ativação de pré existentes TFs. A
ativação de TFs pré existentes pode ocorrer por diferentes mecanismos, o qual pode envolver
ligação ao DNA, alterações em interações proteína-proteína e fosforilação de TFs
(LATCHMAN, 2007).
Dado o importante papel dos TFs nos mais variados processos celulares, não seria
difícil relacionar alterações destes a causa de doenças. Uma quantidade de anormalidades no
desenvolvimento pode ser resultado de mutações que inativam ou super ativam TFs. Por
exemplo, mutações em genes da família POU que codificam o TF Pit-1 têm sido identificados
em pacientes com uma deficiência na glândula pituitária, pela qual não são produzidos os
hormônios do crescimento, prolactina e tirotropina, resultando em retardo mental e
crescimento deficiente (KELBERMAN et al, 2009; RADOVICK et al, 1992). Outra
deficiências já foram notadas em TFs das famílias PAX (TASSABEHJI et al, 1992; ZHOU et
al, 2008) e CBP (D’ARCANGELO; CURRAN, 1995; HALLAM; BOURTCHOULADZE,
2006; PETRIJ et al, 1995). O crescimento de células é controlado pela ativação de uma
variedade de proteínas que estimulam ou inibem o crescimento. O câncer pode surgir de um
aberrante aumento da ativação de genes específicos que codificam o crescimento. Estes genes
são conhecidos como oncogenes (JONES; THOMPSON, 2009; KOEFFLER; MCCORMICK;
DENNY, 1991). Similarmente, o câncer também pode surgir devido a inativação de proteínas
que inibem o crescimento, conhecidas como anti-oncogenes (KNUDSON, 1993;
MORANGE, 2007).
1.3. Agrupamento
Tal como uma técnica explorativa, a análise por agrupamento fornece uma descrição
ou uma redução na dimensão dos dados. Ela dispõe um conjunto de observações em dois ou
mais grupos desconhecidos, mutualmente exclusivos, baseado na combinação de variáveis.
Seu objetivo é construir grupos de forma que os perfis dos objetos de um mesmo grupo sejam
relativamente homogêneos, enquanto os perfis de objetos de diferentes grupos são
Introdução
relativamente
23
heterogêneos,
geralmente
dispostos
em
forma
de
dendrograma
(HIERARCHICAL CLUSTERING, 2010; MANNING; RAGHAVAN; SCHÜTZE, 2009;
XPLORE, 2010).
Agrupamento de dados não requer informações a priori, isto é, não há quantidade de
grupos ou regra pré-determinada. Estes têm de ser descobertos a partir dos dados fornecidos
sem qualquer referência ou treinamento. A técnica de agrupamento de dados permite
diferentes escolhas relacionadas à natureza do algoritmo para combinação de dados em
grupos. Em geral as técnicas de agrupamento são dividas em hierárquica e não hierárquica.
Exemplos de técnicas hierárquicas são single linkage, complete linkage, average linkage,
median e ward (CLUSTERING, 2010; FRANCETIC, 2010; JAIN; MURTY; FLYNN, 1999).
A determinação do algoritmo mais adequado ao conjunto de dados é dependente do tipo de
dados disponíveis e do propósito da análise. Portanto, é melhor executar mais de um
algoritmo e analisar e comparar os resultados cuidadosamente. Uma forma mais objetiva de
análises é através das simulações pelas quais pode ser observada a estabilidade dos grupos
(XPLORE, 2010).
As distâncias entre pontos desempenham um importante papel no agrupamento de
dados. Existem várias medidas de distância, como Euclidiana, diagonal, Mahalanobis. A
medida ou métrica de distância deve ser cuidadosamente escolhida, considerando a correlação
entre as variáveis. A métrica Euclidiana não deve ser utilizada onde diferentes atributos têm
ampla variação dos valores médios e desvio padrão, uma vez que quantidade e valores
maiores em um dado atributo irão prevalecer sobre outros menores. Com as métricas diagonal
e Mahalanobis, os dados de entrada têm de ser convertidos antes do uso. Para utilização da
métrica diagonal o conjunto de dados deve ser modificado de modo com que todos os
atributos tenham igual variância. Enquanto para a métrica de Mahalanobis o conjunto de
dados deve ser modificado de forma que todos os atributos tenham médias zero e variância
unitária (DE MAESSCHALCK; JOUAN-RIMBAUD; MASSART, 2000).
Em qualquer estágio do procedimento de agrupamento hierárquico, esta técnica
executa a união ou divisão daquele que foi dado como grupo em um estágio anterior. Assim,
conceitualmente, irá dar origem a uma árvore como estrutura do processo de agrupamento.
Desta forma os grupos estruturados em qualquer fase não se sobrepõem ou são mutualmente
exclusivos. Os resultados deste método podem ser dispostos em forma de dendrograma. Esta
estrutura é um diagrama em forma de árvore que pode descrever as uniões e divisões que
foram feitas nos sucessivos níveis de agrupamento (XPLORE, 2010).
O método Ward (WARD, 1963) propõe um procedimento de agrupamento buscando
Introdução
24
formar partições, de uma maneira que minimize a perda associada a cada agrupamento e a
quantifique de uma forma facilmente interpretável. Ward definiu a informação de perda sob
termos do critério da soma do quadrado do erro. A principal diferença entre o método de Ward
e métodos de linkage consiste no procedimento de unificação. Linkage não une os grupos com
pequenas distâncias, mas ele junta grupos que não aumentem muito a partir de uma medida de
heterogeneidade. O propósito do método de Ward é unificar grupos tal que a variação dentro
destes grupos não é aumentada tão drasticamente, assim os grupos resultantes de um
agrupamento são os mais homogêneos possíveis.
1.4. Algoritmos de busca de motifs
O genoma representa a forma mais completa da informação hereditária dos
organismos. Codificado por DNA, o genoma é composto de trechos que codificam genes e de
trechos não codificantes. Estes trechos que codificam genes são aqueles que serão lidos pela
maquinaria de transcrição, através da qual serão gerados aos transcritos, também conhecidos
por RNA mensageiros (RNAm). Após passarem por um processo de amadurecimento,
promovido por splicings alternativos, são secretados para o citoplasma, onde os RNAm são
lidos e traduzidos em proteínas, pelos ribossomos. Muitas dessas proteínas da família dos
fatores de transcrição.
A parte não codificante, geralmente entre genes ou conjunto deles, é chamada região
intergênica. Constituída por trechos de DNA com poucos ou nenhum gene e, em uma
observação mais minuciosa, alguns destes trechos podem ser responsáveis pelo controle da
expressão de genes próximos, neste caso, chamados de região promotora. Ainda que, não
exista um consenso, para eucariotos inferiores (ex: fungos), é estimada que esta região
promotora seja constituída de 800 até 1.000 bases nucléicas (bp), e esteja localizada,
imediatamente, anterior ao trecho que codifica o gene (região cis reguladora).
Nestas regiões cis reguladoras encontram-se os motifs. Estes são trechos curtos, entre 5
e 25 bp, onde, por seus domínios, se ligam as proteínas da família fatores de transcrição,
chamados sítios de ligação dos fatores de transcrição (transcription factor binding sites;
TFBS). Há mais de três décadas, pesquisadores buscam por estes motifs (SANDVE;
DRABLOS, 2006). Para tal, diversos algoritmos foram escritos, os primeiros métodos foram
baseados em consenso. Que consiste na busca trechos similares em grupos de sequências,
permitindo ou não variações nos comprimentos e/ou nas posições. Os trechos comuns
Introdução
25
encontrados, assumidos como motifs, são, então, alinhados a um perfil correspondente, que
recebem uma pontuação. Assim, é gerado um novo consenso, o qual é considerado um
possível ponto de ligação para o fator de transcrição (PAVESI; MAURI; PESOLE, 2004).
Após o surgimento da técnica de microarray (KULESH et al, 1987; SCHENA et al,
1995) criou-se a possibilidade de que fossem gerados agrupamentos com base na expressão
desses genes, por agrupamento hierárquico ou k-means. Com base nestes, a busca por motifs,
passou a ser feita em grupos de genes com modulações similares, porém, a expressão gênica
pode ser originada por mecanismos funcionalmente diferentes. Considerando esse
comportamento, pesquisadores desenvolveram novos tipos de algoritmos, baseados em
probabilidade conjunta (HOLMES; BRUNO, 2000), os quais esboçam um modelo para a
relação sequência-expressão que usam o algoritmo de Gibbs (LAWRENCE et al, 1993) e
expectation/maximazation (DEMPSTER; LAIRD; RUBIM, 1977). Uma visão diferenciada
proporcionou o desenvolvimento um algoritmo que usa expressão logarítmica, que considera
conjuntos únicos de razões de expressões e retorna motifs estatisticamente significantes
(BUSSEMAKER; LI; SIGGIA, 2001).
Seguindo a linha do tempo, nova abordagem possibilitou a criação de um algoritmo
que usa matriz e regressão de expressão, o qual reconhece motifs em mudanças de expressão
sob determinadas condições (CONLON et al, 2003). A utilização de parâmetros a priori,
também, inspiraram algoritmos, estes consideram algum conhecimento ou expectativa prévia
sobre os conjuntos de dados, os quais podem ser pré-requisitos para quaisquer tipos de
algoritmos relacionados acima (PAVESI; MAURI; PESOLE, 2004). Da mesma forma, um
conjunto de dados utilizado como background, funcionando como controle negativo, também
seria um parâmetro adicional, visando a obtenção de resultados diferenciados (GANESH;
SIEGELE; IOERGER, 2003).
Utilizando
comparação
genômica,
foram
buscadas
regiões
e
elementos
filogeneticamente conservados entre genomas de humano, diferentes raças de ratos e cães
para criar uma catálogo sistemático de motifs comuns em regiões promotoras. Uma
abordagem foi desenvolvida e aplicada para calcular e estatisticamente avaliar o perfil de
conservação de múltiplas sequências alinhadas de espécies próximo relacionadas
(DERMITZAKIS; REYMOND; ANTONARAKIS, 2005; OVCHARENKO; BOFFELLI;
LOOTS, 2004). Métodos mais avançados tendem a integrar múltiplos métodos
computacionais e dados experimentais. Em uma abordagem chamada seqVISTA,
pesquisadores integraram dados de CHIP-on-chip, motifs e microarray (HU et al, 2006;
LEMMENS et al, 2006).
Objetivos
26
2. Objetivos
Desenvolver uma metodologia de agrupamento de genes utilizando os fatores de
transcrição (TF) que demonstram interação com suas regiões promotoras e com modulação
positiva (induzidos) em experimentos de microarray, através da qual seja possível inferir TFs
atuantes na síntese de conjuntos de genes.
Metodologia
27
3. Metodologia
A Figura 7 demonstra todo o fluxo de processamentos da metodologia deste trabalho.
Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia proposta.
Metodologia
28
3.1. Recursos computacionais
O computador servidor – Hewlett-Packard (HP), modelo ProLiant ML150 – utilizado
para execução dos processamentos in silico, possui como configuração de hardware:
processador Intel Xeon 3.2 gigahertz (GHz), corpo duplo (dual core), bi-processado; 2
gigabytes (GB) de memória Random Access Memory (RAM) e 4 Hard Disk (HD) de 160 GB.
Como configuração de software (utilizados neste trabalho): sistema operacional (SO)
GNU/Linux Fedora 6, kernel versão 2.6.22.7-57.fc6; linguagem de programação script
Practical Extraction and Report Language (Perl), versão 5.8.8; linguagem de processamentos
estatísticos e gráficos R, versão 2.9.0. Acessado remotamente por Secure Shell (SSH).
3.2. Dados do experimento alpha-factor
O experimento chamado alpha-factor foi obtido da cepa DBY8724, genótipo MATa
GAL2 ura3 bar1::URA3. Esta foi crescida em meio Yeast Extract Phosphate (YEP) a base de
glucose, quando uma amostra assíncrona foi retirada, em seguida foi adicionado alpha-factor
(feromônio) para sincronização/paralisação do ciclo celular na fase G1. A levedura tem dois
tipos sexuais, a e  (genótipos MATa e MAT, respectivamente) que se fundem para formar
um diplóide MATa/MAT. Assim que as células MATa são expostas ao alpha-factor (o
feromônio purificado do tipo sexual oposto), entram em um processo reversível de
diferenciação celular, quando células em crescimento vegetativo adquirem características de
gametas. Então, elas cessam a divisão e começam a se alongar em direção a maior
concentração de feromônio, formando uma estrutura denominada projeção de cruzamento
(BARDWELL, 2004).
As células de leveduras são não-móveis; elas possuem uma parede rígida e não podem
formar filopódios, como alguns protozoários. Esta morfogênese quimiotrófica envolve uma
série de modificações na parede celular. Proteínas envolvidas em sinalização, polarização,
adesão celular e fusão são localizadas na projeção de cruzamento (BULAWA, 1993; GUSTIN
et al, 1998). Por outro lado, no caminho de resposta da levedura, retroalimentações negativas
operam em muitos níveis para promover a dessensibilização/adaptação e recuperação. Estes
mecanismos de retroalimentação negativa, fosforilação e desfosforilação exercem papel
crucial na modulação da intensidade do sinal.
Metodologia
29
Após 120 minutos o feromônio (alpha-factor) foi retirado por meio de centrifugação e,
a cada 7 minutos, durante os 140 correntes próximos minutos (0, 7, 14, 21, 28, 35, 42, 49, 56,
63, 70, 77, 84, 91, 98 105, 112 e 119 minutos), amostras foram retiradas para análises de
conteúdo do DNA. O RNA foi extraído de cada amostra coletada, assim como a amostra
controle (culturas assíncronas das mesmas células exponencialmente crescentes, na mesma
temperatura e mesmo meio de cultura). O cDNA foi marcado com reagente fluorescente (Cy3
[verde] para amostras controle e Cy5 [vermelho] para amostras experimentais). Em seguida,
eles foram misturados e, competitivamente hibridizados em lâmina de microarray contendo
essencialmente todos os genes de levedura (DE-RISI et al, 1997). A razão do experimento
(vermelho) para o controle (verde) foi medida por microscopia de varredura laser (SHALON
et al, 1996).
3.3. Valores de modulação
Foi utilizado, como conjunto de dados de entrada, um arquivo tabulado (RAWDATA,
2008), contendo os resultados, obtidos pela técnica de microarray, oriundos dos experimentos
de Spellman e colaboradores, 1998. Este arquivo contém valores de modulação de 6.178
genes em diferentes condições experimentais. Para o conjunto de dados, referentes ao
experimento chamado alpha factor, foram selecionados todos os 18 pontos amostrais. Neste
experimento, os pesquisadores identificaram 800 genes envolvidos em ciclo celular
(CELLCYCLE, 2008), dos quais, foram extraídos os valores de modulação gênica referentes
a alpha factor, disponíveis na tabela RAWDATA (2008), para cada um dos pontos amostrais
selecionados. Os resultados foram armazenados em arquivos tabulados individuais,
denominados Tabela de valores de modulação refinada (TVMR) (Figura 8).
Metodologia
30
Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) que contém o conjunto de dados de genes
transcritos e seus valores de modulação gênicas nos diversos tempos amostrais, para alpha factor.
3.4. Fatores de transcrição
A cada gene modulado foi relacionado a atuação de um ou mais fatores de transcrição
(TF) com sua região promotora. Existem aqueles TFs que tem atuação inferida por
processamento in silico e, aqueles cuja interação com a região promotora do gene alvo já foi
comprovada por experimentos em bancada, e posterior divulgação em literatura científica, que
são referidos como documentados. Estes TFs documentados, foram obtidos do web site Yeast
Search for Transcriptional Regulators And Consensus Tracking (YEASTRACT, 2010), onde
estão disponíveis, como arquivo em formato tabulado (FLATFILES, 2008). Este arquivo foi
processado, com base na lista dos 800 genes contidos no arquivo TVMR, gerando um novo
arquivo, também, em formato tabulado, com a relação dos TFs que interagem com estes
genes, chamado Tabela de fatores de transcrição refinada (TTFR) (Figura 9). Genes sem TFs
documentados foram desconsiderados.
Metodologia
31
Figura 9. Fragmento exemplo de arquivo tabulado (TTFR) contendo TFs documentados que interagem com a
região promotora dos genes.
As funções inferidas aos TF foram obtidas do conteúdo disponibilizado pelo serviço
Locus Information, localizado no web site do YEASTRACT (LOCUS INFORMATION,
2008), de onde foram capturadas as informações contidas nos itens: Standard Name (ex:
SOK2); Systematic Name (ex: YMR016C) e Description (função inferida). O armazenamento
destas informações foi feito em arquivo, formato tabulado, chamado de Tabela de funções
inferidas (TFI) (Figura 10).
Figura 10. Fragmento exemplo de arquivo tabulado (TFI) contendo os TFs e suas funções inferidas obtidas,
por acesso remoto, do site YEASTRACT.
Metodologia
32
3.5. Secção acumulativa
Para gerar as tabelas acumuladas, um script recebeu como conjunto de dados de
entrada a tabela RAWDATA (2008) e, desta selecionou, acumulativamente, os valores de
modulação referentes aos pontos amostrais, do primeiro até o último. Para alpha factor foram
criados 18 arquivos, formato tabulado, referentes aos 6.178 genes dos pontos amostrais 0 a
119 minutos. A cada processamento executado, correspondente a um tempo amostral, os
valores de modulação deste foram gravados em um novo arquivo. Estes arquivo foram
referenciados como Tabelas Acumulativas Completas (TAC). Por exemplo, o arquivo
tabulado referente ao tempo amostral alpha factor 49 minutos acumula todos os valores de
modulação dos tempos amostrais anteriores (0, 7, 14, 21, 28, 35, 42 minutos), inclusive os
valores do corrente. Seguindo esta dinâmica, o arquivo tabulado referente ao tempo amostral
0 minuto contêm somente os valores de modulação deste tempo. Enquanto, o arquivo
tabulado referente ao tempo amostral 119 minutos contêm todos os valores de modulação de
todos os tempos amostrais. Os mesmos processamentos foram aplicados para o arquivo
tabulado TVMR, o qual contêm os valores de modulação referentes aos genes envolvidos em
ciclo celular. Tais dados geraram os arquivos tabulados referenciados como Tabelas
Acumulativas Refinadas (TAR) (Figura 11).
Figura 11. Fragmento exemplo da criação de tabelas cumulativas, através do processamento dos
conjuntos de dados RAWDATA (2008) e TVMR, nos diversos tempos amostrais do experimento alpha
factor .
Metodologia
33
3.6. Seleção dos genes
Foram selecionados, do arquivo TAR de alpha factor, como induzidos, aqueles genes
cujo seu valor de modulação, no tempo amostral corrente, fosse igual ou superior a 0,5 (xi 
0,5). Para estes também deveria existir uma quantidade mínima de valores de modulação dos
pontos amostrais considerados, dado por:
MMU = int(qtd ij / 2) + 1
(1)
Onde qtdij é a quantidade de valores de modulação para o gene i do primeiro ponto
amostral até o ponto amostral j (ponto corrente). É importante notar que o conjunto original
de dados era incompleto, estando ausentes vários valores de modulação. A equação 1 foi
usada para seleção de um número de valores de modulação suficientes para a construção da
matriz de distâncias (seções 3.8 e 3.10). Seguindo esta regra, por exemplo, para um
determinado gene do tempo amostral alpha factor 49 minutos (oitavo tempo amostral)
deveriam existir, no mínimo, 5 (cinco) valores de modulação. Os genes que não preencheram
este requisito foram desconsiderados (Figura 12). Foi desenvolvido um script que tornou o
processo de seleção e gravação dos dados em arquivos, formato tabulado, chamados Tabelas
Acumulativas Refinadas Selecionadas (TARS), automatizado.
Figura 12. Fragmento exemplo da seleção de genes em TVMR, que demonstraram valor de modulação  0,5,
no ponto amostral corrente e metade mais um (MMU) dos tempos amostrais analisados, para alpha factor.
Metodologia
34
3.7. Sincronização
Para que os dados estivessem disponíveis de forma completa (nome do gene, valores
de modulação e fatores de transcrição), a cada processamento, relativo ao tempo amostral
corrente, foi feita a sincronização de TFs e valores de modulação, utilizando os arquivos
tabulados TARS e TTFR. Os arquivos gerados foram gravados em formato tabulado,
chamados Tabela de Dados Sincronizados (TDS). Por este procedimento, aqueles genes que
não satisfizeram as regras para valores de modulação (seção 3.6) foram eliminados, mesmo
que tivessem TFs documentados relacionados e vice-versa (seção 3.4). As regras deste
algoritmo foram implementadas em script, o qual automatizou o processamento e garantiu
que todos os dados, a partir de então, estivessem aptos aos demais processamentos (Figura
13).
Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs, chamados TDS,
nos diversos tempos amostrais corrente para alpha factor . A coluna em destaque evidencia o tempo amostral
corrente.
Metodologia
35
3.8. Agrupamento de genes por valores de modulação
Para cada tempo amostral, a partir do terceiro (14 minutos em alpha factor) até o
tempo amostral corrente, foi criada uma matriz de distâncias referente, utilizando os valores
de modulação dos arquivos tabulados TDS. Para confecção desta matriz foi utilizada a função
dist, da linguagem de processamentos estatísticos e gráficos R (R, 2008), configurado o
método euclidiano, dado pela equação:
(2)
Onde p e q são os genes comparados a cada momento. Cada valor da matriz de
distâncias foi dividido pelo maior valor desta matriz, para que estas distâncias não
ultrapassassem o intervalo [0,1], utilizando a função max. Pelos valores da matriz, foi feito o
agrupamento hierárquico (do inglês hierarchical clustering), utilizando a função hclust,
configurado o método ward (visa a mínima variância buscando grupos compactos), e por fim
a função plot, para gerar os dendrogramas (R, 2008).
3.9. Matriz de presença/ausência de TFs
A cada tempo amostral, a partir do terceiro, para os genes constantes em TDS (sessão
3.7), foi resgatada a diversidade não redundante de todos os TFs, que dispostos de forma
alfabética crescente, foram utilizados como rótulo de colunas. Individualmente, para os genes
analisados, oriundo de TDS, foram resgatados os respectivos TFs. Em seguida, foram obtidos
os Systematic names (arquivo TFI) e, assim, checados os valores de modulação dos genes
responsáveis pela síntese destes TFs, no arquivo tabulado TAC do tempo amostral corrente.
Àqueles TFs, cujos genes sintetizadores demonstraram, no mínimo, um valor de modulação
igual ou superior a 0,5 (xi  0,5), o bit 1 (um) foi atribuído a célula (formada pelo encontro do
gene [linha] com o TF [coluna]) correspondente. O bit 1 indica a presença ativa do TFs para o
gene. Por exemplo, tomado o gene YDR307W, no quinto tempo amostral alpha factor (28
minutos), a ele estão relacionados os TFs Pho2 e Yap1. Para estes dois foram resgatados os
genes responsáveis (Systematic names) por suas sínteses (YDL106C para Pho2 e YML007W
Metodologia
36
para Yap1). Foram então, avaliadas individualmente suas modulações nos tempos amostrais,
desde o primeiro (0 minuto) até o corrente (28 minutos), buscando por valores iguais ou
superiores a 0,5. Quando encontrado, foi atribuído bit 1 (um) à célula correspondente. Em
caso negativo, foi atribuído bit 0 (zero) (Figura 14).
Figura 14. Exemplo da construção da matriz de presença/ausência. Em TDS, no tempo amostral 3, os VM3 de
todos os genes são  0,5 (cor vermelha). Os TFs dos genes foram checados em TCC por, no mínimo, um valor
de modulação  0,5. Quando encontrado, o TF relativo ao gene recebeu o bit 1 na matriz. Caso negativo,
recebeu bit zero.
Para aqueles TFs, cujo genes sintetizadores não foram encontrados ou modulados
iguais ou superiores a 0,5, foram atribuídos o bit 0 (zero) às células. Implementadas tais
regras em um script, cada gene ganhou uma sequência de zeros e uns referentes a seus TFs, e
assim, foi montada uma matriz de presença/ausência de TFs para cada tempo amostral, que
foram gravadas em arquivos, formato tabulado, chamados Tabela Presença Ausência (TPA)
(Figura 15).
Metodologia
37
Figura 15. Fragmento exemplo de matriz de presença/ausência referentes aos TFs atribuídos a cada gene,
para os diversos tempos amostrais em alpha factor. O bit 1 representa a presença do TF para o gene e bit
0 representa a ausência.
3.10. Agrupamento de genes por TFs
Utilizando o conteúdo dos arquivos tabulados TPA para cada tempo amostral, foram
criadas matrizes de distâncias. As distâncias foram calculadas pela função dist.binary, pacote
ade4 (DRAY; DUFOUR; CHESSEL, 2007), que utiliza o coeficiente de Gower & Legendre
(GOWER; LEGENDRE, 1986), dada pela equação:
d(i,j) = a / (a + b + c + d)
(3)
Onde a: i = 1 e j = 1; b: i = 1 e j = 0; c: i = 0 e j = 1 e d: i = 0 e j = 0. A partir da matriz
de distâncias, os processamentos foram os mesmos da seção 3.8.
3.11. Subgrupos
Para efeitos de análises individualizadas, o dendrograma gerado para cada tempo
amostral, foi seccionado. Assim, foi criada uma quantidade tal de subgrupos (sub-árvores),
cujo critério de corte (divisão) foi que cada um destes contivesse, no mínimo, 3 genes
(Systematic names). Este processamento foi realizado utilizando a função rect.hclust (R,
2008). Esta função evidência os subgrupos na figura do dendrograma. Para que fosse
Metodologia
38
adicionada numeração crescente, relacionada aos subgrupos criados, ela teve seu código fonte
modificado. Este procedimento gerou vários arquivos individualizados, contendo os
Systematic names dos genes, em cada tempo amostral, os quais foram gravados em diretórios
correspondentes aos tempos amostrais. Esta secção de dendrogramas foi aplicada aos
agrupamentos obtidos pelos dois diferentes métodos (Figura 16).
Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento, considerando
o critério de, no mínimo, 3 genes por subgrupo para os diversos tempos amostrais de alpha factor.
Em seguida a criação destes arquivos individualizados, contendo os Systematic names
dos genes dos subgrupos, foram inseridas informações adicionais, relativas aos genes, como:
modulação mínima e máxima; TFs e suas funções inferidas. Foram, também, calculadas as
participações dos TFs para os genes dos subgrupos, e disponibilizadas em forma de razão e
porcentagem.
Metodologia
39
3.12. Correlações entre os métodos de agrupamento
Tomados como referência os subgrupos gerados pelo agrupamento por TFs (ATF), os
genes destes, foram buscados nos subgrupos gerados pelo agrupamento por valores de
modulação (AVM), para cada um dos tempos amostrais. Por exemplo, para o tempo amostral
21 minutos, foram tomados os genes do subgrupo 1 de ATF. Estes foram buscados em todos
os subgrupos gerados por AVM, do mesmo tempo amostral. Desta forma, o subgrupo 1 de
ATF foi comparado com todos os subgrupos de AVM e o mesmo acontece para os demais
subgrupos de ATF (Figura 17). O desenvolvimento e implementação do algoritmo, para
comparações, em um script tornou o processo automatizado.
Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM, para os diversos tempos
amostrais de alpha factor. Genes de subgrupos criado em ATF podem estar em diferentes subgrupos de
AVM e vice-versa.
3.13. Classificação funcional dos genes
Para conhecer a diversidade biológica funcional dos genes nos subgrupos, foi acessado
o web site Munich Information Center for Protein Sequences (MIPS), que mantém o banco de
dados Comprehensive Yeast Genome Database (CYGD), o qual disponibiliza o serviço
Functional Classification of Proteins (funCat; FUNCAT, 2008), de onde foi obtido o arquivo
com a relação gene/categoria funcional. O funCat categoriza cada gene em uma ou mais
categorias, com vários níveis de especificações. Entretanto, para esta análise foram utilizadas
somente as categorias mais generalistas.
Metodologia
40
3.14. Embaralhamento dos genes
Almejando verificar se os agrupamentos foram consistentes, realmente dispondo os
genes mais relacionados nos mesmos subgrupos e não uma obra ao acaso, seja para
agrupamento obtido por ATF ou AVM, foi realizado o embaralhamento destes genes. Depois
que todos os genes já estavam dispostos em subgrupos, eles foram remanejados,
aleatoriamente, 2.000 vezes. Porém, a quantidade inicial de subgrupos foi mantida. Todos os
procedimentos descritos na sessão 3.11 foram refeitos e a maior porcentagem, de cada
subgrupo, foi capturada e gravada em arquivo, em formato tabulado, chamado Tabela
Resultado Embaralhamento (TRE). Para cada tempo amostral, foram realizadas 1.000
iterações. O arquivo TRE, de cada iteração, teve seus resultados somados, e por este, foi
posicionado, de forma decrescente, em arquivo tabulado, único, contendo os 1.000 registros,
chamado Tabela Resultados Embaralhamento Geral (TREG).
3.15. Representação gráfica linear
A fim de facilitar a visualização dos resultados a cada tempo amostral e, também,
permitir a comparação dos resultados obtidos por ATF, AVM e embaralhamentos, foi extraído
de cada subgrupo a melhor participação de um TF (porcentagem). Para subgrupos gerados por
embaralhamento, foram extraídos os 5 primeiros e os 5 últimos registros em TREG. Estes
valores foram disponibilizados em um arquivo, formato tabulado. A partir do qual, um script
gerou o gráfico de linhas, que dispõe na abscissa a quantidade de subgrupos e na ordenada
valores de 0 a 100 relativos às porcentagens (Figura 18). No gráfico, a linha azul grossa
representa a melhor participação de um TF no subgrupo e as demais linhas finas representam
os 10 resultados de TREG.
Metodologia
Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos subgrupos
pelos ATF ou AVM (linha grossa na cor azul) e embaralhamento (linhas finas), para alpha factor .
41
Resultados e discussões
42
4. Resultados e discussões
Para cada tempo amostral foi realizada a secção cumulativa do arquivo que contém os
valores de modulação dos genes, os quais, juntamente com o arquivo de TFs, foram
submetidos a todos os processos descritos no capítulo 3. Este seccionamento não é uma
abordagem usual em agrupamento de genes por valores de modulação, pois quanto maior a
quantidade de tempos amostrais, melhor para que o algoritmo teça relações mais estáveis
entre os genes e, assim, crie dendrogramas robustos e confiáveis (ERNST; BAR-JOSEPH,
2006). Contudo, este procedimento foi adotado para que se pudesse observar o
comportamento e desempenho da metodologia proposta (ATF), para diferentes conjuntos de
dados e, ainda, criar condições igualitárias de comparação entre os métodos. O Gráfico 1
demonstra a comparação dos resultados dos métodos, para os diversos tempos amostrais.
Nele, estão representadas as médias das porcentagens máximas, de cada subgrupo. Estas
porcentagens máximas, foram calculadas pela atuação de TFs na síntese de genes dos
subgrupos.
Comparativo da média das porcentagens máximas de subgrupos
de ATF e AVM, em alpha factor
120
110
100
Porcentagens médias
90
80
70
60
50
40
30
20
10
0
119min
112min
105min
98min
91min
84min
77min
70min
63min
56min
49min
42min
35min
28min
21min
AVM
14min
ATF
Tem pos am ostrais
Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas), pelas
médias das porcentagens máximas dos subgrupos, para cada tempo amostral em alpha factor. A marcação
no topo de cada barra corresponde ao desvio padrão.
O Gráfico 1 demonstra que, de forma sistêmica, ATF alcançou médias de porcentagens
máximas maiores que AVM. Sendo, assim, mais eficiente no agrupamento de genes, em
Resultados e discussões
43
função do compartilhamento de TFs.
Na definição de subgrupos (Gráfico 2), ATF, também, demonstrou barras mais altas
que aquelas de AVM. Excetuando dois tempos amostrais (63 e 105 minutos), ATF criou mais
subgrupos por tempo amostral.
Comparativo da quantidade de subgrupos de ATF e AVM, em alpha factor
25
Qtds. subgrupos
20
15
10
5
0
119min
112min
105min
98min
91min
84min
77min
70min
63min
56min
49min
42min
35min
28min
21min
AVM
14min
ATF
Tempos amostrais
Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas) pelas
quantidades de subgrupos criados, para cada tempo amostral de alpha factor.
Poderia ser dito que, a criação de uma maior quantidade de subgrupos, concentrando
menos genes, os isolou de melhor forma, e propiciou o alcance de melhores máximas.
Entretanto, mesmo quando ATF gerou menos subgrupos (63 e 105 minutos) suas médias de
porcentagens máximas mantiveram-se mais altas.
Considerando todas as porcentagens de alpha factor, desde a maior até a menor, de
cada subgrupo e tempo amostral, o Gráfico 3 demonstra os desempenhos de ATF e AVM.
Resultados e discussões
44
Comparativo de todas as porcentagens de subgrupos
de ATF e AVM, em alpha factor
110
100
90
Porcentagens
80
70
60
50
40
30
20
10
0
176
169
162
155
148
141
134
127
120
113
106
99
92
85
78
71
64
AVM
57
50
43
36
29
22
15
8
1
ATF
Quantidades
Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos amostrais, por
ATF e AVM em apha factor.
As linhas do Gráfico 3 demonstram a diferença entre ATF e AVM, no que tange a
quantidade e porcentagens obtidas. ATF, utilizando o mesmo conjunto de dados que AVM,
obteve mais valores máximos e, ainda, quando estes valores declinaram, em ATF foi de uma
forma mais acentuada que AVM. Evidenciando que, a quantidade de TFs que não interagem
com todos os genes dos subgrupos é reduzida, em relação a AVM.
O procedimento de analisar cada um dos pontos amostrais foi repetitivo, o qual gerou
uma tamanha quantidade de resultados. Em virtude disto, foram abordados mais
detalhadamente, neste capítulo, apenas o tempo amostral alpha factor 119 minutos. Os
resultados relativos aos demais tempos amostrais, deste experimento, foram citados ao longo
do texto e relacionados no capítulo Apêndices.
4.1. Valores de modulação (VM)
Dos 800 genes, inicialmente selecionados no tempo amostral 119 minutos: 25 não
continham valores de modulação; 67 foram ≥ 0,5; 708 genes foram < 0,5. O histograma
apresentado no Gráfico 4, cujo intervalo de frequência foi definido pela equação de Scott
(TURLACH, 1993), demonstra a distribuição dos valores de modulação.
Resultados e discussões
45
Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência, segundo a
equação de Scott, para alpha factor 119 minutos.
Inicialmente, foram selecionados 67 genes com valores de modulação ≥ 0,5
(induzido). Para cada um destes (67), foram resgatados os fatores de transcrição induzidos e
com interações documentadas. Após a sincronização (capítulo 3, 66 genes se adequaram aos
requisitos (TFs e VMs). A estes 66 genes estavam relacionados 757 TFs, que depois de
checados suas induções, foram reduzidos a 349 (Apêndice A). O gene ausente na análise foi o
YCL013W, que segundo o site Saccharomyces Genome Data base (SGD) (SGD, 2010), foi
excluído devido a correção de sequência.
Valores de expressão gênica são altamente sujeitos a ruídos, o que pode comprometer
a integridade da análise (CAMPITELI et al, 2009). Por este motivo, o valor 0,5, que
demonstra a medida da expressão gênica, resultado da equação log2(razão), em relação a um
valor referencial (zero) (SPELLMAN et al, 1998), foi eleito como o limiar para seleção dos
genes, como o menor valor, biologicamente, relevante para padronização do método ATF.
Este valor é, geralmente, escolhido de forma arbitrária (CAMPITELI et al, 2009).
4.2. Agrupamento por fatores de transcrição (ATF)
Tomados os 66 genes selecionados e os 349 TFs a eles relacionados, foi criada a
matriz de presença/ausência de TFs (Apêndice B). A partir desta, foi criada a matriz de
distâncias que, depois de normalizada, foi utilizada para confecção do dendrograma (Figura
19).
Resultados e discussões
46
Figura 19. Dendrograma criado por ATF, considerando os genes induzidos em 119 minutos do experimento
alpha factor.
Para uma análise mais detalhada das relações entre os genes, em função de TFs, foram
criados subgrupos. A quantidade destes, foi determinada por procedimento iterativo de divisão
do dendrograma, cuja condição de parada foi a quantidade mínima de 3 genes em algum(ns)
dos subgrupo(s), conforme ilustra a Figura 19, pelos retângulos de borda vermelha e detalhada
na Tabela 1.
Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos
Id. do subgrupo
ATFa119sg01
ATFa119sg02
ATFa119sg03
ATFa119sg04
ATFa119sg05
ATFa119sg06
ATFa119sg07
ATFa119sg08
ATFa119sg09
Total
Nro. no dendrograma
1
2
3
4
5
6
7
8
9
Qtd. de genes
17
5
9
6
7
7
5
3
7
66
Satisfeita a condição de parada, foram criados, ao todo, 9 subgrupos. Alguns deles
(subgrupos 5, 6 e 9) contendo a mesma quantidade, 7 genes. Entretanto, de forma geral, a
distribuição foi bastante heterogênea.
4.2.1. ATFa119sg01
Para os 17 genes do subgrupo ATFa119sg01, foram isolados seus maior e menor VM
(Tabela 2).
Resultados e discussões
47
Tabela 2 – Genes e VMs do subgrupo ATFa119sg01
Systematic name
YML034W
YGL021W
YLR190W
YML119W
YNL058C
YDR146C
YJR092W
YMR032W
YPL155C
YPL141C
YHR023W
YGR108W
YPR156C
YJL051W
YGL116W
YMR001C
YPL242C
Maior VM
0,76
1,16
1,19
1,21
1,53
0,75
0,75
1,28
0,64
1,13
0,99
1,20
1,51
1,17
0,93
1,22
1,16
Menor VM
-0,97
-1,39
-1,26
-1,28
-1,81
-1,29
-1,10
-0,94
-0,84
-1,31
-1,19
-1,88
-1,86
-0,92
-0,77
-1,59
-1,13
Depois dos subgrupos formados e VMs detalhadas, foram resgatados: os TFs, as
anotações (Apêndice C), e efetuados os cálculos de interações dos TFs para com os genes
(Tabela 3).
Resultados e discussões
48
Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01
TF Razão Porcentagem Systematic names
Fkh1
17/17
100,00
YML034W;YGL021W;YLR190W;YML119W;YNL058C;
YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;
YHR023W;YGR108W;YPR156C;YJL051W;YGL116W;
YMR001C; YPL242C
Fkh2
17/17
100,00
YML034W;YGL021W;YLR190W;YML119W;YNL058C;
YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;
YHR023W;YGR108W;YPR156C;YJL051W;YGL116W;
YMR001C; YPL242C
Mcm1 14/17
82,35
Ste12
9/17
52,94
Rap1
6/17
35,29
Sok2
Ino4
Yox1
Reb1
Swi4
Mbp1
Abf1
Stp2
Azf1
Rlm1
Cha4
Pho4
Ino2
Cin5
Hap4
Ash1
Ume6
Smp1
Bas1
Tec1
4/17
3/17
3/17
3/17
2/17
2/17
2/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
1/17
23,53
17,65
17,65
17,65
11,76
11,76
11,76
5,88
5,88
5,88
5,88
5,88
5,88
5,88
5,88
5,88
5,88
5,88
5,88
5,88
YGL021W;YLR190W;YML119W;YNL058C;YDR146C;
YJR092W;YMR032W;YHR023W;YGR108W;YPR156C;
YJL051W;YGL116W; YMR001C;YPL242C
YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;
YHR023W;YGR108W;YPR156C; YGL116W
YLR190W;YDR146C;YJR092W;YGR108W; YJL051W;
YGL116W
YDR146C;YHR023W;YGR108W;YPR156C
YDR146C;YPL155C;YGL116W
YGL116W;YMR001C;YPL242C
YML119W;YDR146C;YMR001C
YGR108W;YPR156C
YGR108W;YPL242C
YMR032W;YPL242C
YHR023W
YDR146C
YNL058C
YPL242C
YJL051W
YDR146C
YML119W
YML119W
YJR092W
YJL051W
YGL116W
YGL116W
YPR156C
Pela observação da tabela 3, nota-se que Fkh1, anotado como fatores de transcrição da
família forkhead com um menor papel na expressão de genes da fase G2/M, além disso
regulam negativamente o alongamento da transcrição, possui um regulação positiva no
silenciamento da cromatina no HML e HMR e regula a preferência do doador durante a
mudança de fase (Forkhead family transcription factor with a minor role in the expression of
G2/M phase genes; negatively regulates transcriptional elongation; positive role in chromatin
silencing at HML and HMR; regulates donor preference during switching) e Fkh2, anotado
como fatores de transcrição da família forkhead com um maior papel na expressão de genes
da fase G2/M, além disso regulam positivamente o alongamento da transcrição, possui um
Resultados e discussões
49
regulação negativa no silenciamento da cromatina no HML e HMR e atua como substrato da
Quinase Cdc28p/Clb5p (Forkhead family transcription factor with a major role in the
expression of G2/M phase genes; positively regulates transcriptional elongation; negative
role in chromatin silencing at HML and HMR; substrate of the Cdc28p/Clb5p kinase)
(LOCUS INFORMATION, 2008), são os TFs mais ativos, interagindo com 100% dos genes.
4.2.2. ATFa119sg02
Os 5 genes que compõem o subgrupo ATFa119sg02, são (Tabela 4):
Tabela 4 - Genes e VMs do subgrupo ATFa119sg02
Systematic name
YOR315W
YPR149W
YPR013C
YLR413W
YBR054W
Maior VM
1.07
1.44
0.76
0.82
1.54
Menor VM
-1.09
-1.98
-0.28
-1.90
-1.84
Em seguida, foram anexados os TFs, as anotações (Apêndice C), e efetuados os
cálculos de interações dos TFs relativos aos genes (Tabela 5).
Resultados e discussões
50
Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02
TF Razão Porcentagem Systematic names
Sok2
Ste12
Yap6
Cin5
Swi4
Tec1
Stp2
Fkh2
Ino4
Phd1
Fkh1
Rap1
Azf1
Rlm1
Rgm1
Hap4
Sum1
Cup9
Hsf1
Mig1
Hcm1
Abf1
Mcm1
5/5
5/5
5/5
4/5
4/5
4/5
3/5
3/5
2/5
2/5
2/5
2/5
1/5
1/5
1/5
1/5
1/5
1/5
1/5
1/5
1/5
1/5
1/5
100,00
100,00
100,00
80,00
80,00
80,00
60,00
60,00
40,00
40,00
40,00
40,00
20,00
20,00
20,00
20,00
20,00
20,00
20,00
20,00
20,00
20,00
20,00
YOR315W;YPR149W;YPR013C;YLR413W;YBR054W
YOR315W;YPR149W;YPR013C;YLR413W;YBR054W
YOR315W;YPR149W;YPR013C;YLR413W;YBR054W
YOR315W;YPR013C;YLR413W;YBR054W
YOR315W;YPR149W;YPR013C;YBR054W
YOR315W;YPR149W;YPR013C;YLR413W
YPR149W;YLR413W;YBR054W
YOR315W;YPR149W;YBR054W
YOR315W;YPR013C
YOR315W;YPR013C
YOR315W;YPR013C
YOR315W;YPR149W
YPR013C
YOR315W
YBR054W
YBR054W
YOR315W
YPR013C
YBR054W
YPR149W
YPR013C
YBR054W
YOR315W
A Tabela 5 indica, que 3 TFs tem participação em todos os genes de ATFa119sg02:
Sok2, anotado como proteína nuclear que desempenha um papel regulador na AMP cíclico
(cAMP) dependentes da proteína quinase (PKA) na via de transdução de sinal; regula
negativamente a diferenciação da pseudohifa; homólogos a diversos fatores de transcrição
(Nuclear protein that plays a regulatory role in the cyclic AMP (cAMP)-dependent protein
kinase (PKA) signal transduction pathway; negatively regulates pseudohyphal differentiation;
homologous to several transcription factors); Ste12, anotado como fator de transcrição que é
ativado por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na
interação ou crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p
para regular os genes específicos para o crescimento invasivo (Transcription factor that is
activated by a MAP kinase signaling cascade, activates genes involved in mating or
pseudohyphal/invasive growth pathways; cooperates with Tec1p transcription factor to
regulate genes specific for invasive growth; e Yap6, anotado como provável fator de
transcrição formado por leucina básica de zipper (bZIP), aumenta a super-expressão de sódio
e lítio (Putative basic leucine zipper (bZIP) transcription factor; overexpression increases
Resultados e discussões
51
sodium and lithium tolerance) (LOCUS INFORMATION, 2008).
4.2.3. ATFa119sg03
Para o subgrupo ATFa119sg03 foram isolados 9 genes, com os seguintes VMs (Tabela
6):
Tabela 6 - Genes e VMs do subgrupo ATFa119sg03
Systematic name
YLR452C
YKL185W
YNL327W
YKL164C
YER145C
YHR005C
YDR055W
YHL028W
YBR202W
Maior VM
2,41
2,18
2,71
2,53
0,52
0,99
2,23
0,73
1,04
Menor VM
-0,91
-1,5
-2,14
-2,24
-1,12
-1,01
-1,46
-0,46
-1,21
Em seguida, para cada gene foram atribuídos seus TFs, totalizados e exibidos na
Tabela 7.
Resultados e discussões
52
Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03
TF Razão Porcentagem Systematic names
Sok2
9/9
100,00
Ste12
7/9
77,78
Mcm1
7/9
77,78
Phd1
Rap1
Tec1
Ace2
Swi5
Rlm1
Smp1
Swi4
Mal33
Azf1
Pho4
Yox1
Hap4
Mig1
Hsf1
Ash1
Ume6
Abf1
Fkh2
Xbp1
5/9
5/9
5/9
5/9
4/9
3/9
3/9
2/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
1/9
55,56
55,56
55,56
55,56
44,44
33,33
33,33
22,22
11,11
11,11
11,11
11,11
11,11
11,11
11,11
11,11
11,11
11,11
11,11
11,11
YLR452C;YKL185W;YNL327W;YKL164C;YER145C;
YHR005C;YDR055W;YHL028W;YBR202W
YLR452C;YKL164C;YER145C;YHR005C;YDR055W;
YHL028W;YBR202W
YLR452C;YKL185W;YNL327W;YKL164C;YHR005C;
YHL028W;YBR202W
YKL164C;YER145C;YHR005C;YHL028W;YBR202W
YLR452C;YNL327W;YER145C;YHL028W;YBR202W
YKL164C;YER145C;YHR005C;YDR055W;YBR202W
YKL185W;YNL327W;YKL164C;YDR055W;YHL028W
YKL185W;YNL327W;YKL164C;YDR055W
YKL164C;YDR055W;YHL028W
YKL185W;YKL164C;YHL028W
YER145C;YDR055W
YHL028W
YNL327W
YDR055W
YBR202W
YDR055W
YHL028W
YHL028W
YDR055W
YDR055W
YHL028W
YHL028W
YHL028W
O subgrupo ATFa119sg03 apresenta, apenas, Sok2 (abordados em ATFa119sg02),
seguindo Sok2, os TFs Ste12 e Mcm1 estão presentes em mais de 3/4 destes genes. Ste12, que,
também, foi abordado em ATFa119sg02, e Mcm1, anotado como fator de transcrição que
atuam em células específicas de transcrição e da resposta ao feromônio; desempenha um
papel central na formação de
complexos ativadores e repressores (Transcription factor
involved in cell-type-specific transcription and pheromone response; plays a central role in
the formation of both repressor and activator complexes) (LOCUS INFORMATION, 2008).
Resultados e discussões
53
4.2.4. ATFa119sg04
Para ATFa119sg04 foram relacionados os seguintes genes (Tabela 8)
Tabela 8 - Genes e VMs do subgrupo ATFa119sg04
Systematic name
Maior VM
Menor VM
YDR033W
YMR031C
YJL157C
YEL032W
YLR274W
YAR018C
1.61
0.63
2.12
0.98
0.95
0.82
-1.96
-0.94
-1.41
-1.14
-0.84
-0.79
Em seguida, foram calculadas as interações do TFs com os seus genes (Tabela 9):
Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04
TF Razão Porcentagem Systematic names
Mcm1
Ste12
Fkh2
Yox1
Cin5
Reb1
6/6
3/6
3/6
3/6
1/6
1/6
100,00
50,00
50,00
50,00
16,67
16,67
YDR033W;YMR031C;YJL157C;YEL032W; YLR274W;YAR018C
YMR031C;YJL157C;YEL032W
YDR033W;YMR031C;YAR018C
YEL032W;YLR274W;YAR018C
YDR033W
YLR274W
A tabela 9, destaca Mcm1, anotado como fator de transcrição que atuam em células
específicas de transcrição e da resposta ao feromônio; desempenha um papel central na
formação de complexos ativadores e repressores (Transcription factor involved in cell-typespecific transcription and pheromone response; plays a central role in the formation of both
repressor and activator complexes), que é o TF dominante (LOCUS INFORMATION, 2008).
Resultados e discussões
54
4.2.5. ATFa119sg05
Para o subgrupo 5 de agrupamento por TFs foram relacionados os seguintes genes
(Tabela 10):
Tabela 10 - Genes e VMs do subgrupo ATFa119sg05
Systematic name
YHL040C
YNR067C
YAL022C
YBL023C
YBR069C
YOR066W
YPR019W
Maior VM
0,91
2,74
0,61
1,08
0,62
1,36
1,32
Menor VM
-1,16
-1,71
-0,52
-1,01
-0,77
-0,92
-1,01
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
11).
Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05
TF Razão Porcentagem Systematic names
Yox1
Ste12
Hcm1
Phd1
Cin5
Hap4
Yap6
Mbp1
Mcm1
Swi5
Ace2
Stp2
Mal33
Thi2
Ime4
Swi4
Stb1
Sut1
Smp1
6/7
4/7
3/7
2/7
2/7
2/7
2/7
2/7
2/7
2/7
2/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
85,71
57,14
42,86
28,57
28,57
28,57
28,57
28,57
28,57
28,57
28,57
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
YNR067C;YAL022C;YBL023C;YBR069C;YOR066W; YPR019W
YHL040C;YNR067C;YBR069C;YOR066W
YHL040C;YBL023C;YOR066W
YHL040C;YBR069C
YHL040C;YBR069C
YHL040C;YPR019W
YNR067C;YAL022C
YBL023C;YOR066W
YAL022C;YOR066W
YNR067C;YAL022C
YNR067C;YBL023C
YBR069C
YAL022C
YHL040C
YAL022C
YBL023C
YAL022C
YNR067C
YAL022C
Presente em 85% dos genes, o TF Yox1, anotado como homeodomínio contendo
repressor transcricional, liga-se a Mcm1p e células iniciais do ciclo (ECBs) nos promotores de
genes do ciclo celular, regulando expressão em M/G1 fase, a expressão é regulada pelo ciclo
celular; potencial substrato Cdc28p (Homeodomain-containing transcriptional repressor,
binds to Mcm1p and to early cell cycle boxes (ECBs) in the promoters of cell cycle-regulated
Resultados e discussões
55
genes expressed in M/G1 phase; expression is cell cycle-regulated; potential Cdc28p
substrate) (LOCUS INFORMATION, 2008). Este só não atua sobre o gene YHL040C, que é
regulado por outros 6 diferentes TFs.
4.2.6. ATFa119sg06
Para o subgrupo 6 de ATF, foram relacionados os seguintes genes (Tabela 12):
Tabela 12 - Genes e VMs do subgrupo ATFa119sg06
Systematic name
YOR153W
YPL025C
YOR114W
YGL008C
YOL114C
YBR093C
YPR119W
Maior VM
0,87
0,63
0,50
0,82
0,68
1,47
1,54
Menor VM
-0,74
-0,47
-0,46
-0,65
-0,38
-1,00
-2,36
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
13).
TF
Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06
Razão Porcentagem Systematic names
Swi4
7/7
100,00
Fkh2
Rap1
Sok2
Mbp1
Ash1
Fkh1
Mcm1
Ace2
Thi2
Azf1
Ino4
Pho4
Phd1
Hap4
Hsf1
Sut1
Xbp1
Tec1
Reb1
5/7
4/7
3/7
3/7
3/7
2/7
2/7
2/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
71,43
57,14
42,86
42,86
42,86
28,57
28,57
28,57
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
YOR153W;YPL025C;YOR114W;YGL008C;YOL114C;YBR093C;
YPR119W
YPL025C;YGL008C;YOL114C;YBR093C;YPR119W
YOR153W;YGL008C;YBR093C;YPR119W
YOR153W;YPL025C;YOR114W
YOR153W;YGL008C;YPR119W
YOR153W;YPL025C;YOL114C
YOL114C;YPR119W
YGL008C;YPR119W
YPL025C;YGL008C
YBR093C
YGL008C
YOR153W
YBR093C
YPL025C
YOR153W
YGL008C
YBR093C
YPR119W
YBR093C
YPR119W
Resultados e discussões
56
Swi4, anotado como componente de interação do DNA e um complexo SBF (Swi4pSwi6p), um ativador de transcrição que, em conjunto com MBF (Mbp1-Swi6p) regula a
transcrição tardia em alvos específicos de G1, incluindo ciclinas e genes necessários para a
síntese e reparo de DNA (DNA binding component of the SBF complex (Swi4p-Swi6p), a
transcriptional activator that in concert with MBF (Mbp1-Swi6p) regulates late G1-specific
transcription of targets including cyclins and genes required for DNA synthesis and repair)
(LOCUS INFORMATION, 2008). É o TF que está presente em todos os genes deste
subgrupo.
4.2.7. ATFa119sg07
Para o subgrupo 7 de ATF foram relacionados os seguintes genes (Tabela 14):
Tabela 14 - Genes e VMs do subgrupo ATFa119sg07
Systematic name
YNL057W
YPL036W
YNL216W
YPL128C
YPL124W
Maior VM
1,14
0,72
0,74
0,60
0,62
Menor VM
-1,17
-0,67
-0,63
-0,57
-0,46
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
15):
Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07
TF
Ste12
Azf1
Abf1
Ime4
Swi4
Rgm1
Fkh2
Rap1
Reb1
Razão Porcentagem Systematic names
3/5
2/5
2/5
1/5
1/5
1/5
1/5
1/5
1/5
60,00
40,00
40,00
20,00
20,00
20,00
20,00
20,00
20,00
YPL036W;YNL216W;YPL128C
YPL036W;YPL124W
YNL057W;YPL036W
YPL036W
YPL124W
YPL036W
YNL057W
YNL216W
YNL216W
Para o subgrupo ATFa119sg07, Ste12, anotado como fator de transcrição que é ativado
por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na interação ou
crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p para regular os
genes específicos para o crescimento invasivo (Transcription factor that is activated by a
Resultados e discussões
57
MAP kinase signaling cascade, activates genes involved in mating or pseudohyphal/invasive
growth pathways; cooperates with Tec1p transcription factor to regulate genes specific for
invasive growth) (LOCUS INFORMATION, 2008). É o TF mais atuante, entretanto, diferente
do observado em ATFa119sg02, para este subgrupo corresponde a apenas 60% dos genes.
4.2.8. ATFa119sg08
Para o subgrupo 8 de ATF, foram relacionados os seguintes genes (Tabela 16):
Tabela 16 - Genes e VMs do subgrupo ATFa119sg08
Systematic name
YPL264C
YPL269W
YPL158C
Maior VM
0,64
0,64
2,10
Menor VM
-0,32
-0,61
-1,65
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
17).
Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08
TF Razão Porcentagem Systematic names
Mbp1
Swi5
Ino4
Ace2
3/3
1/3
1/3
1/3
100,00
33,33
33,33
33,33
YPL264C;YPL269W;YPL158C
YPL158C
YPL158C
YPL158C
Mbp1, anotado como fator de transcrição envolvido na regulação da progressão do
ciclo celular de G1 para fase S, forma um complexo com Swi6p que liga ao complexo
regulatório do MluI do ciclo celular em promotores de genes da síntese do DNA
(Transcription factor involved in regulation of cell cycle progression from G1 to S phase,
forms a complex with Swi6p that binds to MluI cell cycle box regulatory element in promoters
of DNA synthesis genes) (LOCUS INFORMATION, 2008). É o TF mais atuante, porém, este
subgrupo é constituído por poucos genes.
Resultados e discussões
58
4.2.9. ATFa119sg09
Para o subgrupo 9 de ATF, foram relacionados os seguintes genes (Tabela 18):
Tabela 18 - Genes e VMs do subgrupo ATFa119sg09
Systematic name
Maior VM
Menor VM
YPR111W
YOR298W
YOL132W
YHR006W
YOR383C
YOR235W
YOR258W
0,67
0,57
0,70
0,57
1,28
0,88
0,76
-0,44
-0,50
-0,43
-0,48
-1,67
-0,54
-0,40
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
19):
Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09
TF
Razão Porcentagem Systematic names
Ino4
Sok2
Rme1
Stp2
YPR015C
Yap6
Mig1
Rap1
Pho4
Mcm1
Yrr1
Ifh1
Tye7
5/7
3/7
2/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
71,43
42,86
28,57
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
YPR111W;YOR298W;YHR006W;YOR235W; YOR258W
YOR298W;YOL132W;YOR383C
YOR383C;YOR235W
YHR006W
YOR383C
YOR235W
YOR383C
YPR111W
YOR383C
YHR006W
YOR258W
YOR235W
YHR006W
Ino4, anotado como fator de transcrição necessários para inbir a repressão dos genes
regulados do inositol e colina envolvidos na síntese de fosfolípides e forma um complexo com
Ino2p, que liga o complexo do inositol e colina através de um domínio básico hélice-loophélice (Transcription factor required for derepression of inositol-choline-regulated genes
involved in phospholipid synthesis; forms a complex, with Ino2p, that binds the inositolcholine-responsive
element
through
a
basic
helix-loop-helix
domain)
(LOCUS
INFORMATION, 2008). Obteve neste subgrupo, sua maior representação, porém, ainda
assim, não interagiu com todos os genes.
Resultados e discussões
59
4.3. Agrupamento por valores de modulação gênica (AVM)
O agrupamento dos genes por sua expressão gerou o dendrograma (Figura 20):
Figura 20. Dendrograma criado por AVM, considerando os genes induzidos em 119 minutos do
experimento alpha factor.
A mesma metodologia utilizada em ATF, foi aplicada para este método de
agrupamento, portanto, subgrupos foram criados. Da mesma forma foi estabelecida a
condição de parada, subgrupo(s) com a quantidade mínima de 3 genes. Para o dendrograma
referente a 119 minutos, foram criados os seguintes subgrupos (Tabela 20):
Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119
minutos
Id. do subgrupo
AVMa119sg01
AVMa119sg02
AVMa119sg03
AVMa119sg04
AVMa119sg05
AVMa119sg06
AVMa119sg07
Total
Nro. no dendrograma
1
2
3
4
5
6
7
Qtd. de genes
13
7
7
10
15
3
11
66
Resultados e discussões
60
Depois dos subgrupos formados, da mesma forma que para ATF, foram adicionadas
informações de maior e menor modulação, TFs, anotações e efetuados cálculos de
participação dos TFs.
4.3.1. AVMa119sg01
Para o subgrupo 1 de AVM, foram relacionados os seguintes genes (Tabela 21).
Tabela 21 - Genes e VMs do subgrupo AVMa119sg01
Systematic name
YDR033W
YOL132W
YPL158C
YER145C
YBR093C
YHL040C
YOR383C
YLR413W
YBR054W
YAL022C
YBR202W
YBR069C
YAR018C
Maior VM
1,61
0,70
2,10
0,52
1,47
0,91
1,28
0,82
1,54
0,61
1,04
0,62
0,82
Menor VM
-1,96
-0,43
-1,65
-1,12
-1,00
-1,16
-1,67
-1,90
-1,84
-0,52
-1,21
-0,77
-0,79
Em seguida, para o subgrupo 1, foram calculadas as interações dos TFs com as
sínteses dos genes (Tabela 22).
Resultados e discussões
61
Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01
TF
Razão Porcentagem Systematic names
Sok2
Ste12
Cin5
Phd1
Yox1
Mcm1
Fkh2
Tec1
Stp2
Yap6
Swi4
Rap1
Thi2
Pho4
Hap4
Swi5
Mal33
YPR015C
Rgm1
Rme1
Ino4
Ime4
Mbp1
Hsf1
Mig1
Stb1
Smp1
Hcm1
Sut1
Abf1
Ace2
6/13
6/13
5/13
4/13
4/13
4/13
4/13
4/13
3/13
3/13
3/13
3/13
2/13
2/13
2/13
2/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
1/13
46,15
46,15
38,46
30,77
30,77
30,77
30,77
30,77
23,08
23,08
23,08
23,08
15,38
15,38
15,38
15,38
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
7,69
YOL132W;YER145C;YOR383C;YLR413W;YBR054W;YBR202W
YER145C;YHL040C;YLR413W;YBR054W;YBR202W;YBR069C
YDR033W;YHL040C;YLR413W;YBR054W;YBR069C
YER145C;YHL040C;YBR202W;YBR069C
YAL022C;YBR202W;YBR069C;YAR018C
YDR033W;YAL022C;YBR202W;YAR018C
YDR033W;YBR093C;YBR054W;YAR018C
YER145C;YBR093C;YLR413W;YBR202W
YLR413W;YBR054W;YBR069C
YLR413W;YBR054W;YAL022C
YER145C;YBR093C;YBR054W
YER145C;YBR093C;YBR202W
YBR093C;YHL040C
YBR093C;YOR383C
YHL040C;YBR054W
YPL158C;YAL022C
YAL022C
YOR383C
YBR054W
YOR383C
YPL158C
YAL022C
YPL158C
YBR054W
YOR383C
YAL022C
YAL022C
YHL040C
YBR093C
YBR054W
YPL158C
Pela observação da tabela 22, é notado que Sok2, anotado como proteína nuclear que
desempenha um papel regulador na AMP cíclico (cAMP) dependentes da proteína quinase
(PKA) na via de transdução de sinal; regula negativamente a diferenciação da pseudohifa;
homólogos a diversos fatores de transcrição (Nuclear protein that plays a regulatory role in
the cyclic AMP (cAMP)-dependent protein kinase (PKA) signal transduction pathway;
negatively regulates pseudohyphal differentiation; homologous to several transcription
factors) e Ste12, anotado como fator de transcrição que é ativado por uma cascata de
sinalização da MAP quinase, ativa os genes envolvidos na interação ou crescimento invasivo
da pseudohifa, coopera com o fator de transcrição Tec1p para regular os genes específicos
para o crescimento invasivo (Transcription factor that is activated by a MAP kinase signaling
cascade, activates genes involved in mating or pseudohyphal/ invasive growth pathways;
Resultados e discussões
62
cooperates with Tec1p transcription factor to regulate genes specific for invasive growth) .
São os TFs mais ativos no subgrupo, porém suas participações (46,15%), abrangem menos da
metade dos genes do subgrupo.
4.3.2. AVMa119sg02
Para o subgrupo 2 de AVM, foram relacionados os seguintes genes (Tabela 23).
Tabela 23 - Genes e VMs do subgrupo AVMa119sg02
Systematic name
YMR031C
YHR005C
YBL023C
YOR066W
YEL032W
YLR274W
YPR019W
Maior VM
0,63
0,99
1,08
1,36
0,98
0,95
1,32
Menor VM
-0,94
-1,01
-1,01
-0,92
-1,14
-0,84
-1,01
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
24).
Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02
TF Razão Porcentagem Systematic names
Mcm1
Yox1
Ste12
Mbp1
Hcm1
Swi4
Sok2
Fkh2
Phd1
Tec1
Hap4
Reb1
Ace2
5/7
5/7
4/7
2/7
2/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
71,43
71,43
57,14
28,57
28,57
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
YMR031C;YHR005C;YOR066W;YEL032W;YLR274W
YBL023C;YOR066W;YEL032W;YLR274W;YPR019W
YMR031C;YHR005C;YOR066W;YEL032W
YBL023C;YOR066W
YBL023C;YOR066W
YBL023C
YHR005C
YMR031C
YHR005C
YHR005C
YPR019W
YLR274W
YBL023C
Na tabela 24, três quartos dos genes são regulados por Mcm1, anotado como fator de
transcrição que atuam em células específicas de transcrição e da resposta ao feromônio;
desempenha um papel central na formação de
complexos ativadores e repressores
(Transcription factor involved in cell-type-specific transcription and pheromone response;
plays a central role in the formation of both repressor and activator complexes) e Yox1,
Resultados e discussões
63
anotado como homeodomínio contendo repressor transcricional, liga-se a Mcm1p e células
iniciais do ciclo (ECBs) nos promotores de genes do ciclo celular, regulando expressão em
M/G1 fase, a expressão é regulada pelo ciclo celular; potencial substrato Cdc28p
(Homeodomain-containing transcriptional repressor, binds to Mcm1p and to early cell cycle
boxes (ECBs) in the promoters of cell cycle-regulated genes expressed in M/G1 phase;
expression is cell cycle-regulated; potential Cdc28p substrate) (LOCUS INFORMATION,
2008). Contudo, sem unanimidade, esses dois TFs interagem com todos os genes do
subgrupo.
4.3.3. AVMa119sg03
Para o subgrupo 3 de AVM, foram relacionados os seguintes genes (Tabela 25).
Tabela 25 - Genes e VMs do subgrupo AVMa119sg03
Systematic name
YLR452C
YJL157C
YKL185W
YNL327W
YKL164C
YDR055W
YNR067C
Maior VM
2,41
2,12
2,18
2,71
2,53
2,23
2,74
Menor VM
-0,91
-1,41
-1,50
-2,14
-2,24
-1,46
-1,71
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
26).
Resultados e discussões
64
Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03
TF Razão Porcentagem Systematic names
Sok2
Ste12
Mcm1
Swi5
Ace2
Rlm1
Rap1
Smp1
Tec1
Azf1
Pho4
Phd1
Yox1
Hap4
Yap6
Swi4
Ash1
Ume6
Sut1
5/7
5/7
5/7
5/7
5/7
2/7
2/7
2/7
2/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
1/7
71,43
71,43
71,43
71,43
71,43
28,57
28,57
28,57
28,57
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
14,29
YLR452C;YKL185W;YNL327W;YKL164C;YDR055W
YLR452C;YJL157C;YKL164C;YDR055W;YNR067C
YLR452C;YJL157C;YKL185W;YNL327W;YKL164C
YKL185W;YNL327W;YKL164C;YDR055W;YNR067C
YKL185W;YNL327W;YKL164C;YDR055W;YNR067C
YKL164C;YDR055W
YLR452C;YNL327W
YKL185W;YKL164C
YKL164C;YDR055W
YNL327W
YDR055W
YKL164C
YNR067C
YDR055W
YNR067C
YDR055W
YDR055W
YDR055W
YNR067C
Neste subgrupo existe uma quantidade maior de TFs com razão, chegando perto de 3/4
dos genes, são eles: Sok2, Ste12, Mcm1, Swi5 e Ace2. Entretanto, somente Swi5 e Ace2
compartilham os mesmos genes. Swi5 anotado como fator de transcrição que ativa a
transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização do núcleo
ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p
(Transcription factor that activates transcription of genes expressed at the M/G1 phase
boundary and in G1 phase; localization to the nucleus occurs during G1 and appears to be
regulated by phosphorylation by Cdc28p kinase) e Ace2, anotado como fator de transcrição
que ativa a transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização
do núcleo ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p
(Transcription factor that activates expression of early G1-specific genes, localizes to
daughter cell nuclei after cytokinesis and delays G1 progression in daughters, localization is
regulated by phosphorylation; potential Cdc28p substrate) (LOCUS INFORMATION, 2008),
são concordantes, como TFs ativadores.
Resultados e discussões
65
4.3.4. AVMa119sg04
Para o subgrupo 4 de AVM, foram relacionados os seguintes genes (Tabela 27).
Tabela 27 - Genes e VMs do subgrupo AVMa119sg04
Systematic name
Maior VM
Menor VM
YML034W
YGL021W
YJR092W
YPL155C
YPL141C
YGR108W
YOR153W
YPR119W
YOR315W
YMR001C
0,76
1,16
0,75
0,64
1,13
1,20
0,87
1,54
1,07
1,22
-0,97
-1,39
-1,10
-0,84
-1,31
-1,88
-0,74
-2,36
-1,09
-1,59
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
28).
Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04
TF
Razão Porcentagem Systematic names
Fkh1
9/10
90,00
Fkh2
9/10
90,00
Mcm1
6/10
60,00
Ste12
Rap1
Swi4
Ino4
Sok2
Mbp1
Ash1
Reb1
Rlm1
Phd1
Cin5
Yox1
Sum1
Hap4
Yap6
Tec1
Xbp1
5/10
5/10
4/10
3/10
3/10
3/10
2/10
2/10
1/10
1/10
1/10
1/10
1/10
1/10
1/10
1/10
1/10
50,00
50,00
40,00
30,00
30,00
30,00
20,00
20,00
10,00
10,00
10,00
10,00
10,00
10,00
10,00
10,00
10,00
YML034W;YGL021W;YJR092W;YPL155C;YPL141C;
YGR108W;YPR119W;YOR315W;YMR001C
YML034W;YGL021W;YJR092W;YPL155C;YPL141C;
YGR108W;YPR119W;YOR315W;YMR001C
YGL021W;YJR092W;YGR108W;YPR119W;YOR315W;
YMR001C
YJR092W;YPL155C;YPL141C;YGR108W;YOR315W
YJR092W;YGR108W;YOR153W;YPR119W;YOR315W
YGR108W;YOR153W;YPR119W;YOR315W
YPL155C;YOR153W;YOR315W
YGR108W;YOR153W;YOR315W
YGR108W;YOR153W;YPR119W
YJR092W;YOR153W
YPR119W;YMR001C
YOR315W
YOR315W
YOR315W
YMR001C
YOR315W
YOR153W
YOR315W
YOR315W
YPR119W
Resultados e discussões
66
Dois diferentes TFs neste subgrupo (4) são atuantes em 9 dos 10 genes. Fkh1 e Fkh2,
com as, respectivas, anotações: fatores de transcrição da família forkhead com um menor
papel na expressão de genes da fase G2/M, além disso regulam negativamente o alongamento
da transcrição, possui um regulação positiva no silenciamento da cromatina no HML e HMR
e regula a preferência do doador durante a mudança de fase (Forkhead family transcription
factor with a minor role in the expression of G2/M phase genes; negatively regulates
transcriptional elongation; positive role in chromatin silencing at HML and HMR; regulates
donor preference during switching) e fatores de transcrição da família forkhead com um
maior papel na expressão de genes da fase G2/M, além disso regulam positivamente o
alongamento da transcrição, possui um regulação negativa no silenciamento da cromatina no
HML e HMR e atua como substrato da Quinase Cdc28p/Clb5p (Forkhead family
transcription factor with a major role in the expression of G2/M phase genes; positively
regulates transcriptional elongation; negative role in chromatin silencing at HML and HMR;
substrate of the Cdc28p/Clb5p kinase) (LOCUS INFORMATION, 2008). Pela anotação é
possível notar que um desempenha função contrária do outro.
4.3.5. AVMa119sg05
Para o subgrupo 5 de AVM, foram relacionados os seguintes genes (Tabela 29).
Tabela 29 - Genes e VMs do subgrupo AVMa119sg05
Systematic name
Maior VM
Menor VM
YNL057W
YLR190W
YML119W
YNL058C
YDR146C
YPL036W
YMR032W
YHR023W
YGL008C
YPR156C
YJL051W
YHL028W
YPR149W
YGL116W
YPL242C
1,14
1,19
1,21
1,53
0,75
0,72
1,28
0,99
0,82
1,51
1,17
0,73
1,44
0,93
1,16
-1,17
-1,26
-1,28
-1,81
-1,29
-0,67
-0,94
-1,19
-0,65
-1,86
-0,92
-0,46
-1,98
-0,77
-1,13
Resultados e discussões
67
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
30).
TF
Fkh2
Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05
Razão Porcentagem Systematic names
14/15
93,33
Mcm1 12/15
80,00
Fkh1
10/15
66,67
Ste12
8/15
53,33
Rap1
7/15
46,67
Sok2
Abf1
Azf1
Swi4
Rlm1
Ino4
Mbp1
Smp1
Ace2
Stp2
Yox1
Hsf1
Mig1
Tec1
Reb1
Rgm1
Cin5
Yap6
Ume6
Bas1
Xbp1
Mal33
Cha4
Ime4
Pho4
Phd1
Ino2
Hap4
5/15
5/15
3/15
3/15
2/15
2/15
2/15
2/15
2/15
2/15
2/15
2/15
2/15
2/15
2/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
1/15
33,33
33,33
20,00
20,00
13,33
13,33
13,33
13,33
13,33
13,33
13,33
13,33
13,33
13,33
13,33
6,67
6,67
6,67
6,67
6,67
6,67
6,67
6,67
6,67
6,67
6,67
6,67
6,67
YNL057W;YLR190W;YML119W;YNL058C;YDR146C;YMR032W;
YHR023W;YGL008C;YPR156C;YJL051W;YHL028W;YPR149W;
YGL116W;YPL242C
YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W;
YGL008C;YPR156C;YJL051W;YHL028W; YGL116W;YPL242C
YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W;
YPR156C;YJL051W;YGL116W;YPL242C
YDR146C;YPL036W;YMR032W;YHR023W;YPR156C;YHL028W;
YPR149W;YGL116W
YLR190W;YDR146C;YGL008C;YJL051W;YHL028W;YPR149W;
YGL116W
YDR146C;YHR023W;YPR156C;YHL028W;YPR149W
YNL057W;YPL036W;YMR032W;YHL028W;YPL242C
YDR146C;YPL036W;YGL008C
YGL008C;YPR156C;YPR149W
YNL058C;YHL028W
YDR146C;YGL116W
YGL008C;YPL242C
YHL028W;YGL116W
YGL008C;YHL028W
YHR023W;YPR149W
YGL116W;YPL242C
YGL008C;YHL028W
YHL028W;YPR149W
YPR156C;YPR149W
YML119W;YDR146C
YPL036W
YML119W
YPR149W
YJL051W
YGL116W
YHL028W
YHL028W
YPL242C
YPL036W
YJL051W
YHL028W
YDR146C
YML119W
Presente em 93,33% dos genes, o TF Fkh2, já citado no subgrupo 4, é o mais atuante.
Este só não atua sobre o gene YPL036W, que é regulado por outros 5 diferentes TFs.
Resultados e discussões
68
4.3.6. AVMa119sg06
Para o subgrupo 6 de AVM, foram relacionados os seguintes genes (Tabela 31).
Tabela 31 - Genes e VMs do subgrupo AVMa119sg06
Systematic name
Maior VM
Menor VM
YOR298W
YOR114W
YPL124W
0,57
0,50
0,62
-0,50
-0,46
-0,46
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
32).
Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06
TF Razão Porcentagem Systematic names
Swi4
Sok2
Azf1
Ino4
2/3
2/3
1/3
1/3
66,67
66,67
33,33
33,33
YOR114W;YPL124W
YOR298W;YOR114W
YPL124W
YOR298W
Mesmo estando no limiar da quantidade mínima de genes por subgrupo. No subgrupo
6, nenhum TF foi predominante, atuando sobre todos eles. Os dois mais atuantes que
interagem com 2 dos 3 genes são: Swi4, anotado como componente de interação do DNA e
um complexo SBF (Swi4p-Swi6p), um ativador de transcrição que, em conjunto com MBF
(Mbp1-Swi6p) regula a transcrição tardia em alvos específicos de G1, incluindo ciclinas e
genes necessários para a síntese e reparo de DNA (DNA binding component of the SBF
complex (Swi4p-Swi6p), a transcriptional activator that in concert with MBF (Mbp1-Swi6p)
regulates late G1-specific transcription of targets including cyclins and genes required for
DNA synthesis and repair) e Sok2, anotado como proteína nuclear que desempenha um papel
regulador na AMP cíclico (cAMP) dependentes da proteína quinase (PKA) na via de
transdução de sinal; regula negativamente a diferenciação da pseudohifa; homólogos a
diversos fatores de transcrição (Nuclear protein that plays a regulatory role in the cyclic AMP
(cAMP)-dependent protein kinase (PKA) signal transduction pathway; negatively regulates
pseudohyphal differentiation; homologous to several transcription factors) (LOCUS
INFORMATION, 2008). Os genes do subgrupo 6 tem seus valores de modulação bem
próximos do limiar de exclusão, talvez essa fraca expressão explique a falta de um TF
predominante, assim como, a contraversão destes dois, mais atuantes.
Resultados e discussões
69
4.3.7. AVMa119sg07
Para o subgrupo 7 de AVM, foram relacionados os seguintes genes (Tabela 33).
Tabela 33 - Genes e VMs do subgrupo AVMa119sg07
Systematic name
Maior VM
Menor VM
YPL264C
YPL269W
YPR111W
YNL216W
YPL128C
YPL025C
YOL114C
YHR006W
YPR013C
YOR235W
YOR258W
0,64
0,64
0,67
0,74
0,60
0,63
0,68
0,57
0,76
0,88
0,76
-0,32
-0,61
-0,44
-0,63
-0,57
-0,47
-0,38
-0,48
-0,28
-0,54
-0,40
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
34).
Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07
TF Razão Porcentagem Systematic names
Ino4
Ste12
Swi4
Sok2
Phd1
Yap6
Mbp1
Ash1
Rap1
Fkh1
Fkh2
Stp2
Azf1
Rme1
Cin5
Cup9
Hcm1
Mcm1
Yrr1
Ifh1
Tec1
Tye7
Ace2
Reb1
5/11
3/11
3/11
2/11
2/11
2/11
2/11
2/11
2/11
2/11
2/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
1/11
45,45
27,27
27,27
18,18
18,18
18,18
18,18
18,18
18,18
18,18
18,18
9,09
9,09
9,09
9,09
9,09
9,09
9,09
9,09
9,09
9,09
9,09
9,09
9,09
YPR111W;YHR006W;YPR013C;YOR235W;YOR258W
YNL216W;YPL128C;YPR013C
YPL025C;YOL114C;YPR013C
YPL025C;YPR013C
YPL025C;YPR013C
YPR013C;YOR235W
YPL264C;YPL269W
YPL025C;YOL114C
YPR111W;YNL216W
YOL114C;YPR013C
YPL025C;YOL114C
YHR006W
YPR013C
YOR235W
YPR013C
YPR013C
YPR013C
YHR006W
YOR258W
YOR235W
YPR013C
YHR006W
YPL025C
YNL216W
Resultados e discussões
70
Este último subgrupo de AVM, contendo 11 genes, não é notada a predominância de
qualquer TF. Analogicamente ao subgrupo 6, os VMs máximos estão bem próximos do limiar
de exclusão. Neste subgrupo, é destacado um TF diferente, Ino4, anotado como fator de
transcrição necessários para inbir a repressão dos genes regulados do inositol e colina
envolvidos na síntese de fosfolípides e forma um complexo com Ino2p, que liga o complexo
do inositol e colina através de um domínio básico hélice-loop-hélice (Transcription factor
required for derepression of inositol-choline-regulated genes involved in phospholipid
synthesis; forms a complex, with Ino2p, that binds the inositol-choline-responsive element
through a basic helix-loop-helix domain) (LOCUS INFORMATION, 2008).
4.4. Comparação entre ATF e AVM
Comparando os métodos ATF e AVM, por suas capacidades de agrupamento de genes,
em função da interação com TFs, é possível notar que, de forma sistêmica, ATF obteve
melhores porcentagens máximas, as quais, representam as interações dos TFs para com os
genes dos subgrupos. Ele foi capaz de dispor genes que têm TFs compartilhadas, mais
próximos no dendrograma, montado a partir da matriz de distâncias. A linha azul (mais
grossa) do Gráfico 5, demonstra as porcentagens máximas obtidas por ATF.
Resultados e discussões
71
Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF, em alpha factor 119 minutos.
Os resultados obtidos por AVM, são demonstrados, também, pela linha azul (mais
grossa) no Gráfico 6.
Resultados e discussões
72
Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM, em alpha factor 119 minutos.
Juntamente, nos Gráficos 5 e 6, é possível observar o resultado do embaralhamento
dos genes. No método ATF (Gráfico 5) é possível notar alguns picos que chegam a 100%, os
quais, para alguns subgrupos, foram até mais relevantes que os obtidos pelo método ATF.
Entretanto, quando se observa o resultado como um todo, são notáveis as melhores
porcentagens máximas deste método desenvolvido. Enquanto que, no Gráfico 6, os resultados
do embaralhamento e do método AVM, se confundem. O método de ATF, de forma geral
obteve melhores picos, chegando, a maioria deles, a 100%. Este mesmo comportamento, é
pouco notado em AVM. Esta tendência foi observada em todos os tempos amostrais, pela
secção do conjunto de dados (Apêndice D).
Resultados e discussões
73
4.5. Correlações entre ATF e AVM
A correlação dos resultados obtidos pelos métodos ATF e AVM, mostrou genes que
compartilham perfil de modulação e TFs (Tabela 35).
Tabela 35 - Correlações gênicas entre os métodos ATF e AVM
SATF
ATFa119sg01
SAVM
AVMa119sg04
Qtd. correl. Systematic names
7
YML034W;YGL021W;YJR092W;YPL155C;
YPL141C;YGR108W;YMR001C
ATFa119sg01 AVMa119sg05
10
YLR190W;YML119W;YNL058C;YDR146C;
YMR032W;YHR023W;YPR156C;YJL051W;
YGL116W;YPL242C
ATFa119sg02 AVMa119sg01
2
YLR413W;YBR054W
ATFa119sg02 AVMa119sg04
1
YOR315W
ATFa119sg02 AVMa119sg05
1
YPR149W
ATFa119sg02 AVMa119sg07
1
YPR013C
ATFa119sg03 AVMa119sg01
2
YER145C;YBR202W
ATFa119sg03 AVMa119sg02
1
YHR005C
ATFa119sg03 AVMa119sg03
5
YLR452C;YKL185W;YNL327W;YKL164C;
YDR055W
ATFa119sg03 AVMa119sg05
1
YHL028W
ATFa119sg04 AVMa119sg01
2
YDR033W;YAR018C
ATFa119sg04 AVMa119sg02
3
YMR031C;YEL032W;YLR274W
ATFa119sg04 AVMa119sg03
1
YJL157C
ATFa119sg05 AVMa119sg01
3
YHL040C;YAL022C;YBR069C
ATFa119sg05 AVMa119sg02
3
YBL023C;YOR066W;YPR019W
ATFa119sg05 AVMa119sg03
1
YNR067C
ATFa119sg06 AVMa119sg01
1
YBR093C
ATFa119sg06 AVMa119sg04
2
YOR153W;YPR119W
ATFa119sg06 AVMa119sg05
1
YGL008C
ATFa119sg06 AVMa119sg06
1
YOR114W
ATFa119sg06 AVMa119sg07
2
YPL025C;YOL114C
ATFa119sg07 AVMa119sg05
2
YNL057W;YPL036W
ATFa119sg07 AVMa119sg06
1
YPL124W
ATFa119sg07 AVMa119sg07
2
YNL216W;YPL128C
ATFa119sg08 AVMa119sg01
1
YPL158C
ATFa119sg08 AVMa119sg07
2
YPL264C;YPL269W
ATFa119sg09 AVMa119sg01
2
YOL132W;YOR383C
ATFa119sg09 AVMa119sg06
1
YOR298W
ATFa119sg09 AVMa119sg07
4
YPR111W;YHR006W;YOR235W;YOR258W
Legenda: SATF: subgrupos gerados em ATF; SAVM: subgrupos gerados em AVM;
Qtd. correl: Quantidade de correlações; Systematic names: identificação das sequências.
Para checar a correlação entre ATF e AVM, foram buscados os genes constantes nos
subgrupos de ATF em todos os subgrupos de AVM. Quando, a quantidade de genes
correlacionados foi igual ou superior a dois, pôde-se observar que estes compartilham TFs e
têm perfil de modulação similar (Tabela 35).
Resultados e discussões
74
Os genes de ATFa119sg01 estão divididos entre os subgrupos AVMa119sg04 e
AVMa119sg05. Para ATFa119sg01 os TFs prevalentes, com 100% de participação, são Fkh1 e
Fkh2, os mesmos observados em AVMa119sg04, porém, as porcentagens são inferiores. Em
AVMa119sg05, Fkh1 não aparece como o mais atuante, apenas Fkh2 está no topo, mas tal
como em AVMa119sg04, não atua sobre todos o genes. Estudos indicam que Fkh2 é essencial
para a correta expressão de SWI5 e CLB2, durante certos períodos do ciclo celular, e,
também, é fosforilado em tempo adequado. Além disso, o seu relacionamento com a proteína
Fkh1, demonstrou que estas proteínas atuam em vias de sobreposição para regular a
morfologia e separação celular (PIC et al, 2000).
A maior correlação de ATFa119sg02 e ATFFa119sg03 são com AVMa119sg01 e
AVMa119sg03, os quais demonstram interações com os TF Sok2 e Ste12, porém, com
intensidade diferente, para os dois métodos.
ATFa119sg04 demonstra maior correlação com AVMa119sg02, cuja interação
principal é dada por Mcm1. Este TF, essencial para viabilidade, participa na ativação e
repressão da transcrição e, também, na replicação do DNA (KUO; GRAYHACK, 1994).
O subgrupo ATFa119sg05 correlaciona com os subgrupos AVMa119sg01 e
AVMa119sg02, porém, em AVMa119sg02 o TF Yox1 demonstram maior atividade. Estudos
demonstraram que a ausência de uma expressão essencial (mínima) deste TF leva a perda da
regulação do ciclo celular em princípio de fases (early cell cycle boxes [ECB]) (PRAMILA et
al, 2002).
O subgrupo ATFa119sg06 tem baixa correlação com AVMa119sg04, o que os liga não
é o TF mais atuante Swi4, mas sim Fkh2, já discutido em ATFa1119sg01. Aquele que, em
AVM, tem como Swi4 o TF mais interativo é AVMa119sg06. Entretanto, a correlação,
também é baixa, apenas 2 dentre 7 genes. Em S. cerevisiae, Swi4 forma um complexo com
Swi6, o qual ativa a expressão gênica durante a transição de fases G1/S do ciclo celular
mitótico (BAETZ et al, 2001). O gene que sintetiza Swi6 não faz parte da lista de genes de
ciclo celular (CELLCYCLE, 2008).
Em ATFa119sg07, o TF mais atuante é Ste12, porém, ele não interage com todos o
genes do subgrupo. Suas maiores correlações são com os subgrupos AVMa119sg05 e
AVMa119sg07, ainda assim baixa, apenas 2 genes com cada. Para esses dois últimos
subgrupos, Ste12 tem baixa interação com seus genes.
O subgrupo ATFa119sg08, talvez o mais interessante, pelo predominância do TF
Mbp1, o mais ativo. Este, não apareceu de forma relevante em qualquer dos subgrupos de
AVM. Sua correlação é indicada a AVMa119sg07, o qual tem Mbp1 interagindo apenas com 2
Resultados e discussões
75
de 11 genes. Estudos mostraram que cepas que tiveram os genes MBP1 e SWI4 deletados
foram inviáveis, demonstrando que suas atividades trancricionais têm papel importante na
transição das fases G1/S (RAITHATHA; STUART, 2005; KOCH et al, 1993).
O último subgrupo, ATFa119sg09, tem maior correlação com AVMa119sg07 (4
genes), destacando Ino4 como TF mais ativo, porém, em ATF a atividade é maior.
4.6. Categorização MIPS-CYGD
Para se conhecer a distribuição dos genes, segundo a categoria de suas funções, dentro
dos subgrupos, foi utilizado o catálogo MIPS-CYGD, que dispõe 28 categorias, mais
generalistas (RUEPP et al, 2004). Este catálogo, permite que, um determinado gene seja
enquadrado em uma ou mais categorias. Portanto, a soma dos genes categorizados, nos
subgrupos, é, de modo geral, maior que o total original. Alguns genes, não tiveram categoria
definida, para estes foi criada a categoria “00 - There are no MIPS data gene”. Os genes desta
categoria foram relacionados somente a ela. Da diversidade original de categorias, 17 foram
relacionadas ao conjunto de dados estudado, porém, em nenhum dos subgrupos, este conjunto
de categorias foi completamente observado. A soma de todos os genes, categorizados em uma
ou mais categorias, totalizou 161 (Tabela 36).
Cód. Cat.
10
00
16
20
32
01
43
42
34
11
14
40
18
30
02
12
41
Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias
Categorias
Qtd. genes
CELL CYCLE AND DNA PROCESSING
26
There are no MIPS data gene
16
PROTEIN WITH BINDING FUNCTION OR COFACTOR
14
REQUIREMENT (structural or catalytic)
CELLULAR TRANSPORT, TRANSPORT FACILITATION AND
13
TRANSPORT ROUTES
CELL RESCUE, DEFENSE AND VIRULENCE
12
METABOLISM
11
CELL TYPE DIFFERENTIATION
11
BIOGENESIS OF CELLULAR COMPONENTS
11
INTERACTION WITH THE ENVIRONMENT
10
TRANSCRIPTION
8
PROTEIN FATE (folding, modification, destination)
8
CELL FATE
7
REGULATION OF METABOLISM AND PROTEIN FUNCTION
5
CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION
4
MECHANISM
ENERGY
3
PROTEIN SYNTHESIS
1
DEVELOPMENT (Systemic)
1
Total
161
Resultados e discussões
76
A contagem de todas as categorias, em todos os subgrupos oriundos de ATF, totalizou
83 (Tabela 37), o que gerou, uma média de 9,2 categorias por subgrupo.
Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos
Id. Subgrupo
ATFa119sg01
ATFa119sg02
ATFa119sg03
ATFa119sg04
ATFa119sg05
ATFa119sg06
ATFa119sg07
ATFa119sg08
ATFa119sg09
Total
Qtd. Genes
17
5
9
6
7
7
5
3
7
66
Qtd. Categorias
14
6
14
12
6
10
11
2
8
83
A Figura 20 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF
(Apêndice E).
Resultados e discussões
77
ATFa119sg01
43; 4
ATFa119sg02
00; 5
00; 1
43; 1
42; 4
ATFa119sg03
01; 3
10; 3
41; 1
02; 1
40; 3
43; 2 01; 1
42; 2
11; 2
40; 2
32; 1
14; 1
34; 1
11; 2
10; 9
32; 4
16; 3
34; 5
20; 3
20; 1
11; 1
18; 2
16; 3
ATFa119sg04
43; 2
ATFa119sg05
01; 1
32; 1
30; 3
ATFa119sg06
43; 1
00; 1
01; 1
42; 2
20; 2
32; 2
14; 1
14; 4
00; 1
18; 1
00; 3
34; 2
10; 4
20; 3
40; 2
01; 1
32; 2
34; 1
02; 1
10; 3
14; 1
10; 1
32; 1
18; 1
30; 1
16; 3
16; 2
ATFa119sg07
42; 2
20; 2
18; 1
ATFa119sg08
ATFa119sg09
00; 1
43; 1
01; 1
34; 1
02; 1
16; 1
00; 2
42; 1
10; 1
20; 1
32; 1
20; 1
10; 3
14; 1
01; 3
00; 2
16; 2
11; 1
12; 1
11; 2
10; 2
00 - There are no MIPS data gene
01 - METABOLISM
02 - ENERGY
10 - CELL CYCLE AND DNA PROCESSING
11 - TRANSCRIPTION
12 - PROTEIN SYNTHESIS
14 - PROTEIN FATE (folding, modification, destination)
16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic)
18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION
20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES
30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM
32 - CELL RESCUE, DEFENSE AND VIRULENCE
34 - INTERACTION WITH THE ENVIRONMENT
40 - CELL FATE
41 - DEVELOPMENT (Systemic)
42 - BIOGENESIS OF CELLULAR COMPONENTS
43 - CELL TYPE DIFFERENTIATION
Figura 21. categorização dos genes em subgrupos de ATF, para alpha factor 119 minutos, segundo o catálogo
MIPS-CYGD.
Resultados e discussões
78
Da mesma forma foi feito para os subgrupos obtidos por AVM. A contagem de todas
as categorias, em todos os subgrupos, totalizou 70 (Tabela 38), o que gerou uma média de 10
categorias por subgrupo.
Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos
Id. Subgrupo
AVMa119sg01
AVMa119sg02
AVMa119sg03
AVMa119sg04
AVMa119sg05
AVMa119sg06
AVMa119sg07
Total
Qtd. Genes
13
7
7
10
15
3
11
66
Qtd. Categorias
11
5
14
12
14
5
9
70
A Figura 21 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF
(Apêndice F).
Resultados e discussões
79
AVMa119sg01
43; 1
42; 2
AVMa119sg02
00; 2
AVMa119sg03
00; 2
01; 3
40; 1
10; 4
42; 2
41; 1
30; 1
34; 1
01; 2
43; 3
34; 1
11; 2
40; 3
10; 2
14; 1
32; 4
14; 1
34; 3
16; 1
32; 1
20; 5
10; 4
AVMa119sg04
43; 3
AVMa119sg05
00; 1
43; 3
01; 3
42; 1
16; 2
18; 2
30; 2
20; 1
AVMa119sg06
00; 5
43; 1
00; 1
42; 4
02; 3
34; 1
40; 3
32; 2
10; 5
10; 5
42; 1
01; 1
34; 4
20; 2
11; 1
11; 1
18; 2
14; 2
32; 4
16; 2
14; 3
20; 5
16; 2
10; 2
AVMa119sg07
32; 1
16; 2
42; 1
00; 5
14; 1
12; 1
01; 2
11; 4
10; 4
00 - There are no MIPS data gene
01 - METABOLISM
02 - ENERGY
10 - CELL CYCLE AND DNA PROCESSING
11 - TRANSCRIPTION
12 - PROTEIN SYNTHESIS
14 - PROTEIN FATE (folding, modification, destination)
16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic)
18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION
20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES
30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM
32 - CELL RESCUE, DEFENSE AND VIRULENCE
34 - INTERACTION WITH THE ENVIRONMENT
40 - CELL FATE
41 - DEVELOPMENT (Systemic)
42 - BIOGENESIS OF CELLULAR COMPONENTS
43 - CELL TYPE DIFFERENTIATION
Figura 22. Categorização dos genes em subgrupos de AVM, para alpha factor 119 minutos, segundo o
catálogo MIPS-CYGD.
Resultados e discussões
80
Os dois métodos de agrupamento seguiram a mesma tendência. Para os subgrupos
com mais genes, a diversidade de categorias foi maior e para aqueles com menos genes, tal
diversidade foi menor. Este comportamento, faz supor que não existe um conjunto de genes
dentro da mesma categoria, o qual utiliza um ou conjunto de TFs específicos. Genes de
diferentes categorias, podem interagir com os mesmos TFs ou vice-versa.
Conclusões
81
5. Conclusões

A metodologia desenvolvida é uma abordagem diferenciada dos dados, a qual proporciona
resultados em função dos fatores de transcrição.

O agrupamento por fatores de transcrição demonstrou uma disposição diferenciada dos
fatores de transcrição, em relação àquela observada no agrupamento por valores de
modulação.

A criação de subgrupos possibilitou isolamento de genes sob a atuação de um ou grupo
determinado de fatores de transcrição.

Pela quantidade de subgrupos gerados em agrupamento por fatores de transcrição, os
genes foram melhor distribuídos, o que proporcionou a identificação de fatores de
transcrição atuantes, na maioria dos subgrupos, para todos os genes do subgrupo.

Esta abordagem é limitada a organismos que tenham os fatores de transcrição já
disponíveis na literatura.

A correlação entre os dois métodos de agrupamento demonstrou que, para vários genes os
fatores de transcrição são compartilhados e os perfis de modulação são similares.

O embaralhamento dos genes demonstrou que o agrupamento por fatores de transcrição é
consistente para uma abordagem geral dos dados analisados.

A categorização MIPS demonstrou que existem genes, nos subgrupos, com diversas
categorias atribuídas, para os dois métodos de agrupamento, evidenciando que
determinados fatores de transcrição ou grupos destes e perfis de modulação não são
exclusivos de genes de uma mesma categoria.
Referências bibliográficas
82
6. Referências bibliográficas1
ADAMS, M.D., KELLEY, J.M., GOCAYNE, J.D., DUBNICK, M., POLYMEROPOULOS,
M.H., XIAO, H., MERRIL, C.R., WU, A., OLDE, B., MORENO, R.F., KERLAVAGE, A.R.,
McCOMBIE, W.R., VENTER, J.C., Complementary DNA sequencing: expressed sequence
tags and human genome project. Science. Jun 21;252(5013):1651-6, 1991
BAETZ, K., MOFFAT, J., HAYNES, J., CHANG, M., ANDREWS, B., Transcriptional
coregulation by the cell integrity mitogen-activated protein kinase Slt2 and the cell cycle
regulator Swi4. Mol. Cell. Biol, p. 6515-6528, Vol. 21, No. 19, 2001.
BARDWELL, L. A walk-through of the yeast mating pheromone response pathway. Peptides,
vol. 26, pp. 339-350, 2004.
BOGUSKI, M.Ss, LOWE, T.M., TOLSTOSHEV, C.M., dbEST--database for "expressed
sequence tags", Nat Genet. Aug;4(4):332-3, 1993.
BRENTANI, R.R., CARRARO, D.M., VERJOVSKI-ALMEIDA, S., REIS, E.M., NEVES,
E.J., DE SOUZA, S.J., CARVALHO, A.F., BRENTANI, H., REIS, L.F., Gene expression
arrays in cancer research: methods and applications. Crit Rev Oncol Hematol.
May;54(2):95-105, 2005
BULAWA, C.E., Genetics and molecular biology of chitin synthesis in fungi. Annu Rev
Microbiol.; 47:505-34, 1993.
BUSSEMAKER, H.J., LI, H., SIGGIA, E.D., Regulatory element detection using correlation
with expression. Nat Genet., 27(2):167–71, 2001.
CADDICK, M.X., DOBSON, C., Gene Regulation, in: GOLDMAN, G.H. (Ed.), OSMANI,
S.A., (Ed.), The Aspergilli: Genomics, Medical Aspects, Biotechnology, and Research
Methods (Hardcover). New York, CRC Press, 2007.
CAMPITELI, M.G., SORIANI, F.M., MALAVAZI, I., KINOUCHI, O., PEREIRA, C.A.,
GOLDMAN, G.H. A reliable measure of similarity based on dependency for short time series:
an application to gene expression networks.BMC Bioinformatics. Londres, 10:270, 2009.
CAUSTON, H.C., REN, B., KOH, S.S., HARBISON, C.T., KANIN, E., JENNINGS, E.G.,
LEE, T.I., TRUE, H.L., LANDER, E.S., YOUNG, R.A., Remodeling of yeast genome
expression in response to environmental changes. Mol Biol Cell. Feb;12(2):323-37, 2001.
CELLCYCLE. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/
CellCycle98.xls> . Acesso em jun. 2008.
CLUSTERING. Disponível em: <http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/
hierarchical.html>. Acesso em mar. 2010.
1
De acordo com a Associação Brasileira de Normas Técnicas (ABNT).
Referências bibliográficas
83
CONLON, E.M., LIU, X.S., LIEB, J.D., LIU, J.S., Integrating regulatory motif discovery and
genome-wide expression analysis. Proc Natl Acad Sci U S A, Mar 18;100(6):3339-44, 2003.
DE GOUVÊA, P.F., SORIANI, F.M., MALAVAZI, I., SAVOLDI, M., GOLDMAN, M.H.,
LOSS, O., BIGNELL, E., DA SILVA FERREIRA, M.E., GOLDMAN, G.H., Functional
characterization of the Aspergillus fumigatusPHO80 homologue. Fungal Genet Biol.
;45(7):1135-46, 2008.
DE MAESSCHALCK, R., JOUAN-RIMBAUD, D., MASSART, D.L. The Mahalanobis
distance. Chemometrics and Intelligent Laboratory Systems, Volume 50, Issue 1, 4, Pages
1-18, January 2000.
DEMPSTER, A.P.; LAIRD, N.M.; RUBIN, D.B., Maximum Likelihood from Incomplete
Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B
(Methodological), 39 (1): 1–38, 1977.
DERISI, J.L., IYER, V.R., BROWN, P.O., Exploring the metabolic and genetic control of
gene expression on a genomic scale. Science. Oct 24;278(5338):680-6, 1997.
DERMITZAKIS, E.T., REYMOND, A., ANTONARAKIS, S.E., Conserved non-genic
sequences - an unexpected feature of mammalian genomes. Nat Rev Genet. Feb;6(2):151-7,
2005.
DRAY, S., Dufour, A.B., Chessel, D., The ade4 package-II: Two-table and K-table methods. R
News. 7(2): 47-52, 2007.
ERNST, J., BAR-JOSEPH, Z. Stem: a tool for the analysis of short time series data. BMC
Bioinformatics, vol. 7, no. 191, 2006.
FLATFILES.
Disponível
em:
<http://www.yeastract.com/download/
RegulationTwoColumnTable_Documented_20090427.tsv.gz>. Acesso em jun. 2008.
FRANCETIC. Disponível
Acesso em mar. 2010.
em:
<http://mrvar.fdv.uni-lj.si/pub/mz/mz2.1/francetic.pdf>.
FUNCAT. Disponível em: <http://mips.helmholtz-muenchen.de/genre/proj/yeast/Search/
Catalogs/catalog.jsp>. Acesso em: jun. 2008.
GANESH, R., SIEGELE, D.A., IOERGER, T.R., MOPAC: motif finding by preprocessing
and agglomerative clustering from microarrays. Pac Symp Biocomput., 41-52, 2003.
GEHRING, W.J., AFFOLTER, M., BÜRGLIN, T., Homeodomain proteins. Annual review of
biochemistry. 63: 487–526, 1994.
GERHOLD, D., CASKEY, C.T., It's the genes! EST access to human genome content.
Bioessays. Dec;18(12):973-81, 1996.
Referências bibliográficas
84
GOLDMAN, G.H., DOS REIS MARQUES, E., DUARTE RIBEIRO, D.C., DE SOUZA
BERNARDES, L.A., QUIAPIN, A.C., VITORELLI, P.M., SAVOLDI, M., SEMIGHINI, C.P.,
DE OLIVEIRA, R.C., NUNES, L.R., TRAVASSOS, L.R., PUCCIA, R., BATISTA, W.L.,
FERREIRA, L.E., MOREIRA, J.C., BOGOSSIAN, A.P., TEKAIA, F., NOBREGA, M.P.,
NOBREGA, F.G., GOLDMAN, M.H., Expressed sequence tag analysis of the human
pathogen Paracoccidioides brasiliensis yeast phase: identification of putative homologues of
Candida albicans virulence and pathogenicity genes. Eukaryot Cell. Feb;2(1):34-48, 2003.
GOWER, J.C., LEGENDRE, P., Metric and Euclidean Properties of Dissimilarity Coefficients.
Journal of Classification, New York, 3, 5-48, 1986.
GUSTIN, M. C., ALBERTYN, J., ALEXANDER, M., DAVENPORT, K., Map kinase
pathways in the yeast saccharomyces cerevisiae. Microbiology and Molecular biology
reviews, p. 1264-1300, Vol. 62, No. 4, 1998.
HALLAM, T.M., BOURTCHOULADZE, R., Rubinstein-Taybi syndrome: molecular findings
and therapeutic approaches to improve cognitive dysfunction. Cell Mol Life Sci.
Aug;63(15):1725-35, 2006.
HIRASAWA, T., FURUSAWA, C., SHIMIZU, H., Saccharomyces cerevisiae and DNA
microarray analyses: what did we learn from it for a better understanding and exploitation of
yeast biotechnology? Appl Microbiol Biotechnol. Jun;87(2):391-400, 2010.
HOLMES, I., BRUNO, W.J., Finding regulatory elements using joint likelihoods for sequence
and expression profile data. Proc Int Conf Intell Syst Mol. Biol., 8:202–10, 2000.
HIERARCHICAL CLUSTERING. Disponível em: <http://www.resample.com/xlminer/help/
HClst/HClst_intro.htm>. Acesso em mar. 2010.
HU, Z., FU, Y., HALEES, A., KIELBASA, S., WENG, S., SeqVISTA: a new module of
integrated computational tools for studying transcriptional regulation. Proc Natl Acad Sci
USA. 32:W235–W241, 2004.
JAIN, A.K., MURTY, M.N., FLYNN, P.J., Data Clustering: A Review. ACM Computing
Surveys, Vol. 31, No. 3, September, 1999.
JONES, R.G., THOMPSON, C.B., Tumor suppressors and cell metabolism: a recipe for
cancer growth. Genes Dev. Mar 1;23(5):537-48, 2009
KARIN, M., Too many transcription factors: positive and negative interactions. New Biol. 2
(2): 126–31, 1990.
Referências bibliográficas
85
KATAYAMA, S., TOMARU, Y., KASUKAWA, T., WAKI, K., NAKANISHI, M.,
NAKAMURA, M., NISHIDA, H., YAP, C.C., SUZUKI, M., KAWAI, J., SUZUKI, H.,
CARNINCI, P., HAYASHIZAKI, Y., WELLS, C., FRITH, M., RAVASI, T., PANG, K.C.,
HALLINAN, J., MATTICK, J., HUME, D.A., LIPOVICH, L., BATALOV, S., ENGSTROM,
P.G., MIZUNO, Y., FAGHIHI, M.A., SANDELIN, A., CHALK, A.M., MOTTAGUI-TABAR,
S., LIANG, Z., LENHARD, B., WAHLESTEDT, C., RIKEN Genome Exploration Research
Group, Genome Science Group (Genome Network Project Core Group), FANTOM
Consortium, Antisense transcription in the mammalian transcriptome. Science. Sep
2;309(5740):1564-6, 2005.
KIM, S.K., LUND, J., KIRALY, M., DUKE, K., JIANG, M., STUART, J.M., EIZINGER, A.,
WYLIE, B.N., DAVIDSON, G.S.. A gene expression map for Caenorhabditis elegans.
Science. Sep 14;293(5537):2087-92, 2001.
KELBERMAN, D., RIZZOTI, K., LOVELL-BADGE, R., ROBINSON, I.C., DATTANI,
M.T., Genetic regulation of pituitary gland development in human and mouse. Endocr Rev.
Dec;30(7):790-829. Epub 2009 Oct 16, 2009.
KOCH, C., MOLL, T., NEUBERG, M., AHORN, H., NASMYTH, K., A role for the
transcription factors Mbp1 and Swi4 in progression from G1 to S phase. Science, Sep
17;261(5128):1551-7, 1993.
KOEFFLER, H.P., MCCORMICK, F., DENNY, C., Molecular mechanisms of cancer. West J
Med. Nov;155(5):505-14, 1991.
KULESH, D.A., CLIVE, D.R., ZARLENGA, D.S., GREENE, J.J., Identification of
interferon-modulated proliferation-related cDNA sequences. Proc Natl Acad Sci USA; 84
(23): 8453–8457, 1987.
KUO, M.H., GRAYHACK, E., A library of yeast genomic MCM1 binding sites contains
genes involved in cell cycle control, cell wall and membrane structure, and metabolism. Mol.
Cell. Biol. Jan;14(1):348-59, 1994.
LAITY, J.H., LEE, B.M., WRIGHT, P.E., Zinc finger proteins: new insights into structural
and functional diversity. Current opinion in structural biology 11 (1): 39–46, 2001.
LATCHMAN, D.S. Transcription factors: an overview. Int. J. Biochem. Cell Biol. 29 (12):
1305–12, 1997.
LATCHMAN, D.S., Regulation of transcription factor activity. In:______. Eukaryotic
trancription factor. 5ed. Londres:Academic Press, p.312-372, 2007.
LAWRENCE, C.E., ALTSCHUL, S.F., BOGUSKI, M.S., LIU, J.S., NEUWALD, A.F.,
WOOTTON, J.C., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple
alignment. Science, Oct 8;262(5131):208-14, 1993.
LEMMENS, K., DHOLLANDER, T., DE BIE. T., MONSIEURS, P., ENGELEN, K.,
SMETS, B., WINDERICKX, J., DE MOOR, B., MARCHAL, K., Inferring transcriptional
modules from ChIP-chip, motif and microarray data.Genome Biol. 7(5):R37, 2006.
Referências bibliográficas
86
LITTLEWOOD, T.D., EVAN, G.I. Transcription factors 2: helix-loop-helix. Protein profile 2
(6): 621–702, 1995.
LOCUS
INFORMATION.
Disponível
em:
<http://www.yeastract.com/view.php?
existing=locus&orfname=[gene_name]>. Acessado em jun. 2008.
LYNCH, V.J., ROTH, J.J., WAGNER, G.P., Adaptive evolution of Hox-gene homeodomains
after cluster duplications. BMC Evolutionary Biology, 6:86, 2006.
MANNING, C. D., RAGHAVAN, P., SCHÜTZE, H. Hierarchical Clustering. In:______. An
Introduction to Information Retrieval, Cambridge:Cambridge University Press, p.377-402,
2009.
MORANGE, M., The field of cancer research: an indicator of present transformations in
biology. Oncogene. Dec 6;26(55):7607-10, 2007.
NUNES, L.R., COSTA DE OLIVEIRA, R., LEITE, D.B., DA SILVA, V.S., DOS REIS
MARQUES, E., DA SILVA FERREIRA, M.E., RIBEIRO, D.C., DE SOUZA BERNARDES,
L.A., GOLDMAN, M.H., PUCCIA, R., TRAVASSOS, L.R., BATISTA, W.L., NOBREGA,
M.P., NOBREGA, F.G., YANG, D.Y., DE BRAGANCA PEREIRA, C.A., GOLDMAN, G.H.,
Transcriptome analysis of Paracoccidioides brasiliensis cells undergoing mycelium-to-yeast
transition. Eukaryot Cell. Dec;4(12):2115-28, 2005.
OVCHARENKO, I., BOFFELLI, D., LOOTS, G.G., eShadow: a tool for comparing closely
related sequences.Genome Res. Jun;14(6):1191-8, 2004.
PAPWORTH, M., KOLASINSKA, P., MINCZUK, M., Designer zinc-finger proteins and
their applications.Gene. Jan 17;366(1):27-38, 2005.
PAVESI, G., MAURI, G., PESOLE, G., In silico representation and discovery of transcription
factor binding sites. Brief Bioinform., 5: 217-236, 2004.
PIC, A., LIM, F.L., ROSS, S.J., VEAL, E.A., JOHNSON, A.L., SULTAN, M.R., WEST, A.G.,
JOHNSTON, L.H., SHARROCKS, A.D., MORGAN, B.A. The forkhead protein Fkh2 is a
component of the yeast cell cycle transcription factor SFF. The EMBO Journal, 19, 3750 –
3761, 2000.
PRAMILA, T., MILES, S., GUHATHAKURTA, D., JEMIOLO, D., BREEDEN,
L.L.Conserved homeodomain proteins interact with MADS box protein Mcm1 to restrict
ECB-dependent transcription to the M/G1 phase of the cell cycle. Genes Dev. December 1;
16(23): 3034–3045, 2002.
R development Core Team: R: A language and environment for statistical computing. In: R
Foundation for Statistical Computing, Vienna, Austria. 2008. Disponível
em:<http://www.R-project.org>. Acesso em : nov. 2008.
Referências bibliográficas
87
RAITHATHA, S.A., STUART, D.T. Meiosis-specific regulation of the Saccharomyces
cerevisiae S-phase cyclin CLB5 is dependent on MluI cell cycle box (MCB) elements in its
promoter but is independent of MCB-binding factor activity. Genetics, Vol. 169, 1329-1342,
March, 2005.
RAWDATA. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/
combined.txt>. Acesso em jun. 2008.
RELIGA, T.L., JOHNSON, C.M., VU, D.M., BREWER, S.H., DYER, R.B., FERSHT, A.R.,
The helix-turn-helix motif as an ultrafast independently folding domain: The pathway of
folding of Engrailed homeodomain. Proc Natl Acad Sci U S A, 104, 9272-9277, 2007.
RUDD, S., Expressed sequence tags: alternative or complement to whole genome sequences?
Trends Plant Sci. Jul;8(7):321-9, 2003.
RUEPP, A., ZOLLNER, A., MAIER, D., ALBERMANN, K., HANI, J., MOKREJS, M.,
TETKO, I., GÜLDENER, U., MANNHAUPT, G., MÜNSTERKÖTTER, M., MEWES, H.W.,
The FunCat, a functional annotation scheme for systematic classification of proteins from
whole genomes. Nucleic Acids Res 32, 5539-5545, 2004.
SANDVE, G.K., DRABLØS, F., A survey of motif discovery methods in an integrated
framework. Biol Direct., Apr 6;1:11, 2006.
SCHENA, M., SHALON, D., DAVIS, R.W., BROWN, P.O.,Quantitative monitoring of gene
expression patterns with a complementary DNA microarray. Science. Oct 20;270(5235):46770, 1995.
SGD. Disponível em: <http://www.yeastgenome.org>. Acesso em: mar. 2010.
SMITH, L.M., SANDERS, J.Z., KAISER, R.J., HUGHES, P., DODD, C., CONNELL, C.R.,
HEINER, C., KENT, S.B., HOOD, L.E. Fluorescence detection in automated DNA sequence
analysis. Nature. Jun 12-18;321(6071):674-9, 1986.
SPELLMAN, P.T., SHERLOCK, G., ZHANG, M.Q., IYER, V.R., ANDERS, K., EISEN,
M.B., BROWN, .PO., BOTSTEIN, D., FUTCHER, B., Comprehensive identification of cell
cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization.
Mol Biol Cell. Dec;9(12):3273-97, 1998.
STOUGHTON, R.B., Applications of DNA microarrays in biology.Annu Rev Biochem.;
74:53-82, 2005.
TASSABEHJI, M., READ, A.P., NEWTON, V.E., HARRIS, R., BALLING, R., GRUSS, P.,
STRACHAN, T., Waardenburg's syndrome patients have mutations in the human homologue
of the Pax-3 paired box gene. Nature. Feb 13;355(6361):635-6, 1992.
TURLACH, B.A., Bandwidth selection in kernel density estimation: a review. In CORE
and Institut de Statistique, pp. 23-493, 1993.
Referências bibliográficas
88
VINSON, C., MYAKISHEV, M., ACHARYA, A., MIR, A.A., MOLL, J.R., BONOVICH, M.,
Classification of human B-ZIP proteins based on dimerization properties. Molecular and
cellular biology, 22 (18): 6321–35, 2002.
WARD, J.H., Hierarchical Grouping to Optimize an Objective Function. Journal of the
American Statistical Association, Vol. 58, No. 301, pp. 236-244, 1963.
WASSERMAN, W.W., SANDELIN, A., Applied bioinformatics for the identification of
regulatory elements. Nature Reviews Genetics, 5, 276-287, 2004.
WINTJENS, R., ROOMAN, M., Structural classification of HTH DNA-binding domains and
protein-DNA interaction modes. Journal of molecular biology, 262 (2): 294–313, 1996.
XPLORE.
Disponível
em:
<http://fedc.wiwi.hu-berlin.de/xplore/tutorials/
xaghtmlframe142.html>. Acesso em: mar. 2010.
YEASTRACT. Disponível em: <http://www.yeastract.com>. Acesso em: mar. 2010.
ZHOU, H.M., WANG, J., ROGERS, R., CONWAY, S.J., Lineage-specific responses to
reduced embryonic Pax3 expression levels. Dev Biol. Mar 15;315(2):369-82, 2007.
Apêndices
89
Apêndice A – Tabela contendo a relação de TFs induzidos atribuídos aos genes.
Tabela contendo a relação de TFs induzidos atribuídos aos genes
Systematic names
TFA TFU TFs
YAL022C
YAR018C
YBL023C
YBR054W
18
4
7
31
8
3
5
11
YBR069C
YBR093C
YBR202W
YDR033W
YDR055W
12
21
12
12
18
5
7
7
3
11
YDR146C
16
10
YEL032W
YER145C
YGL008C
YGL021W
YGL116W
5
19
15
6
19
3
6
8
3
9
YGR108W
YHL028W
21
28
8
14
YHL040C
YHR005C
YHR006W
YHR023W
YJL051W
YJL157C
YJR092W
YKL164C
19
10
6
12
8
7
7
16
6
5
4
6
6
2
6
9
YKL185W
YLR190W
YLR274W
YLR413W
YLR452C
YML034W
YML119W
YMR001C
YMR031C
YMR032W
YNL057W
YNL058C
YNL216W
YNL327W
YNR067C
YOL114C
YOL132W
YOR066W
Continua
6
6
5
17
12
3
14
6
9
7
4
5
4
12
13
9
3
7
5
4
3
6
4
2
6
5
3
5
2
4
3
6
6
4
1
5
Ime4; Mal33; Mcm1; Smp1; Stb1; Swi5; Yap6; Yox1
Fkh2; Mcm1; Yox1
Ace2; Hcm1; Mbp1; Swi4; Yox1
Abf1; Cin5; Fkh2; Hap4; Hsf1; Rgm1; Sok2; Ste12;
Stp2; Swi4; Yap6
Cin5; Phd1; Ste12; Stp2; Yox1
Fkh2; Pho4; Rap1; Sut1; Swi4; Tec1; Thi2
Mcm1; Phd1; Rap1; Sok2; Ste12; Tec1; Yox1
Cin5; Fkh2; Mcm1
Ace2; Ash1; Hap4; Pho4; Rlm1; Sok2; Ste12; Swi4;
Swi5; Tec1; Ume6
Azf1; Fkh1; Fkh2; Ino2; Ino4; Mcm1; Rap1; Reb1;
Sok2; Ste12
Mcm1; Ste12; Yox1
Phd1; Rap1; Sok2; Ste12; Swi4; Tec1
Ace2; Azf1; Fkh2; Hsf1; Mbp1; Mcm1; Rap1; Swi4
Fkh1; Fkh2; Mcm1
Bas1; Fkh1; Fkh2; Ino4; Mcm1; Rap1; Smp1; Ste12;
Yox1
Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Sok2; Ste12; Swi4
Abf1; Ace2; Fkh2; Hsf1; Mal33; Mcm1; Mig1; Phd1;
Rap1; Rlm1; Smp1; Sok2; Ste12; Xbp1
Cin5; Hap4; Hcm1; Phd1; Ste12; Thi2
Mcm1; Phd1; Sok2; Ste12; Tec1
Ino4; Mcm1; Stp2; Tye7
Fkh1; Fkh2; Mcm1; Sok2; Ste12; Stp2
Fkh1; Fkh2; Mcm1; Pho4; Rap1; Ume6
Mcm1; Ste12
Ash1; Fkh1; Fkh2; Mcm1; Rap1; Ste12
Ace2; Mcm1; Phd1; Rlm1; Smp1; Sok2; Ste12;
Swi5; Tec1
Ace2; Mcm1; Smp1; Sok2; Swi5
Fkh1; Fkh2; Mcm1; Rap1
Mcm1; Reb1; Yox1
Cin5; Sok2; Ste12; Stp2; Tec1; Yap6
Mcm1; Rap1; Sok2; Ste12
Fkh1; Fkh2
Cin5; Fkh1; Fkh2; Hap4; Mcm1; Reb1
Fkh1; Fkh2; Mcm1; Reb1; Yox1
Fkh2; Mcm1; Ste12
Abf1; Fkh1; Fkh2; Mcm1; Ste12
Abf1; Fkh2
Fkh1; Fkh2; Mcm1; Rlm1
Rap1; Reb1; Ste12
Ace2; Azf1; Mcm1; Rap1; Sok2; Swi5
Ace2; Ste12; Sut1; Swi5; Yap6; Yox1
Ash1; Fkh1; Fkh2; Swi4
Sok2
Hcm1; Mbp1; Mcm1; Ste12; Yox1
Apêndices
90
conclusão
Systematic names
YOR114W
YOR153W
YOR235W
YOR258W
YOR298W
YOR315W
TFA
2
29
9
5
7
34
TFU
2
7
4
2
2
14
YOR383C
YPL025C
YPL036W
YPL124W
YPL128C
YPL141C
YPL155C
YPL158C
YPL242C
YPL264C
YPL269W
YPR013C
20
10
19
5
3
4
5
6
11
4
4
26
5
6
5
2
1
3
4
4
7
1
1
12
YPR019W
YPR111W
YPR119W
YPR149W
6
6
12
29
2
2
8
9
TFs
Sok2; Swi4
Ash1; Hap4; Ino4; Mbp1; Rap1; Sok2; Swi4
Ifh1; Ino4; Rme1; Yap6
Ino4; Yrr1
Ino4; Sok2
Cin5; Fkh1; Fkh2; Ino4; Mcm1; Phd1; Rap1; Rlm1;
Sok2; Ste12; Sum1; Swi4; Tec1; Yap6
Mig1; Pho4; Rme1; Sok2; YPR015C
Ace2; Ash1; Fkh2; Phd1; Sok2; Swi4
Abf1; Azf1; Ime4; Rgm1; Ste12
Azf1; Swi4
Ste12
Fkh1; Fkh2; Ste12
Fkh1; Fkh2; Ino4; Ste12
Ace2; Ino4; Mbp1; Swi5
Abf1; Cha4; Fkh1; Fkh2; Mbp1; Mcm1; Yox1
Mbp1
Mbp1
Azf1; Cin5; Cup9; Fkh1; Hcm1; Ino4; Phd1; Sok2;
Ste12; Swi4; Tec1; Yap6
Hap4; Yox1
Ino4; Rap1
Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Reb1; Swi4; Xbp1
Fkh2; Mig1; Rap1; Sok2; Ste12; Stp2; Swi4; Tec1;
Yap6
Fkh1; Fkh2; Mcm1; Sok2; Ste12; Swi4; Tec1
YPR156C
10
7
Total
757
349
Legenda: Systematic names: Identificação das sequências; TFA: Todos os TFs inicialmente
atribuídos aos genes; TFU: Apenas TFs induzidos; TFs: Relação dos TFs dos genes.
Apêndices
91
Apêndice B - Matriz de presença/ausência de TFs para os 66 genes selecionados em alpha
Mbp1
Mcm1
Mig1
Phd1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
1
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
1
1
0
1
1
0
0
1
1
0
0
1
1
1
1
0
0
0
1
1
0
0
0
1
0
0
1
1
0
1
0
1
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
1
0
1
0
1
0
Rlm1
Mal33
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
Rgm1
Ino4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
Reb1
Ino2
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
Pho4
Ime4
1
1
0
0
1
1
1
0
1
1
0
0
1
0
0
0
1
1
1
0
1
1
0
1
1
0
1
0
1
1
0
0
0
0
0
0
1
0
1
0
0
Rap1
Ifh1
1
0
0
0
1
0
1
0
1
1
0
0
1
0
0
0
1
1
0
0
1
1
0
1
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
Hsf1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Hcm1
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
Fkh2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Hap4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Fkh1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
0
0
0
0
0
0
0
Cin5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
Cup9
Azf1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
1
1
1
1
0
0
0
0
0
0
Bas1
Ash1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Cha4
Abf1
YML034W
YNL057W
YPL264C
YPL269W
YGL021W
YDR033W
YLR190W
YPR111W
YML119W
YNL058C
YOR298W
YOL132W
YDR146C
YLR452C
YPL036W
YNL216W
YJR092W
YMR032W
YMR031C
YJL157C
YPL155C
YPL141C
YPL128C
YHR023W
YGR108W
YOR153W
YPL025C
YOR114W
YGL008C
YOL114C
YPL124W
YKL185W
YNL327W
YPL158C
YKL164C
YER145C
YPR156C
YHR005C
YBR093C
YHL040C
YHR006W
Continua
Ace2
factor 119 minutos.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
1
0
0
0
0
1
1
0
1
1
0
0
0
0
0
0
0
1
1
0
0
1
0
0
0
1
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
Apêndices
92
continua
Yrr1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Yox1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
Yap6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
Xbp1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
YPR015C
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
Ume6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
0
0
0
0
1
1
0
1
0
0
Thi2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
Tye7
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Tec1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
Swi5
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
1
1
1
1
0
1
0
Sut1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Swi4
Sum1
0
0
0
0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
1
1
0
1
1
1
1
0
0
0
Stp2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
Stb1
Sok2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Ste12
Smp1
YML034W
YNL057W
YPL264C
YPL269W
YGL021W
YDR033W
YLR190W
YPR111W
YML119W
YNL058C
YOR298W
YOL132W
YDR146C
YLR452C
YPL036W
YNL216W
YJR092W
YMR032W
YMR031C
YJL157C
YPL155C
YPL141C
YPL128C
YHR023W
YGR108W
YOR153W
YPL025C
YOR114W
YGL008C
YOL114C
YPL124W
YKL185W
YNL327W
YPL158C
YKL164C
YER145C
YPR156C
YHR005C
YBR093C
YHL040C
YHR006W
Rme1
continuação
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Apêndices
93
0
0
0
0
0
1
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
1
0
0
0
0
1
1
1
0
1
0
0
0
0
0
0
1
1
0
0
1
1
1
1
1
1
1
0
0
0
0
0
1
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
0
1
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
Rlm1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Reb1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
Rgm1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Rap1
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Pho4
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
Phd1
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
Mig1
0
1
1
1
0
1
1
0
0
1
0
0
0
0
0
0
1
0
0
1
0
1
1
0
0
Mbp1
0
1
1
0
0
1
0
1
0
0
0
0
0
0
0
0
1
0
0
1
0
1
0
0
0
Mcm1
Fkh2
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Ino4
Fkh1
0
0
0
0
0
1
0
1
1
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
Mal33
Cup9
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
Ino2
Cin5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
Ifh1
Cha4
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Ime4
Bas1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Hsf1
Azf1
1
0
0
1
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
Hap4
Ash1
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
Hcm1
Abf1
YDR055W
YJL051W
YPR119W
YHL028W
YOR383C
YOR315W
YPR149W
YPR013C
YLR413W
YBR054W
YOR235W
YNR067C
YAL022C
YBR202W
YBL023C
YBR069C
YGL116W
YOR066W
YEL032W
YMR001C
YLR274W
YPL242C
YAR018C
YPR019W
YOR258W
continua
Ace2
continuação
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Apêndices
94
Yrr1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Yox1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Yap6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Xbp1
1
0
0
0
0
1
1
1
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
YPR015C
1
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
Ume6
1
0
1
0
0
1
1
1
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
Thi2
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
Tye7
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Tec1
0
0
0
0
0
0
1
0
1
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
Swi5
1
0
0
1
0
1
1
1
1
1
0
1
0
1
0
1
1
1
1
0
0
0
0
0
0
Sut1
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
Swi4
Sum1
1
0
0
1
1
1
1
1
1
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
Stp2
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
Stb1
Sok2
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Ste12
Smp1
YDR055W
YJL051W
YPR119W
YHL028W
YOR383C
YOR315W
YPR149W
YPR013C
YLR413W
YBR054W
YOR235W
YNR067C
YAL022C
YBR202W
YBL023C
YBR069C
YGL116W
YOR066W
YEL032W
YMR001C
YLR274W
YPL242C
YAR018C
YPR019W
YOR258W
Rme1
conclusão
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
Apêndices
95
Apêndice C – Tabela das anotações funcionais dos genes induzidos (xi ≥ 0,5) em alpha
factor 119 minutos.
Systematic
Name
Standard Alias
Name
Description
YAL022C
FUN26
YAL022C
YAR018C
KIN3
YBL023C
MCM2
FUN52,
NPK1
YBL023C
Nucleoside transporter with broad nucleoside selectivity;
localized to intracellular membranes
Nonessential protein kinase with unknown cellular role
YBR054W
YRO2
YBR054W Putative protein of unknown function; the authentic, nontagged protein is detected in a phosphorylated state in highly
purified mitochondria in high-throughput studies;
transcriptionally regulated by Haa1p
YBR069C
TAT1
TAP1,
VAP1
Amino acid transport protein for valine, leucine, isoleucine,
and tyrosine, low-affinity tryptophan and histidine
transporter; overexpression confers FK506 and FTY720
resistance
YBR093C
PHO5
PHOE
Repressible acid phosphatase (1 of 3) that also mediates
extracellular nucleotide-derived phosphate hydrolysis;
secretory pathway derived cell surface glycoprotein; induced
by phosphate starvation and coordinately regulated by PHO4
and PHO2
YBR202W
MCM7
CDC47
Component of the hexameric MCM complex, which is
important for priming origins of DNA replication in G1 and
becomes an active ATP-dependent helicase that promotes
DNA melting and elongation when activated by Cdc7p-Dbf4p
in S-phase
Protein involved in DNA replication; component of the
Mcm2-7 hexameric complex that binds chromatin as a part of
the pre-replicative complex
YDR033W MRH1
YDR033W Protein that localizes primarily to the plasma membrane, also
found at the nuclear envelope; the authentic, non-tagged
protein is detected in mitochondria in a phosphorylated state;
has similarity to Hsp30p and Yro2p
YDR055W PST1
HPF2
Cell wall protein that contains a putative GPI-attachment
site; secreted by regenerating protoplasts; up-regulated by
activation of the cell integrity pathway, as mediated by
Rlm1p; upregulated by cell wall damage via disruption of
FKS1
YDR146C
SWI5
YDR146C
Transcription factor that activates transcription of genes
expressed at the M/G1 phase boundary and in G1 phase;
localization to the nucleus occurs during G1 and appears to
be regulated by phosphorylation by Cdc28p kinase
YEL032W
MCM3
YEL032W Protein involved in DNA replication; component of the
Mcm2-7 hexameric complex that binds chromatin as a part of
the pre-replicative complex
YER145C
FTR1
YER145C
continua
High affinity iron permease involved in the transport of iron
across the plasma membrane; forms complex with Fet3p;
expression is regulated by iron
Apêndices
96
continuação
Systematic
Name
Standard Alias
Name
Description
YGL008C
PMA1
KTI10
Plasma membrane H+-ATPase, pumps protons out of the cell;
major regulator of cytoplasmic pH and plasma membrane
potential; part of the P2 subgroup of cation-transporting
ATPases
YGL021W
ALK1
YGL021W Protein kinase; accumulation and phosphorylation are
periodic during the cell cycle; phosphorylated in response to
DNA damage; contains characteristic motifs for degradation
via the APC pathway; similar to Alk2p and to mammalian
haspins
YGL116W
CDC20
PAC5
Cell-cycle regulated activator of anaphase-promoting
complex/cyclosome (APC/C), which is required for
metaphase/anaphase transition; directs ubiquitination of
mitotic cyclins, Pds1p, and other anaphase inhibitors;
potential Cdc28p substrate
YGR108W CLB1
SCB1
B-type cyclin involved in cell cycle progression; activates
Cdc28p to promote the transition from G2 to M phase;
accumulates during G2 and M, then targeted via a destruction
box motif for ubiquitin-mediated degradation by the
proteasome
YHL028W
WSC4
YFW1,
YHC8
YHL040C
ARN1
YHL040C
ER membrane protein involved in the translocation of soluble
secretory proteins and insertion of membrane proteins into
the ER membrane; may also have a role in the stress response
but has only partial functional overlap with WSC1-3
Transporter, member of the ARN family of transporters that
specifically recognize siderophore-iron chelates; responsible
for uptake of iron bound to ferrirubin, ferrirhodin, and related
siderophores
YHR005C
GPA1
CDC70,
DAC1,
SCG1
GTP-binding alpha subunit of the heterotrimeric G protein
that couples to pheromone receptors; negatively regulates the
mating pathway by sequestering G(beta)gamma and by
triggering an adaptive response; activates Vps34p at the
endosome
YHR006W STP2
YHR006W Transcription factor, activated by proteolytic processing in
response to signals from the SPS sensor system for external
amino acids; activates transcription of amino acid permease
genes
YHR023W MYO1
YHR023W Type II myosin heavy chain, required for wild-type cytokinesis
and cell separation; localizes to the actomyosin ring; binds to
myosin light chains Mlc1p and Mlc2p through its IQ1 and
IQ2 motifs respectively
YJL051W
IRC8
YJL051W
Bud tip localized protein of unknown function; mRNA is
targeted to the bud by a She2p dependent transport system;
mRNA is cell cycle regulated via Fkh2p, peaking in G2/M
phase; null mutant displays increased levels of spontaneous
Rad52p foc
YJL157C
FAR1
YJL157C
Cyclin-dependent kinase inhibitor that mediates cell cycle
arrest in response to pheromone; also forms a complex with
Cdc24p, Ste4p, and Ste18p that may specify the direction of
polarized growth during mating; potential Cdc28p substrate
continua
Apêndices
97
continuação
Systematic
Name
Standard Alias
Name
Description
YJR092W
BUD4
YJR092W
Protein involved in bud-site selection and required for axial
budding pattern; localizes with septins to bud neck in mitosis
and may constitute an axial landmark for next round of
budding; potential Cdc28p substrate
YKL164C
PIR1
CCW6
O-glycosylated protein required for cell wall stability;
attached to the cell wall via beta-1,3-glucan; mediates
mitochondrial translocation of Apn1p; expression regulated
by the cell integrity pathway and by Swi5p during the cell
cycle
YKL185W
ASH1
YKL185W Zinc-finger inhibitor of HO transcription; mRNA is localized
and translated in the distal tip of anaphase cells, resulting in
accumulation of Ash1p in daughter cell nuclei and inhibition
of HO expression; potential Cdc28p substrate
YLR190W
MMR1
YLR190W Phosphorylated protein of the mitochondrial outer membrane,
localizes only to mitochondria of the bud; interacts with
Myo2p to mediate mitochondrial distribution to buds; mRNA
is targeted to the bud via the transport system involving She2p
YLR274W
MCM5
BOB1,
CDC46
YLR413W
NO_C
YLR452C
SST2
YLR413W Putative protein of unknown function; YLR413W is not an
essential gene
YLR452C GTPase-activating protein for Gpa1p, regulates
desensitization to alpha factor pheromone; also required to
prevent receptor-independent signaling of the mating
pathway; member of the RGS (regulator of G-protein
signaling) family
Component of the hexameric MCM complex, which is
important for priming origins of DNA replication in G1 and
becomes an active ATP-dependent helicase that promotes
DNA melting and elongation when activated by Cdc7p-Dbf4p
in S-phase
YML034W SRC1
HEH1,
Inner nuclear membrane (INM) protein with a putative role in
YML033W sister chromatid segregation, potentially phosphorylated by
Cdc28p; contains helix-extension-helix (HEH) motif, nuclear
localization signal sequence
YML119W NO_C
YML119W Putative protein of unknown funtion; YML119W is not an
essential gene; potential Cdc28p substrate
MSD2,
Polo-like kinase with similarity to Xenopus Plx1 and S. pombe
PKX2
Plo1p; found at bud neck, nucleus and SPBs; has multiple
functions in mitosis and cytokinesis through phosphorylation
of substrates; may be a Cdc28p substrate
YMR001C
CDC5
YMR031C
NO_C
YMR032W HOF1
continua
YMR031C Protein of unknown function with similarity to Ykl050cp and
Uso1p; the authentic, non-tagged protein is detected in a
phosphorylated state in highly purified mitochondria in highthroughput studies; YMR031C is not an essential gene
CYK2
Bud neck-localized, SH3 domain-containing protein required
for cytokinesis; regulates actomyosin ring dynamics and
septin localization; interacts with the formins, Bni1p and
Bnr1p, and with Cyk3p, Vrp1p, and Bni5p
Apêndices
98
continuação
Systematic
Name
Standard Alias
Name
YNL057W
NO_C
YNL058C
NO_C
YNL216W
RAP1
GRF1,
TBA1,
TUF1
YNL327W
EGT2
YNL327W Glycosylphosphatidylinositol (GPI)-anchored cell wall
endoglucanase required for proper cell separation after
cytokinesis, expression is activated by Swi5p and tightly
regulated in a cell cycle-dependent manner
YNR067C
DSE4
ENG1
YOL114C
NO_C
YOL114C
YOL132W
GAS4
YOL132W 1,3-beta-glucanosyltransferase, involved with Gas2p in spore
wall assembly; has similarity to Gas1p; localizes to the cell
wall
YOR29-17 Activator of G1-specific transcription factors, MBF and SBF,
that regulates both the timing of G1-specific gene
transcription, and cell cycle initiation; potential Cdc28p
substrate
YOR066W MSA1
Description
YNL057W Dubious open reading frame unlikely to encode a protein,
based on available experimental and comparative sequence
data
YNL058C Putative protein of unknown function; green fluorescent
protein (GFP)-fusion protein localizes to the vacuole;
YNL058C is not an essential gene
DNA-binding protein involved in either activation or
repression of transcription, depending on binding site context;
also binds telomere sequences and plays a role in telomeric
position effect (silencing) and telomere structure
Daughter cell-specific secreted protein with similarity to
glucanases, degrades cell wall from the daughter side causing
daughter to separate from mother
Putative protein of unknown function with similarity to human
ICT1 and prokaryotic factors that may function in translation
termination; YOL114C is not an essential gene
YOR114W NO_C
YOR153W PDR5
YOR114W
LEM1,
STS1,
YDR1
YOR235W NO_C
YOR235W Hypothetical protein; null mutant displays increased levels of
spontaneous Rad52 foci
YOR258W Member of the third branch of the histidine triad (HIT)
superfamily of nucleotide-binding proteins; similar to
Aprataxin, a Hint related protein that is mutated in
individuals with ataxia with oculomotor apraxia
YOR258W HNT3
YOR298W MUM3
Hypothetical protein
Plasma membrane ATP-binding cassette (ABC) transporter,
short-lived multidrug transporter actively regulated by Pdr1p;
also involved in steroid transport, cation resistance, and
cellular detoxification during exponential growth
YOR315W SFG1
YOR298W Protein of unknown function involved in the organization of
the outer spore wall layers; has similarity to the tafazzins
superfamily of acyltransferases
YOR315W Nuclear protein, putative transcription factor required for
growth of superficial pseudohyphae (which do not invade the
agar substrate) but not for invasive pseudohyphal growth;
may act together with Phd1p; potential Cdc28p substrate
YOR383C
YOR383C
continua
FIT3
Mannoprotein that is incorporated into the cell wall via a
glycosylphosphatidylinositol (GPI) anchor, involved in the
retention of siderophore-iron in the cell wall
Apêndices
99
continuação
Systematic Standard Alias
Name
Name
Description
YPL025C
YPL036W
NO_C
PMA2
YPL025C
YPL036W
Hypothetical protein
Plasma membrane H+-ATPase, isoform of Pma1p, involved
in pumping protons out of the cell; regulator of cytoplasmic
pH and plasma membrane potential
YPL124W
SPC29
LPH3,
NIP29
Inner plaque spindle pole body (SPB) component, links the
central plaque component Spc42p to the inner plaque
component Spc110p; required for SPB duplication
YPL128C
TBF1
LPI16
Telobox-containing general regulatory factor; binds to
TTAGGG repeats within subtelomeric anti-silencing regions
(STARs) and possibly throughout the genome and mediates
their insulating capacity by blocking silent chromatin
propagation
YPL141C
NO_C
YPL141C
YPL155C
KIP2
YPL155C
Putative protein kinase; similar to Kin4p; green fluorescent
protein (GFP)-fusion protein localizes to the cytoplasm;
YPL141C is not an essential gene
Kinesin-related motor protein involved in mitotic spindle
positioning, stabilizes microtubules by targeting Bik1p to the
plus end; Kip2p levels are controlled during the cell cycle
YPL158C
NO_C
YPL158C
Protein of unknown function; null mutant displays increased
frequency of mitochondrial genome loss (petite formation)
and reduced growth rate in minimal glycerol media
YPL242C
IQG1
CYK1
Essential protein required for determination of budding
pattern, promotes localization of axial markers Bud4p and
Cdc12p and functionally interacts with Sec3p, localizes to the
contractile ring during anaphase, member of the IQGAP
family
YPL264C
NO_C
YPL264C
Putative membrane protein of unknown function; physically
interacts with Hsp82p; YPL264C is not an essential gene
YPL269W
KAR9
YPL269W
Karyogamy protein required for correct positioning of the
mitotic spindle and for orienting cytoplasmic microtubules,
localizes at the shmoo tip in mating cells and at the tip of the
growing bud in small-budded cells through anaphase
YPR013C
NO_C
YPR013C
Putative zinc finger protein; YPR013C is not an essential gene
YPR019W
MCM4
CDC54,
HCD21
Essential helicase component of heterohexameric MCM2-7
complexes which bind pre-replication complexes on DNA and
melt the DNA prior to replication; accumulates in the nucleus
in G1; homolog of S. pombe Cdc21p
YPR111W
DBF20
YPR111W Ser/Thr kinase involved in late nuclear division, one of the
mitotic exit network (MEN) proteins; necessary for the
execution of cytokinesis
YPR119W
CLB2
YPR119W B-type cyclin involved in cell cycle progression; activates
Cdc28p to promote the transition from G2 to M phase;
accumulates during G2 and M, then targeted via a destruction
box motif for ubiquitin-mediated degradation by the
proteasome
continua
Apêndices
100
conclusão
Systematic
Name
Standard Alias
Name
Description
YPR149W
NCE102
NCE2
Protein of unknown function; contains transmembrane
domains; involved in secretion of proteins that lack classical
secretory signal sequences; component of the detergentinsoluble glycolipid-enriched complexes (DIGs)
YPR156C
TPO3
YPR156C
Polyamine transport protein specific for spermine; localizes
to the plasma membrane; member of the major facilitator
superfamily
NO_C: UNCHARACTERIZED
Apêndices
101
Apêndice D - Gráficos dos agrupamentos ATF e AVM originais e embaralhados referentes
aos diversos tempos amostrais de alpha factor
continua
Apêndices
continuação
continua
102
Apêndices
continuação
continua
103
Apêndices
conclusão
104
Apêndices
105
Apêndice E – Identificação dos genes agrupados por ATF distribuídos em categorias MIPS.
Genes, separados em subgrupos de ATF, enquadrados em uma ou mais categorias, para alpha factor 119
minutos
Id. Subgrupo
ATFa119sg01
Cód.
Cat.
10
ATFa119sg01
00
There are no MIPS data gene
'5/17
ATFa119sg01
14
'4/17
ATFa119sg01
42
ATFa119sg01
43
ATFa119sg01
32
ATFa119sg01
20
PROTEIN FATE (folding,
modification, destination)
BIOGENESIS OF CELLULAR
COMPONENTS
CELL TYPE
DIFFERENTIATION
CELL RESCUE, DEFENSE AND
VIRULENCE
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
ATFa119sg01
16
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'3/17
17,65 YJR092W; YMR032W;
YPL242C
ATFa119sg01
40
CELL FATE
'3/17
ATFa119sg01
01
METABOLISM
'3/17
ATFa119sg01
18
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'2/17
17,65 YMR032W; YHR023W;
YPL242C
17,65 YGL021W; YPL141C;
YMR001C
11,76 YGR108W; YGL116W
ATFa119sg01
ATFa119sg01
ATFa119sg01
11
02
34
TRANSCRIPTION
ENERGY
INTERACTION WITH THE
ENVIRONMENT
'1/17
'1/17
'1/17
5,88 YDR146C
5,88 YHR023W
5,88 YDR146C
ATFa119sg02
ATFa119sg02
11
14
'2/5
'1/5
40,00 YOR315W; YPR013C
20,00 YPR149W
ATFa119sg02
32
'1/5
20,00 YBR054W
ATFa119sg02
ATFa119sg02
00
43
'1/5
'1/5
20,00 YLR413W
20,00 YOR315W
ATFa119sg02
20
TRANSCRIPTION
PROTEIN FATE (folding,
modification, destination)
CELL RESCUE, DEFENSE AND
VIRULENCE
There are no MIPS data gene
CELL TYPE
DIFFERENTIATION
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'1/5
20,00 YPR149W
continua
Categorias
Razão Perc. Systematic name genes
CELL CYCLE AND DNA
PROCESSING
'9/17
52,94 YGL021W; YDR146C;
YMR032W; YPL155C;
YHR023W; YGR108W;
YGL116W; YMR001C;
YPL242C
29,41 YML034W; YLR190W;
YML119W; YNL058C;
YJL051W
23,53 YGL021W; YPL141C;
YGL116W; YMR001C
23,53 YMR032W; YPL155C;
YHR023W; YPL242C
23,53 YJR092W; YMR032W;
YHR023W; YPL242C
23,53 YGL021W; YHR023W;
YPR156C; YPL242C
17,65 YPL155C; YHR023W;
YPR156C
'4/17
'4/17
'4/17
'3/17
Apêndices
continuação
Id. Subgrupo
106
ATFa 119sg03
Cód.
Cat.
34
ATFa 119sg03
10
ATFa 119sg03
16
ATFa 119sg03
Categorias
Razão Perc. Systematic name genes
INTERACTION WITH THE
ENVIRONMENT
'5/9
CELL CYCLE AND DNA
PROCESSING
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'3/9
30
CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'3/9
33,33 YLR452C; YHR005C;
YHL028W
ATFa 119sg03
ATFa 119sg03
11
42
'2/9
'2/9
22,22 YLR452C; YKL185W
22,22 YKL164C; YHL028W
ATFa 119sg03
43
'2/9
22,22 YKL185W; YDR055W
ATFa 119sg03
20
'2/9
22,22 YKL164C; YER145C
ATFa 119sg03
32
'2/9
22,22 YKL164C; YHL028W
ATFa 119sg03
ATFa 119sg03
40
14
'2/9
'1/9
22,22 YKL185W; YNL327W
11,11 YLR452C
ATFa 119sg03
ATFa 119sg03
ATFa 119sg03
41
01
18
TRANSCRIPTION
BIOGENESIS OF CELLULAR
COMPONENTS
CELL TYPE
DIFFERENTIATION
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
CELL RESCUE, DEFENSE AND
VIRULENCE
CELL FATE
PROTEIN FATE (folding,
modification, destination)
DEVELOPMENT (Systemic)
METABOLISM
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/9
'1/9
'1/9
11,11 YKL185W
11,11 YNL327W
11,11 YLR452C
ATFa119sg04
10
'4/6
ATFa119sg04
16
CELL CYCLE AND DNA
PROCESSING
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
66,67 YJL157C; YEL032W;
YLR274W; YAR018C
50,00 YJL157C; YEL032W;
YLR274W
ATFa119sg04
43
'2/6
33,33 YJL157C; YAR018C
ATFa119sg04
42
'2/6
33,33 YJL157C; YAR018C
ATFa119sg04
ATFa119sg04
40
14
'2/6
'1/6
33,33 YJL157C; YAR018C
16,67 YAR018C
ATFa119sg04
ATFa119sg04
00
32
CELL TYPE
DIFFERENTIATION
BIOGENESIS OF CELLULAR
COMPONENTS
CELL FATE
PROTEIN FATE (folding,
modification, destination)
There are no MIPS data gene
CELL RESCUE, DEFENSE AND
VIRULENCE
'1/6
'1/6
16,67 YMR031C
16,67 YDR033W
continua
'3/9
'3/6
55,56 YLR452C; YKL185W;
YER145C; YHR005C;
YHL028W
33,33 YNL327W; YDR055W;
YBR202W
33,33 YLR452C; YHR005C;
YBR202W
Apêndices
continuação
Id. Subgrupo
107
ATFa119sg04
Cód.
Cat.
30
ATFa119sg04
ATFa119sg04
01
34
ATFa119sg04
18
ATFa119sg05
10
ATFa119sg05
20
ATFa119sg05
Categorias
Razão Perc. Systematic name genes
CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
METABOLISM
INTERACTION WITH THE
ENVIRONMENT
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/6
16,67 YJL157C
'1/6
'1/6
16,67 YAR018C
16,67 YJL157C
'1/6
16,67 YJL157C
CELL CYCLE AND DNA
PROCESSING
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'3/7
42,86 YNR067C; YBL023C;
YPR019W
42,86 YHL040C; YAL022C;
YBR069C
16
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/7
28,57 YBL023C; YPR019W
ATFa119sg05
32
'1/7
14,29 YHL040C
ATFa119sg05
ATFa119sg05
00
01
CELL RESCUE, DEFENSE AND
VIRULENCE
There are no MIPS data gene
METABOLISM
'1/7
'1/7
14,29 YOR066W
14,29 YNR067C
ATFa119sg06
00
There are no MIPS data gene
'3/7
ATFa119sg06
20
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'2/7
42,86 YPL025C; YOR114W;
YOL114C
28,57 YOR153W; YGL008C
ATFa119sg06
32
'2/7
28,57 YOR153W; YBR093C
ATFa119sg06
34
'2/7
28,57 YOR153W; YGL008C
ATFa119sg06
10
'1/7
14,29 YPR119W
ATFa119sg06
43
'1/7
14,29 YPR119W
ATFa119sg06
ATFa119sg06
02
16
CELL RESCUE, DEFENSE AND
VIRULENCE
INTERACTION WITH THE
ENVIRONMENT
CELL CYCLE AND DNA
PROCESSING
CELL TYPE
DIFFERENTIATION
ENERGY
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'1/7
'1/7
14,29 YGL008C
14,29 YOR153W
ATFa119sg06
ATFa119sg06
01
18
METABOLISM
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/7
'1/7
14,29 YBR093C
14,29 YPR119W
ATFa119sg07
10
CELL CYCLE AND DNA
PROCESSING
'3/5
60,00 YNL216W; YPL128C;
YPL124W
continua
'3/7
Apêndices
conclusão
Id. Subgrupo
108
ATFa119sg07
ATFa119sg07
Cód.
Cat.
11
42
ATFa119sg07
16
ATFa119sg07
ATFa119sg07
Categorias
Razão Perc. Systematic name genes
TRANSCRIPTION
BIOGENESIS OF CELLULAR
COMPONENTS
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/5
'2/5
40,00 YNL216W; YPL128C
40,00 YNL216W; YPL124W
'2/5
40,00 YNL216W; YPL128C
00
20
There are no MIPS data gene
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'1/5
'1/5
20,00 YNL057W
20,00 YPL036W
ATFa119sg07
ATFa119sg07
02
32
'1/5
'1/5
20,00 YPL036W
20,00 YNL216W
ATFa119sg07
ATFa119sg07
ATFa119sg07
12
01
34
ENERGY
CELL RESCUE, DEFENSE AND
VIRULENCE
PROTEIN SYNTHESIS
METABOLISM
INTERACTION WITH THE
ENVIRONMENT
'1/5
'1/5
'1/5
20,00 YNL216W
20,00 YNL216W
20,00 YPL036W
ATFa119sg08
ATFa119sg08
00
10
There are no MIPS data gene
CELL CYCLE AND DNA
PROCESSING
'2/3
'1/3
66,67 YPL264C; YPL158C
33,33 YPL269W
ATFa119sg09
01
METABOLISM
'3/7
ATFa119sg09
10
'2/7
ATFa119sg09
ATFa119sg09
00
14
'2/7
'1/7
28,57 YOR235W; YOR258W
14,29 YPR111W
ATFa119sg09
ATFa119sg09
11
42
'1/7
'1/7
14,29 YHR006W
14,29 YOL132W
ATFa119sg09
43
'1/7
14,29 YOR298W
ATFa119sg09
20
CELL CYCLE AND DNA
PROCESSING
There are no MIPS data gene
PROTEIN FATE (folding,
modification, destination)
TRANSCRIPTION
BIOGENESIS OF CELLULAR
COMPONENTS
CELL TYPE
DIFFERENTIATION
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
42,86 YPR111W; YOR298W;
YOL132W
28,57 YPR111W; YOR298W
'1/7
14,29 YOR383C
Apêndices
109
Apêndice F – Identificação dos genes agrupados por AVM distribuídos em categorias
MIPS.
Genes, separados em subgrupos de AVM, enquadrados em uma ou mais categorias, para alpha factor 119
minutos
Id. Subgrupo
AVMa119sg01
Cód.
Cat.
20
AVMa119sg01
32
AVMa119sg01
01
AVMa119sg01
10
AVMa119sg01
AVMa119sg01
00
42
AVMa119sg01
14
AVMa119sg01
43
AVMa119sg01
16
AVMa119sg01
AVMa119sg01
40
34
CELL FATE
INTERACTION WITH THE
ENVIRONMENT
'1/13
'1/13
7,69 YAR018C
7,69 YER145C
AVMa119sg02
16
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'5/7
71,43 YHR005C; YBL023C;
YEL032W; YLR274W;
YPR019W
AVMa119sg02
10
'4/7
AVMa119sg02
AVMa119sg02
00
30
'2/7
'1/7
57,14 YBL023C; YEL032W;
YLR274W; YPR019W
28,57 YMR031C; YOR066W
14,29 YHR005C
AVMa119sg02
34
CELL CYCLE AND DNA
PROCESSING
There are no MIPS data gene
CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
INTERACTION WITH THE
ENVIRONMENT
'1/7
14,29 YHR005C
AVMa119sg03
10
CELL CYCLE AND DNA
PROCESSING
'4/7
57,14 YJL157C; YNL327W;
YDR055W; YNR067C
continua
Categorias
Razão Perc. Systematic name genes
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'5/13
38,46 YER145C; YHL040C;
YOR383C; YAL022C;
YBR069C
CELL RESCUE, DEFENSE AND
VIRULENCE
METABOLISM
'4/13
CELL CYCLE AND DNA
PROCESSING
There are no MIPS data gene
BIOGENESIS OF CELLULAR
COMPONENTS
PROTEIN FATE (folding,
modification, destination)
CELL TYPE
DIFFERENTIATION
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/13
30,77 YDR033W; YBR093C;
YHL040C; YBR054W
23,08 YOL132W; YBR093C;
YAR018C
15,38 YBR202W; YAR018C
'2/13
'2/13
15,38 YPL158C; YLR413W
15,38 YOL132W; YAR018C
'1/13
7,69 YAR018C
'1/13
7,69 YAR018C
'1/13
7,69 YBR202W
'3/13
Apêndices
continuação
Id. Subgrupo
110
AVMa119sg03
Cód.
Cat.
43
AVMa119sg03
40
AVMa119sg03
34
AVMa119sg03
AVMa119sg03
11
42
AVMa119sg03
16
AVMa119sg03
Categorias
Razão Perc. Systematic name genes
CELL TYPE
DIFFERENTIATION
CELL FATE
'3/7
'2/7
'2/7
42,86 YJL157C; YKL185W;
YDR055W
42,86 YJL157C; YKL185W;
YNL327W
42,86 YLR452C; YJL157C;
YKL185W
28,57 YLR452C; YKL185W
28,57 YJL157C; YKL164C
INTERACTION WITH THE
ENVIRONMENT
TRANSCRIPTION
BIOGENESIS OF CELLULAR
COMPONENTS
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'3/7
'2/7
28,57 YLR452C; YJL157C
30
CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'2/7
28,57 YLR452C; YJL157C
AVMa119sg03
AVMa119sg03
01
18
METABOLISM
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
PROTEIN FATE (folding,
modification, destination)
DEVELOPMENT (Systemic)
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
CELL RESCUE, DEFENSE AND
VIRULENCE
'2/7
'2/7
28,57 YNL327W; YNR067C
28,57 YLR452C; YJL157C
AVMa119sg03
14
'1/7
14,29 YLR452C
AVMa119sg03
AVMa119sg03
41
20
'1/7
'1/7
14,29 YKL185W
14,29 YKL164C
AVMa119sg03
32
'1/7
14,29 YKL164C
AVMa119sg04
10
CELL CYCLE AND DNA
PROCESSING
'5/10
50,00 YGL021W; YPL155C;
YGR108W; YPR119W;
YMR001C
AVMa119sg04
14
'3/10
AVMa119sg04
43
AVMa119sg04
01
PROTEIN FATE (folding,
modification, destination)
CELL TYPE
DIFFERENTIATION
METABOLISM
AVMa119sg04
20
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'2/10
30,00 YGL021W; YPL141C;
YMR001C
30,00 YJR092W; YPR119W;
YOR315W
30,00 YGL021W; YPL141C;
YMR001C
20,00 YPL155C; YOR153W
continua
'3/7
'3/10
'3/10
Apêndices
continuação
Id. Subgrupo
111
AVMa119sg04
Cód.
Cat.
16
AVMa119sg04
32
AVMa119sg04
18
AVMa119sg04
AVMa119sg04
AVMa119sg04
11
00
42
AVMa119sg04
34
AVMa119sg05
10
CELL CYCLE AND DNA
PROCESSING
'5/15
33,33 YDR146C; YMR032W;
YHR023W; YGL116W;
YPL242C
AVMa119sg05
00
There are no MIPS data gene
'5/15
33,33 YNL057W; YLR190W;
YML119W; YNL058C;
YJL051W
AVMa119sg05
20
CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'5/15
33,33 YPL036W; YHR023W;
YGL008C; YPR156C;
YPR149W
AVMa119sg05
42
BIOGENESIS OF CELLULAR
COMPONENTS
'4/15
26,67 YMR032W; YHR023W;
YHL028W; YPL242C
AVMa119sg05
32
'4/15
AVMa119sg05
34
AVMa119sg05
43
AVMa119sg05
02
CELL RESCUE, DEFENSE AND
VIRULENCE
INTERACTION WITH THE
ENVIRONMENT
CELL TYPE
DIFFERENTIATION
ENERGY
AVMa119sg05
40
CELL FATE
'3/15
AVMa119sg05
14
PROTEIN FATE (folding,
modification, destination)
'2/15
26,67 YHR023W; YPR156C;
YHL028W; YPL242C
26,67 YDR146C; YPL036W;
YGL008C; YHL028W
20,00 YMR032W; YHR023W;
YPL242C
20,00 YPL036W; YHR023W;
YGL008C
20,00 YMR032W; YHR023W;
YPL242C
13,33 YPR149W; YGL116W
continua
Categorias
Razão Perc. Systematic name genes
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/10
20,00 YJR092W; YOR153W
CELL RESCUE, DEFENSE AND
VIRULENCE
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'2/10
20,00 YGL021W; YOR153W
'2/10
20,00 YGR108W; YPR119W
TRANSCRIPTION
There are no MIPS data gene
BIOGENESIS OF CELLULAR
COMPONENTS
INTERACTION WITH THE
ENVIRONMENT
'1/10
'1/10
'1/10
10,00 YOR315W
10,00 YML034W
10,00 YPL155C
'1/10
10,00 YOR153W
'4/15
'3/15
'3/15
Apêndices
conclusão
Id. Subgrupo
112
AVMa119sg05
Cód.
Cat.
16
Categorias
Razão Perc. Systematic name genes
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/15
13,33 YMR032W; YPL242C
AVMa119sg05
AVMa119sg05
11
30
TRANSCRIPTION
CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/15
'1/15
6,67 YDR146C
6,67 YHL028W
AVMa119sg05
18
'1/15
6,67 YGL116W
AVMa119sg06
10
CELL CYCLE AND DNA
PROCESSING
There are no MIPS data gene
BIOGENESIS OF CELLULAR
COMPONENTS
METABOLISM
CELL TYPE
DIFFERENTIATION
'2/3
66,67 YOR298W; YPL124W
AVMa119sg06
AVMa119sg06
00
42
'1/3
'1/3
33,33 YOR114W
33,33 YPL124W
AVMa119sg06
AVMa119sg06
01
43
'1/3
'1/3
33,33 YOR298W
33,33 YOR298W
AVMa119sg07
00
There are no MIPS data gene
'5/11
45,45 YPL264C; YPL025C;
YOL114C; YOR235W;
YOR258W
AVMa119sg07
10
'4/11
AVMa119sg07
11
CELL CYCLE AND DNA
PROCESSING
TRANSCRIPTION
AVMa119sg07
16
PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/11
36,36 YPL269W; YPR111W;
YNL216W; YPL128C
36,36 YNL216W; YPL128C;
YHR006W; YPR013C
18,18 YNL216W; YPL128C
AVMa119sg07
AVMa119sg07
01
14
'2/11
'1/11
18,18 YPR111W; YNL216W
9,09 YPR111W
AVMa119sg07
42
'1/11
9,09 YNL216W
AVMa119sg07
32
'1/11
9,09 YNL216W
AVMa119sg07
12
METABOLISM
PROTEIN FATE (folding,
modification, destination)
BIOGENESIS OF CELLULAR
COMPONENTS
CELL RESCUE, DEFENSE AND
VIRULENCE
PROTEIN SYNTHESIS
'1/11
9,09 YNL216W
'4/11
Apêndices
113
Apêndice G: Manuscrito
In silico gene clustering by transcription factors and differential expression
Luciano Angelo de Souza Bernardes1; Silvana Giuliatti1
1
Department of genetics of Faculdade de Medicina de Ribeirão Preto – FMRP - USP
Abstract
Living organisms are continuously modulating their genes in response to intrinsic and
extrinsic changes. Little is known about the complex that involves gene regulation, but the
transcription factors are one of these elements. The basic hypothesis is that if the transcription
factors are responsible for a gene modulation profile along the time, genes should be grouped
by the factors that induced the share each time the sample was observed, allowing a more
dynamic follow-up and not only by the expression profile. To develop efficient computational
methods to analyze large amount of data obtained in experiments is a challenging problem for
computational / bioinformatics. The goal was to group genes using transcription factors and
modulation profiles. The clustering methods are currently considering all points of the
modulation profile of genes and the greater the amount of these items, better is for clustering.
To enable cluster by transcription factors it was created a matrix of presence / absence of
genes for transcription factors and modulation profiles were temporally accumulated. The
results obtained were better than those of the clustering method for expression, which were
observed by the interactions of factors with the genes in analyzed subgroups, resulting in its
majority to cover all of them. The correlation of the subgroups of the two methods was
partial, which means, some genes in some subgroups share the same TFs and have very
similar expression profile.
Introduction
Living organisms, prokaryotes or eukaryotes, in general have thousands of genes.
Throughout its life they produce different proteins through differentiate modulating
(repression or induction) of genes, stimulated by intrinsic or extrinsic characteristics. Usually,
in multicellular organisms, the genome is identical in all cells, what differs from each other is
the distinct set of genes that modulates. In simpler organisms (unicellular), distinct sets of
Apêndices
114
genes also modulate, considering the availability of nutrients, the physical and chemical
environment, among others, and also in response to changes that may reprogram gene
modulation, through its biochemical capacity (CAUSTON et al, 2001). Thus, it becomes a
matter great importance to understand the mechanisms that control and the characteristic
elements of genes involved in modulating the different stages of development.
Transcription Factors
Transcription factors (TF) is a family of proteins that play an important role in
regulating gene transcription. They bind to certain points of the sequence of DNA, and by this
connection, in response to specific stimuli, control the transcription of genetic information in
DNA into RNA. Transcription is one of the most widely studied processes in molecular
biology (WASSEMAN; SANDELIN, 2004). Points of DNA binding (binding sites or motifs)
are short sequences, between 5 and 25 pairs of length base (KARIN, 1990) with possible
degeneration into its patterns. In lower eukaryotes, it is estimated that these points are located
immediately preceding the beginning of the gene, a region that comprises 800-1000 pair
bases. However there is no consensus about this. After the transcription, the product generated
is automatically submitted to the other stages of gene expression such as RNA splicing,
resulting in the production of the corresponding protein (LATCHMAN, 1997).
The study of regulatory regions of genes with similar transcription patterns revealed
the presence of short sequences of DNA shared between them, the same was not observed in
genes that have not had the same pattern of expression. For example, genes which
transcription is induced in response to high temperature contain a common regulatory element
known as heat-shock (HSE), which is absent in genes that do not show the same induction.
Evidence that these sequences are of critical importance in the production of gene
transcription were experiments that transferred the HSE element of a temperature-inducible
gene to a thymidine kinase gene, which is usually not inducible in this condition. This hybrid
gene was introduced into a cell and the temperature was heighten, soon it was noticed an
increase in the production of thymidine kinase, indicating that the HSE was the direct inducer
of this gene. This experiment proved that the transferred element is a binding site for
regulatory proteins known as TFs, which alternatively regulate the gene transcription
positively or negatively, to produce the observed effect on transcription (LATCHMAN, 1995).
Apêndices
115
Searching Algorithms for motifs
For over three decades, researchers search for these motifs (SANDVE; DRABLOS,
2006). For this, several algorithms were written, the first methods were based on consensus
which is the search of snippets into groups of similar sequences, allowing or not variations in
the lengths and / or heading. The passages commonly encountered assumed as motifs, are
then aligned with a corresponding profile, which receives a score. Therefore, it generated a
new consensus, which is considered a potential hotspot for the transcription factor (PAVESE;
MAURI; PESOLA, 2004).
After the advent of microarray (KULESK et al, 1987, SCHENA et al, 1995) it was
created the possibility that clusters were generated based on the expression of these genes by
hierarchical clustering or k-means. On this basis, the search for motifs began to be conducted
in groups of genes with similar modulations, however, gene expression could be caused by
functionally different mechanisms. Considering this behavior, researchers have developed
new types of algorithms, based on joint probability (HOLMES, BRUNO, 2000), which
outlines a model for the relation sequence-expression using the Gibbs algorithm
(LAWRENCE et al, 1993) and Expectation / maximization (DEMPSTER, LAIRD; RUBIM,
1977). A different perspective enabled the development of an algorithm that uses logarithmic
term, which considers only unique sets of expression reasons and returns statistically
significant motifs (BUSSEMAKER, LI; SIGGGIA, 2001).
Following the timeline, a new approach enabled the creation of an algorithm using the
matrix and regression of expression, which recognizes motifs in changes of expression under
certain conditions (COLON et al, 2003). The use of parameters in the beginning, also,
inspired algorithms, they consider any prior knowledge or expectation about the data sets,
which may be prerequisites for any type of algorithms listed above (PAVESE; MAURI;
PESOLA, 2004). Similarly, a set of data used as a background, working as a negative control,
would also be an additional parameter, in order to obtain different results (GANESH;
SIEGEL; IOERGER, 2003).
Using genomic comparison, regions and elements were sought phylogenetically
conserved regions between the genomes of humans, and different breeds of rats and dogs to
create a systematic catalog of common motifs in promoter regions. An approach was
developed and applied to compute and statistically evaluate conservation profiles of multiple
sequences aligned closely related species (DERMITZAKIS; REYMOND; ANTONARAKIS,
2005; OVCHARENKO; BOFFELLI; LOOTS, 2004). More advanced methods tend to
Apêndices
116
integrate multiple computational methods and experimental data. In an approach called
seqVISTA, researchers incorporated data from CHIP-on-chip, microarray and motifs (HU et
al, 2006; LEMMENS et al, 2006).
Dados de Saccharomyces cerevisiae
Many experiments were performed, whether sideboard or in silico motifs on this and
also on certain bodies, which allowed the creation of specialized databases on organisms. The
Saccharomyces cerevisiae Genome Database (SGD; CHERRY et al., 1997) is perhaps the
broadest, which provides information on the various genes of this organism. This allows
approaches and processes that are only nowadays are currently possible. For example, the
analytical tools available on the site Yeast Search for Transcriptional Regulators And
Consensus Tracking (YEASTRACT; TEIXEIRA et al., 2006).
From this last one, we collected data of transcription factors and functional notes
needed for the development of the proposed analysis, while data on gene modulation were
obtained from the experiment by Spellman and colleagues (1998).
Methodology
Modulation values were used (VM), obtained by the microarray technique, of 800
genes involved in cell cycle, the Saccharomyces cerevisiae fungus, available by Spellman and
colleagues (1998; these data have been used in many other studies). The TFs, whose
interaction with the target gene has been proved by experiments in sideboards and subsequent
disclosure statement in the scientific literature, were obtained from the site YEASTRACT
(TEIXEIRA et al., 2006).
VMs and TFs data related to genes were synchronized. Then, we selected genes with
MV equal to or greater than a threshold value at a sample time of 119 minutes. After that, it
was made the diversity of all TFs, and created a matrix of presence / absence that gave a bit 1
for the presence of TF gene or bit 0 otherwise. Using this matrix of presence / absence it was
created a distance matrix of genes and from this the dendrogram was created. Next step was to
divide the dendrogram for the creation of subgroups, with at least three genes each. For each
subgroup, we calculated the ratio and percentages of interactions of TFs with the genes of the
subgroups. Still, were performed processes such as: functional categorization; shuffling of
Apêndices
117
genes to test the efficiency of the methodology, and correlation between the methodologies by
cluster transcription factors (ATF) and grouping by modulation profile (AVM).
Results and Discussion
Graph 1 shows the maximum percentage of the more interactive TF, for each of the
created subgroups. On the left one it is shown the performance of ATF (thick blue line) and
the right performance of AVM (thick blue line). The remaining lines (thin) show the results
obtained by the shuffling of genes.
Graph 1. Maximum percentage of the more interactive TFs in the subgroups, obtained by ATF (left) and
AVM (direct), in 119 minutes alpha factor.
The layout of the thick blue line obtained by the ATF method (left) showed that
various subgroups have at least one TF that interacts with all the genes of the subgroup
(100%), while in AVM (right) this was not observed. The other lines, results of the mixture,
several peaks that reach 100%, which, for some subgroups, were even more relevant than
those obtained by the method ATF. However, when we see the result as a whole best
maximum percentage of ATF are noticed. While in the chart on the right, the results of the
method of scrambling and AVM, were confounded.
Aiming to understand the behavior of the ATF with smaller amounts of data, we
performed a cumulative section, for sampling times, of the data set. Thus, we created 16
different subsets, with values of gene modulation, which, along with the file of TFs, were
subjected to all processes of the methodology. This sectioning is not an usual approach in
clustering of genes modulated by values, since the greater the amount of time sampling, the
better for the algorithm to weave more stable relationships between genes and thus create
robust and reliable dendrograms (ERNST; BAR -JOSEPH, 2006). However, this procedure
was adopted so that they could observe the behavior and performance of the proposed
Apêndices
118
methodology (ATF), for different data sets, and also create conditions of equal comparison
between the methods. Figure 2 shows the comparison of method results for the different
sampling times. In it are represented the average maximum percentage of each subgroup.
These maximum percentages were calculated by the performance of TFs in the gene synthesis
of the subgroups.
Comparativo da média das porcentagens máximas de subgrupos
de ATF e AVM, em alpha factor
120
110
100
Porcentagens médias
90
80
70
60
50
40
30
20
10
0
119min
112min
105min
98min
91min
84min
77min
70min
63min
56min
49min
42min
35min
28min
21min
AVM
14min
ATF
Tempos amostrais
Graph 2. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the maximum average
percentages of subgroups, for each sampling time in alpha factor. The mark on top of each bar corresponds
to standard deviation.
Figure 2 shows that, systemically, ATF had averages of maximum percentage greater
than AVM. So, it is more efficient in the clustering of genes, because of the sharing of TFs.
In the definition of the subgroups (Figure 3), ATF, also demonstrated higher bars than
those of AVM. Except for two sampling times (63 and 105 minutes), ATF has created more
time subgroups by sampling time.
Comparativo da quantidade de subgrupos de ATF e AVM, em alpha factor
25
Qtds. subgrupos
20
15
10
5
0
119min
112min
105min
98min
91min
84min
77min
70min
63min
56min
49min
42min
35min
28min
21min
A VM
14min
A TF
Tempos amostrais
Graph 3. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the quantities of subgroups created for each sampling time of alpha factor.
Apêndices
119
We could say that the creation of a greater number of subgroups, concentrating less
genes, has isolated them in a better way, and facilitated the achievement of better maximums.
However, even when ATF generated fewer subgroups (63 and 105 minutes) their maximum
average percentage remained higher.
Considering all the percentages of all the sampling times of the alpha factor
experiment, from the largest to the smallest, in each subgroup and sampling time, graph 4
shows the performance of ATF and AVM.
Comparativo de todas as porcentagens de subgrupos
de ATF e AVM, em alpha factor
110
100
90
Porcentagens
80
70
60
50
40
30
20
10
0
176
169
162
155
148
141
134
127
120
113
106
99
92
85
78
71
64
57
50
43
36
29
22
15
8
1
ATF
Quantidades
AVM
Graph 4. Comparison of all the percentages obtained in subgroups of all sampling times
by ATF and AVM in alpha factor.
The lines of graph 4 show the difference between ATF and AVM, in terms of quantity
and percentages obtained. ATF, using the same set of data of AVM obtained more maximum
values and, moreover, when these figures have declined, in ATF it was more pronounced than
an AVM. Showing that the number of TFs that do not interact with all of the genes of the
subgroups is reduced in comparison with AVM.
Conclusions
This analysis was a different approach from previous ones because it did not require
complex mathematical methods, neither so few parameters in the beginning. The upkeep of
the performance with different data sets showed that ATF can be used even in experiments
with few sampling times. According to the researchers Ernst and Bar-Joseph (2006), about a
third of microarray experiments has 3 to 8 sampling times.
The matrix of presence / absence provided a measurement of distances between the
genes on the basis of their TFs. With the value of distance matrices were created the
Apêndices
120
dendrograms. The ATF dendrogram showed better proximity to genes that showed more
homogeneous characteristics, and also managed to isolate well the heterogeneity of the
subgroups. This arrangement allowed the creation of better defined subgroups, which resulted
in more interactive TFs with the genes of the subgroups.
The analysis of several sets of data showed that the ATF arrange them in a better way
when compared to AVM, and also that this arrangement was not random, according to the fine
lines of Chart 1. The MIPS categorization also contributes to the validation of ATF, because
the diversity of categories was large for both methods, demonstrating that there is not one or
group of TF directly related to one category or the modulation profile.
Even with all the positive points highlighted, this methodology only limits those
organisms that have defined TFs, because unlike most of the tools and methods, it does not
seek to discover the TFs, but to use them, assuming that these are the right ones. Indeed, this
limitation will diminish as more experiments, looking for this kind of data, are performed for
different organisms.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo
Download

mbf micf