UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE CIÊNCIAS BIOLÓGICAS DEPARTAMENTO DE GENÉTICA PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA Walkiria Luckwu de Santana Silva Análise in silico de uma matriz DRE na seqüência promotora de genes da Levedura Saccharomyces cerevisiae RECIFE, 2004 UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE CIÊNCIAS BIOLÓGICAS DEPARTAMENTO DE GENÉTICA PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA WALKIRIA LUCKWU DE SANTANA SILVA Análise in silico de uma matriz DRE na seqüência promotora de genes da Levedura Saccharomyces cerevisiae Dissertação apresentada ao Programa de Pós-graduação em Genética do Centro de Ciências Biológicas da Universidade Federal de Pernambuco, para obtenção do título de Mestre em Genética. ORIENTADOR: Dr. Marcos Antônio de Morais Jr (Depto. Genética - CCB) CO-ORIENTADORA: Dra. Katia Silva Guimarães (Centro de Informática) RECIFE, 2004 Agradecimentos Aos meus pais, irmãs e sobrinhas, por torcerem tanto por esta conquista. Ao Prof. Dr. Marcos de Morais Jr., por sua orientação, dedicação, profissionalismo e ética. À Profa. Dra. Katia S. Guimarães, por incentivar sempre a ultrapassar limites, por saber o momento de cobrar e por compreender o ser de cada um. Aos companheiros do Laboratório de Bio-Informática (BioLab), por um ambiente de trabalho harmonioso e disponibilidade em ajudar, especialmente Gustavo Bastos, pela ajuda na formatação do texto da dissertação. À amiga Simone, por partilhar dias interpretando artigos científicos e por sua amizade marcante. À Profa. Dra. Vera Lúcia de Meneses Lima, Coordenadora do Programa de PósGraduação em Bioquímica da UFPE (Universidade Federal de Pernambuco), por mostrar-se amiga, me ajudando em momentos importantes desta jornada. À Profa. Dra. Maria Tereza Jansem de Almeida Catanho, Coordenadora do Programa de Pós-Graduação em Biofísica da UFPE, por seu exemplo como professora e profissionalismo. Ao Centro de Informática da UFPE, por disponibilizar sua estrutura e à FACEPE (Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco) pelo apoio através do BioLab. A todos que fazem o Programa de Pós-Graduação em Genética do Centro de Ciências Biológicas da UFPE, especialmente à Profa. Dra. Ana Benko-Iseppon, pelas sugestões que colaboraram para o aprimoramento da qualidade do texto desta dissertação. Aos amigos da Pós-Graduação em Genética, que compartilharam as várias etapas do mestrado. Agradeço em especial ao meu Deus que sempre esteve comigo nesta caminhada, a quem dedico este trabalho. Silva, W.L.S Análise computacional de um suposto sítio de ligação... Sumário Lista de Figuras ............................................................................................................................... 6 Lista de Tabelas............................................................................................................................... 7 Lista de Abreviações ....................................................................................................................... 8 Resumo............................................................................................................................................ 9 1 Introdução................................................................................................................................ 10 2 Revisão Bibliográfica.............................................................................................................. 12 2.1 A levedura Saccharomyces cerevisiae .............................................................................. 12 2.2 O genoma de S. cerevisiae ................................................................................................ 12 2.3 Regulação e expressão gênica em S. cerevisiae................................................................ 13 2.3.1 GAL: exemplo de regulon em S. cerevisiae................................................................ 15 2.4 Reparação de lesões no DNA............................................................................................ 17 2.4.1 Reparação por reversão direta do dano ....................................................................... 19 2.4.2 Reparação por excisão de bases (REB)....................................................................... 21 2.4.3 Reparação por excisão de nucleotídeos (REN) ........................................................... 21 2.4.4 Reparação de bases mal emparelhadas ("Mismatch repair" MMR) ........................... 21 2.4.5 Reparação por recombinação ...................................................................................... 22 2.4.6 Resposta SOS .............................................................................................................. 23 2.5 Reparação de Lesões no DNA de S. cerevisiae ................................................................ 23 2.5.1 Grupo RAD3 ............................................................................................................... 24 2.5.2 Grupo RAD6 ............................................................................................................... 24 2.5.3 Grupo RAD52 ............................................................................................................. 25 2.6 Regulação da expressão de genes de reparação ................................................................ 26 2.7 Ferramentas Computacionais e Fatores de Transcrição .................................................... 27 3 Referências Bibliográficas ...................................................................................................... 29 4 Manuscrito............................................................................................................................... 37 5 Abstract ................................................................................................................................... 60 6 Conclusões .............................................................................................................................. 61 7 Anexos..................................................................................................................................... 62 7.1 Anexo 1 ............................................................................................................................. 63 7.2 Anexo 2 ............................................................................................................................. 69 5 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Lista de Figuras Figura 1. Agrupamento gênico presente no cromossomo II envolvido na via Leilor. .................. 15 Figura 2. Esquema básico da regulação dos genes GAL em S. cerevisiae. .................................. 16 Figura 3. Respostas ao dano do DNA. .......................................................................................... 18 Figura 4. Esquema de fotorreativação ao dano de DNA reverso. ................................................. 20 Figura 5. A reparação de quebras de dupla-fita em DNA. ............................................................ 22 6 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Lista de Tabelas Table 1. Computational analysis of DNA repair genes from S. cerevisiae identified by MatInspector algorithm containing DRE-matrix elements in their promoter regions. ......... 55 Table 2. List of the yeast genes showing 95% or more sequence homology to DRE-matrix and its characteristics. ....................................................................................................................... 56 Table 3. Yeast transcription factor-encoding genes identified by MatInspector for the presence of a DRE-matrix motif in their –500 bp promoter sequence. .................................................... 57 Table 4. Homology between known regulatory motifs in the yeast genome and the DRE-matrix motif. ..................................................................................................................................... 59 7 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Lista de Abreviações BIOBASE DBM DDR DIN DRE GBF GTF HSE IUPAC pb PBS PIC REB REN S. pombe STRE TBP TF TRANSFAC UAS URS UV Banco de Dados Biológicos Motivos de Ligação de DNA Resposta ao Dano no DNA Indução por Danos no DNA Elemento que Responde a Danos Centro Nacional de Biotecnologia – Braunschweig, Alemanha Fator de Transcrição Geral Elemento de Choque Térmico União Internacional de Química Pura e Aplicada Pares de Bases Sítio de Ligação de Promotores Complexo de Pré-Iniciação Reparo por Excisão de Bases Reparo por Excisão de Nucleotídeos Saccharomyces pombe Elemento de Resposta ao Estresse Proteína Ligadora da Seqüência TATA Fator de Transcrição Banco de Dados de Fatores de Transcrição Seqüência Ativadora a Montante Seqüência Repressora a Montante Radiação Ultra-Violeta 8 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Resumo A regulação da expressão gênica envolve uma complexa rede de interações entre fatores de transcrição e elementos regulatórios da região promotora dos genes. Dados experimentais disponíveis na literatura demonstram a importância de uma seqüência de 15 pares de base (pb) na regulação do gene SNM1(PSO2), necessário para o processo de reparação de lesões no DNA da levedura Saccharomyces cerevisiae. Estes dados foram fundamentais na elaboração da hipótese acerca da dispersão deste elemento na região promotora de outros genes de reparação e de sua importância na indução destes genes mediada por danos no DNA da levedura. Verificouse a presença desta seqüência de 15 pb nas regiões promotoras de outros genes de reparação de DNA, o que proporcionou a construção de uma matriz de peso relacionando nucleotídeos conservados, transições e transversões nas diferentes posições da seqüência consenso denominada seqüência consenso semelhante ao elemento DRE (Damage Response Element) do gene RAD2. Posteriormente, a análise de homologia foi expandida, utilizando ferramentas computacionais de análise matricial que proporcionam a geração de uma seqüência consenso identificada também em muitos outros genes desta levedura. A grande maioria não estando relacionada com processos de reparação ou metabolismo do DNA. Este elemento semelhante ao elemento regulatório DRE apresentou alta homologia com outras seqüências regulatórias presentes no genoma da levedura. O fato deste elemento estar presente na região promotora de quase um terço dos genes da levedura e de que sua presença parece não estar diretamente relacionada com a indução destes genes por agentes mutagênicos, sugerem fortemente que a seqüência semelhante ao elemento DRE descrita neste trabalho deve atuar como um elemento regulatório envolvido com mecanismos gerais de regulação da expressão gênica em S. cerevisiae. 9 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 1 Introdução A aplicação de tecnologias relacionada ao seqüenciamento genômico está gerando um catálogo de informações que precisam ser cuidadosamente decifradas. A organização e decodificação de todo este conjunto de informações podem trazer valiosas informações sobre os mecanismos biológicos. A Biologia Computacional tem como uma de suas metas agilizar a busca destas informações, localizando sinais prováveis de genes e produtos de genes de seqüências de DNA ainda não caracterizadas experimentalmente. Embora as predições computacionais compreendam conceitualmente métodos rápidos e simples, a análise de genes ainda não caracterizados não é tarefa trivial. Para tanto, faz-se necessário o embasamento biológico para melhor compreensão das informações a serem relacionadas e extraídas. A seleção cuidadosa do conjunto de dados a serem utilizados para construir e testar uma busca é da maior importância. Estas informações são particularmente úteis quando em conexão com seqüências de DNA de genes conhecidos em outros organismos, pois as regiões codificantes estão presentes como pequenas ilhas em um mar de DNA não codificante. O interesse inicial deste trabalho foi o de utilizar seqüências de nucleotídeos que estivessem relacionadas com a regulação de um grupo ou de grupos de genes envolvidos em reparação do DNA da levedura S. cerevisiae, baseando-se em uma seqüência de 15 pb presente na região promotora do gene SNM1(PSO2). Esta seqüência está relacionada com a regulação da expressão do gene SNM1(PSO2) pela presença de lesões induzidas por agentes intercalantes no DNA das células. Seqüências homólogas foram encontradas em outros genes da levedura S. cerevisiae. Vários elementos regulatórios, já conhecidos, estão envolvidos na regulação gênica em resposta a diferentes condições ambientais nesta levedura. Famílias de genes co-regulados proveram um conjunto de dados ideal para calibrar os métodos de análise in silico de busca por homologia direta, mas estes ainda são insuficientes para validação dos resultados. Desta forma, busca-se cada vez mais a aplicação de métodos baseados não apenas na homologia direta entre as bases nitrogenadas, mas na análise posicional a partir de distribuições matriciais das bases em uma dada seqüência. Neste sentido, o presente trabalho teve como principal objetivo a extensão da análise de homologia entre seqüências de nucleotídeos que estão presentes na região promotora de genes de reparação, através da análise de distribuição matricial das bases nitrogenadas, e a aplicação do resultado gerado na busca de seqüências homólogas na região promotora de todos os genes da levedura S. cerevisiae. O processo de análise foi dividido em várias etapas: i) identificar a existência de homologias entre as regiões promotoras dos genes de reparação SNM1(PSO2) e RAD2 com outros genes de reparação da levedura; ii) identificar genes presentes no genoma de S. cerevisiae que contenham em sua região promotora seqüências com pelo menos 95% de similaridade com os motivos encontrados na região promotora dos genes de reparação 10 Silva, W.L.S Análise computacional de um suposto sítio de ligação... em questão; iii) analisar a relação funcional entre os genes selecionados, baseada na anotação dos bancos de dados de microarrays, para validação dos resultados obtidos; iv) identificar genes envolvidos em outras vias metabólicas que apresentem a seqüência consenso descrita para os genes de reparação estudados, indicando as possíveis vias de interação dos mecanismos de reparação de lesões no DNA com vias metabólicas diversas da célula; v) e relacionar a seqüência regulatória encontrada neste estudo com seqüências regulatórias já descritas na literatura ou encontradas por outras análises in silico. Os métodos usados e os resultados obtidos serão apresentados em um manuscrito que compõe este documento. 11 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2 Revisão Bibliográfica 2.1 A levedura Saccharomyces cerevisiae A levedura S. cerevisiae é um fungo unicelular bastante importante do ponto de vista industrial pela sua utilização em processos de produção de alimentos, notadamente pão, cerveja e vinho. Do ponto de vista científico, esta levedura compreende um dos sistemas eucariotos mais bem conhecidos, sendo que trabalhos na área de fisiologia, bioquímica e genética contribuíram significativamente para a elucidação de mecanismos genéticos mais variados, desde as bases moleculares dos mecanismos de biossíntese celular (replicação, transcrição e tradução, por exemplo) até o conhecimento de mecanismos que controlam o envelhecimento celular e o desenvolvimento neoplásico, passando pela base genética de diversas doenças humanas (Friedberg, 2003). Seu genoma foi totalmente seqüenciado (Oliver, 1996), sendo o primeiro genoma eucarioto a ser finalizado, e os seus mais de 6400 genes estão presentes no Saccharomyces Genome Database (SGD) (Cherry et al., 1998). A S. cerevisiae possui um genoma com o máximo de 15.000 Kb de comprimento contendo poucos íntrons e seqüências repetidas (Oliver, 1996). Este organismo possui um número variado de cromossomos lineares, entre 12 e 16, dependendo da linhagem, compostos por uma cadeia de DNA associada às histonas (Perez-Ortin et al., 1989). Estas células são haplóides. Na fase assexuada, ou vegetativa, as células se reproduzem através de divisões mitóticas em processos denominados brotamento multilateral (Phaff, 1990). A fase sexuada ocorre por esporulação e conjugação, envolvendo mitose e meiose. As leveduras se mantêm no ciclo vegetativo até que condições de estresse se estabeleçam, o que as leva a iniciarem um ciclo de vida gametofítico (Castilho-Valavicius et al., 1992). As informações do genoma de S. cerevisiae, colhidas através de análises experimentais podem ser utilizadas para predição in silico de locais onde ocorrem seqüências que obedecem a um padrão comum, possibilitando caracterizar famílias de genes e sua regulação. Neste sentido, foi demonstrado por Wolter et al. (1996) que uma seqüência de 15 pares de bases na região promotora do gene SNM1, um gene necessário para o processo de reparação em S. cerevisiae, é responsável pela indução deste gene na presença de lesões no DNA da levedura induzidas por agentes intercalantes. Esta seqüência foi encontrada na região promotora de outros genes de reparação desta levedura (Wolter et al., 1996). 2.2 O genoma de S. cerevisiae O seqüenciamento completo do genoma da levedura S. cerevisiae foi finalizado em 1996, tendo sido realizado por um consórcio internacional de laboratórios. Trata-se de um genoma 12 Silva, W.L.S Análise computacional de um suposto sítio de ligação... altamente compacto, com aproximadamente 6.400 genes, que correspondem a 72% do total da seqüência de nucleotídeos. O tamanho médio para cada gene é de 1,45 Kb ou 483 códons. Apenas 70% dos genes foram caracterizados experimentalmente e 30% ainda têm função desconhecida (Winzelera et al., 2003). As informações genômicas sobre a levedura S. cerevisiae estão disponíveis em vários bancos de dados distintos, como o Saccharomyces Genome Database – SGD (http://www.yeastgenome.org/) (Dolinski et al., 2002), o Martinsried Information Center for Protein Sequences – MIPS (http://mips.gsf.de/) (Mewes et al., 1999; Mewes et al., 2000), o qual contém informações sobre seqüências de proteínas anotadas, e o Yeast Protein Database – YPD (https://www.incyte.com/proteome/database/YPD) (Costanzo et al., 2000), que possui um conjunto de dados com ênfase em propriedades funcionais e físicas das proteínas. Novas informações são periodicamente incorporadas a esses bancos. 2.3 Regulação e expressão gênica em S. cerevisiae A regulação da transcrição tem sido reconhecida como uma importante etapa em uma cascata de pontos de controle para regulação e expressão dos genes de um dado organismo. O modelo mais simples de regulação de transcrição dos organismos eucariotos e procariotos é a ativação ou repressão do aparato de transcrição por proteínas regulatórias que se ligam a uma seqüência de DNA de extensão limitada, localizada geralmente em elementos de atuação em cis localizados a montante (upstream) de um dado gene a ser transcrito (Lee et al., 2002). As interações entre as proteínas regulatórias e o DNA ocorrem principalmente através de ligações do tipo pontes de hidrogênio, diretas ou mediadas por moléculas de água, entre as cadeias laterais dos aminoácidos e as bases nitrogenadas, bem como através de interações hidrofóbicas (Wingender, 1993). Os fatores de transcrição são, em geral, proteínas que apresentam pelo menos dois domínios, um domínio capaz de se ligar ao DNA e um outro de ativação da transcrição, responsável pelo controle da expressão de um determinado gene (Mitchell e Tjian, 1989). Estes fatores podem ser agrupados em diferentes classes de acordo com os motivos estruturais usados no reconhecimento das seqüências específicas, tais como: hélice-alça-hélice, homeodomínios, dedos de zinco (zinc finger) e zíper de leucina (Harrison, 1991; Wingender, 1993). Entretanto, existem muitos motivos estruturais que não pertencem a nenhuma classe descrita, levando à possibilidade da existência de novas classes de fatores de transcrição. Uma característica interessante dos fatores de transcrição é que seu domínio de ligação ao DNA é separado do seu domínio de ativação, sem modificar suas propriedades específicas (Ptashne e Gann, 1997). Os grupos de elementos regulatórios controlam o início da transcrição de genes estruturais em eucariotos. Estes elementos são reconhecidos pelos fatores de transcrição. A partir deste 13 Silva, W.L.S Análise computacional de um suposto sítio de ligação... reconhecimento as RNA polimerases podem atuar na transcrição daquele gene especificamente. A RNA polimerase I (RNA pol I) e RNA polimerase III (RNA pol III) transcrevem genes que codificam RNAs transportadores e RNAs ribossomais, respectivamente. A RNA polimerase II (RNA pol II) transcreve genes que codificam os RNAs mensageiros e vários RNAs nucleares pequenos. A correta iniciação da transcrição depende da reunião de enzimas e de fatores de transcrição. O início da transcrição pela RNA pol II envolve uma ampla fase de reunião de fatores de transcrição gerais (General Transcription Factor - GTF) na região promotora dos genes alvos para formar o complexo de pré-iniciação (Pre-Initiation Complex - PIC) (Ptashne e Gann, 1997). O promotor basal constitui o principal alvo para a RNA pol II. O elemento TATA, localizado a 25 pares de base (pb) a montante do sítio de iniciação da transcrição, é um dos seus elementos basais melhor caracterizado, sendo rico em pirimidinas e atuando independentemente ou sinergisticamente com outros elementos. Elementos promotores proximais podem ser encontrados em qualquer trecho entre as posições 50 e 200 pb anteriores ao sítio de iniciação de transcrição, e os ativadores transcricionais que se ligam a estas seqüências regulam a transcrição. Os elementos distais, por sua vez, podem ser encontrados longe do sítio de iniciação da transcrição em ambas orientações e direções, constituindo um outro grupo de DNA alvo para fatores moduladores da atividade da RNA pol II (Hernandez, 1993). A partir do tipo de sítio de reconhecimento, os fatores de transcrição podem ser divididos em dois grandes grupos: os fatores de transcrição gerais, os quais estão envolvidos no reconhecimento das seqüências regulatórias gerais, como o motivo TATA presente na quase totalidade dos genes, e os fatores de transcrição específicos, os quais estão envolvidos na regulação de um gene ou conjunto de genes em resposta a um dado momento metabólico (Wingender, 1993). O primeiro fator de iniciação geral identificado foi o TFIIA (Matsui et al., 1980), originalmente descrito como essencial para a transcrição de muitos, se não todos os genes nucleares. Entretanto, TFIIA parece atuar mais como um co-ativador que auxilia a regulação da transcrição da RNA pol II por anular a inibição de fatores repressores associados à proteína ligante da seqüência TATA (TATA Binding Protein – TBP) (Ozer et al., 1998). A partir do fator de transcrição basal TFIID inicia-se a transcrição de RNAs mensageiros. Este se liga ao elemento TATA em cooperação com a TBP, juntamente com um grupo de polipeptídios designados fatores associados ao TBP (TAFs). Estes TAFs têm atividades coativadoras, sendo necessários para a função ativadora, embora não afetem o baixo nível de transcrição basal observado na ausência de um ativador (Hernandez, 1993). A ligação do TBP e TFIID na região promotora forma o PIC. O próximo fator de iniciação geral a entrar no PIC é o TFIIB. A RNA pol II reconhece a plataforma TFIIB-TFIID-DNA, seguindo-se a ligação dos 14 Silva, W.L.S Análise computacional de um suposto sítio de ligação... fatores TFIIF, TFIIE e TFIIH. O TFIIF é o único com a capacidade de formar complexo muito estável com a RNA pol II, denominado pol/F. Diferente dos outros fatores de iniciação geral, o TFIIH auxilia várias atividades catalíticas, incluindo ATPases dependentes de DNA, DNA helicases dependentes de ATP, e uma proteína quinase que é capaz de fosforilar o domínio Cterminal da maior subunidade da RNA pol II, revisto por Wingender (1993). Estando o PIC completo, e na presença de nucleotídeos trifosfatos, ocorre a separação da fita sítio de iniciação para dar origem a um complexo aberto. O domínio C–terminal da sub-unidade maior da RNA pol II é então fosforilado, provavelmente pela atividade DNA quinase do TFIIH, e a RNA pol II é liberada do promotor para iniciar a transcrição (Zawel e Reinberg, 1995). A cooperatividade entre os diferentes fatores de transcrição na regulação do ciclo celular de S. cerevisiae foi recentemente analisado a partir da combinação de dados de expressão gênica e de imunoprecipitação cromatínica (Banerjee e Zhang, 2003). 2.3.1 GAL: exemplo de regulon em S. cerevisiae Os genes GAL em Saccharomyces cerevisiae têm sido utilizados como modelo de estudo da regulação dos genes eucariontes. Estes genes estão coordenadamente regulados, o que se denomina de regulon, pelo metabolismo de assimilação da galactose. Neste regulon encontramse os genes que codificam a galactose permease (GAL2) e três enzimas da via de Leilor, que são os produtos dos genes galactoquinase (GAL1), galactoepimerase (GAL7) e galactose-transferase (GAL10) (Riley e Dickson, 1984; Nehlin et al., 1991; Cardinali et al., 1997). Os genes GAL1, GAL7 e GAL10 estão dispostos em um agrupamento gênico presente no cromossomo II (Figura 1), enquanto que GAL2 localiza-se no cromossomo XII (www.yeastgenome.org). Figura 1. Agrupamento dos genes envolvidos na via Leilor (modificado por Martins (2000), a partir de Riley e Dickson (1984); Cardinali et al. (1997)). A expressão destes genes é controlada de duas formas: indução por galactose e repressão por glicose. O mecanismo da indução baseia-se na ligação do produto do gene GAL4, uma proteína dedo de zinco do tipo C2C2, na região promotora dos genes GAL, mais especificamente na seqüência ativadora a montante (Upstream Activator Sequence – UAS), quando as células são cultivadas em galactose, ativando a expressão dos mesmos (Figura 2). A proteína Gal4 constitui um fator de transcrição específico para os genes GAL. A ligação da proteína Gal4 na região promotora sinaliza a formação dos PICs nos genes do regulon GAL, ativando o complexo de 15 Silva, W.L.S Análise computacional de um suposto sítio de ligação... iniciação de transcrição. Na ausência de galactose, a proteína Gal80 (Gal80p) interage com a proteína Gal4, inibindo-a (Lue et al., 1987; Wu et al., 1996) (Figura 2). Na presença de glicose, a proteína Mig1 (Mig1p), a qual possui domínios dedo de zinco do tipo C2H2, liga-se na região promotora do gene GAL4, especificamente na seqüência repressora a montante (Upstream Repressor Sequence – URS), inibindo sua transcrição, e conseqüentemente a dos outros genes GAL. Adicionalmente, a proteína Mig1 se liga à região promotora dos outros genes GAL (Nehlin et al., 1991) (Figura 2). Figura 2. Desenho esquemático básico da regulação dos genes GAL em Saccharomyces cerevisiae (Reproduzido de Martins (2000)). 16 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2.4 Reparação de lesões no DNA A exposição de células a agentes que danificam o DNA ativa mecanismos de reparação comandados por uma série de genes que estão envolvidos na própria reparação de lesões e em outros metabolismos associados. Os mecanismos de reparação de lesões em S. cerevisiae podem ser divididos em três tipos: (i) o mecanismo de reparação por excisão (grupo do gene RAD3), (ii) o mecanismo por reparação mutagênica (grupo do gene RAD6) e (iii) o mecanismo por reparação recombinacional (grupo do gene RAD52). Esta divisão é praticamente a mesma adotada para os mecanismos de reparação bacterianos e de células humanas (Friedberg et al., 1995) (Figura 3). Dentro destes grupos há genes cujas proteínas desempenham papéis específicos, enquanto que os produtos de outros genes atuam de forma mais geral, participando inclusive de outros mecanismos de reparação (Game, 2000). Também dentro de cada grupo podemos encontrar genes que são induzidos pela presença de lesões no DNA, enquanto que outros apresentam a sua expressão basal quase que inalterada (Friedberg et al., 1995; Jelinsky et al., 2000; Gasch et al., 2001). As mutações podem ocorrer tanto a nível gênico quanto cromossômico. A mutação gênica é o processo pelo qual os genes são alterados, podendo levar a uma perda ou ganho de função, seja pela substituição, inserção ou remoção de um único par de bases (mutação de ponto) ou de um segmento de pares de bases. A mutação cromossômica pode ser classificada como alterações numéricas e estruturais dos cromossomos (Friedberg et al., 1995). Embora a mutação consista na principal fonte de variabilidade genética, sendo assim importante para a evolução, a estabilidade do material genético também é fundamental para a continuidade da vida. Portanto, a reparação de danos no DNA é um processo essencial para a manutenção da integridade da informação genética (Tebbs et al., 1999). Para tanto, as células desenvolveram uma série de sistemas enzimáticos capazes de reparar o DNA danificado (Friedberg et al., 1995). Provavelmente, mecanismos simples de reparação de danos no DNA evoluíram para mecanismos enzimáticos complexos capazes de corrigir a grande maioria dos danos induzidos por diversos agentes mutagênicos. Esses mecanismos agem prevenindo efeitos citotóxicos e mutagênicos do DNA danificado (Cline e Hanawalt, 2003). Os mecanismos de proteção do material genético podem ser divididos em duas categorias: a prevenção de erros e a reparação dos erros. A primeira categoria é caracterizada por evitar que haja reações lesivas no DNA. Alguns sistemas enzimáticos neutralizam compostos químicos antes que eles reajam com o DNA. Um exemplo de tal sistema envolve detoxificação dos radicais superóxidos produzidos pelo agente oxidativo H2O2: a enzima superóxido dismutase catalisa a conversão de radicais superóxidos em peróxidos de hidrogênio em água. Outra via de prevenção de erros depende do produto do gene mutT, o qual produz uma enzima que impede a 17 Silva, W.L.S Análise computacional de um suposto sítio de ligação... incorporação no DNA de 8-oxodGTP, que surge por oxidação de dGTP, hidrolisando o trifosfato de 8-oxodG em monofosfato (Fowler et al., 2003). Figura 3. Respostas ao dano do DNA. Dano de DNA (ilustrado como um triângulo preto) resulta em reparação ou em tolerância. (a) durante tolerância ao dano, locais danificados são reconhecidos pela maquinaria de replicação antes que eles possam ser reparados, resultando numa detenção que pode ser aliviada pelo desvio (bypass) replicativo (síntese translesão de DNA). (b) reparação de DNA envolve a excisão de bases e síntese de DNA (linhas em ondas vermelhas), que requer DNA dupla-fita. Bases desemparelhadas, geralmente geradas por erros durante a replicação do DNA, são cortadas como simples nucleotídeos durante a reparação. Uma base danificada é cortada como uma simples base livre (reparação por excisão de base) ou como um fragmento de oligonucleotídeo (reparação de excisão de nucleotídeo). Tais fragmentos são gerados por incisões de cada lado da base danificada. Reparação por excisão de nucleotídeo pode também ocorrer em alguns organismos por um mecanismo bioquímico distinto, envolvendo somente uma simples incisão próxima a um local de dano (incisão unimodal). (c) a célula tem uma rede de caminhos de sinalização complexa que detém o ciclo da célula e pode levá-la à morte programada. Modificado a partir de Friedberg (2003). Os mecanismos de reparação de DNA que atuam uma vez que as lesões tenham se instalado são classificadas em: a) reparação por reversão direta do dano; b) reparação por excisão de base; c) reparação por excisão de nucleotídeo; d) reparação “mismatch”; e) reparação 18 Silva, W.L.S Análise computacional de um suposto sítio de ligação... recombinacional; e f) resposta SOS (Friedberg et al., 1995). Estes mecanismos são comuns a todos os níveis taxonômicos, embora as diferenças no tipo e conjunto de proteínas caracterizam diferentes organismos. Segue abaixo uma breve revisão sobre estes mecanismos de reparação, tendo como modelo a bactéria Escherichia coli. Verifica-se que a atuação destes mecanismos em outros organismos seja em outras bactérias ou seres eucariontes, segue a mesma lógica, entretanto com outras denominações para genes e proteínas. 2.4.1 Reparação por reversão direta do dano O mecanismo bioquímico desta reparação baseia-se em uma reação de um único passo, no qual uma enzima específica reconhece e remove a lesão, deixando o DNA na sua configuração normal, livre de erro (Friedberg et al., 1995). Dois dos mais bem estudados mecanismos de reversão direta do dano são a fotorreativação e a reparação de bases alquiladas. Recentemente foi descrito um terceiro mecanismo, a reparação direta oxidativa (Begley e Samson, 2003). 2.4.1.1 Fotorreativação O processo de fotorreativação ocorre através da enzima fotoliase, que tem como substrato o DNA que foi irradiado por luz ultravioleta (UV) de comprimento curto (254 nm) ou UVC (Figura 4). Esta radiação induz a formação de lesões do tipo dímeros de pirimidinas, que se caracterizam por ligações covalentes entre pirimidinas adjacentes. A ação da enzima fotoliase, sob luz visível, remove as lesões, reconstituindo pirimidinas independentes, em uma reação de reversão da dimerização. Este processo não é puramente uma reação foto-física, é um mecanismo que se baseia no reconhecimento pela enzima do DNA danificado pela luz UV, formando assim um complexo enzima-substrato, num processo que ocorre na ausência de luz. Em seguida, em uma fase que é dependente da presença de luz visível, a enzima reage corrigindo o dímero e assim dissocia-se do complexo (Sinha e Hader, 2002). 2.4.1.2 Alquitransferência A reparação de bases alquiladas ocorre através da ação das enzimas O6-metilguaninatransferase codificada pelos genes ada e ogt. Estas enzimas reconhecem a lesão na fita dupla do DNA e removem o grupamento metil, transferindo-o para uma cisteína do sítio ativo da enzima. A importância deste mecanismo consiste no fato de que se as bases alquiladas não forem removidas antes do início da replicação, poderão gerar mutações do tipo transição GC AT (Psaround e Kyrtopoulos, 2000). 19 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Figura 4. Fotorreativação de dano no DNA. DNA exposto à radiação ultravioleta (UV) resulta em dimerização covalente de pirimidinas adjacentes (dímeros de timina), ilustrado aqui como um triângulo violeta. Estas lesões são reconhecidas por uma enzima fotorreativante, que absorve luz em comprimentos de ondas > 300 nm (tais como luz fluorescente ou luz solar) e executa uma reação fotoquímica em dois passos que monomeriza as pirimidinas dimerizadas, restaurando-as aos seus arranjos naturais. Modificado a partir de Friedberg (2003). 2.4.1.3 Reparação direta oxidativa O gene envolvido na reparação direta oxidativa em E. coli é alkB, que apresenta ampla distribuição, com genes homólogos em vários organismos. O gene alkB é regulado pelo produto do gene ada, envolvido na via de reparação direta de alquitransferência. A enzima alkB da reparação direta oxidativa atua em uma reação oxidativa, havendo deste modo uma liberação do grupo metila na forma de formaldeído, revertendo a lesão para a forma de base não modificada (Begley e Samson, 2003). 20 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2.4.2 Reparação por excisão de bases (REB) O mecanismo de excisão de bases é responsável por remover uma grande variedade de lesões nas bases do DNA. Esta reparação se inicia com a ação das enzimas DNA glicosilases, que reconhecem e removem as bases lesadas da cadeia de DNA pela quebra da ligação N-glicosídica, a qual mantém a base nitrogenada associada com o esqueleto de açúcar-fostato. Para cada tipo de lesão nas bases do DNA existe uma enzima DNA-glicolase específica (Mol et al., 1999). Depois da retirada da base lesada, gera-se no DNA um sítio apurínico ou apirimidínico (AP) que será reconhecido e clivado por AP-endonucleases. As APs realizam a quebra do esqueleto de açúcar nas posições 3’ e 5’. A lacuna gerada pela retirada do nucleotídeo contendo a lesão será preenchida por DNA polimerase envolvida na síntese de DNA após o processo de reparação (Memisoglu e Samson, 2000). 2.4.3 Reparação por excisão de nucleotídeos (REN) O processo de reparação por excisão de nucleotídeos remove uma diversidade de lesões que causam distorções estruturais significativas no DNA, incluindo fotoprodutos induzidos pela luz UV, adutos químicos e ligações cruzadas internas entre fitas. Este mecanismo de reparação é altamente conservado ao longo da evolução dos procariotos. O REN consiste no reconhecimento da lesão no DNA, seguido pela incisão da fita danificada, uma em cada lado da lesão e pela remoção do oligonucleotídeo em 3’ com a fita existente. Neste modelo, a presença de uma lesão promove uma parada na transcrição com o recrutamento do complexo TFIIH e outras proteínas envolvidas na reparação. Após a reparação, o fator TFIIH atua como um fator de iniciação e a transcrição é retomada (Yumin e Raymond, 2000). 2.4.4 Reparação de bases mal emparelhadas ("Mismatch repair" MMR) Esse mecanismo atua também em importantes funções na reparação acoplada à transcrição e à meiose. Sua principal função é a correção de pareamento errôneo de bases ocorrido na replicação (Buermeyer et al., 1999; Jean et al., 1999). O mecanismo de ação do MMR é direcionado por metilação de seqüência GATC na fita que é sintetizada após a replicação. As enzimas Mut reconhecem e se ligam às bases mal pareadas na seqüência GATC. Se somente uma das fitas é metilada na seqüência GATC, a proteína MutH atua como endonuclease sítioespecífica, clivando a fita não metilada na porção 5’ da seqüência alvo. Uma vez ocorrendo a clivagem, a DNA polimerase III preenche o espaço que foi retirado e a DNA ligase faz a ligação fosfodiester. O último passo no processo consiste na metilação dos sítios GATC das fitas recémsintetizadas, pela Dam metiltransferase (Hsieh, 2001). 21 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2.4.5 Reparação por recombinação A reparação por recombinação utiliza a maquinaria de recombinação genética mitótica para restaurar a integridade do DNA após o processo de replicação. Um tipo de dano que pode ser reparado por recombinação é a dupla quebra das fitas de DNA (DSB), que é a principal ameaça para a integridade genômica das células (Figura 5). As DSBs podem ser geradas por processos celulares normais, tais como recombinação, enzimas de restrição bem como por agentes endógenos e exógenos que causam danos no DNA, tais como estresse oxidativo, radiação ionizante e luz UV. Quebras de DNA dupla fita podem resultar em fragmentação cromossômica, translocação e remoção. A persistência do dano ou a reparação incorreta pode resultar na instabilidade genômica (Ries et al., 2000). Há dois caminhos envolvidos na reparação de duplas fitas de DNA: a recombinação homóloga, que garante o reparo correto, e a não homóloga, que está sujeita a erro (Game, 2000). Figura 5. A reparação de quebras da fita dupla em DNA. Quebras de dupla-fita podem resultar da exposição à radiação ionizante, dano oxidativo e a quebra espontânea da coluna-fosfato da molécula do DNA. Suas reparações podem ser efetuadas por uma nova junção dos terminais quebrados (esquerda) ou por recombinação homóloga com uma molécula irmã (direita). Ambos os processos envolvem diferentes complexos de multi-proteínas. Modificado a partir de Friedberg (2003). 22 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2.4.6 Resposta SOS Quando as células são expostas a condições de estresse elevado, como exposição à radiação ou altas doses ou concentrações de um agente mutagênico, um sistema peculiar atua: a reparação sujeita a erro como conseqüência da resposta SOS. A função desse sistema é impedir que a replicação seja interrompida pelo bloqueio que as várias lesões localizadas na cadeia molde exercem sobre a atividade catalítica da DNA polimerase. Se esta paralisação ocorrer, há a produção de cadeias com descontinuidade correspondentes a vários nucleotídeos e, se essas lesões não forem corrigidas a tempo, a célula morre. Para evitar a morte, a alta precisão da replicação deixa de ser prioritária e as enzimas envolvidas no sistema de reparação sujeita a erro adicionam nucleotídeos, com baixa especificidade, frente às lesões. Esse processo é denominado síntese translesão. A síntese translesão pode ser tanto livre de erro como passível de erros (mutagênico). Este mecanismo ainda não está demonstrado em células eucariontes, embora já esteja muito bem documentado em bactérias (Soares Neto e Menck, 2001). A ativação deste sistema em células da bactéria Escherichia coli envolve inicialmente a ativação da proteína RecA, que tem a função de clivar a proteína repressora LexA. Assim cerca de quarenta genes são ativados disparando uma resposta fisiológica protetora do material genético, garantindo a sobrevivência bacteriana (Fernandez de Henestrosa et al., 2000; Courcelle et al., 2001). Alguns destes genes estão envolvidos na reparação por excisão de nucleotídeos e na recombinação de DNA. 2.5 Reparação de Lesões no DNA de S. cerevisiae Em leveduras, os estudos dos mecanismos de reparação de lesão no DNA foram iniciados com o isolamento de uma série de mutantes sensíveis aos efeitos da radiação UV (Nakai e Matsumoto, 1967; Resnick, 1969) e radiações ionizantes (Resnick, 1969). Os genes requeridos para reparação de danos provocados por radiação UV foram identificados por Cox e Parry (1968), que definiram 22 grupos de complementação, correspondentes a 22 loci genéticos independentes, sugerindo a presença de múltiplas vias para a reparação de lesões induzidas por radiações UV. Estes mutantes foram denominados mutantes rad. Estudos de interações do tipo epistático e sinergístico determinaram três grupos genéticos denominados pelo locu mais representativo que regulam a reparação de lesões: o grupo RAD3, envolvido na reparação por excisão, o grupo RAD6, necessário para a reparação pós-replicação, e o grupo RAD52, envolvido em mecanismos semelhantes à recombinação (Game e Cox, 1973; Game e Mortimer, 1974). Esta classificação tornou evidente que mutantes rad apresentam sensibilidade a outros agentes, demonstrando a complexidade de interação dos mecanismos de reparação dependendo do tipo de lesão. 23 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2.5.1 Grupo RAD3 Os mutantes do grupo epistático RAD3 demonstram uma sensibilidade variável à luz UV que caracteriza uma deficiência no sistema REN (Friedberg, 1988). O sistema REN, bastante conservado ao longo da evolução, é capaz de remover uma diversidade de lesões que causam distorções estruturais significativas no DNA, incluindo remoção de ligações cruzadas internas entre fitas, fotoprodutos induzidos por UV e adutos químicos (Seroz et al., 2000). As proteínas do grupo RAD3 formam um complexo que atua no processo de reparação de excisão e na recombinação mitótica. A proteína Rad1 tem função de nuclease, removendo regiões não homólogas terminais 3’ de moléculas recombinantes de DNA, semelhante ao da excisão de dímeros de pirimidina durante a reparação por excisão em bactérias (Fishman-Lobell e Haber, 1992; Bardwell et al., 1993; Siede et al., 1993). A proteína Rad3 apresenta uma função de helicase 5’- 3’ que age em DNA fita dupla e híbridos de DNA-RNA (Sung et al., 1992; Deschavanne e Harosh, 1993). A proteína Rad3 está também envolvida em diferentes complexos multiprotéicos relacionados com metabolismo do DNA, REN, correção pós-replicação, iniciação da transcrição e replicação do DNA (Friedberg et al., 1991). Já a proteína Rad10 liga-se às seqüências de DNA de cadeia simples e acelera a renaturação do DNA (Sung et al., 1992). A proteína Rad14 está envolvida no processo de incisão em leveduras (Prakash et al., 1993), reconhecendo lesões no DNA por conter regiões de ligação ao DNA de cadeia simples e dupla, com particular afinidade por DNA irradiado com UV de 254 nm (Bankmann et al., 1992; Banerjee e Zhang, 2003). A proteína Rad25 contém motivos conservados entre duas superfamílias de DNA e RNA helicase que são essenciais para sua função, daí o motivo de ser também conhecida como helicase (Park et al., 1998). O gene RAD25 é alelo de SSL1, o qual foi descrito como envolvido no metabolismo de RNA. Desta forma, a proteína Rad25/Ssl1 está envolvida no processo de regulação gênica ao nível de transcrição (Gulyas e Donahue, 1992). 2.5.2 Grupo RAD6 As proteínas do grupo de epistasia RAD6 compõem a mais complexa e menos compreendida das vias de reparação em S. cerevisiae. Mutantes deste grupo apresentam uma variada sensibilidade a diferentes agentes químicos e físicos (Friedberg et al., 1991), apesar de não serem deficientes em reparação por excisão de nucleotídeos (Reynolds e Friedberg, 1981). Estes mutantes apresentam uma redução ou bloqueio na freqüência de mutação espontânea ou induzida por diversos agentes (Lawrence et al., 1982). O grupo RAD6 por ter estas características foi definido como uma via responsável pela reparação mutagênica ou reparação sujeita a erros. Alguns destes mutantes apresentam alterações nas freqüências de recombinação meiótica e 24 Silva, W.L.S Análise computacional de um suposto sítio de ligação... mitótica e na esporulação (Montelone et al., 1981). O gene RAD6 codifica uma proteína conjugadora de ubiquitina (Jentsch et al., 1987), que promove modificações na atividade de enzimas que participam da mutagênese induzida (Sung et al., 1990). Em leveduras, a reparação pós-replicação (Post Replication Repair – PRR) do DNA e o mecanismo de mutagênese são dependentes dos genes RAD5 (REV2), RAD6 (UBC2), RAD18, REV1, REV2 e REV7 (Friedberg et al., 1995). A proteína de ligação Rad18 (Bailly et al., 1994) e a enzima conjugada de ubiquitina de Rad6 (Jentsch et al., 1987), que são requeridas tanto para o PRR como para mutagênese, formam um complexo estável (Bailly et al., 1997a; Bailly et al., 1997b). O gene REV2 (RAD5) codifica uma proteína que apresenta uma seqüência conservada presente em várias helicases e domínios de ligação dedo de zinco como também uma atividade ATPase DNA dependente (Johnson et al., 1992; Johnson et al., 1994). O produto do gene REV3 apresenta alta similaridade a várias DNAs polimerases eucarióticas não essenciais para a viabilidade celular, sugerindo ser seu produto protéico uma DNA polimerase que atua no processo de síntese translesão (Morrison et al., 1989; Nelson et al., 1996). Portanto, a PRR e o mecanismo mutagênico em S. cerevisiae dependem de uma polimerase especializada e, portanto, de um mecanismo capaz de remover blocos de replicação no DNA ao custo do aumento de mutações (Prakash et al., 1993). 2.5.3 Grupo RAD52 Os dez mutantes que fazem parte do grupo RAD52 (Rad50, Rad51, Rad52, Rad54, Rad55, Rad57, Rad59, Rfa1, Mre11 e Xrs2) são sensíveis às radiações ionizantes (IR) (Petes et al., 1991; Game, 1993; Friedberg et al., 1995; Bai e Symington, 1996; Hays et al., 1998). Os produtos dos genes do grupo RAD52 estão concomitantemente envolvidos na reparação de dupla quebra da fita de DNA (DSB), bem como em recombinação mitótica e meiótica (Petes et al., 1991; Game, 1993). Vários mutantes foram isolados pelo defeito nos processos de recombinação, associados ou não com reparação, mas nenhum destes mutantes é completamente bloqueado nos diferentes tipos de recombinação. Isto indica a presença de diferentes mecanismos que controlam os diferentes eventos de recombinação (Petes et al., 1991). Em S. cerevisiae, o gene RAD52 é essencial para recombinação homóloga eficiente (Bai e Symington, 1996). Sua conservação na estrutura primária e propriedades bioquímicas são bastante grandes, desde leveduras a eucariontes superiores como os humanos, tornando-o o marcador mais freqüentemente usado para definir o processo de recombinação homóloga (Sung et al., 2000; Shen et al., 1996). Bioquimicamente, a proteína Rad52 demonstra ligar-se a DNA de fita dupla e simples, com uma preferência por terminais de DNA (Mortensen et al., 1996; Parsons et al., 2000). O RAD52 também favorece a ligação física entre o complexo protéico RP-A de ligação a DNA fita simples 25 Silva, W.L.S Análise computacional de um suposto sítio de ligação... e a proteína Rad51, sua homóloga (Hays et al., 1998). Os membros deste grupo também codificam para proteínas que estão na etapa de recombinação central e inicial. As proteínas Rad55p e Rad57p têm demonstrado participar em pareamento de DNA (Sung, 1997), mas parecem apenas auxiliar as proteínas Rad51p, Rad52, Rad54p. Em S. cerevisiae foram identificados homólogos ao gene de E. coli RecA pertencentes ao grupo RAD52. São os genes RAD51 (Shinohara et al., 1992), RAD55 (Lovett, 1994) e RAD57 (Kans e Motimer, 1991), que são expressos em células mitóticas e meióticas (Mcdonald e Rothstein, 1994; Rattray e Symington, 1995; Sugawara et al., 1995). 2.6 Regulação da expressão de genes de reparação Vários genes de reparação em S. cerevisiae são induzidos em resposta a agentes que danificam o DNA, tais como RAD2, RAD7, RAD18, RAD23, RAD51, RAD54, PHR1 e MAG1, bem como genes envolvidos no metabolismo do DNA e em modificações protéicas, tais como RAD6, RNR1, RNR2, RNR3, CDC9, POL1 e UBI4 (Friedberg et al., 1995). Adicionalmente, quatro genes DIN (Damage Inducible) e seis genes DDR (DNA Damage Responsive) foram identificados (Mcclanahan e Mcentee, 1984; Ruby e Szostak, 1985). A indução de tais genes depende da ação de um grupo de elementos regulatórios presentes nas regiões promotoras (cisregulatory elements), dos quais os mais estudados são aqueles dos genes RAD2 e RNR2. O promotor do gene RAD2 contém duas seqüências ativadoras a montante, conhecidas como elementos DRE1 (TTAAAGGGATTGAAA) e DRE2 (GTGGAGGCATTAAAA) (Damage response element), essenciais para a indução a partir de danos no DNA (Siede e Friedberg, 1992). O promotor do gene RNR2 contém três elementos Upstream Activator Sequence (UAS), um dos quais é reconhecido pela proteína Rap1p, e um elemento repressor Upstream Repressor Sequence (URS) (Elledge e Davis, 1989). O gene SNM1 (PSO2), que pertence à via de reparação por excisão de nucleotídeos (grupo RAD3), atua na reparação de lesões causadas por agentes intercalantes do tipo bifuncionais (Henriques e Brendel, 1990). A expressão deste gene é induzida por estes agentes, além de radiação ultravioleta (Wolter et al., 1996). Remoções seriais na região promotora deste gene demonstraram que uma seqüência de 15 pares de bases homólogas ao elemento DRE2 do gene RAD2, (GGAAACGGACTGAAA) é essencial para a indução de SNM1 (Wolter et al., 1996). Seqüências similares ao elemento DRE2 têm sido encontradas em outros genes envolvidos na reparação de lesões no DNA e no metabolismo de síntese de nucleotídeos (Siede e Friedberg, 1992). Como a expressão do gene SNM1 é bastante controlada em células de levedura, este oferece uma excelente plataforma para o estudo de circuitos regulatórios que podem ser preditos por ferramentas computacionais utilizadas para análise de genômica funcional. 26 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 2.7 Ferramentas Computacionais e Fatores de Transcrição A finalização do seqüenciamento genético de S. cerevisiae trouxe uma nova visão da arquitetura genética em termos de redes regulatórias, especialmente pelo desenvolvimento de ferramentas computacionais. Isto tem possibilitado a identificação de novos elementos cis com base na comparação com elementos regulatórios conhecidos, permitindo o desenvolvimento de novos algoritmos de predição de motivos na seqüência de DNA (Tavazoie et al., 1999). Isto consiste na habilidade de reconhecer padrões de seqüências de nucleotídeos por algoritmos combinatórios baseados em sistemas de busca utilizando a codificação IUPAC (International Union of Pure and Applied Chemistry). Contudo, matrizes de distribuição de nucleotídeos parecem ser mais precisas por conferir um valor de qualidade àquela posição da seqüência que está sendo analisada, enquanto que buscas diretas do tipo IUPAC baseiam-se na decisão “tudoou-nada”. Um destes métodos matriciais é o algoritmo MatInd, o qual cria uma biblioteca de padrões-consenso com uma matriz de descrição a partir de pequenas seqüências geradas pela análise em IUPAC (Quandt et al., 1995). Esta matriz gerada pode ser posteriormente utilizada para localizar padrões em outras seqüências a partir do uso de uma segunda ferramenta MatInspector (Quandt et al., 1995), buscando homologias em bancos de dados de elementos regulatórios, do tipo TRANSFAC (Transcription Factor Database) (Wingender et al., 2000), o YPD (Yeast Promoter Database) (Cold Spring Harbor Lab., USA), o DBM (DNA Binding Motifs (Hughes et al., 2000) e o PBS (Promoter Binding Sites) (Tavazoie et al., 1999), entre outros. A literatura recente aponta na direção do uso de ferramentas computacionais como forma de inferir informação a partir de dados genômicos. Alguns exemplos de trabalhos baseados na análise computacional para identificação de seqüências reconhecidas por fatores de transcrição são apresentados a seguir. Hughes et al. (2000) desenvolveu um método de identificação de elementos regulatórios em cis associados a diferentes grupos de genes com funções relacionadas em S. cerevisiae, baseado na ferramenta de alinhamento AlignACE (http://atlas.med.harvard.edu/). Aliada a esta ferramenta, o TRANSFAC, desenvolvido pelo grupo do BIOBASE Biological Databases do Instituto de pesquisas GBF (Research Group Bionformatics) da Alemanha, foi desenvolvido como um banco de dados de fatores de transcrição que modela vias regulatórias de forma automática (Wingender, 2002). Ettwiller et al. (2003) enfocam a descoberta de elementos cisregulatórios usando informação acerca de interações proteína-proteína ou de redes metabólicas com dados genômicos de S. cerevisiae. O método usado também é baseado na análise in silico. 27 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Um dos maiores desafios que se segue ao seqüenciamento de genomas é desvendar redes regulatórias de expressão de genes. A predição in silico de sítios regulatórios potenciais será fundamental neste processo, pois permitirá a modelagem de interações proteína-DNA que serão testadas experimentalmente. Este trabalho segue a linha de pesquisa in silico propondo identificar padrões de seqüências regulatórias em regiões promotoras do genoma da levedura S. cerevisiae, tendo como base um motivo de 15 pares de base presente na região promotora do gene SNM1, o qual é homólogo ao elemento DRE2 do gene RAD2 (Wolter et al., 1996). As seqüências homólogas identificadas neste trabalho sugerem que esta seqüência também está envolvida na regulação de vários outros genes da levedura. 28 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 3 Referências Bibliográficas Bai Y and Symington LS (1996) A Rad52 homolog is required for Rad51-independent mitotic division recombination in Saccharomyces cerevisiae. Genes Dev 10:2025-2037. Bailly V, Lamb J, Sung P Prakash S and Prakash L (1994) Specific complex formation between yeast RAD6 and RAD18 proteins: a potential mechanism for targeting RAD6 ubiquitinconjugating activity to DNA damage sites. Genes Dev 8:811-820. Bailly V, Lauder S, Prakash S and Prakash L (1997a) Yeast DNA repair proteins Rad6 and Rad18 form a heterodimer that has ubiquitin conjugating, DNA binding, and ATP hydrolytic activities. J Biol Chem 272:23360-23365. Bailly V, Prakash S and Prakash L (1997b) Domains required for dimerization of yeast Rad6 ubiquitin-conjugating enzyme and Rad18 DNA binding protein. Mol Cell Biol 17:45364543. Banerjee N and Zhang MQ (2003) Identifying cooperativity among transcription factors controlling the cell cycle in yeast. Nucl Acids Res 31: 7024-7031. Bankmann M, Prakash L and Prakash S (1992) Yeast RAD14 and human xeroderma pigment sum group A DNA repair genes encodes homologous proteins. Nature 355:555-558. Bardwell AJ, Bardwell L, Johnson KD and Friedberg EC (1993) Yeast DNA recombination and repair proteins Rad1 and Rad10 constitute a complex in vivo mediated by localized hydrophobic domains. Mol Microbiol 8:1177-1188. Begley TJ and Samson LD (2003) Alkb mystery solved: oxidative demethlation of N1methyladenine and N3-methylcytosine adducts by a direct reversal mechanism. Trends Biochem Sci 28:2-5. Buermeyer AB, Deschênes SM, Baker SM and Liskay RM (1999) Mammalian DNA mismatch repair. Annu Rev Genet 33:533-564. Cardinali G, Vollenbrioch V, Jeon MS, deGraae AA and Hollenberg CP (1997) Constitutive expression in gal7 mutants of Kluyveromyces lactis is due to internal production of galactose as an inducer of the Gal/Lac regulon. Mol Cell Biol Vol.17 No.3 pp.1722-1730. Castilho-Valavicius BA, Takita MA, Thompson GM and Piestun VS (1992). The molecular genetics of Saccharomyces cerevisiae. J of the Brazilian Association for the Advancement of Science 44:301-309. Cherry JM, Adler C, Ball C, Chervitz SA, Dwight SS, Hester ET, Jia Y, Juvik G, Roe T, Schroeder M, Weng S and Botstein D (1998) SGD: Saccharomyces Genome Database. Nucleic Acids Res 26:73-79. Cline SD and Hanawalt PC (2003) Who’s on first in the cellular response to DNA damage? Nat Rev Mol Cell Biol 5:361-372. 29 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Costanzo MC, Hogan JD, Cusick ME, Davis BP, Fancher AM, Hodges PE, Kondu P, Lengieza C, Lew-Smith JE, Lingner C, Roberg-Perez KJ, Tillberg M, Brooks JE and Garrels JI (2000) The Yeast Proteome Database (YPD) and Caenorhabditis elegans Proteome Database (WormPD): comprehensive resources for the organization and comparison of model organism protein information. Nucleic Acids Res 1:73-76. Courcelle J, Khodursky A, Peter B, Brown PO and Hanawalt PC (2001) Comparative gene expression profiles following UV exposure in wild-type and SOS-deficient Escherichia coli. Genetics 158:41-64. Cox BS and Parry JM (1968) The isolation, genetics and survivor characteristics of ultraviolet light sensitive mutants in yeast. Mutat Res 6:37-55. Deschavanne PJ and Harosh I (1993) The Rad3 protein from Saccharomyces cerevisiae: a DNA and DNA: RNA helicase with putative RNA helicase activity. Mol Microbiol 7:831-835. Dolinski K, Balakrishnan R, Christie KR, Costanzo MC, Dwight SS, Engel SR, Fisk DG, Hirschman JE, Hong EL, Issel-Tarver L, Sethuraman A, Theesfeld CL, Binkley G, Lane C, Schroeder M, Dong S, Weng S, Andrada R, Botstein D and Cherry JM (2002) Saccharomyces Genome Database. http://www.yeastgenome.org/. October 29, 2002. January 09, 2004. Elledge SJ and Davis RW (1989) Identification of the DNA damage responsive element of RNR2 and evidence that four distinct cellular factors bind it. Mol Cell Biol 9:5373-5386. Ettwiller LM, Rung J and Birney E (2003) Discovering Novel cis-Regulatory Motifs Using Functional Networks. Genome Res 13:883-895. Fernandez de Henestrosa AR, Ogi T, Aoyagi S, Chafin D, Hayes JJ, Ohmori H and Woodgate R (2000) Identification of additional genes belonging to the LexA regulon in Escherichia coli. Mol Microbiol 35:1560-572. Fishman-Lobell J and Haber JE (1992) Removal of nonhomologous DNA ends in double-strand break recombination: The role of the yeast ultraviolet repair gene RAD1. Science 258:480484. Fowler RG, White SJ, Koyama C, Moore SC, Dunn RL and Schaaper RM (2003) Interactions among the Escherichia coli mutT, mutM and mutY damage prevention pathways. DNA Repair (Amst) 2:159-173. Friedberg E, Walker G and Siede W (1995) DNA Repair and Mutagenesis. ASM publisher, Washington. Friedberg EC (1988) Deoxyribonucleic acid repair in the yeast Saccharomyces cerevisiae. Microbiol Rev 52:70-102. Friedberg EC (2003) DNA damage and repair. Nature 421:436-440. 30 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Friedberg EC, Siede W and Cooper AJ (1991) Cellular response to DNA damage in yeast. In: The Molecular and Cellular Biology of the yeast Saccharomyces: genome dynamics, protein synthesis and energetics. JW Broach, JR Prigle, EW Jones ed. Cold Spring Habor Laboratory, Cold Spring Habor, New York, pp 147-192. Game JC (1993) DNA double-strand breaks and the RAD50-RAD57 genes in Saccharomyces. Semin Cancer Biol 4:73-83. Game JC (2000) The Saccharomyces repair genes at the end of the centure. Mutat Res 451: 277293. Game JC and Cox BS (1973) Synergistic interaction between rad mutations in yeast. Mutat Res 20:35-44. Game JC and Mortimer RK (1974) A genetic study of X-ray sensitivity mutants in yeast. Mutat Res 24:281-292. Gasch AP, Huang M, Metzner S, Botstein D, Elledge SJ and Brown PO (2001) Genomic expression responses to DNA-damage agents and the regulatory role of the yeast ATR homolog Mec1p. Mol Biol Cell 12:2987-3003. Gulyas KD and Donahue TF (1992) SSL2, a suppressor of a stem-loop mutation in the HIS4 leader encodes the yeast homologous of human ERC3. Cell 69:1031-1042. Harrison SC (1991) A structural taxonomy of DNA-binding domains. Nature 353:715-719. Hays SL, Firmenich AA, Massey P, Banerjee R and Berg P (1998) Studies of the interaction between Rad52 protein and the yeast single-stranded DNA binding protein RPA Mol Cell Biol 18:4400-4406. Henriques JAP and Brendel M (1990) The role of PSO and SNM genes in DNA repair of the yeast Saccharomyces cerevisiae. Curr Genet 18:387-393. Hernandez N (1993) TBP, a universal eukaryotic transcription factor? Genes Dev 7:1291-1308. Hsieh P (2001) Molecular mechanisms of DNA mismatch repair. Mutat Res 486:71-87. Hughes JD, Estep PW, Tavazoie S and Church GM (2000) Computational Identification of Cisregulatory Elements Associated with Groups of Functionally Related Genes in Saccharomyces cerevisiae. J Mol Biol 296:1205-1214. Jean M, Pelletier J, Hilpert M, Belzile F and Kunze R (1999) Isolation and characterization of AtMLH1, a MutL homologue from Arabidopsis thaliana. Mol Gen Genet 262:633-642. Jelinsky S, Estep P, Church G, and Samson L (2000) Regulatory Networks Revealed by Transcriptional Profiling of Damaged Saccharomyces cerevisiae Cells: RPN4 Links Base Excision Repair with Proteasomes. Mol Cell Biol 20:8157-8167. Jentsch S, Mcgrath JP and Varshavsky A (1987) The yeast DNA repair gene RAD6 encodes an ubiquitin-conjugating enzyme. Nature 329:131-134. 31 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Johnson RE, Henderson ST, Petes TD, Prakash S, Bankmann M and Prakash L (1992) Saccharomyces cerevisiae RAD5-encoded DNA repair protein contains DNA helicase and zinc-binding sequence motifs and affects the stability of simples repetitive sequences in the genome. Mol Cell Biol 12:3807-3818. Johnson RE, Prakash S and Prakash L (1994) Yeast DNA repair protein RAD5 that promotes instability of simple repetitive sequences is a DNA-dependent ATPase. J Biol Chem 269:28259-28262. Kans JA and Mortimer RK (1991) Nucleotide sequence of the RAD57 gene of Saccharomyces cerevisiae. Gene 105:139-140. Lawrence CW, Christensen RB and Scwartz A (1982) Mechanism of UV mutagenesis in yeast. In Molecular and cellular mechanism of mutagenesis, pp 109-120. JF Lemontt and WM Generoso Eds. Plenun Publishing corp., New York. Lee TU, Rinaldi NJ, Robert F, Odom DT, Bar-Joseph Z, Gerber GK, Hannett NM, Harbisonn CT, Thompson CM, Simon I, et al. (2002) Transcriptional regulatory networks in Saccharomyces cerevisiae. Science 298:799-804. Lovett ST (1994) Sequence of the RAD55 gene of Saccharomyces cerevisiae: similarity of Rad55 to prokaryotic RecA and other RecA-like proteins. Gene 142:103-106. Lue NF, Chasman DI, Buchman AR and Kornberg RD (1987) Interaction of GAL4 and GAL80 gene regulatory proteins in vitro. Mol Cell Biol 7:3446-3451. Martins DBG (2000) Indução da atividade da β-galactosidase na levedura Kluyveromyces marxianus em diferentes condições de cultivo. Dissertação de Mestrado, Universidade Federal de Pernambuco, Brasil. Matsui T, Segall J, Weil P and Roeder R (1980) Multiple factors required for accurate initiation of transcription by purified RNA polymerase II. J Biol Chem 225:11992-11996. Mcclanahan T and Mcentee K (1984) Specific transcripts are elevated in Saccharomyces cerevisiae in response to DNA damage. Mol Cell Biol 4:2356-2363. Mcdonald JP and Rothstein R (1994) Unrepaired heteroduplex DNA in Saccharomyces cerevisiae is decreased in RAD1 RAD52-independent recombination. Genetics 137:393-405. Memisoglu A and Samson L (2000) Base excision repair in yeast and mammals. Mutat Res 451:39-51. Mewes HW, Frishman D, Gruber C, Geier B, Haase D, Kaps A, Lemcke K, Mannhaupt G, Pfeiffer F, Schüller C, Stocker S and Weil B (2000) MIPS: a database for genomes and protein sequences. Nucleic Acids Res 28:37-40. Mewes HW, Heumann K, Kaps A, Mayer K, Pfeiffer F, Stocker S and Frishman D (1999) MIPS: a database for genomes and protein sequences. Nucleic Acids Res 27:44-48 32 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Mitchell PJ and Tjian R (1989) Transcriptional regulation in mammalian cells by sequencespecific DNA binding proteins. Science 245:371-378. Mol CD, Parikh SS, Putnam CD, Lo TP and Tainer J A (1999) DNA repair mechanisms for the recognition and removal of damaged DNA bases. Annu Rev Biophys Biomol Struct 28:10128. Montelone BA, Prakash S and Prakash L (1981) Recombination and mutagenesis in rad6 mutants of Saccharomyces cerevisiae: evidence for multiple functions of the RAD6 gene. Mol Gen Genet 184:410. Morrison A, Christensen RB, Alley H, Beck AK, Bernstine EG, Lemontt JF and Lawrence CW (1989) REV3, a yeast gene whose function is required for induction mutagenesis, is predicted to encode a non-essential DNA polymerase. J Bacteriol 171:5659. Mortensen U, Bendizen HC, Sunjevaric I and Rothstein R (1996) DNA strand annealing is promoted by the yeast Rad52 protein. Proc Natl Acad Sci U S A 93:10729-10734. Nakai S and Matsumoto S (1967) Two types of radiation-sensitive mutants in yeast. Mutat Res 4:129-136. Nehlin JO, Carlberg M and Ronne H (1991) Control of yeast GAL genes by MIG1 repressor: a transcriptional cascade in the glucose response. EMBO J 10:3373-3377. Nelson JR, Lawrence CW and Hinkle DC (1996) Thymine-thymine dimer bypass by yeast DNA polymerase ζ. Science 272:1646-1649. Oliver SG (1996) From DNA sequence to biological function. Nature 379:597-600. Ozer J, Mitsouras K, Zerby D, Carey M and Liebermani PM (1998) Transcription factor IIA repress TATA-binding protein (TBP)-associated factor inhibition of TBP-DNA binding. J Biol Chem 273:14293-14300. Park JM, Cho JH, Kang SG, Jang HJ, Pih KT, Piao HL, Cho MJ and Hwang I (1998) A dynamin-like protein in Arabidopsis thaliana is involved in biogenesis of thylakoid membranes. EMBO J 17:859-867. Parsons CA Baumann P, Dyck EV and West SC (2000) Precise binding of single-stranded DNA termini by human RAD52 protein. EMBO J 19:4175-4181. Perez-Ortin JE, Matallana E and Franco L (1989) Chromatin structure of yeast genes. Yeast 5:219-283. Petes TD, Malone RE and Symington LS (1991) Recombination in yeast. In: The molecular and cellular biology of the yeast Saccharomyces: genome dynamics, protein synthesis and energetics. JW Broach, JR Prigle, EW Jones ed. Cold Spring Habor Laboratory, Cold Spring Habor, New York, pp. 407-512. 33 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Phaff HJ (1990) Isolation of yeast from natural source. In: Isolation of Biotechnological Organisms from Nature. Labeda (ed), US Mc-Graw-Hill Inc. pp.53-59. Prakash S, Sung P and Prakash L (1993) DNA repair genes and proteins of Saccharomyces cerevisiae. Annu Rev Genet 27: 33-70. Psaround MC and Kyrtopoulos SA (2000) Toxicity, mutation frequency and mutation spectrum induced by dacarbazine in CHO cell expressing different level of O6-methylguanine-DNA methyltransferase. Mutat Res 447:257-265. Ptashne M and Gann A (1997) Transcriptional activation by recruitment. Nature 386:569-577. Quandt K, Frech K, Karas H, Wingender E and Werner T (1995) MatInd and Mat Inspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data. Nucl Acids Res 23:4878-4884. Rattray AJ and Symington LS (1995) Multiple pathways for homologous recombination in Saccharomyces cerevisiae. Genetics 139:45-56. Resnick MA (1969) Genetic control of radiation sensitivity in Saccharomyces cerevisiae. Genetics 62:519-531. Reynolds RJ and Friedberg EC (1981) Molecular mechanism of pyrimidine dymers in Saccharomyces cerevisiae: incision of ultraviolet-irradiated deoxyribonucleic acid in vivo. J Bacteriol 146:692-704. Ries G, Heller W, Puchta H, Sandermann H, Seidlitz HK and Hohn B (2000) Elevated UV-B radiation reduces genome stability in plants. Nature 406:98-101. Riley MI and Dickson RC (1984) Genetic and biochemical characterization of the galactose gene cluster in Kluyveromyces lactis. J Bacteriol 158:705-712. Ruby SW and Szostak JW (1985) Specific Saccharomyces cerevisiae genes are expressed in response to DNA-damaging agents. Mol Cell Biol 5:75-84. Seroz T, Winkler GS, Auriol J, Verhage RA, Vermeulen W, Smit B, Brouwer J, Eker AP, Weeda G, Egly JM and Hoeijmakers JH (2000) Cloning of a human homolog of the yeast nucleotide excision repair gene MMS19 and interaction with transcription repair factor TFIIH via the XPB and XPD helicases. Nucleic Acids Res 28:4506-4513. Shen Z, Cloud KG, Chen DJ and Park MS (1996) Specific Interactions between the Human RAD51 and RAD52 Proteins. J Biol Chem 271:148-152. Shinohara A, Ogawa H and Ogawa T (1992) Rad51 protein involved in repair and recombination in S. Cerevisiae is a RecA-like protein. Cell 69:457-470. Siede W and Friedberg EC (1992) Regulation of the yeast RAD2 gene: DNA damage-dependent induction correlates with protein binding to regulatory sequences and their deletion influences survival. Mol Gen Genet 232:247-256. 34 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Siede W, Friedberg AS and Friedberg EC (1993) Evidence that Rad1 and Rad10 proteins of Saccharomyces cerevisiae participate as a complex in nucleotide excision repair of UV radiation damage. J Bacteriol 175:6345-6347. Sinha RP and Hader DP (2002) UV-induced DNA damage and repair: a review. Photochem Photobiol Sci 4:225-236. Soares Neto LE and Menck CF (2001) Estabilidade do Material genético: mutagênese e reparo. In Biologia molecular e evolução (Sergio Russo Matioli). Holos, Ribeirão Preto, São Paulo, pp. 40-50. Sugawara N, Ivanov EL, Fishman-Lobell J, Ray BL, Wu X and Haber JE (1995) DNA structuredependent requirements for yeast RAD genes in gene conversion. Nature 373:84-86. Sung P (1997) Yeast Rad55 and Rad57 proteins form a heterodimer that functions with replication protein A to promote DNA strand exchange by Rad51 recombinase. Genes Dev 11:1111-1121. Sung P, Prakash L and Prakash S (1992) Renaturation of DNA catalyzed by yeast DNA repair and recombination protein Rad10. Nature 355:743-745. Sung P, Prakash S and Prakash L (1990) Mutation of cystein-88 in the Saccharomyces cerevisiae Rad6 protein abolishes its ubiquitin-conjugating activity and its various biological functions. Proc Natl Acad Sci U S A 87:2695-2699. Sung P, Trujillo KM and Van Komen S (2000) Recombination factors of Saccharomyces cerevisiae. Mutat Res 30:257-275. Tavazoie S, Hughes JD, Campbell MJ, Cho RJ and Church GM (1999) Systematic determination of genetic network architecture. Nat Genet 22:281-285. Tebbs RS, Flannery ML, Meneses JJ, Hartmann A, Tucker JD, Thompson LH, Cleaver JE and Pedersen RA (1999) Requirement for the Xrcc1 DNA base excision repair gene during early mouse development. 208:513-29. Wingender E (1993) Gene Regulation in Eukaryotes. VCH Weinheim, pp 115-149. Wingender E (2002) Modeling regulatory pathways with the use of the TRANSFAC system. Gene Funct Dis 3:9-17. Wingender E, Chen X, Hehl R, Karas H, Liebich I, Matys V, Meinhardt T, Prüß M, Reuter I and Schacherer F (2000) TRANSFAC: an integrated system for gene expression regulation. Nucl Acids Res 28:316-319. Winzelera EA, Castillo-Davisb CI, Oshiroa G, Lianga D, Richardsc DR, Zhoua Y and Hartl DL (2003) Genetic Diversity in Yeast Assessed With Whole-Genome Oligonucleotide Arrays. Genetics 163: 79-89. 35 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Wolter R, Siede W and Brendel M (1996) Regulation of SNM1, an inducible Saccharomyces cerevisiae gene required for repair of DNA cross-links. Mol Gen Genet 250:162-168. Wu Y, Reece RJ and Ptashne M (1996) Quantitation of putative activator-target affinities predicts transcriptional activating potentials. EMBO J 15:3951-3963. Yumin T and Raymond W (2000) Excision repair at the level of the nucleotide in the upstream control region, the coding sequence and in the region where transcription terminates of the Saccharomyces cerevisiae MFA2 gene and the role of RAD26. Nucleic Acids Res 28:11141119. Zawel L and Reinberg D (1995) Common themes in assembly and function of eukaryotic transcription complexes. Annu Rev Biochem 64:533-561. 36 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 4 Manuscrito Análise in silico de uma matriz DRE na seqüência promotora de genes da Levedura Saccharomyces cerevisiae Manuscrito a ser enviado para a revista DNA Sequence (Taylor & Francis Group Publishers, Cambridge, UK. ISSN Print 1042-5179) 37 Silva, W.L.S Análise computacional de um suposto sítio de ligação... In silico analysis of a DRE-matrix motif in the promoter sequences of the yeast genome Running title: In silico analysis of a DRE-matrix motif in yeast genes Walkiria Luckwu de Santana Silva1, Andre Ricardo de Oliveira Cavalcanti3#, Katia Silva Guimarães1 and Marcos Antonio de Morais Jr2* 1 Centro de Informática and 2Departamento de Genética 3Departamento de Química Fundamental, Universidade Federal de Pernambuco. Brazil. Corresponding author: Departamento de Genética - UFPE Av. Moraes Rego, s/n, 50732-970 Recife, PE, Brasil. Tel: +55 81 21268569 Fax: +55 81 21268522 E-mail: [email protected] #Present address: Department of Chemistry, University of Princeton, USA. 38 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Abstract We report an in silico analysis to identify a nucleotide sequence motif in DNA repair genes that may define a binding site for regulatory proteins during the induction of those genes by the presence of mutagens. The DRE-matrix weight matrix generated in this analysis was used to search for homologous sequences in the promoter region of all genes (including putative gene and hypothetical ORFs) in the Saccharomyces Genome Data Base (SGD). The results demonstrated that over one third of the yeast genes presented at least one 15-bp sequence in their promoter region with 85% or more of similarity to the DRE-matrix consensus sequence. The presence of that sequence in the promoter region of regulatory genes and its high similarity to other well reported DNA binding sites pointed out for its involvement in general regulation of yeast genes. Key words: DNA binding site, DNA repair, Gene promoter, Transfac, weight matrix. 39 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Introduction Exposure to DNA-damaging agents can increase DNA repair capacity and activate cell-cycle checkpoints. Cells might respond to specific damages to their genetic material by activating a cascade of genes involved in cell cycle control and DNA replication (Friedberg, 1991). By arresting cell cycle at specific checkpoints, erroneous DNA replication and segregation are avoided (Friedberg, 1991). A variety of Saccharomyces cerevisiae genes transcript levels are increased in response to DNA-damaging agents including DNA repair genes, such as RAD2, RAD7, RAD18, RAD23, RAD51, RAD54, PHR1 and MAG1, as well as genes involved in DNA metabolism and protein modification, like RAD6, RNR1, RNR2, RNR3, CDC9, POL1 and UBI4 (Friedberg, 1991). Moreover, four Damage Inducible (DIN) and six DNA Damage Responsive (DDR) genes have been so far identified (McClanahan et al, 1984; Ruby and Szostak, 1985). The induction of such genes is dependent on the presence of a set of cis-regulatory elements in their promoter region, as it has been shown by detailed studies of RAD2 and RNR2 gene promoters (Friedberg, 1991). The promoter region of the RAD2 gene contains two Upstream Activation Sequence (UAS) elements, known as Damage Responsive Elements 1 (DRE1) and 2 (DRE2), essential for DNA-damage induced expression (Siede and Friedberg, 1992). The RNR2 promoter contains three UAS elements, one of which binds the Rap1p, and one Upstream Repressor Sequence (URS) element (Elledge and Davis, 1989). Besides the presence of those cis-regulatory elements in gene promoters, sensor proteins are essential to keep DNA integrity along the cell cycle. Kiser and Weinert (1996) demonstrated that three checkpoint genes have strong and distinct roles in transcriptional induction in four distinct pathways of regulation (each defined by induction of specific genes). Their study helped formulate a working model of checkpoint gene regulation in response to different types of DNA damage, which has been schematically described by Lowndes and Murguia (2000). In brief, upon the presence of pre-replicative bulk-lesions or double-strand breaks generated by exposure 40 Silva, W.L.S Análise computacional de um suposto sítio de ligação... to mutagenic agents, parallel upstream sensor mechanisms are activated and both transcription and cell cycle are arrested. As a consequence, specific DNA binding proteins are activated by effector proteins through different modification mechanisms, e.g., phosphorilation, and bind to their target genes in the UAS or URS elements. Therefore, cell cycle and some metabolic genes are repressed, while DNA repair, DNA metabolism and other metabolic genes are induced. Recently, microarray analyses have been employed to survey the whole genome in order to form a complete picture on the cellular responsiveness to DNA injuries (Jelinsky et al, 2000; Gasch et al, 2001). However, it seems that the search for such inducible genes is far from complete. The SNM1/PSO2 gene belongs to the excision repair pathway (RAD3 pathway) and its product is involved in the repair of interstrand DNA cross-links caused by bifunctional mutagenes (Henriques and Brendel, 1990). This gene was shown to be induced by cross-linking agents, as well as by ultraviolet light (Wolters et al, 1996). Serial deletions in the SNM1 gene promoter region showed that a 15-bp sequence homologous to the RAD2, DRE2, was essential for the SNM1 inducibility (Wolters et al, 1996). Sequences similar to DRE2 have been found in other genes involved in DNA repair and nucleotide synthesis (Siede and Friedberg, 1992). Since the SNM1 gene expression seems to be tightly controlled in yeast cells by the presence of DNA lesions, it may offer a good platform to study the DNA repair regulatory circuitry that can be predicted by functional genomics and computational tools. Similarly to SNM1 (Wolters et al, 1996), deletion of the DRE-like present at the MAG1 gene promoter decreased five times the level of mutagen induction gene expression (Xiao et al, 1993). This result supports the cis-regulatory function of the 15-bp sequence found in some DNA repair genes. Computational analysis of the promoter region of the yeast genes was performed aiming to identify base sequence patterns that could be targeted by activator or repressor proteins in response to DNA damage. We used DRE1 and DRE2 motifs found in some well-known DNA repair genes, such as RAD2 and SNM1, to identify a DRE-like motif in a variety of related and 41 Silva, W.L.S Análise computacional de um suposto sítio de ligação... unrelated DNA repair genes. It was shown that the DRE-like motifs can be found in almost one third of the yeast promoters and it has homology to other protein binding motifs described in the literature. Those results suggest that the DRE-like motif found may be involved in a broader mechanism for basic transcription in yeast. Materials and Methods A. Matrix sequence preparation The DRE-like sequences in the promoter region of genes SNM1, RAD2, PHR1, RAD18, RNR3, RAD23 and RAD7 have been described (Wolters et al, 1996) as essential for the expression of those genes. Those sequences were pairwise aligned by using the MegAlign tool in DNAStar software package (DNAStar Inc., USA) to identify a consensus sequence. In parallel, a set of sequences containing the –1000 bp upstream region of other yeast genes described as related to repair in the Saccharomyces Genome Database (SGD) (www.yeastgenome.org) was selected. That set and the consensus sequence were used as input to Clustal-W (http://clustalw.genome.ad.jp/), yielding several 15 bp sequences similar to consensus, the ten highest scored of which were chosen to produce a new set with the seven original sequences. This new set was then used to generate a weight matrix by using GEMS (Genome Exploring and Modelling Software) Launcher (www.genomatix.de/). The matrix generated was first checked against the whole yeast genome and produced a random expectation of 0.12 matches per 1000 nucleotides. Further, the matrix was used to scan the –500 bp upstream region of the yeast genes, with core similarity of 0.9, and optimised matrix similarity in MatInspector Professional, that uses TRANSFAC – The Transcription Factor Database (Quandt et al, 1995; Wingender et al, 2000). The sequences resulting from the search were re-analyzed by increasing the core similarity to 0.95 and 1.00, to estimate the degree of conservation. 42 Silva, W.L.S Análise computacional de um suposto sítio de ligação... B. Gene annotation and DNA binding motifs analysis The genes matching the matrix sequence were first grouped according to their metabolic families by using MIPS (http://www.mips.biochem.mpg.de/) and YPD (http://www. proteome.com/database/YPD). The gene clusters and DNA binding motifs used were the ones available on-line in the web sites: http://arep.med.harvard.edu/network_discovery/ (Tavazoie et al, 1999) and http://cgsigma.cshl.org/jian/ (zhu and zhang, 1999). The microarray data from mutagen-treated cells used is the one available at http://www.hsph.harvard.edu/geneexpression/ (Jelinsky et al, 2000) and at http://www-genome.stanford.edu/Mec1/ (Gasch et al, 2001). Results A. Identification of DRE-matrix element in yeast DNA repair genes The DRE-matrix produced has International Union of Pure and Applied Chemistry (IUPAC) code sequence GKRRAKGNATTGAAA (see other details in Fig. 1). Upon scanning the –500 bp sequence of the yeast genome, many genes were found to contain at least one DRE-matrix sequence with complete conservation in the core sequence TGAAA at the 3’ end (Table 1). Other nucleotides also seem to be conserved, which include G at position 1, A at position 5, G at position 7 and the dinucleotide AT just before the core. All genes identified in Table 1 were induced by at least one mutagen agent according to microarray data produced by Jelinsky et al. (2000). However, the induction level and the nature of the mutagen were diverse. In the search for homologous sequences in the –500 bp promoter region of the genes in SGD, a total of 1645 matches were identified with at least 85% matrix similarity and with 100% similarity to the core TGAAA. The term “gene” is used henceforth in this paper to refer to 43 Silva, W.L.S Análise computacional de um suposto sítio de ligação... identified and putative genes, and in some cases even hypothetical ORFs described in the SGD web site. Interestingly, two matches were found in the promoter region of YER041w (YEN1 gene) and YEL018w, which have been described as putative DNA repair genes. Those ORFs were induced upon treatment with MMS and with 4-NQO (Table 1). Moreover, YER041w (YEN1 gene) presented two DRE-matrix elements in its promoter region (Table 1). The MatInspector result suggests that this element may be widespread in the promoter regions of the yeast genome, comprising a third of the total genes described in the SGD. When the matrix similarity threshold was increased to 95%, the number of matches substantially decreased to 15 (Table 2). Besides SNM1/PSO2, NIF3 was the only gene in this group involved in some type of DNA metabolism. Six of the 15 genes were not induced by any mutagen treatment, including the glutamate 5-kinase encoding PRO1 gene that contains a complete DRE-matrix consensus sequence (Table 2). This result indicates that, despite its function in SNM1 gene induction, this element may act as an accessory regulatory element for other genes. Additionally, the SNZ1 gene was the only match containing four DRE-matrix elements and it was one of the most mutagen-induced genes described by Jelinsky et al. (2000), with an induction factor of 81.8 after MMS treatment. This gene is induced in response to nitrogen limitation and growth arrest, and its protein product forms a complex with Sno1p with glutamine amidotransferase activity (Dong et al, 2004). Another 20 matches were found to contain three DRE-matrix elements presenting from 85% to 95% matrix similarity and none of them was directly involved in DNA repair (data not shown). Three ORFs containing three DRE-matrix elements in our analysis have not been induced by any mutagen tested: YLR060W (phenylalanyl-tRNA synthetase), YLR224W (hypothetical protein) and YLR059C (putative 3’5’exonuclease). Therefore, there was not an exact correlation between the presence or number of DRE-matrix elements and the gene inducibility by a mutagenic agent. 44 Silva, W.L.S Análise computacional de um suposto sítio de ligação... It was also possible to identify 19 transcription factor-encoding genes containing highly homologous DRE-matrix elements in their promoter regions, 15 of which were induced by some kind of DNA-damage treatment (Table 3). Also most of them encode subunits of the so-called basal transcription complex, which binds to the TATA box or stands the RNA polimerase complex at the initiation site during initiation of transcription. Additionally, DRE-matrix elements were identified at the promoter region of genes encoding specific transcription factors, such as Gal4p, Leu3p and Gcr3p (Table 3). Therefore, the presence of DRE-elements in the promoter region of regulatory genes may support the idea of the complex inter-connection of metabolic networks. B. Homology between the consensus sequence and known yeast DNA binding sites Searching for homologous sequences was performed in the Saccharomyces cerevisiae Promoter Database (SCPD) using the consensus sequence and admitting six possible mismatches, which correspond to the five ambiguous nucleotide positions in the matrix GNRRAKGNATTGAAA plus one mismatch at any of the other positions. A total of sixteen transcriptional factor binding sites were identified by this analysis (Table 4). The Heat Shock Element (HSE) controls the stress response of several yeast genes encoding heat shock proteins by binding the Heat Shock transcription Factor, HSF (Sakurai and Fukasawa, 2001). All HSP genes were induced by mutagenic agents (Jelinsky et al, 2000), with the exception of the HSEcontaining CUP1 gene that is repressed by mutagenic treatment (Jelinsky et al, 2000). A closer homology was also observed between the consensus sequence and the Stress Response Element (STRE) that is present at the promoter region of the DDR2 gene (Table 4). This gene is induced by a variety of mutagenic treatments as well as by heat shock, but the function of its protein product is still unknown (Treger et al, 1998). A computer generated pattern also identified a STRE motif for DDR48 gene (Treger et al, 1998). Therefore, we further performed sequence alignment of the DDR48 gene promoter and identified the presence of the 45 Silva, W.L.S Análise computacional de um suposto sítio de ligação... homologous element 5’-GGCCAGCACCGGAAA-3’ at the position –318 to -304 at the Crick strand. As the third member of this group, the polyubiquitin encoding gene UBI4 is induced in response to a variety of environmental stresses, such as mutagenic treatment and heat shock, due to the presence of both Heat Shock Element (HSE) and Stress Response Element (STRE) in its promoter region (Simon et al, 1998). Direct alignment analysis with the consensus sequence identified the sequence 5’-TAAAAAAGATTGAAC-3’ (conserved nucleotides underlined) at positions –301 to –315 in the promoter region of the STE12 gene, which encodes a transcription factor involved in pheromone and pseudohyphal growth signal transduction pathways. Discussion The homology-based searches in the promoter regions of the whole yeast genome using a consensus sequence built upon DRE-matrix sequences led to intriguing results. First it showed that not all DNA repair genes containing a DRE-matrix element was induced by a mutagen tested by Jelinsky et al (2000). Obviously, their induction by another mutagen not yet tested cannot be discarded. However, we are considering this absence of induction as a characteristic for our analysis. Microarray analysis has revealed intriguing facts in terms of gene regulation. From 12 genes with significant induction in microarray profile for all mutagen tested only RNR3 is involved in DNA metabolism (Jelinsky et al, 2000). Additionally, it has been demonstrated that the expression of FUR4 gene was increased by the presence of galactose in the medium, despite the fact that its promoter region does not contain any Gal4p consensus-binding site. On the other hand, it has been identified some yeast genes containing Gal4p binding site that were not induced by galactose (Ren et al, 2000). Therefore, we cannot discard the possibility that our DRE-matrix sequence is involved in some kind of gene expression regulation. This suggests that the simple presence of a DRE-matrix sequence alone may not be enough indicator for gene induction by DNA-damage agents, although its presence has been essential for SNM1/PSO2 (Wolters et al, 1996) and MAG1 (Xiao et al, 1993) gene induction. Ren et al (2000) and Iyer et 46 Silva, W.L.S Análise computacional de um suposto sítio de ligação... al (2001) have indicated the need for additional empirical data combined and perhaps improved search algorithms in order for investigators to accurately predict genuine binding sites. DNA binding activity associated with gene regulation is a complex mechanism that requires protein association with different binding partners that generate a new binding preference. Tavazoie et al (1999) has proposed transcriptional regulatory networks based on clustering yeast genes according to the presence of putative cis-regulatory elements in their promoter regions. In that work, the STRE is more frequent in genes belonging to cluster 8, which is rich in genes of the carbohydrate and TCA metabolism. Intriguingly, the only genes in our analysis belonging to Tavazoie’s cluster 8 are RAD14 and UBI4, and no other stress or DNA damage responsive genes. Genes involved in DNA synthesis and replication, cell cycle control and mitosis, recombination and DNA repair were allocated in cluster 2, while genes responsive to stress and involved in cell rescue, defense and cell death were allocated in cluster 5 (Tavazoie et al, 1999). Gene cluster 2 is characterized by the presence of sequence motifs called MCB and SCB, and in less extension M13 motif, that were all also recognized as homologous to DREmatrix motif (Table 4). The presence of MCB binding sites was reported to confer irradiationreplication specific regulation of many DNA repair genes (Mercier et al, 2001). Genes of cluster 5, to which MAG1 and RAD10 DNA repair genes belong, also contain mainly M13 motifs (Tavazoie et al, 1999). The nucleotide sequence recognised by the Adr1p transcriptional factor, which was homologous to the DRE-matrix motif (Table 4), are part of the M13 and M13s motifs that contains the pentanucleotide TGAAA. On the other hand, the binding site for Dal82p and Abf1p do not represent any motif proposed by Tavazoie’s work. From all the genes regulated by Adr1p, Dal7p or Abf1p, only ADH2 was induced by mutagenic treatment (Jelinsky et al, 2000). Similarly, Ettwiller et al (2003) combined information from metabolic networks with genome information to predict cis-regulatory elements in yeast promoters. Their analysis produced 42 motifs, and the Motif 19 showed similarity to our DRE-matrix motif. This Motif 19 was not 47 Silva, W.L.S Análise computacional de um suposto sítio de ligação... recognized as a well known motif that binds transcription factor in yeast, which argues for the possibility that it represents a new binding site for regulatory proteins. In an attempt to describe a new method for identification of regulatory sequences, Harrison and DeLisi (2001) identified the consensus sequence for binding the Ste12 transcription factor by their anchor motif generation method as being AWGAAA, which was close to those described in TRANSFAC (ATGAAC) and in the SCPD (ATGAAA). Indeed, this sequence was highly homologous to the core sequence of our DRE-matrix matrix (ATGAAA). (Errede and Ammerer, 1989). Therefore, it is also involved in cell cycle control similar to other genes and binding motifs described in Table 4. The sequence homology found between our DRE-matrix motif and the previously identified regulatory motifs, either experimentally or by in silico analysis, suggests that they belong to a family of regulatory elements. The differences in nucleotide positions within the elements of the family, generated by point mutations during the evolution of the yeast, might be responsible for the differences in binding to different transcription factors. The lack of complete correlation between the presence of DRE-matrix motif and the gene induction, together with the presence of conserved and non-conserved base pair substitution and the homology between DRE-matrix motif and known regulatory motifs, reveals that the regulatory circuit is even more complex and involves a fine balance among the presence of a certain regulatory element, the affinity of a certain or a group of regulatory proteins, and the physiological state of the cell. Small changes in binding sites, such as base pair substitutions, should affect the binding constant of regulatory proteins to the promoters of their target genes. This suggests that variations of the consensus sequence that are not easily recognized by search algorithms may also serve for binding, or that the factor of interest is modified or associated with binding partners that generate a new binding preference (Hughes et al, 2000). The In silico analysis of the promoter regions in the Saccharomyces cerevisiae genome showed that a consensus sequence based on DRE-matrix sequences can actually be found in one 48 Silva, W.L.S Análise computacional de um suposto sítio de ligação... third of the genes in SGD. Moreover, all twenty genes found to have three occurrences of that consensus sequence in their promoter regions did not have a reported direct involvement in DNA repair. Those results suggest that the consensus sequence found may be involved in a broader mechanism for basic transcription in yeast. The consensus sequence found also presents reasonable homology with several transcriptional factor binding sites, suggesting that small changes in binding sites should affect the binding constant of regulatory proteins to the promoters of their target genes, while eluding comparison-based search algorithms. A new approach should focus on the search for proteins that bind to the motifs analyzed here in order to identify a pattern of amino acids-nucleotide interactions and the differences in their affinity constants. It could reveal the possibility of cross-binding reaction between different transcription factors and DNA binding motifs according to the metabolic moment of the cell. Acknowledgements ! " #$ $ " %! & '() References Dong Y.X., Sueda S., Nikawa J., and Kondo H. (2004). Characterization of the products of the genes SNO1 and SNZ1 involved in pyridoxine synthesis in Saccharomyces cerevisiae. European Journal of Biochemistry 271, 745-52. Elledge S.J., and Davis R.W. (1989). Identification of the DNA damage responsive element of RNR2 and evidence that four distinct cellular factors bind it. Molecular and Cellular Biology 9, 5373-5386. 49 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Errede B., and Ammerer G. (1989). STE12, a protein involved in cell-type-specific transcription and signal transduction in yeast, is part of protein-DNA complexes. Genes and Development 3: 1349-1361. Ettwiller L.M., Rung J., and Birney E. (2003). Discovering novel cis-regulatory motifs using regulatory networks. Genome Research 13: 883-895. Friedberg E.C. (1991). Yeast genes involved in DNA repair process: new looks on old faces. Molecular Microbiology 5: 2303-2310. Gasch A.P., Huang M., Metzner S., Botstein D., Elledge S.J., and Brown P.O. (2001). Genomic expression responses to DNA-damage agents and the regulatory role of the yeast ATR homolog Mec1p. Molecular and Cellular Biology 12, 2987-3003. Harrison H., and DeLisi, C. (2001). Condition specific transcription factor binding site characterization in Saccharomyces cerevisiae. Bioinformatics 18: 1289-1296. Henriques J.A.P., and Brendel M. (1990). The role of PSO and SNM genes in DNA repair of the yeast Saccharomyces cerevisiae. Current Genetics 18, 387-393. Hughes J.D., Estep P.W., Tavazoie S., and Church G.M. (2000). Computational identification of cis-regulatory elements associated with groups of functionally related genes in Saccharomyces cerevisiae. Journal of Molecular Biology 296, 1205-1214. Iyer V.R., Horak C.E., Scafe C.S., Botstein D., Snyder M., and Brown P.O. (2001). Genomic binding sites of the yeast cell-cycle transcription factors SBF and MBF. Nature 409, 533538. Jelinsky S., Estep P., Church G., and Samson L. (2000). Regulatory networks Revealed by Transcriptional Profiling of Damaged Saccharomyces cerevisiae Cells: RPN4 Links Base Excision Repair with Proteasomes. Molecular and Cellular Biology 20, 8157-8167. Kiser G.L., and Weinert T.A. (1996). Distinct roles of yeast MEC and RAD checkpoint genes in transcriptional induction after DNA damage and implications for function. Molecular and Cellular Biology 7, 703-718. 50 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Lowndes N.F., and Murguia J.R. (2000). Sensing and responding to DNA damage. Current Opinion in Genetics & Development 10, 17-25. McClanahan T., and McEntee K. (1984). Specific transcripts are elevated in Saccharomyces cerevisiae in response to DNA damage. Molecular and Cellular Biology 4, 2356-2363. Mercier G., Denis Y., Marc P., Picard L., and Dutriex M. (2001). Transcriptional induction of repair genes during slowing of replication in irradiated Saccharomyces cerevisiae. Mutation Research 487, 157-172. Quandt K., Frech K., Karas H., Wingender E., and Werner T. (1995). MatInd and MatInspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data. Nucleic Acids Research. 23, 4878-4884. Ren B., Robert F., Wyrick J.J., Aparicio O., Jennings E.G., Simon I., Zeitlinger J., Schreiber J., Hannett N., Kanin E., Volkert T.L., Wilson C.J., Bell S.P., and Young R.A. (2000). Genomewide location and function of DNA binding proteins. Science 290, 2306-2309. Ruby S.W., and Szostak J.W. (1985). Specific Saccharomyces cerevisiae genes are expressed in response to DNA-damaging agents. Molecular and Cellular Biology 5, 75-84. Sakurai H, and Fukasawa T. (2001). A novel domain of the yeast heat shock factor that regulates its activation function. Biochemical and Biophysical Research Communication 285, 696-701. Siede W., and Friedberg E.C. (1992). Regulation of the yeast RAD2 gene: DNA damagedependent induction correlates with protein binding to regulatory sequences and their deletion influences survival. Molecular and General Genetics 232, 247-256. Simon J.R., Treger J.M., and McEntee K. (1998). Multiple independent regulatory pathways control UBI4 expression after heat shock in Saccharomyces cerevisiae. Molecular Microbiology 31, 823-832. Tavazoie S., Hughes J.D., Campbell M.J., Cho R.J., and Church G.M. (1999). Systematic determination of genetic network architecture. Nature Genetics 22, 281-285. 51 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Treger J.M., Schmitt A.P., Simon J.R., and McEntee K. (1998). Transcriptional factor mutations reveal regulatory complexities of heat shock and newly identified stress genes in Saccharomyces cerevisiae. Journal of Biological Chemistry 273, 26875-26879. Wingender E., Chen X., Hehl R., Karas H., Liebich I., Matys V., Meinhardt T., Prüß M., Reuter I., and Schacherer F. (2000). TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Research 28, 316-319. Wolter R., Siede W., and Brendel M. (1996). Regulation of SNM1, an inducible Saccharomyces cerevisiae gene required for repair of DNA cross-links. Molecular and General Genetics 250, 162-168. Xiao W., Singh K.K., Chen B., and Samson L. (1993). A common element involved in transcriptional regulation of two DAN alkylation repair genes (MAG and MGT1) of Saccharomyces cerevisiae. Molecular and Cellular Biology 13, 7213-7221. Zhu J., and Zhang M.Q. (1999). SCPD: a promoter database of the yeast Saccharomyces cerevisiae. Bioinformatics 15: 607-611. 52 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Legend to Figure Figure 1. Matrix sequence output by MatDefine from GEMS Launcher suite v3.6 using DREmatrix elements identified from yeast DNA repair genes. Capital letters in DNA sequence represent nucleotide positions with high consensus index score (Ci-value > 60) as indicated by MatInspector. Ci-values are shown above the gray bars. 53 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 100 100 86 90 Consensus Index 80 100 100 86 72 70 58 60 55 55 50 40 30 20 29 29 25 29 32 16 10 0 g k r r a k g n a t Tg AAa Matrix sequence 54 Gene/SGD Access Biological Functiona Upstream DNA Matriz Positionb strandb similarityc Sequence (5’-3’) Induction factord Strand-break repair protein 213-227 (-) 0.852 GGCAAAGC CGTGAAA 2.5 (BCNU) PSO2/YMR137C ICL repair protein 384-398 (+) 0.957 GGAAACGG ACTGAAA 3.4 (8-MOP)e MGT1/YDL200C O6-Methyltransferase 182-196 (-) 0.862 TCAGATGT AATGAAA 3.3 (MMS) RAD16/YBR114W NER protein 482-496 (+) 0.906 GTGTACCA ACTGAAA 3.4 (t-BuOOH) RAD18/YCR066W Error-prone repair protein 22-36 (-) 0.924 GAAAAGAA AATGAAA 2.9 (MMS) RAD23/YEL037C NER protein 207-221 (+) 0.907 GTGGCGAA ATTGAAA 2.5 (BCNU) YEN1/YER041W Weak similarity to Rad2p 93-107 (-) 0.872 TCAGAGGT AATGAAA 432-446 (+) 0.905 GTCCATCC AATGAAA EAF5/YEL018W Weak similarity to Rad50p 39-53 (+) 0.850 GAGGATTG TTTGAAA a 3.3 (MMS) 2.5 (4NQO) GKRRAKGN ATTGAAA ICL: inter-strand cross link; NER: nucleotide excision repair. Upstream nucleotide position relative to +1 and Watson (+) or Crick (-) strands relative to SGD. c DRE-matrix sequence similarity relative to the matrix. d Microarray data published by Jelinsky et al (2000), considering the highest induction value with a specific mutagen in brackets. Abbreviations: MMS (methyl metanosulfonate), BCNU (1.3-bis-2-chloroethyl-1-nitrosourea), t-BuOOH (tert-buthyl hydroperoxide), 4-NQO (4-nitroquinoline 1-oxide) and 8-MOP (8-methoxypsoralen). e Data from Wolters et al. (1996) using SNM1-lacZ fusion. f Highly conserved nucleotide sequences are in bold. Ambiguous codes are according to IUPAC: N (any), R (A or G) and K (G or T). b Análise computacional de um suposto sítio de ligação... RAD50/YNL250W Matrixf Silva, W.L.S Table 1. Computational analysis of DNA repair genes from S. cerevisiae identified by MatInspector algorithm containing DRE-matrix elements in their promoter regions. 55 DNA Matrix position strand similarity ICL repair protein 384-398 (+) 0.957 GGAAACGG ACTGAAA 3.4 (8-MOP)e PAC11/YDR488C Required in the absence of Cin8p 479-493 (+) 0.952 GAAGAAGG ATTGAAA 5.5 (4-NQO) PIN4/YBL051C Similar Z66568Cp of S.pombe 109-123 (-) 0.958 GTAGAGTT ATTGAAA not induced 396-410 (+) 0.967 GGAAAAGC ATTGAAA 4.9 (t-BuOOH) Biological Function PSO2/YMR137C PRE3/YJL001W Endopeptidase multicatalytic complex subunit Sequence (5’- 3’) Induction factor RTS1/YOR014W Phosphatase A regulatory subunit 318-332 (-) 0.962 GGGAAGGA AATGAAA 2.5 (t-BuOOH) YLR282C questionable ORF 446-460 (-) 0.962 GGCAATGG ATTGAAA not induced OST1/YJL002C Oligosacaryltransferase alfa subunit 80-94 (-) 0.967 GGAAAAGC ATTGAAA not induced NIF3/YGL221C Ngg1p-interacting factor 3 399-413 (-) 0.968 GTGAAAGA ATTGAAA 2.0 (4-NQO) PUF6/YDR496C Similar to hypothetical human protein 141-155 (+) 0.962 GTTCATGA ATTGAAA not induced PEX22/YAL055W Hypothetical protein 235-249 (-) 0.970 GTGAAAGC ATTGAAA 2.9 (t-BuOOH) MUB1/YMR100W Hypothetical protein 393-407 (-) 0.976 GGAAATGA ATTGAAA 5.5 (4-NQO) 59-73 (+) 0.974 GAAAAGGC ATTGAAA 3.5 (MMS) 92-106 (-) 0.974 GTAAAAGA ATTGAAA not induced CLP1/YOR250C DRS2/YAL026C Similar to SPAC22H10.05c protein of S.pombe Type-P amino-phospholipid-ATPase transmembrane CFT1/YDR301W Pre-mRNA 3’-terminal processing factor 126-140 (-) 0.995 GTAAAGGA ATTGAAA 4.9 (4-NQO) PRO1/YDR300C Glutamate 5-kinase 301-315 (+) 0.995 GTAAAGGA ATTGAAA not induced Análise computacional de um suposto sítio de ligação... Upstream Gene/SGD access Silva, W.L.S Table 2. List of the yeast genes showing 95% or more sequence homology to DRE-matrix and its characteristics. 56 sequence. Gene/SGD access TFIIS elongation factor GAL4/YPL248C Galactose induction factor GCR3/YMR125W Glycolytic genes induction factor LEU3/YLR451W Branched-chain amino acids genes induction factor Upstream DNA Matrix positiona strandb similarityd 75-89 (-) 0.86 ATCAATAC ATTGAAA 358-372 (-) 0.87 GGGTAAGA GTTGAAA 415-429 (+) 0.92 GACTACGT ATTGAAA 209-223 (-) 0.87 GCGGACGT TTTGAAA 279-293 (-) 0.88 GTAAATAC TTTGAAA 457-471 (-) 089 GTAATTTG AATGAAA 2.7 (4-NQO) 342-356 (+) 0.89 GAGCAAAA AATGAAA 4.0 (MMS) Sequence (5’-3’) Induction factorc 3.4 (MMS) not induced MBP1/YDL056W MBF complex subunit 330-344 (+) 0.86 GATGAAAA AATGAAA 2.0 (MMS) MGA1/YGR249W Similar to heat shock factor 153-167 (-) 089 GGTCAACA ACTGAAA not induced REB1/YBR049C Transcription factor 150-164 (-) 0.89 TTCAATGT ATTGAAA 151-165 (+) 0.86 TTCAATAC ATTGAAA RFA2/YNL312W 36kDa DNA replication factor 180-194 (-) 0.85 GTAGAATC TCTGAAA 5.1 (MMS) 373-387 (+) 0.86 GCGAATGT CATGAAA 3.5 (MMS) RRN10/YBL025W RNA polimerase I-specific initiation transcription factor 2.6 (MNNG) Análise computacional de um suposto sítio de ligação... DST1/YGL043W Biological function Silva, W.L.S Table 3. Yeast transcription factor-encoding genes identified by MatInspector for the presence of a DRE-matrix motif in their –500 bp promoter 57 RRN6/YBL014C 63-77 (+) 0.89 GAGAAATT ACTGAAA transcription factor 210-224 (-) 0.89 GTGAGAAG ATTGAAA 346-360 (+) 0.87 TTAAAAAA ATTGAAA 2.6 (BCNU) RNA polimerase I-specific initiation transcription factor 2.3 (4-NQO) SKN7/YHR206W Similar to heat shock factor 207-221 (+) 0.89 GTGACAAG ATTGAAA not induced TAF40/YML015C TBP-associated 40 kDa TFIID subunit 407-421 (+) 0.88 TGAAAGAA ATTGAAA 4.0 (MMS) TAF61/YDR145W TBP-associated 61 kDa TFIID subunit 34-48 (+) 0.87 AATAAGGT ATTGAAA 5.2 (4-NQO) TAF67/YMR227C TBP-associated 67 kDa TFIID subunit 114-128 (-) 0.86 CCAGAAGA ATTGAAA 8.8 (MMS) TAF90/YBR198C TBP-associated 90 kDa TFIID subunit 241-255 (-) 0.86 CTGCATGT AGTGAAA 3.2 (MMS) TFB1/YDR311W TFIIH subunit 256-270 (+) 0.86 GGGAAAGA TATGAAA 2.6 (4-NQO) TFC1/YBR123C TFIIIC subunit 401-415 (+) 0.88 AGACAGGA ACTGAAA 3.2 (MMS) TFC2/YPR186C TFIIIA subunit 383-397 (-) 0.86 GATATTTA ATTGAAA not induced Análise computacional de um suposto sítio de ligação... RRN7/YJL025W RNA polimerase I-specific initiation Silva, W.L.S Table 3. (Continue) 58 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Table 4. Homology between known regulatory motifs in the yeast genome and the DRE-matrix motif. Transcription Binding motif Sequence (5’-3’) -- DRE GKRRAKGN ATTGAAA Hsfp HSE GGAACGTT CTGGAAA Stress response Msn2/4p STRE ATAAGGGG TGAGAAA Cell death and aging Ime1p IRE GGGAAAGG ATCAAAG Pre-meiotic DNA synthesis factor Cell metabolism CA TGTGAAA Ino2p/Ino4p -- Dal82p -- GAAAAGCA AACGCAA Purine biosynthesis Abf1p -- GTAAGGCG CTATCAA DNA replication Adr1p -- GTGACAGA ATTGGAG Cell aging and fermentation Mot3p -- GTAATAGG GATCAAT Mating and transposition Rap1p -- CCATACTT TTTGAAA Chromatin maintenance Cbf1p -- AATGATTC ATTGAAA Chromosome segregation -- MCB GGGTAACG CCTGAAA Cell cycle control -- ECB GGAAACGT AATGAAA Cell cycle control -- SCB ---TGTAA ATTGAAA Cell cycle control -- M13 ACCGAACA AATGAAA n.d. -- M27 GAAAGAAA TTTGAAA n.d. -- M3a TAAAGAAA ATTGAAA n.d. AA TGTGAAA Phospholipid biosynthesis n.d.: not defined within a recognizable pathway. 59 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 5 Abstract In this work, we computationally identified a nucleotide sequence pattern in several DNA repair genes that may define a binding site for regulatory proteins during the induction of those genes by the presence of mutagens. The DRE-like weight matrix generated in this analysis was used to search for homologous sequences in the promoter region of all genes (also including putative gene and hypothetical ORFs) in the Saccharomyces Genome Data Base (SGD). The results demonstrated that over one third of the yeast genes presented at least one 15-bp sequence in their promoter region with 85% of similarity or more to DRE-like consensus sequence. The presence of that sequence in the promoter region of regulatory genes and its high similarity to other DNA binding sites experimentally described pointed out for its involvement in general regulation of yeast genes. 60 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 6 Conclusões A partir dos resultados obtidos neste trabalho, pode-se concluir que: i) Uma alta homologia foi verificada entre os elementos DRE presentes na região promotora dos genes SNM1/PSO2 e RAD2 e seqüências de 15 pb presentes na região promotora de outros genes de reparação de S. cerevisiae; ii) Verificou-se a presença deste elemento na região promotora de cerca de um terço dos genes (incluindo prováveis genes e genes hipotéticos) depositados no banco de dados do genoma de S. cerevisiae, o que a torna de presença ubíqua no genoma da levedura; iii) A simples presença deste elemento não foi suficiente para assegurar a indução destes genes a partir de tratamentos com agentes mutagênicos, pelo menos daqueles citados nos bancos de dados de microarrays; iv) Esta seqüência semelhante ao elemento DRE apresentou alta homologia com elementos regulatórios de S. cerevisiae descritos na literatura, identificados tanto a partir de dados experimentais como por análises in silico; v) Os dados computacionais sugerem fortemente que esta seqüência deve estar relacionada com mecanismos regulatórios gerais da expressão gênica em S. cerevisiae, também atuando na indução de alguns genes a partir de lesões no DNA da levedura; vi) Novas investigações deverão focalizar a identificação de padrões de interação aminoácidosnucleotídeos, de acordo com diferentes constantes de afinidade calculadas, e a possibilidade de ligação cruzada entre diferentes fatores de transcrição e motivos de ligação de DNA para que se possa compreender esta alta homologia entre os diferentes elementos regulatórios presentes no genoma da levedura. 61 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 7 Anexos 62 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 7.1 Anexo 1 Instruções aos Autores da revista GENETICS AND MOLECULAR BIOLOGY Sociedade Brasileira de Genética (SBG) ISSN 1415-4757 printed version http://www.scielo.br/revistas/gmb/iinstruc.htm 63 Silva, W.L.S Análise computacional de um suposto sítio de ligação... GENETICS AND MOLECULAR BIOLOGY INSTRUCTIONS TO AUTHORS Scope and policy Genetics and Molecular Biology (formerly named Revista Brasileira de Genética/Brazilian Journal of Genetics - ISSN 0100-8455) is published quarterly by the Sociedade Brasileira de Genética (Brazilian Society of Genetics). The Journal considers contributions that present the results of original research in genetics, evolution and related scientific disciplines. Although Genetics and Molecular Biology is an official publication of the Brazilian Society of Genetics, contributors are not required to be members of the Society. It is a fundamental condition that submitted manuscripts have not been and will not be published elsewhere. With the acceptance of a manuscript for publication, the publishers acquire full and exclusive copyright for all languages and countries. The use of registered names and trademarks does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use. Submission of papers 1. Manuscripts should be submitted to: Fábio de Melo Sene, Editor-in-Chief Genetics and Molecular Biology Rua Capitão Adelmio Norberto da Silva, 736 14025-670 Ribeirão Preto, SP - Brasil 2. A submission package sent to the Editorial Office must contain: 1. A cover letter signed by all authors stating that they have approved the submission of the manuscript and that the findings have not been published or are not under consideration for publication elsewhere; 2. Three copies of the manuscript and figures. 64 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 3. Two copies of any unpublished or in-press companion articles referred to in the submission. 4. A copy of the text, tables and figures on a disk. Be sure that the disk is adequately protected; if a disk arrives damaged, a new disk will be requested, causing delays in publication. Formats for text are Word or RTF, in Windows platform. Images in TIF or JPG formats should be sent in separate files (For Figures, see detailed instructions in 3.1.g). Disk must be labeled with the first author’s last name, platform and software. (See detailed instructions below). Failure to adhere to these guidelines can delay the handling of your contribution, and manuscripts may be returned before being reviewed. 3. Categories of Contribution: 3.1.Research Articles Manuscripts must be written in English in double-spaced, 12-point type throughout, including the References Cited section, appendices, tables and legends; printed on one side only of A4 paper with 2.5 cm margins; marked with consecutive page numbers, beginning with the cover page. The following elements must start on a new page and be ordered as they are listed below: a) The title page must contain: a concise and informative title; the authors’ names (first name at full length); the authors’ institutional affiliation, including department, institution, and city, state or province, and country; different affiliations indicated with superscript numbers; a short running title of about 35 characters, including spaces; up to five key words; the corresponding author’s name, postal address, phone and fax numbers and email address. The corresponding author is the person responsible for checking the page proofs, and arranging for the payment of color illustrations and author alterations charges. b) The Abstract must be a single paragraph that does not exceed 200 words and summarizes the main results and conclusions of the study. It should not contain references. c) The text: must be as succinct as possible. Text citations: articles should be referred to by authors’ surnames and date of publication; citations with two authors must include both names; in citations with three or more authors, name the first author and use “et al”. Only articles that are published or in press should be cited. In the case of personal communications or unpublished results, all contributors must be listed by initials and last name (“et al” should not be used). Numbers: In the text, numbers nine or less must be written out except as part of a date, a fraction or decimal, a percentage, or a unit of measurement. Use Arabic numerals for numbers larger than nine. Avoid starting a sentence with a number. Binomial Names: Latin names of genera, species 65 Silva, W.L.S Análise computacional de um suposto sítio de ligação... and intraspecific taxa in the text must be printed in italics; names of orders and families should be in the Title. The text includes the following elements: Introduction – Description of the background that led to the study. Material (or Subjects) and Methods – Details relevant to the conduct of the study. Statistical methods should be explained at the end of this section. Results – Undue repetition in text and tables should be avoided. Comment on significance of results is appropriate but broader discussion should be part of the Discussion section. Discussion – The findings of the study should be placed in context of relevant published data. Ideas presented in other publications should not be discussed solely to make an exhaustive presentation. Some manuscripts may require different formats appropriate to their content. d) The Acknowledgments must be a single paragraph that immediately follows the discussion and includes references to grant support. e) The References Section: citations must be ordered alphabetically by the first author; only articles that are published or in press should be included; personal communications must be cited within the text; journal titles must be abbreviated according to Medline (http://www.ncbi.nlm.nih.gov/entrez/jrbrowser.cgi). Sample journal article citation: Breuer ME and Pavan C (1955) Behaviour of polytene chromosomes of Rhynchosciara angelae at different stages of larval development. Chromosoma 7:371-386. Bertollo LAC, Takahashi CS and Moreira-Filho O (1978) Cytotaxonomic consideration on Hoplias lacerdae (Pisces, Erythrinidae). Rev Bras Genet 1:103-120. Sample book citation Salzano FM and Freire-Maia N (1967) Populações Brasileiras. Companhia Editora Nacional and EDUSP, São Paulo, 178 pp. Dobzhansky T (1951) Genetics and Origin of Species. 3rd edition. Columbia University Press, New York, 364 pp. Sample chapter-in-book citation: Carvalho A, Monaco LC and Krug CA (1966) Melhoramento genético das plantas e sua repercussão econômica. In: Pavan C and da Cunha AB (eds) Elementos de Genética. 2nd ed. EDUSP and Companhia Editora Nacional, São Paulo, pp 587-653. 66 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Sample abstracts in meeting citation: Basile R (1973) Cromossomos Politênicos em células nutritivas de ovócitos de ovário atrofiado de Rhyncosciara. Ciênc e Cult 25 (suppl): 248. XXV Reunião Anual da SBPC, Rio de Janeiro, Brazil. Sample Thesis/Dissertation citation: Frota-Pessoa O (1953) Revision of the Tripunctata group of Drosophila with description of fifteen new species. PhD Thesis, Universidade do Brasil, Rio de Janeiro. f) Tables each table must start on a new page. A concise title should be provided above the table. Tables must be numbered consecutively in Arabic numerals. Each column must have a title in the box head. Footnotes, typed directly below the table, should be indicated in lowercase superscript numbers. g) Figures must be numbered consecutively in Arabic numerals. Legends should be typed on a separate sheet. Three sets of illustrations of the highest quality must be provided, one original and two copies in glossy paper. If you have created figures electronically, submit them also as hard copies. Scanned figures should not be submitted. Images should be in TIF or JPG format and provided in separate files. Figures in Word format cannot be published. Journal quality reproduction will require grayscale and color at resolution yielding 300 ppi. Authors should submit bitmapped line art at resolution yielding 600–1200 ppi. These resolutions refer to the output size of the file; if it is anticipated that images will be enlarged or reduced, the resolutions should be adjusted accordingly. Identify each illustration by affixing on the back a label containing: the number of the figure, the name of the first author, and an arrow indicating top of illustration. Illustrations supplied on disks must follow instructions in item 2 (Submission package). Color illustration can be accepted, but authors are asked to defray the cost. For costs of color figures, check with the Editorial Office. h) Nomenclature: current standard international nomenclature should be adhered to. i) Sequences may appear in text or in figure. DNA must be sequenced on both strands. DNA, RNA, or protein sequences equal to or greater than 50 units must be entered into appropriate data bank and the accession number must be provided before publication of the article. Long sequences requiring more than two pages to reproduce will not be published unless the Editorial decision is that the publication is necessary. Complete mtDNA sequence will not be published. j) Data access: reference should be made to availability of detailed data and materials used for reported studies. 67 Silva, W.L.S Análise computacional de um suposto sítio de ligação... k) Ethical issues: Reports of experiments on live vertebrates must include a brief statement that the work was approved by the institutional review board. For experiments involving human subjects, authors must also include a statement that informed consent was obtained from all subjects. If photos or any other identifiable data are included, a copy of the signed consent must accompany the manuscript. 3.2 Short Communications present brief observations that do not warrant full-length articles. They should not be considered preliminary communications. Their format is that of full-length article. The text must be kept to a minimum. 3.3 Letters to the Editor relate or respond to recent published items in the journal. Discussions of political, social and ethical issues of interest to geneticists are also welcome in this form. 3.4 Review Articles are welcome. 3.5 Book Reviews: publishers are invited to submit books on Genetics, Evolution and related disciplines, for review in the journal. 3.6 History, Story and Memories: accounts on historical aspects of Genetics relating to Brazil. 4. Proofs: Page proofs will be sent to the corresponding author. Changes made to page proofs, apart from printer’s errors, will be charged to the authors. Notes added in proof require Editorial approval. [Home] [About the journal] [Editorial board] [Subscription] © 2002 Sociedade Brasileira de Genética Rua Capitão Adelmio Norberto da Silva, 736 14025-670 Ribeirão Preto SP Brazil Tel./Fax: +55 16 621-8540 [email protected] 68 Silva, W.L.S Análise computacional de um suposto sítio de ligação... 7.2 Anexo 2 Instruções aos Autores da revista DNA Sequence (The Journal of DNA Mapping, Sequencing, and Analysis) Editor-in-Chief: Stephan Beck, Wellcome Trust Sanger Institute, Hinxton, Cambridge, CB10 1SA, UK ISSN Print 1042-5179 http://www.tandf.co.uk/journals/titles/10425179.html 69 Silva, W.L.S Análise computacional de um suposto sítio de ligação... DNA Sequence Aims and Scope: DNA Sequence will accept original high quality reports based on mapping, sequencing and analysis of DNA and RNA, irrespective of supporting biological or functional data. Acceptable reports may describe coding or non-coding features of a single locus or whole genomes. Features of interest include e.g. genes (incl. RNA genes), variation, promoters, epigenetic modifications and any features affecting DNA/RNA function, structure and evolution. Experimental and computational method reports on the above topics are equally acceptable. Instructions for Authors: TYPES OF CONTRIBUTIONS Full-length research papers - As a guide full length research papers should normally occupy six to ten printed pages (approximately 4000-7000 words) but may be longer depending on the length of the sequence figures. Short communications - between one and four pages (not more than 2500 words) including up to 4 figures and tables and twenty references. They are expected to be reports of complete, not preliminary studies. Scientific correspondence - designed to provide a mechanism for the exchange of practical information, advice and opinions. The opinions and advice expressed are not necessarily those of the editors or the Journal and are published at the discretion of the editors. Review articles - commissioned, or submitted on topics of current interest. Suggestions are welcomed but where submission is without prior invitation, authors should send a summary of the article for consideration by the Editor-in-Chief before commencing detailed work on the manuscript. The format of the review is left to the author's discretion but should include a suitable list of key words or phrases and should not exceed 10 printed pages. SUBMISSION OF MANUSCRIPTS All manuscripts should be submitted to the Editor-in-Chief, Dr Stephan Beck, DNA Sequence Editorial Office, Wellcome Trust Sanger Institute, Hinxton, Cambridge, CB10 1SA, UK (Email: [email protected]; Fax +44 01223 494919) All manuscripts should preferably be sent in pdf format, converted from Word doc. 70 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Authors are encouraged to submit their papers on disk. Disks must be accompanied by four hard copies (the original plus three copies). The publisher cannot return disks after use. Manuscripts should be of letter quality, in double spacing throughout, using only one side of the paper. Submission of a paper to DNA Sequence will be taken to imply that it represents original work not previously published, that it is not being considered elsewhere for publication, and that if accepted for publication it will not be published elsewhere in the same form, in any language, without the consent of the editor and Publisher. If previously published tables, illustrations or more than 200 words of text are to be included, then the copyright holder's permission should be obtained. Copies of any such permission letters must accompany the manuscript. FORMAT AND PRESENTATION Papers should be written concisely in English. They should be typed double-spaced, with wide margins on one side of A-paper. Non-standard abbreviations should be defined in the text when first used. SI units and abbreviations are preferred as recommended by the IUPAC-IUB Commission on Biochemical Nomenclature (Biochemical Nomenclature and Related Documents, Biochemical Society, UK). Enzyme nomenclature should follow that given in Enzyme Nomenclature (1980), Academic Press: New York, Genetic loci and the first three letters of restrictions enzymes should be underlined to indicate italics. Short communications should include an abstract but contain no headings. Experimental detail should be given in figure legends. If new experimental procedures are reported they can be presented in the form of a figure or table. Research papers should be presented in the following order. (a) Title Page - This initial page should contain the full paper title plus a shortened version for running heads. Authors' names and affiliations should appear exactly as required in the final paper and the author for correspondence should be indicated with a full postal address, telephone and fax numbers, and email address where possible. (b) Abstract - Each paper requires an abstract of 100-150 words summarizing the significant coverage and findings. There should also be up to six indexing key words. (c) Introduction, Materials and methods, Results, Discussion, Acknowledgements - Main text should be typed without design (no bold or italic) flush left and unjustified. Italics within the text may be indicated by underlining. First, second and third level headings can be differentiated by marking them with A, B or C respectively in the margin by the heading. Headings should be separated from the main body of the text by one line. Personal acknowledgements should precede those for institutions or agencies. (d) References - References and notes should be indicated in the text by the Harvard system. The full list should be collected and typed at the end 71 Silva, W.L.S Análise computacional de um suposto sítio de ligação... of the paper in alphabetical order. References should be complete in all details and follow the style below for a journal article (Kouzarides et al, 1987) or book chapter (Bankier et al., 1988). Note that the full titles of journals should be given. Bankier A.T., Weston K.M., and Barrell B.G. (1988). Random cloning and sequencing by the M13/dideoxynucleotide chain termination method. In Wu R. (ed). Methods in Enzymology (London: Academic Press), pp. 51-93. Kouzarides T., Bankier A.T., Satchwell S.C., Weston K. M. Tomlinson P. and Barrell B.G. (1987). Large-scale Rearrangement of Homologous Regions in the Genomes of HMCV and EBV. Virology 157, 397-413. Unpublished results (including articles submitted for publication) or personal communications should be cited as such within the text and substantiated by a letter of permission. Abstracts of papers presented at meetings may not be cited. It is assumed that, with the development of the World Wide Web (WWW), authors and/or the publisher will propose distribution of articles or parts of articles on the WWW. If the author knows the HTTP address of a referenced article on the WWW, this information should be added at the end of the reference. Please use the following style where http://www.blouk.com/article.html is the HTTP address. (e) Tables - These should be numbered consecutively with Arabic numerals and given a clear caption. The use of vertical lines should be avoided. Table footnotes should be typed below the table and designated by superior lower case letters. An indication should be placed in the margin of the manuscript at a point appropriate for insertion of the table. (f) Figures - All figures should be numbered with consecutive Arabic numbers, have descriptive legends printed separately from the figure. All figures should be referred to in the text (see paragraph on Text Call-outs) and an indication should be placed in the manuscript margin near the ideal site for the figure. Preparation: All original figures, including chemical formulae, should be of a high quality, suitable for direct reproduction. These should accompany the first copy of the manuscript, those in the second and third replicas of the manuscript may be photocopies. Line drawings should be in black on white paper, with all lettering and symbols included. Alternatively, good, sharp photoprints ('glossies') are acceptable. Photographs intended for halftone reproduction must be high-quality, glossy original prints of maximum contrast. Each figure should be clearly labelled with the figure number and author name. The top should be labelled in cases which may cause confusion. Redrawing or retouching of unusable figures will be charged to authors. 72 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Size: Figures should be planned so that they reduced to 8 cm column width. The preferred width of line drawings is 16.5 cm with capital lettering 4 mm high, for reduction by one-half. Photographs for halftone reproduction should be about twice the desired size. Colour: The journal has a limited number of free colour pages within its annual page allowance. Authors should consult the editorial office with respect to colour reproduction at submission stage. Any figure submitted as a colour original may appear in a colour within the journal's online edition. Colour reproduction in excess of the journals budget will only be considered on condition that authors contribute to the associated costs. Sequence Figures: Sequence figures may occupy one column width (80 mm) or double column width (165 mm). Nucleoticle sequences with a translation of amino acid sequences in the one letter code should be of 60 or 120 characters respectively. All sequences should be numbers beginning at one (1). Sequences should not contain negative numbers. Where the coding sequence is only one strand then only that strand need be shown. When coding is on both strands then both strands should be shown with the amino acid sequence displayed above or below the nucleoticle sequence as appropriate. Amino acid sequences should be displayed in the one letter code. Sequences should not be split up into groups eg, groups of ten, but should be evenly spaced. Long sequence figures may need to be in the form of an appendix at the end of the paper in order not to interrupt the text. Feature Table: Where a number of features in the sequence are discussed in the text then a simple feature table should be included which summarizes the relevant features and their position in the sequence. This table should be in the form: Feature From To Stand Comments Features should show for example the position of transcription signals, coding regions including the boundaries of introns and exons, variation, conflicts with previously published sequences and any other biologically significant feature of the sequence which is discussed in the text. To distinguish between strands, use C for complementary strand in the table Text call-outs to figures, tables and other elements are the basis for searching articles on electronic delivery. Therefore, proper designation of text call-outs to figures and other elements is essential to the success of electronic delivery. When referring to a figure, table or other element within an article, always call the element by its full name: "See Table 1", "Figure 1 illustrates", "Refer to Scheme 1". Do not use ambiguous call-outs (for example, "1 illustrates_") that do not clearly denote the element being referred to. 73 Silva, W.L.S Análise computacional de um suposto sítio de ligação... DATABASE SUBMISSION OF SEQUENCE It is a prerequisite that the sequence must be submitted to the EMBL, Genbank or DDBJ database and an accession number obtained before it can be published by the Journal. The databases require a sequence to be submitted in computer readable form. This can be done by electronic file transfer (email), floppy disk or by using a submission system through the World Wide Web at http://www.ebi.ac.uk/ Sequence Data Submission forms are obtained by: 1. Sending an email message containing the command 'GET DOC: DATASUB.TXT’ to [email protected] 2. Sending a mail or fax request to: EMBL Nucleoticle Sequence Submissions, European Bioinformatics Institute, Hinxton Hall, Hinxton, Cambridge CB10 1RQ, UK, Fax: (+44) 1223 494468. Tel: (+44) 1223 494437. The filled submission forms should be mailed to the above address, or (preferably) sent by email to [email protected]. The information will be shared among the following databases: EMBL Data Library (Heidelberg, Germany) DNA DataBank of Japan (DDBJ; Mishima, Japan) GenBank (Los Alamos, NM, USA and Mountain View, CA, USA) Institute for Protein Sequence Data Resource (NBRF-PIR; Washington, D.C. USA) International Protein Information Database in Japan (JIPID; Noda, Japan) National Biomedical Research Foundation Protein Identification Martinsried (MIPS; Martinsried, Germany) The EMBL Data Library has established a PCR primers database. This information is not mandatory but EMBL Data Library has requested that we recommend to authors that they supply this information. There are currently two ways for submitting information to the PCR primers database; the easier and much preferred way is through the WWW, by using a client that supports forms (e.g. Mosaic or Netscape). The submission system may be accessed from the PCR primers database home page at, http://www.ebi.ac.uk/dbases/primers/primers_home.html. Users who do not have access to the WWW but do have email may fill in an electronic submission form which can be sent by email or on a disk to the database. Users who know how to use the ftp protocol, can download the form by anonymous ftp to ftp.ebi.ac.uk. Users who are limited to using only email, can send an email that contains the command 'GET PRIMERS: SUBMISSION FORM' to the address [email protected]. The submission form will be sent as a response. 74 Silva, W.L.S Análise computacional de um suposto sítio de ligação... ACCURACY OF THE SEQUENCE All sequences must be determined on both strands (or equivalent) and a statement to this effect must be included in the paper. Large sequences which contain short regions of sequence only determined on one strand may be accepted at the editors' discretion if they feel that there is a legitimate reason and that they do not compromise the results reported in the paper. The sequences in question should be clearly marked on the figure and the exact regions stated in the legend. GENE NOMENCLATURE Where applicable, all gene names must be in accordance to the officially approved gene symbols as described at: * http://www.gene.ucl.ac.uk/nomenclature/ (human genes) * http://www.informatics.jax.org/mgihome/nomen/ (mouse genes) * http://rgnc.gen.gu.se/RGNChem.html (rat genes) * http://zfin.org/zf_info/nomen.html#1.2 (zebrafish genes) SUBMISSION OF ANIMATION Author-supplied animation related to articles accepted for publication will be included in the journal CD-ROM at no cost to authors. Animations are limited to a time duration of 30 seconds. Animation should be submitted to the journal editor with the final manuscript, after it has completed the refereeing process. Animation should be mentioned in the text. Indicate an approximate location for the animation call-out in the margin. Animations in the following forms (in order of preference) can be accepted from authors: -Video tape -AVI or Quick Time files -A sequence of still images The following formats can be accepted: -all uncompressed formats widely used on PC, Mac and UNIX -JPEG for coloured and compressed images -TIFF with a group IV compression for black and white compressed images -FLI and FLC format from AutoDesk. Authors who submit animations are requested to provide the following information: -Video tape - format used -AVI or QuickTime files - version used, and system used for disk file creation. -Sequence of still images - format used, version and system used for disk file creation. 75 Silva, W.L.S Análise computacional de um suposto sítio de ligação... Authors who are unable to supply video tape, AVI or QuickTime files may provide the publisher with a set of sequential still images. Note that an animated sequence will consist of 13 to 15 still images per second of animation; e.g., if an animated sequence is 10 seconds in duration, it is made up of 130 images. Authors who are unable to submit in any of the above mentioned formats are advised to contact the publisher to discuss other options with the Publisher prior to submission. PROOFS Authors will receive page proofs (including figures) by air mail for correction, which must be returned to the typesetter within 48 hours of receipt. Please ensure that full postal address, including fax/email, is given on the first page of the typescript, so that proofs are not delayed in the post. Authors' alterations in excess of 10% of the original composition cost will be charged to authors. Early Electronic Offprints: Corresponding authors can now receive their article by e-mail as a complete PDF. This allows the author to print up to 50 copies, free of charge, and disseminate them to colleagues. In many cases this facility will be available up to two weeks prior to publication. Or, alternatively, corresponding authors will receive the traditional 50 offprints. A copy of the journal will be sent by post to all corresponding authors after publication. Additional copies of the journal can be purchased at the author's preferential rate of £15.00/$25.00 per copy. REPRINTS Twenty-five free reprints will be provided to the first-named author of each paper. Additional reprints may be ordered by completing the appropriate form sent with proofs. PAGE CHARGES There are no page charges to individuals or institutions. See journal inside cover for information on the Publisher's negative page charge voucher and voluntary page charge programs. ABSTRACTING DNA Sequence is abstracted in: Current Contents®/Life Sciences; Science Citation Index®; SciSearch®; Research Alert®, Biochemistry and Biophysics Citation Index™; Current Awareness in Biological Science (CABS); Chemical Abstracts; Index Medicus/Medline/Genbank and Zoological Record, UK 76