Programa de Pós-Graduação em Genética Universidade Federal de Pernambuco Centro de Ciências Biológicas Departamento de Genética Análise dos padrões de utilização de códons sinônimos no genoma da bactéria Chromobacterium violaceum Catarina Paula da Silva Ramos Recife, Pernambuco Julho de 2006 Catarina Paula da Silva Ramos Análise dos padrões de utilização de códons sinônimos no genoma da bactéria Chromobacterium violaceum Dissertação apresentada ao Programa de Pós-Graduação em Genética da Universidade Federal de Pernambuco, como parte dos requisitos necessários para a obtenção do grau de Mestre em Genética. Orientador: Prof. Dr. Paulo Paes de Andrade, Departamento de Genética, Centro de Ciências Biológicas, Universidade Federal de Pernambuco. Co-Orientador: Queiroz Genética, Prof. Balbino, Centro de Dr. Valdir Departamento Ciências Julho, 2006 de Biológicas, Universidade Federal de Pernambuco. Recife, Pernambuco de Ramos, Catarina Paula da Silva Análise dos padrões de utilização de códons sinônimos no genoma da bactéria Chromobacterium violaceum / Catarina Paula da Silva Ramos. – Recife: A Autora, 2006. 70 folhas : il. Dissertação (mestrado) – Universidade Federal de Pernambuco. CCB. Ciências Biológicas. Genética. 1. Genética 2 Chromobacterium violaceum I. Título. 576.5 575 CDD (22.ed.) CDU (2.ed.) UFPE CCB - 2006 - 073 Universidade Federal de Pernambuco Programa de Pós-Graduação em Genética PARECER DA COMISSÃO EXAMINADORA DA DEFESA DE DISSERTAÇÃO DO MESTRADO Catarina Paula da Silva Ramos “Análise dos padrões de utilização de códons sinônimos no genoma da bactéria Chromobacterium violaceum” Área de Concentração: Genética e Evolução A comissão examinadora, composta pelos professores abaixo, sob a presidência do primeiro, considera a aluna Catarina Paula da Silva Ramos como aprovada. Recife, 24 de outubro de 2006. ________________________________________ Orientador: Prof. Dr. Paulo Paes de Andrade (UFPE) ________________________________________ Titular Externo: Profa. Dra. Marise Sobreira Bezerra da Silva (Fiocruz/CPqAM) ________________________________________ Titular Externo: Prof. Dr. Antônio Basílio de Miranda (Fiocruz) ________________________________________ Titular Interno: Profa. Dra. Ana Maria Benko Iseppon (UFPE) ________________________________________ Coordenador do Programa: Prof. Dr. Marcos Antônio de Morais (UFPE) Agradecimentos Agradeço primeiramente a Deus, o autor da minha vida, pai e amigo fiel que me deu toda a força e sabedoria necessária para a realização deste trabalho. Obrigada Senhor. À minha família por todo o apoio e amor. Em especial aos meus pais, por toda a educação, instrução e amor durante minha vida. Ao meu esposo Rodrigo, que sempre me apoiou em todos os momentos difíceis. Aos meus orientadores Dr. Paulo Andrade e Dr. Valdir Balbino, pelo estímulo, amizade, ensinamento, dedicação, sinceridade, paciência e incentivo; por me fazerem acreditar que sem o esforço da busca é impossível a alegria da vitória; Aos meus colegas de mestrado, pelo convívio alegre e descontraído, especialmente a Pollyanna, Juliana, Kyria, Ebenézer, Helen, Jemima, Dalmo, Adriana e Iliano. A todos do Laboratório de Biologia Molecular do Hemope pela amizade, incentivo e por tudo que passamos juntos, especialmente, a Júlia e a Camilla. A todos da Igreja Batista Corpo de Cristo pela amizade e orações. Às ex-coordenadoras, Dra. Ana Benko Iseppon e Dra. Aline Alexandrino, pelo esforço em melhorar o curso. Aos novos coordenadores, Dr. Marcos Morais e Dra. Tânia Rieger, por manterem a boa qualidade do curso. Aos professores do curso, por todas as oportunidades de desenvolvimento pessoal. Ao secretário do curso, Arismar Lobo, pela atenção em todos os momentos necessários. Aos integrantes do Laboratório de Bioinformática do Hemocentro da USP de Ribeirão Preto pelo incentivo e ajuda na busca de artigos e principalmente pela amizade. À CAPES, por me ceder uma bolsa de estudos durante a realização deste trabalho. A todos, Muito Obrigada ! Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Ao meu esposo Rodrigo, a maior motivação de minha vida! 6 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Sumário Página Lista de Tabelas Lista de Figuras Lista de Abreviaturas Resumo 11 1. Introdução 12 2. Objetivos 16 2.1. Geral 16 2.2. Específicos 16 3. Revisão de Literatura 17 3.1. Origem do Código Genético 17 3.2. Propriedades do Código Genético 21 3.3. Seleção Natural e a Utilização de Códons 24 3.4. Seleção de Códons Ótimos e a Eficiência Traducional 27 3.5. Códons Sinônimos 39 3.6. Métodos Usados na Análise de Códons Sinônimos 43 3.7. Proteobactérias:Morfologia,Fisiologia,Ecologia,Diversidade Filogenética 52 3.8. Chromobacterium violaceum 61 4. Referências Bibliográficas 70 5. Manuscrito de Artigo Científico Analysis Codon Usage of Chromobacterium violaceum 89 6. Abstract 119 7. Conclusões 120 8. Anexos 121 8.1. Instruções para Autores (Genetics and Molecular Biology) 122 8.2. Instruções para Autores (Genetics and Molecular Research) 126 9. Apêndice 9.A Classificação filogenética de proteínas codificadas em genomas completos (Clusters of Orthologous Groups - COGs). 130 7 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Lista de Tabelas Tabela Página Manuscrito Table 1: Comparison of codon usage on leading and lagging strands 99 in C. violaceum genome. 8 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Lista de Figuras Figura Página Revisão de Literatura Figura 1: Estrutura de um RNA transportador (RNAt) 17 Figura 2: Tabela do Código Genético Universal 22 Figura 3: Árvore filogenética simplificada de proteobactérias baseadas nas seqüências de DNAr 16S da maioria do 53 gênero das proteobactérias. Figura 4: Chromobacterium violaceum 62 Manuscrito Figure 1: (A) Distribution of C. violaceum genes in the plane defined 97 by the first two main axes of the CoA of RSCU values; (B) Correlation between first axis values and G+C content; (C) Correlation between second axis values and hydrophobicity (Gravy score). Figure 2: Gene frequencies on the 18 COG categories for the two C. 98 violaceum gene subsets generated by CoA second axis/ hydrophobicity values. Letters on the x-axis denote COG categories. Figure 3: Correlation between ENc and GC3s values for all C. 102 violaceum ORFs. A strong inverse correlation can be observed. Figure 4: Codon bias index in C. violaceum genome. There is a 103 trend toward CBI values higher than 0.2. Figure 5: Correlation between CAI and ENc on RSCU values for all C. 104 violaceum genes. Figure 6: Distribution of codons along the first two main CoA axes 105 for C. violaceum. 9 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Lista de Abreviaturas A Adenina AS Antisense (Fita) C Citosina CAI Codon Adaptation Index - Índice de Adaptação de Códons CBI Codon Bias Index - Índice de Desvio de Códons CoA Correspondence Analysis - Análise de Correspondência DNA Ácido Desoxirribonucléico ENc Effective Number of Codons - Número Efetivo de Códons Fop Frequency of Optimal Codons - Freqüência de Códons Ótimos G Guanina GC Guanina/Citosina (Conteúdo) GC3s Guanine Citosine Content of third position - Guanina/Citosina de terceira posição GRAVY Protein hidrophobicity - Hidrofobicidade da Proteína RNA Ácido Ribonucléico RNAm RNA mensageiro RNAr RNA ribossômico RNAt RNA transportador RSCU Relative Synonymous Codon Usage - Freqüência Relativa de Códons Sinônimos SS Sense (Fita) T Timina U Uracil (a) 10 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Resumo Desvios no uso de códons podem ocorrer devido a vários fatores. Entre procariotos, o uso de códons sinônimos é atribuído ao equilíbrio existente entre mutação e seleção natural. Um determinado subconjunto de códons pode freqüentemente ser observado nas regiões do genoma onde uma alta eficiência traducional é requerida. O uso de códons de uma β-proteobactéria, Chromobacterium violaceum, é descrito aqui pela primeira vez. O presente estudo teve como objetivo a identificação das principais causas da variação do uso de códons no genoma da C. violaceum ATCC 12472. Uma análise de correspondência (CoA) da utilização relativa de códons sinônimos (RSCU) foi empregada para investigar a variação do uso de códons sinônimos entre os genes. Os resultados mostraram que um dos maiores determinantes desta variação é o conteúdo GC que mostrou correlação direta com o primeiro eixo principal da CoA. Observou-se também uma forte correlação inversa entre o número efetivo de códons (ENc) e o conteúdo guanina/citosina de terceira posição (GC3s), mostrando que o uso de códons também sofre influência da composição em nucleotídeos. A hidrofobicidade de cada proteína foi a segunda maior fonte de variação e esteve significantemente correlacionada ao segundo eixo principal da CoA. Os eixos 1 e 2 separaram o genoma em dois grupos de genes. O grupo menor, formado majoritariamente por proteínas de transporte, refletiu uma provável utilização diferencial de códons sinônimos destes genes em relação aos demais. Isto pode ser devido à composição da parede celular da bactéria e do meio em que vive para uma melhor adaptação às variações do ambiente. Além disso, foi mostrada uma forte correlação negativa do índice de adaptação de códons (CAI) com o ENc, refletindo a “escolha” pelo uso de códons ótimos. Correlações semelhantes foram vistas para a freqüência de códons ótimos (Fop) e índice de enviezamento de códons (CBI). A composição dos aminoácidos não pareceu influenciar a utilização de códons sinônimos neste organismo. Ao contrário do observado em α-proteobactérias, a assimetria das fitas não pareceu influenciar a composição de aminoácidos ou o número de genes, por outro lado o uso do códon teve alguma influência. A distribuição semelhante dos genes nas fitas contínua e descontínua apontou para ausência de conflito entre transcrição e replicação, provavelmente devido a uma tradução otimizada e a uma replicação muito lenta. A generalidade destas observações entre β-proteobactérias dependerá de novos estudos com este grupo de microrganismos. Palavras-chave: Análise de correspondência, assimetria das fitas, hidrofobicidade, transporte de proteínas, adaptação ao ambiente, βproteobactéria. 11 Ramos, C.P.S. 1. Análise de códons sinônimos em Chromobacterium violaceum Introdução Em decorrência da redundância do código genético, a maioria dos 20 aminoácidos naturais é codificada por mais de um códon. Desde que as primeiras seqüências de nucleotídeos foram depositadas nos bancos de dados públicos, tem sido observado que nem todos os códons que codificam para um mesmo aminoácido são usados com a mesma freqüência. As freqüências de utilização de códons sinônimos variam tanto entres os genes de um mesmo genoma quanto entre genomas de organismos distintos. As diferenças nos padrões de utilização de códons podem resultar, por exemplo, de restrições locais na composição dos genomas conforme já foi observado em genomas ricos nos nucleotídeos guanina e citosina. A seleção traducional parece ser a principal responsável pela variação na utilização diferencial de códons entre os diferentes genes. O emprego de códons sinônimos também parece sofrer a influência direta de restrições seletivas e da existência de padrões mutacionais diferenciados. O estudo da utilização de códons possibilita a detecção de alterações nestas duas forças e das suas possíveis implicações evolutivas. A maior variação na utilização de códons em um genoma ocorre principalmente nos genes que são altamente expressos, em função da necessidade de utilização de trincas que maximizem a eficiência traducional. Em bactérias, por exemplo, o uso de códons parece estar intimamente relacionado com o seu nível de expressão. 12 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Outra fonte de variação importante consiste na transferência horizontal de genes, pois os genes transferidos tendem a exibir padrões de utilização de códons diferentes daquele observado no organismo hospedeiro. Diferenças nos padrões de utilização de códons em genes heterólogos e no organismo hospedeiro podem afetar diretamente os seus níveis de expressão. Existem vários índices voltados para a verificação de distorções na utilização de códons sinônimos. Como exemplos podemos citar: conteúdo guanina/citosina de terceira posição (GC3s); freqüência de códons ótimos (Fop); número de códons sinônimos (L_sym); número total de códons sinônimos e não sinônimos (L_aa); hidrofobicidade das proteínas (Gravy) calculado como a soma dos índices de hidrofobicidade de cada aminoácido; índice de desvio do uso de códons (CBI); número efetivo de códons (ENc), considerado o método que fornece a melhor estimativa da utilização diferencial de códons de um conjunto de genes; utilização relativa de códons sinônimos (RSCU) cujos valores fornecem uma primeira estimativa do nível de distorção na utilização de códons de um determinado aminoácido e o índice de adaptação de códons (CAI) que estima o grau de extensão da utilização diferencial de códons sinônimos em genes altamente expressos. Estes índices podem ser empregados, por exemplo, na análise de correspondência (CoA) que é um dos métodos que permite estudar a diferença entre os códons ou examinar tendências na composição dos aminoácidos. 13 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum O estudo dos fatores envolvidos na determinação da utilização diferencial de códons tem sido facilitado pela disponibilidade de um grande número de genomas completos cujas seqüências já se encontram depositadas em bancos de dados públicos. Em função do tamanho relativamente pequeno dos genomas bacterianos, os métodos de análise dos padrões de utilização de códons sinônimos puderam ter sua eficácia comprovada e passaram a ser utilizadas de forma rotineira nos estudos de expressão gênica e evolução destes organismos. O crescimento da genômica no Brasil resultou na produção de uma grande quantidade de informações derivadas dos vários programas de sequenciamento de nucleotídeos conduzidos nos últimos anos. Temse observado, no entanto, que o número de pesquisadores devidamente habilitados para a análise das informações advindas dos programas de sequenciamento ainda é bastante limitada e evidencia a necessidade de investimentos maciços na formação de recursos humanos, a exemplo do que ocorre nos países desenvolvidos. Neste trabalho, utilizamos a bactéria Chromobacterium violaceum como microorganismo modelo pelo fato de ter tido seu gemoma completamente seqüenciado no Brasil e também devido a pouca exploração do seu genoma no que diz repeito ao uso de códons. Além disso, observou-se que as análises sobre o uso de códons sinônimos em bactérias têm se restringido a classe das alfaproteobactérias, surgindo a necessidade de estudos com outras classes de proteobactérias para fins de comparação. Este estudo foi o 14 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum primeiro a demonstrar principais causas da variação na utilização de códons sinônimos em uma betaproteobactéria. Em bactéria, variabilidade entre sabe-se espécies que o é fator mais seu conteúdo o importante de genômico guanina/citosina (GC), em contraste com a baixa variabilidade de conteúdo GC intra-espécies. A ampla variação entre espécies e a estreita heterogeneidade do conteúdo GC dentro do genoma foi interpretada como resultado de taxas de mutação bidirecional entre pares AT e GC. Apesar da seleção para otimização da tradução ter sido evidenciada como o maior fator para a variabilidade intra-espécies de bactérias, apenas recentemente foi encontrada uma ligação entre conteúdo genômico GC de bactérias e um fator ambiental aumentando a interessante possibilidade de um impacto não zero de conteúdo GC genômico no funcionamento da bactéria. Um outro fator que tem mostrado influenciar a utilização de códons sinônimos em bactérias é a hidrofobicidade dos aminoácidos, que apesar de ser uma característica físico-química importante, é pouco explorada. Em bactérias, parece estar relacionada com algum mecanismo de adaptação ao meio ambiente, formando na maioria das vezes, um grupo de genes bem diferente do habitual. Com base nestas características, espera-se que a utilização diferencial de códons sinônimos seja diferente entre as classes de proteobactérias alfa e beta, uma vez que a C. violaceum possui características bastante particulares. 15 Ramos, C.P.S. 2. Análise de códons sinônimos em Chromobacterium violaceum Objetivos 2.1 Geral Identificar aspectos estruturais e funcionais envolvidos na determinação do uso de códons sinônimos no genoma da Chromobacterium violaceum. 2.2 Específicos Estruturar um banco de dados contendo informações básicas acerca das regiões codificantes encontradas no genoma da C. violaceum, com ênfase especial nos aspectos estruturais e funcionais dos genes nele encontrado; Correlacionar os índices de quantificação do emprego diferencial de códons com características estruturais e funcionais dos genes estudados, visando verificar a existência de um padrão que possa ser utilizado como referência para estudos em bactérias. Analisar o conteúdo GC genômico e a hidrofobicidade dos aminoácidos que compõem o genoma da C. violaceum e fazer uma comparação com outras bactérias a fim de verificar o impacto destas variáveis na utilização diferencial de códons sinônimos. 16 Ramos, C.P.S. 3. Análise de códons sinônimos em Chromobacterium violaceum Revisão de Literatura 3.1 Origem do Código Genético Estudos na década de 60 sugeriam que todas as formas existentes de vida deveriam utilizar o mesmo código genético (hipótese do acidente congelado). Esta hipótese foi proposta por Crick (1968) e foi finalmente aceita com a definição do RNA transportador (RNAt) como a molécula adaptadora. Segundo esta teoria, pequenas moléculas de RNAs citoplasmáticos de cerca de 73 a 93 bases contendo um grande número de bases modificadas, adquirem uma estrutura globular compacta decorrente de um dobramento específico em forma de flor de trevo (Figura 1). Esses RNAts são abundantes e ocorrem normalmente acilados, ou seja, carregados com um resíduo de aminoácido específico, existindo pelo menos um tipo de RNAt específico para cada um dos 20 aminoácidos naturais. Figura 1. Estrutura de um RNA transportador (RNAt). Disponível em: http://www.designeduniverse.com/articles/Nobel_Prize/trna.jpg 17 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum O modelo de Crick (1968) assume que as designações dos códons são acidentes históricos que se fixaram no último ancestral comum de todos os organismos, mas não explica ou prediz a ordem dos códons observada. Este modelo tem sido contestado por três hipóteses que se baseiam em argumentos adaptativos, químicos e históricos, conforme revisto por Knight et al. (1999). A hipótese adaptativa sugere que o padrão de atribuições dos códons é reflexo das adaptações que reduzem os erros causados pela mutação ou por erros de tradução (Woese, 1965; Freeland & Hurst, 1998; Knight et al., 1999; Ardell & Sella, 2002). O argumento químico sugere que as atribuições de certos códons são diretamente influenciadas pelas interações químicas entre aminoácidos e moléculas de RNA (Sonneborn, 1965; Woese et al., 1966; Woese, 1967; Knight et al., 1999; Freeland et al., 2000). A hipótese histórica, por sua vez, propõe que o código genético canônico se desenvolveu a partir de um ancestral primitivo durante a evolução. Este código primitivo compreenderia um pequeno número de aminoácidos codificados por 64 códons altamente degenerados. Esta hipótese assume que poucos (aproximadamente cinco) aminoácidos seriam precursores. Como os demais aminoácidos teriam surgido a partir destes, parte ou todos os domínios dos códons do aminoácido precursor teriam sido repassados para os aminoácidos produzidos (Wong, 1975; Knight et al., 1999). A teoria histórica propõe uma evolução gradual de um sistema em que um dado RNAt passou a 18 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum reconhecer uma base para RNAts com especificidades para a primeira e segunda bases. Esta evolução poderia ter permitido que mais aminoácidos fossem distinguidos e quando a especificidade do sistema melhorasse, RNAts poderiam expandi-la para as três bases do códon (Yockey, 2000). Estas suposições foram recusadas a partir da descoberta de desvios no código genético universal em procariotos, genomas nucleares de eucariotos e genomas mitocondriais. Segundo Knight et al. (1999) estes argumentos propõem que o código genético atual é de algum modo ótimo, e reflete a expansão de um código mais primitivo para incluir mais aminoácidos, ou é conseqüência de interações químicas diretas entre RNA e aminoácidos, respectivamente. Entretanto, tais modelos não são mutuamente exclusivos. Eles podem ser ajustados estereoquímicas pelo modelo formaram o evolucionário, código inicial, pelo e qual interações subsequentemente expandiram através de modificações biossintéticas dos aminoácidos codificados sendo otimizadas através da redefinição de códon ou codon reassignment, ou seja, a inserção de um aminoácido em resposta a um códon de terminação. Alternativamente, as três forças devem ter atuado para determinar os 20 aminoácidos naturais para as atuais posições no código genético. Outras duas teorias evolucionárias podem explicar como o significado de um códon pode ser mudado sem extinção das espécies: as teorias da captura (Osawa & Jukes, 1989) e da ambigüidade 19 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum intermediária (Schultz & Yarus, 1994). Experimentos recentes e análises in silico indicam que, em lugar de aberrações da natureza, mudanças no código genético também podem ter significado funcional. Um ponto importante na teoria da captura é a suposição da neutralidade da redefinição de códon, uma vez que a troca de aminoácidos é efetuada sem gerar proteínas anormais ou não funcionais que levem a ruptura do proteoma (Osawa & Jukes, 1989). Por outro lado, a teoria da ambigüidade intermediária propõe um mecanismo não neutro em que mutações no RNAt podem expandir a capacidade de decodificação daquela molécula levando a uma ambigüidade de decodificação de um único aminoácido pelos RNAts cognato e mutante (Schultz & Yarus, 1994). Quase todas as mudanças no código genético são explicadas por um efeito sinergista entre as forças evolucionárias postuladas pelas teorias da captura e ambigüidade intermediária. Entretanto, estes processos contam com as maquinarias de replicação e/ou reparo do DNA que mudam a seqüência codificada e o ribossomo. A diversidade do código genético e da sua conseqüente expansão para incorporar novos aminoácidos tem enfraquecido o conceito de que o código genético é universal e “congelado”. Sua flexibilidade tem sido encontrada especialmente entre microorganismos e no genoma mitocondrial de várias espécies. O estudo da variação do código genético fornece novos e importantes critérios acerca de como a fidelidade de decodificação do RNAm (controlada pela maquinaria 20 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum traducional) modela a composição de bases do genoma, utilização de códons e redefinição de códons, revelando novos mecanismos moleculares que relacionam o meio ambiente com a evolução dos genomas (Santos et al., 2004). 3.2 Propriedades do Código Genético O código genético representa uma coleção de seqüências de bases (códons) que correspondem a cada aminoácido e aos sinais de tradução. No início da década de 1960, Crick et al. (1961) publicaram a primeira forte evidência em apoio de um código triplo (três nucleotídeos por códon). De fato, todos os 64 códons possíveis correspondem a algum tipo de informação. Além disso, ao traduzir as moléculas de RNAm, os códons não se sobrepõem, mas são lidos seqüencialmente. A grande maioria dos aminoácidos corresponde a mais de um códon, com exceção da metionina (AUG) e do triptofano (UGG). Portanto o código é dito redundante ou degenerado. Além disso, vários códons diferem apenas na terceira base e correspondem a um único aminoácido. Três códons finalizadores indicam o término da síntese de polipeptídeos: UAA, UAG e UGA. De uma forma geral, observa-se a mesma relação códon-aminoácido para todos os organismos, o que mostra a universalidade do código genético. Porém foram observadas variações em mitocôndrias, no genoma nuclear de algumas leveduras, ciliados e outros. Estas exceções particulares parecem ser espécie- 21 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum específicas e têm, portanto, grande significado evolutivo. O aspecto mais marcante da redundância é que, com apenas algumas exceções, a identidade da terceira base do códon parece não ser importante. Isto é, XYA, XYB, XYC e XYD freqüentemente correspondem ao mesmo aminoácido. Figura 2. Tabela do Código Genético Universal. Disponível em: http://www.class.unl.edu/biochem/gp2/gx/image_bank/codon.gif. Em 1965, Crick propôs “a hipótese da oscilação”, que explica como algumas moléculas de RNAt respondem a vários códons, e fornece uma compreensão para o padrão de redundância do código. Até esta época era geralmente suposto que nenhum par de bases que não GC, AT ou AU fosse encontrado em um ácido nucléico. Isto é verdade quanto ao DNA, pois a estrutura helicoidal regular da dupla hélice impõe 22 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum duas restrições estéricas: duas purinas não podem parear uma com a outra, pois não há espaço suficiente para um par planar purina-purina e duas pirimidinas não podem parear porque não se alcançam (Crick, 1968). Crick propôs que, como o anticódon está situado dentro de uma alça de RNA unifilamentar, a interação códon-anticódon pode não ser restrita no mesmo grau que a dupla hélice de DNA. Construindo um modelo, ele mostrou que as restrições estéricas eram menos rígidas na terceira posição do códon, o que deveria permitir certa flexibilidade na estrutura, chamada de “oscilação”. A redundância do código genético não é aleatória, mas altamente ordenada a fim de minimizar a letalidade mutacional. Além disso, os aminoácidos com propriedades químicas semelhantes têm códons que diferem uns dos outros em apenas uma base, o que minimiza os efeitos das mutações. O código genético possui muitas regularidades (Taylor & Coates, 1989) das quais apenas um subconjunto tem explicações em termos de função do RNAt (Crick, 1966), contra força de efeitos deletérios de mutação (Sonneborn et al., 1965; Knight et al., 1999) ou erros na tradução (Woese, 1967; Knight et al., 1999). Sabe-se que há uma forte correlação entre as primeiras bases dos códons e as vias biossintéticas dos aminoácidos que eles codificam (Wong, 1975; Taylor & Coates, 1989). Códons começando com C, A e U codificam aminoácidos sintetizados a partir do alfa-cetoglutarato, oxaloacetato e piruvato, respectivamente. Essas correlações são 23 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum especialmente notáveis tendo em vista a diversidade estrutural dos aminoácidos cujos códons têm em comum a primeira base (Copley et al.,2005). Códons que têm U como segunda base estão associados com aminoácidos mais hidrofóbicos e os que têm A nesta posição, com aminoácidos mais hidrofílicos. 3.3 Seleção Natural e a Utilização de Códons O crescimento exponencial do volume de seqüências armazenadas em bancos de dados durante a década de 1980 facilitou a análise estatística no que se refere à utilização de códons. Várias técnicas de análise multivariada foram aplicadas para analisar a utilização de códons sinônimos em mamíferos, vírus, bacteriófagos, bactérias, mitocôndrias e genes de pequenos eucariotos (Grantham et al., 1980a; 1981) demonstrando que os genes poderiam ser agrupados com base no uso de códons e que estes grupos teriam ampla relação com a organização taxonômica destes organismos. Conseqüentemente, foi proposta a teoria genômica que afirma que o padrão de utilização de códons de um genoma era uma característica específica de um organismo. Isto sugere que a variação na utilização de códons pode estar relacionada com a variação na abundância do RNA (Grantham et al., 1980a) e que isso pode modular a expressão do gene (Grantham et al., 1981). 24 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum O uso não aleatório de códons e a variação na utilização de códons entre diferentes espécies sugerem que existe alguma restrição seletiva na escolha do códon. Um estudo realizado por Grantham et al. (1981) em 13 genes de Escherichia coli fortemente expressos e 16 menos expressos, usando a técnica de análise multivariada, encontrou uma forte variação na utilização de códons. Gouy & Gautier (1982) analisaram 83 genes de E. coli e encontraram que a variação na utilização de códons era dependente dos níveis de tradução, e genes com um alto número de cópias de proteínas usavam com maior freqüência códons de energia intermediária que requeriam menos discriminações de RNAt por ciclo de elongação. A utilização de códons difere entre espécies não apenas na seleção de códons, mas também no grau de preferência. Diferenças na utilização de códons de genes homólogos não implicam necessariamente em mudança nos níveis de expressão, mas sugerem que o efeito de pressões seletivas não são as mesmas. As preferências de códons são freqüentemente diferentes no início de um gene quando comparada com a parte central ou terminal do mesmo (Chen & Inouye, 1994; Karlin et al., 1998). Muitas espécies de bactérias possuem preferências na escolha de alguns códons (Sharp & Li, 1987). A seleção natural da utilização de códons pelos organismos é a ferramenta chave para a caracterização de todos os genes que, por sua vez, é útil no entendimento da evolução de espécies alvo, bem como para medir o fluxo horizontal de genes ao 25 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum longo das diferentes espécies de bactérias. A variação na utilização de códons é representada por dois paradigmas principais. Tanto a utilização diferencial de códons quanto a seleção determinam o uso de códons, ou ele é determinado apenas por preferências mutacionais. Embora a seleção natural voltada para o aumento da eficiência traducional tenha uma maior influência na utilização de códons em muitas espécies, nem sempre é possível definir de que forma a seleção está tomando lugar, assim como não explica toda a variação de uso de códons observada. Alguns genes têm seu uso de códons determinado principalmente por mutações, enquanto outros exibem padrões de utilização de códons que aumentam com o balanço entre preferências mutacionais e pressões seletivas (Sharp & Li, 1986). As preferências de códons devem resultar do equilíbrio entre seleção, que beneficia a fixação de códons favoráveis, e mudanças genéticas, que aumentam a probabilidade de fixação de códons desfavoráveis. A manutenção das preferências de códons por posições sinônimas neutras requer uma lenta, porém constante taxa de fixação adaptativa (Akashi, 1995). Se a seleção atua independentemente em cada códon, então diferenças seletivas entre códons sinônimos são provavelmente muito pequenas, logo a seleção de códons poderia ser útil apenas em espécies com grande tamanho populacional (Li, 1987). A seleção é comumente mais forte em genes altamente expressos porque estes códons são traduzidos mais freqüentemente (Bulmer, 1988). 26 Ramos, C.P.S. Li Análise de códons sinônimos em Chromobacterium violaceum (1987) descreveu que as preferências de códons intermediárias deveriam representar um balanço entre mutação e seleção, e assumiu que as freqüências relativas de sinônimos seriam influenciadas pelas tendências mutacionais, coeficiente de seleção e tamanho efetivo da população. Para selecionar entre códons sinônimos, a vantagem seletiva deve ser maior do que o inverso do tamanho efetivo da população. Sítios sinônimos poderiam ser fixados quando a taxa absoluta de mutação fosse lenta e o tamanho efetivo da população pequeno, assim o polimorfismo populacional poderia ser dispensável. Isto assume uma segregação independente de códons e uma ligação poderia aumentar substancialmente o acúmulo de códons deletérios. Shields (1989) propôs um modelo onde seleção, preferências mutacionais e tamanho efetivo da população construiriam o códon de preferência. Dessa forma, a utilização de códons era dependente da magnitude e variabilidade de pressões seletivas. 3.4 Seleção de Códons Ótimos e a Eficiência Traducional Ikemura (1981a) encontrou uma forte correlação entre o número de cópias de proteínas e a freqüência de códons cujo RNAt cognato era mais abundante. Esta correlação pareceu ser ainda mais forte em genes altamente expressos, que usavam exclusivamente códons “ótimos” (Ikemura, 1981a; Ikemura, 1981b; Ikemura, 1982; Ikemura, 1985). Em um outro estudo, Ikemura (1982) sugeriu que a 27 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum utilização diferencial de códons poderia não apenas regular a expressão do gene, como também atuar como uma ótima estratégia para sua expressão. As conseqüências práticas desses achados deixam óbvia que a expressão de genes heterólogos poderia ser severamente enfraquecida quando da introdução de um gene contendo códons raros tais como AGA ou AGG (arginina), enquanto o problema poderia ser compensado pela mudança de códons raros por códons sinônimos mais freqüentemente usados ou por proporcionar cópias adicionais que correspondem a RNAts raros (Ikemura 1981b; Ikemura 1985). Goetz & Fuglsang (2005) realizaram um estudo sobre a relação quantitativa entre a utilização de códons e os níveis de RNAm e subseqüentemente, deste com os níveis de proteínas sintetizadas. Eles mostraram que a utilização diferencial de códons é um bom parâmetro de expressividade de genes em E. coli. Há pelo menos dois mecanismos regulatórios independentes para genes de RNAts. Alguns RNAts são produzidos em uma taxa constante relativa à massa celular, enquanto outros são acoplados à abundância de ribossomos. Os RNAts localizados nos operons de RNAr são usados preferencialmente como códons principais (Komine et al., 1990). A taxa de síntese desses RNAts está relacionada à síntese do RNAr, a qual está, por sua vez, relacionada à taxa de crescimento do organismo (Jinks-Robertson & Nomura, 1987). Códons secundários não estão associados aos operons RNAr, embora pelo menos um RNAt secundário em E. coli aumente em abundância relativa durante altas 28 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum taxas de crescimento. Isto sugere que era a freqüência do códon e não a abundância dos RNAts cognatos que determinavam a resposta à mudanças na taxa de crescimento (Kurland, 1991). Independentemente da alteração das freqüências dos genes RNAts, a natureza da variação genética que dirige a síntese dos RNAts é desconhecida. Como regra geral, os RNAts principais estão representados como múltiplas cópias no genoma enquanto que os RNAts secundários estão representados como cópia única (Komine et al., 1990). Embora a correlação entre a freqüência de códons e os RNAts cognatos sejam um argumento atrativo para definir a forma como seleção natural optaria entre códons sinônimos, isto poderia explicar apenas parcialmente as preferências observadas quanto à utilização de códons. Um códon ótimo é definido como qualquer códon cuja freqüência de uso seja significantemente mais alta em prováveis genes altamente expressos (Stenico et al., 1994). Ikemura (1981b), definiu esses códons como sendo àqueles que ocorrem mais freqüentemente em genes preferenciais e que sejam traduzidos pelo RNAt cognato mais abundante. Códons “ótimos” estariam presumivelmente sob seleção para alguma forma de eficiência traducional. Embora medidas de taxas de tradução in vitro possam inicialmente não encontrar diferenças na taxa de tradução de códons “ótimos” e “não ótimos” (Andersson et al., 1984), experimentos mais sofisticados detectaram diferenças nessas taxas. Códons que são reconhecidos por RNAts principais são traduzidos 29 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum de três a seis vezes mais rápido do que seus sinônimos (Sorensen et al., 1989). Talvez um uso de códons que reflita a seleção por um tempo de vida muito curto possa responder as rápidas mudanças do ambiente (Bagnoli & Lio, 1995). Muitas moléculas de proteínas altamente expressas estão envolvidas no crescimento e divisão celular. Melhor do que a otimização de genes individuais, preferências de códon ou utilização diferencial de códons considerados ótimos pode ser parte de uma estratégia especial de maximização do crescimento (Kurland, 1991). Este autor sugeriu que a seleção poderia atuar sobre a maquinaria de tradução para uma melhor eficiência, o que implicaria na produção de proteína normal pelo aparato de tradução, sendo a taxa de produção protéica mais comumente determinada pela taxa de iniciação de tradução. A conseqüência de uma tradução mais rápida é que os RNAm passariam menos tempo nos ribossomos, elevando o número de ribossomos livres e aumentando o número de RNAms traduzidos por ribossomo. Isto é importante, pois o número dessas organelas freqüentemente é limitado. É estimado que um terço do peso seco de uma célula de E. coli crescendo rapidamente seja RNAr e proteína, e que aproximadamente 70% do fluxo de energia em E. coli seja usado no processo celular de síntese de proteína (Ikemura, 1985). Se a tradução da proteína é otimizada pela massa investida no aparato de tradução, então a taxa de tradução de genes individuais não pode ser regulada pelo uso de códons (Ehrenberg & Kurland, 1984). 30 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Uma análise do uso de códons sinônimos encontrou que a seleção pela eficiência traducional poderia influenciar a utilização diferencial de códons observada em genes altamente expressos de Drosophila (Sharp & Matassi, 1994; Akashi, 1995). Segundo Sharp et al. (1995) tanto a eficiência quanto a acurácia traducional são importantes neste organismo. Os genes que são transcritos mais freqüentemente podem ter taxas de mutação mais baixas porque estão sujeitos a uma resposta mais rigorosa de reparo do DNA (Berg & Martelius, 1995). Enquanto alguns códons são preferencialmente usados em genes altamente expressos, outros se mostram quase ausentes. Estes códons são citados na literatura como raros, não favorecidos ou como códons de baixo uso. O agrupamento de códons raros ou não favorecidos próximos ao códon de iniciação foi primeiramente identificado por Ikemura (1981b) nos genes altamente expressos de proteínas ribossomais. Os códons são, às vezes, encontrados em contextos específicos. Fortes correlações entre nucleotídeos na interface do códon e entre duplas posições de códons adjacentes sugerem que a degeneração do código genético seja explicada pela organização dos códons em algum contexto muito favorável (Curran, 1995). O contexto de códon é diferente para genes muito e pouco expressos (Gouy, 1987). Smith & Smith (1986) fizeram uma análise com os genes gapA e ompA de 10 gêneros de enterobactérias e encontraram forte preferência no uso de códons. Além disso, observaram que, surpreendentemente, 31 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum códons sinônimos diferentes preferiam sítios diferentes no mesmo gene. Com isto, os autores concluíram que a seleção seqüência-específica é melhor que a mutação seqüência-específica. A composição das bases é uma característica mais freqüentemente relatada no DNA sendo, provavelmente, uma das influências mais persuasivas no uso de códons. Há uma grande variação no conteúdo GC genômico de procariotos, variando de menos de 25% a mais de 75%. O conteúdo GC dos códons sinônimos de terceira posição pode variar por um fator de 10 entre espécies; esta preferência está sempre na direção das tendências mutacionais. A composição de bases é definida a partir de um balanço entre pressão mutacional e pares de nucleotídeo GC (Sueoka, 1962). Também é o resultado da utilização diferencial de códons (Sueoka, 1988), ou da seleção natural que tem a função de conduzir a fixação preferencial de dinucleotídeos e freqüências de bases não aleatórias (Bernardi, 1993). Quase todos os organismos estão sujeitos a pressões mutacionais direcionadas e, na ausência de seleção, é esta pressão que forma o uso de códons do gene (Sueoka, 1988). Uma análise de grandes regiões em seqüências de humanos e procariotos, usando a análise pela cadeia de Markov, encontrou regiões que eram atípicas em muitos genomas. Isto pode ser devido a pressões seletivas desconhecidas, a características estruturais ou transferência horizontal de genes (Jain et al., 1999; Koonin et al., 2001). 32 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Uma importante característica da organização genômica é a presença de zonas ou regiões que diferem significantemente entre si na freqüência relativa das quatro bases que constituem o DNA. Em vertebrados e outros organismos, estas regiões foram denominadas isócoros (Bernardi et al., 1988; Bernardi, 1993; Musto, 2001). O conteúdo GC de terceira posição (GC3) é a freqüência dos nucleotídeos G ou C presentes na terceira posição de códons sinônimos (excluindo Met, Trp e códons de término) e sua variação substancial entre genes procariotos tem sido usada para inferir a presença de isócoros em procariotos (Sueoka, 1992). Os genes que têm fraca preferência de códons exibem variação GC3 associada com a posição do cromossomo, com um GC3 mais baixo próximo ao terminal de replicação (Deschavanne & Filipski, 1995). Em Saccharomyces cerevisiae, os genes ricos em GC estão localizados predominantemente no centro dos dois braços cromossômicos (Sharp & Lloyd, 1993), enquanto regiões mais pobres em GC são encontradas nos centrômeros e telômeros. Esta variação de GC é independente da seleção por códons “ótimos”. Os padrões de códons e aminoácidos diferem significativamente entre genes codificados pelas fitas senso e anti-senso (Lobry, 1996). Em E. coli a localização cromossomal influencia as taxas de substituição. Genes localizados próximos à origem de replicação têm taxas de substituição mais baixas (Sharp et al., 1989). Isto implica que tanto a utilização diferencial de códons quanto a seleção natural variam sistematicamente com a localização do genoma. 33 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Enquanto que em quase todas as espécies o código genético permanece constante, o uso e a escolha de códons “ótimos” divergem. Uma análise detalhada e cuidadosa do uso de códons é um pré-requisito essencial para o entendimento de como e porque padrões de escolha de códons diferem. Não há uma razão óbvia do porquê de um subconjunto de códons ótimos diferir entre espécies. A utilização de códons é similar em espécies proximamente relacionadas, mas diverge com o aumento da distância filogenética. Quando examinamos o uso de códons é importante distinguir entre variação intra e interespecífica. Também é necessário considerar se a variação é causada por uma preferência mutacional ou através da seleção por um códon traducionalmente eficiente. Embora isto seja atribuído a uma variação nas tendências mutacionais do genoma (Nomura et al., 1987), pode ser mais facilmente explicado como um equilíbrio entre mutação e seleção (Sharp, 1990). Um grande interesse na evolução do uso de códons tem sido em torno dos códons de início e término, composição de bases, utilização de códons nas fitas senso e anti-senso, assim como da freqüência de aminoácidos que exibem desvios significantes na distribuição aleatória, que é bem acentuada em genes altamente expressos (Sharp & Bulmer, 1988). A escolha do códon de terminação está relacionada com o nível de expressão do gene. Em genes altamente expressos de E. coli há uma forte tendência pelo uso do códon de terminação UAA (revisado por Jin et al., 2002). 34 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Não se sabe o grau com que recombinações interespécies ocorrem entre procariotos. A transferência de genes está freqüentemente associada com elementos transposons ou seqüências de inserção (Groisman et al., 1993). Antes que seqüências transferidas horizontalmente sejam estabelecidas, elas devem conquistar barreiras que bloqueiem a herança de genes recentemente adquiridos (Matic et al., 1995). Genes adquiridos por transferência horizontal freqüentemente têm conteúdo GC atípico, preferências de códons e elementos repetitivos (Medigue et al., 1991). Medigue et al. (1991) utilizaram a análise de correspondência para investigar o uso de códons de 780 genes de E. coli e descreveram três classes de genes. Os genes da classe III tinham um uso de códons que não refletia a média da distribuição de RNAts específicos, tendo consequentemente um baixo valor para o índice de adaptação de códons (CAI). Os genes da classe I e II eram distribuídos similar e uniformemente ao agrupamento encontrado por Gouy & Gautier (1982). A maioria dos genes adquiridos por transferência horizontal em E. coli apresenta uma vantagem adaptativa imediata, como por exemplo, os genes que codificam proteínas da superfície celular e genes de resistência a antibióticos (Matic et al., 1994), o que sugere que esta transferência possa ter função importante na evolução das bactérias (Lan & Reeves, 1996). A divergência no uso de códons está relacionada com a distância evolucionária, o que sugere que o uso de códons ou uso de 35 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum aminoácidos pode ajudar a elucidar as relações evolucionárias entre espécies. Embora as análises filogenéticas que se baseiam no uso de códons pareçam ter aplicação prática, a filogenia é melhor investigada através da análise comparativa de seqüências homólogas (Sharp, 1986). A utilização evolutivamente de distantes códons devido pode à convergir similaridade em das espécies preferências mutacionais. Ikemura (1981b), em um estudo com oito genes de E. coli, notou uma correlação entre composição de aminoácidos e preferências de códons. Isso foi mostrado depois da hidrofobicidade ser considerada como a segunda mais forte tendência na composição de aminoácidos em E. coli. Surpreendentemente esta tendência é mais significante do que a aromaticidade, volume ou mudança do aminoácido (Lobry & Gautier, 1994). A suposição de que a seleção natural poderia influenciar mudanças silenciosas (Grantham et al., 1980b; Grantham et al., 1981; Kimura, 1983; Ikemura, 1985), sugeria que em genes de algumas espécies, sítios silenciosos não sejam neutros (Sharp et al., 1993). A conseqüência disso é efetivamente neutras que e algumas substituições provavelmente sinônimas acumulam são seqüências semelhantes à taxa de mutação (Ikemura 1981a; Ikemura 1981b; Ikemura, 1985). Seleções fracas permitem que processos não adaptativos sejam evidenciados. Com a identificação de códons favoráveis é possível predizer a vantagem e desvantagem relativa de seqüências 36 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum alternativas e talvez, a de uma seqüência completamente ótima (Akashi, 1995). Substituições silenciosas ocorrem normalmente com maior freqüência do que as não sinônimas (Kimura, 1977). As taxas de evolução de sítios sinônimos são usadas para investigar e validar algumas das predições da evolução molecular, tais como a hipótese do relógio molecular (Sharp & Li, 1989). As taxas de substituições silenciosas são substancialmente mais baixas em genes altamente expressos do que em genes com baixos níveis de expressão (Ikemura, 1985). A observação de restrições no uso de códons reduz a taxa de substituição silenciosa e essa restrição pode variar entre genes, estando de acordo com as predições da teoria neutra (Kimura, 1983). Substituições sinônimas podem elevar a taxa de substituição em um códon adjacente em cerca de 10%; isto parece não estar relacionado com o nível da expressão do gene e tem uma pequena faixa de influência, mas pode ser devido a mutagênese direta seqüencial, recombinação e/ou seleção (Eyre-Walker, 1994). A relação entre o uso de códons e a taxa de substituição de sítios silenciosos é mais complexa do que a seleção de códons ótimos. Enquanto o aumento da expressão aumenta a pressão seletiva em códons sinônimos e imediatamente reduz as taxas de substituições observadas, há também uma diminuição na taxa de mutação (Berg & Martelius, 1995). Em E. coli este declínio na taxa de mutação parece similar para a família de códons da lisina que parece não ser fortemente 37 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum selecionada pela eficiência traducional, e por códons fenilalanina, que são selecionados pela tradução (Eyre-Walker & Bulmer, 1995). A freqüência de códons raros é mais alta em genes raramente transcritos. Usualmente isto é atribuído a pressões adaptativas que modulam a expressão do gene. Do mesmo modo que há uma freqüência mais alta de códons raros próximos ao códon de iniciação de muitos genes regulatórios há também, próximos a genes altamente expressos (Eyre-Walker & Bulmer, 1993). Saier (1995) estudou como a expressão inapropriada de certos genes poderia ser regulada pela alteração no conjunto de RNAts em diferentes estágios do crescimento. A diferença de padrões de utilização de códons nesses diferentes estágios de crescimento não é necessariamente um mecanismo regulatório. Isto pode simplesmente refletir a diferença nos mecanismos de controle da abundância do RNAt durante a fase de crescimento estacionária ou exponencial de alguns procariotos e uma conseqüente adaptação a diferentes conjuntos de RNAt. A expressão de genes heterólogos pode ser adversamente afetada por códons não usuais. A presença de códons raros em um gene recombinante pode ser compensada pela adição de um RNAt apropriado ou pela síntese de um gene para remover códons raros (Kane, 1995). 38 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 3.5 Códons Sinônimos O uso de códons “ótimos” está relacionado com a composição do conjunto de RNAt, sugerindo que a seleção por uma eficiência traducional favorece o uso de códons que correspondem aos RNAts mais abundantes uma vez que o uso desses códons poderia minimizar o número de RNAts incorretos que são rejeitados antes da chegada do RNAt correto (Akashi, 1994). Em bactérias o conteúdo de guanina/citosina (conteúdo GC) é muito variável e resulta provavelmente de três fatores: (1) tendências mutacionais diferenciadas entre as fitas senso (SS) e anti-senso (AS), uma vez que os genes localizados na fita senso tendem a ser mais ricos em GT (Lobry et al., 1996; McLean et al., 1998); (2) o uso de códons sinônimos que correspondem aos RNAs transportadores (RNAt) mais abundantes na célula (Ikemura, 1985); e (3) transferência horizontal de genes, que tenderiam a exibir padrões de utilização de códons atípicos quando comparados àqueles do organismo hospedeiro (Nakamura et al., 2000; Goetz et al., 2005). Lynn et al. (2002) analisaram os padrões de utilização de códons em 40 genomas bacterianos e mostraram que o uso de códons sinônimos sofre influência direta do conteúdo GC e da temperatura ambiental, demonstrando a existência de uma clara ligação entre um padrão particular de utilização de códons e uma força externa seletiva. 39 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Sharp et al. (2005) analisaram os genomas de 80 bactérias filogeneticamente diferentes e concluíram que as espécies de crescimento rápido exibem em maior quantidade operons de RNAr, e genes para RNAt apresentando uma forte tendência à utilização diferencial de códons sinônimos. Ardell (1998) introduziu a carga média de peso como uma forma geral de função adaptativa que estima a habilidade do código genético em minimizar os erros durante a replicação, transcrição e tradução. Baseado neste trabalho, Najafabadi et al. (2005) definiu esta função adaptativa comparando o uso de códons sinônimos de um conjunto de 3237 genes de E. coli K12 com o de 106 genes gerados aleatoriamente e sugeriu que a minimização de erros pode ser um fator que influencia a preferência de utilização de códons em E.coli. O código genético padrão é conhecido pela alta eficiência em minimizar os efeitos deletérios de erros devido a mutações pontuais e erros de tradução, uma habilidade que, em termos, é denominada “minimização da carga” (Najafabadi et al., 2005). Sabe-se também que quando um aminoácido é substituído por outro, devido a um erro, as propriedades bioquímicas do aminoácido resultante são geralmente similares àquelas do original. Considerando as freqüências relativas dos aminoácidos e das cópias do gene de RNAts em seqüências genômicas, Goodarzi et al. (2005) fizeram uma análise para introduzir uma função adaptativa que modelasse mais pontualmente as probabilidades de 40 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum erros traducionais em organismos modernos, sugerindo a presença de uma coevolução da freqüência do RNAt e do código genético. Knight et al. (1999) mostraram que a principal força que forma o código genético é a seleção para minimização de distâncias químicas entre aminoácidos, que é, a minimização de erros no nível da proteína como proposto por Sonneborn (1965), Woese (1965) e outros. A utilização diferencial de códons pode afetar o grau de minimização de erros. Isto é importante, pois supõe que a vida foi originada em altas temperaturas e durante a origem do código G e C foram provavelmente mais abundantes que A e T, por causa da maior estabilidade de conformação devido às três pontes de hidrogênio que ligam GC ao invés das duas que ligam AT (Woese, 1965; Li, 1997; Najafabadi et al., 2005). Archetti (2004) mostrou que o alto grau de minimização de erros do código genético, aparentemente, é reduzido bruscamente quando se considera que a preferência na utilização de códons produzida pelo provável conteúdo GC ocorreu durante a origem do código e há possíveis códons alternativos que diferem apenas levemente do código padrão. Quando a utilização diferencial de códons e a mutação são fatores limitantes se considera a freqüência de códons que melhor representa que o código padrão não é desprezível. Por esta razão o código genético padrão está longe de ser “ótimo” no que diz respeito à minimização de erros (Knight et al., 1999; Woese, 1965). 41 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Copley et al. (2005) estudaram um mecanismo quimicamente aceitável para a associação dos aminoácidos com as duas primeiras bases de seus códons. Eles projetaram um exemplar mais simples do código genético e desenvolveram um modelo sugerindo que a ligação covalente de um aminoácido a um dinucleotídeo poderia levar a síntese preferencial de aminoácidos específicos devido à catálise de certas transformações bioquímicas pelo dinucleotídeo. A utilização de códons sinônimos é um fenômeno que não ocorre ao acaso, pois sua estrutura reflete as propriedades físicoquímicas dos aminoácidos e suas relações biossintéticas. A preferência na utilização dos códons pode resultar em desvio na taxa mutacional ou da ação da seleção atuando sobre as trocas silenciosas no DNA ou de ambos. A utilização de códons sinônimos reflete a variação na composição dos nucleotídeos, observada em genomas distintos. Provavelmente, as bactérias são o modelo onde esse fenômeno tenha sido melhor estudado. Nesse caso, além da composição de nucleotídeos, pelo menos um outro fator está atuando no uso dos códons sinônimos: a ligação de RNAts. Em E. coli, foi demonstrado que alguns códons são bem reconhecidos pelos tipos de RNAts mais abundantes na célula. Tais códons são preferencialmente escolhidos. Estes conferem uma vantagem sob o ponto de vista da tradução (Sharp & Matassi, 1994). Esses códons “ótimos” são escolhidos preferencialmente nos genes altamente expressos, em contraposição aos genes com baixos níveis de 42 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum expressão, pois neste caso a utilização de códons é mais uniforme. A vantagem de usarem códons “ótimos” seria tornar a tradução mais eficiente. Resultados similares têm sido descritos para o genoma dos eucariotos. Atualmente, a seleção para a eficiência no processo da tradução das proteínas é a hipótese mais aceita para explicar o enviezamento na utilização dos códons. Postula-se que as substituições sinônimas em um gene altamente expresso, que resultam em códons raros no conjunto dos RNAts, sejam eliminadas por seleção natural. 3.6 Métodos Usados na Análise de Códons Sinônimos O maior avanço na análise do uso de códons sinônimos foi quando Grantham et al. (1980a) aplicaram a técnica de estatística multivariada, e logo depois Gouy & Gautier (1982) aplicaram índices que podiam sumarizar códons ótimos através de variáveis descritivas, facilitando a comparação dos padrões de utilização de códons. Os índices de análise de códons sinônimos são usados para ajudar na tabulação e investigação dos mesmos. Estes índices reduzem os dados obtidos na análise, porém podem ter certas limitações. Existem vários métodos voltados para a quantificação de distorções na utilização de códons. 43 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum O índice GC3s mede a freqüência dos nucleotídeos G e C presentes na terceira posição dos códons (excluindo metionina, triptofano e códons de terminação): O número efetivo de códons (ENc) foi introduzido em 1990 (Wright, 1990) sendo considerado como o método estatístico que fornece a melhor estimativa da utilização diferencial de códons em um determinado conjunto de genes. É análogo ao número efetivo de alelos usados em genética de populações. As principais vantagens apresentadas pelo ENc advêm da possibilidade de inclusão de todo o conjunto de códons e da constatação de que este parâmetro se mostra relativamente insensível a variações no comprimento do gene (Comeron & Aguade, 1998). Adicionalmente, o ENc possibilita a análise de um grande número de genes sobre os quais não se dispõe de informações precisas sobre o seu nível de expressão. Os seus valores variam entre 20 e 61, observados nos casos nos quais apenas um códon é utilizado para cada aminoácido – mínimo, ou quando todos os códons sinônimos são igualmente empregados – máximo. Em genomas onde o uso de códons é inteiramente devido a tendências mutacionais o valor esperado de ENc (dependendo do grau de preferência GC) varia de 31 a 61 (Wright, 1990); 44 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Onde Fˆ = número de códons degenerados; k = número de códons sinônimos; n = número total de códons para um determinado aminoácido; pi = número de ocorrências do enésimo códon para um determinado aminoácido. O programa CodonW que foi usado para fazer a análise de correspondência usa uma versão desta equação que é um código genético independente. Onde x = número de membros na maior família de sinônimos; N1 = frequência de códons não sinônimos; Ni = número de famílias de códons i-vezes degenerados maiores que 0; Nc = é a soma de todas as famílias de códons sinônimos. Se aminoácidos são raros ou forem perdidos serão feitos ajustes. Para aminoácidos ausentes o numerador irá conter a informação apenas dos aminoácidos presentes. Para seqüências onde a família de aminoácidos sinônimos estiver vazia (nFˆ=0), Nc não é calculado pois se assume que o gene é muito pequeno. Uma outra medida empregada na análise da utilização diferencial de códons sinônimos é a RSCU (acrônimo da expressão Relative Synonymous Codon Usage ou utilização relativa de códons 45 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum sinônimos) (Sharp, Tuohy & Mosurski, 1986) a qual é calculada como sendo a razão da freqüência observada de um códon pela freqüência esperada se a utilização de códons for uniforme (H0*) dentro de um grupo de códons sinônimos (Hastings & Emerson, 1983). Valores superiores ou inferiores a uma unidade são interpretados como uma indicação da utilização diferencial de códons sinônimos em relação ao que seria esperado na concepção de que todas as trincas fossem empregadas na mesma proporção (Fulgsang, 2003). Os valores de RSCU são independentes da composição do aminoácido e fornecem uma estimativa do nível de utilização de códons de um determinado aminoácido. Ou seja: RSCUi = Xi ∑X n onde Xi é o número de vezes que o códon foi utilizado e n corresponde ao número de códons sinônimos, ou seja: RSCU = freqüência do códon X dividido pela frequência esperada do códon X se o uso de códons for uniforme. Valores acima ou abaixo de 1,0 indicam que os códons são utilizados acima ou abaixo daquilo que seria esperado. Por exemplo, dois códons codificam o aminoácido fenilalanina (Phe). Se um de seus códons (UUU) for usado 4791 vezes em um determinado genoma de um total de 23119 fenilalaninas presentes, o valor de RSCU para este códon será de 2*4791/23119 = 0.41. 46 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Esses índices medem o desvio da utilização de códons sinônimos observada sobre a esperada. As duas principais hipóteses nulas usadas para estimar as distribuições esperadas são: H0: O códon esperado é inteiramente determinado por tendências mutacionais. H1: Não presume tendências mutacionais ex. códons são usados igualmente. H1 é a hipótese nula mais usada porque faz uma presunção mais simples. Entretanto, o uso igual de sinônimos é uma exceção à regra. Índices tais como os métodos de estatística-G (Sharp, Tuohy & Mosurski, 1986) e o qui-quadrado (Shields et al., 1988), podem ser usados com outros padrões de referência do H1. Outros índices, tais como, o número efetivo de códons (Wright, 1990), embora quase que freqüentemente usado para H1, é igualmente aplicável para H0. Diversos índices estimam o quanto o uso de códons por um gene é alterado no que diz respeito ao uso preferencial de códons “ótimos”. O índice de enviezamento de códons (CBI) é a medida de preferência de códons que altera um subconjunto de códons “ótimos” (Bennetzen & Hall, 1982). Onde Nopt = número de códons ótimos; Nran = número esperado de códons ótimos se os códons forem escolhidos aleatoriamente (H1); Ntot = número de códons sinônimos. 47 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum O CBI é semelhante ao Fop (Ikemura, 1985), exceto que o Nran é usado como um fator de escalonamento. Em um gene com preferências extremas de desvios códons, CBI é igual a 1.0. Com o uso de códons aleatório CBI pode ser zero. Se Nopt for menor que Nran, este índice será negativo. O índice da freqüência de códons ótimos (Fop) em um gene (Ikemura, 1981a; Ikemura & Ozeki, 1982; Ikemura, 1985) é uma medida espécie-específica de tendência próxima a códons particulares que parecem ser transcricionalmente ótimos nas espécies, ou seja, uma razão simples entre a freqüência de códons ótimos e o número total de códons sinônimos. Se códons sinônimos raros forem identificados, há a escolha de calcular o índice Fop original: Ou o índice Fop modificado: Onde N é a frequência com que cada tipo de códon é usado. Os valores de Fop para o índice original sempre variam de zero (quando códons não ótimos são usados) a 1,0 (quando apenas códons ótimos são usados). Quando se calcula o índice Fop modificado, é possível ocorrer valores negativos, mas estes valores são ajustados para zero (Ikemura, 1981a; Ikemura & Ozeki, 1982; Ikemura, 1985). 48 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum O Índice de Adaptação de Códons (CAI, acrônimo da expressão Codon Adaptation Index) estima o grau de extensão da utilização diferencial de códons em genes altamente expressos (Sharp & Li, 1987a) e é uma medida muito usada de preferências de códons em procariotos (Eyre-Walker & Bulmer, 1993; Gutierrez et al., 1994; Perrière et al., 1994) e eucariotos (Akashi, 1994). O CAI é considerado como um dos métodos mais eficientes para a determinação teórica do nível de expressão gênica (Zhuo-Cheng, 2003), sendo freqüentemente utilizado no estudo de várias espécies de bactérias (Naya et al., 2001; Hou & Yang, 2002). O CAI de um gene pode ser estabelecido a partir da obtenção da média geométrica dos valores de adaptabilidade dos seus códons e pode assumir valores compreendidos entre zero e um. Os valores máximo e mínimo são encontrados, respectivamente, nos casos onde os códons sinônimos são utilizados em igual proporção ou quando apenas códons de maior adaptabilidade são empregados (Hou & Yang, 2002). Onde ωk é a adaptação relativa do k-enésimo códon e L é o número de códons sinônimos no gene. A freqüência do uso de códons em genes altamente expressos é usada para definir valores de adaptação relativa para cada códon sinônimo. Esses valores são calculados baseados no RSCU embora sejam essencialmente independentes da composição do aminoácido. O 49 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum CAI evita a dicotomia inerente ao Fop e CBI onde códons são ótimos ou não ótimos, mas pequenas mudanças no tamanho da amostra podem ter efeito indesejado na troca de códons ótimos. Entretanto, os valores de CAI dos genes de diferentes espécies não são diretamente comparáveis, porque o valor de adaptação relativa difere. Similarmente, se houver mudança no conjunto referência de genes altamente expressos, os valores de adaptação relativa mudam e os valores de CAI para todos os genes daquelas espécies devem ser recalculados. Os índices CBI, Fop e CAI medem preferências nos desvios de códons e podem ser calculados para espécies em que a seleção pela eficiência traducional supere a mudança mutacional e um conjunto de códons ótimos (ou de genes altamente expressos) tenha sido identificado. Se estes índices são calculados para genes onde os códons ótimos são desconhecidos ou onde o uso de códons é determinado por tendências mutacionais, o valor do índice resultante é essencialmente sem sentido. A hidrofobicidade da proteína (Gravy) calcula a média geral do razão de hidrofobicidade para o produto gênico conceitualmente traduzido. É calculada como a média aritmética da soma dos índices de hidrofobicidade de cada aminoácido (Kyte & Doolittle, 1982). Este índice foi usado anteriormente para quantificar a maior tendência no uso de aminoácidos em genes de E. coli através da análise de correspondência (Lobry & Gautier 1994). 50 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Onde N é o número de aminoácidos e Ki é o índice de hidrofobicidade de cada aminoácido. A análise de correspondência (CoA) é um tipo de análise multivariada onde são usadas matrizes retangulares cujas colunas representam medidas do uso de códons ou de aminoácidos e as linhas, genes individuais. Este método é utilizado para identificar as maiores tendências na variação do uso de códons e na composição dos aminoácidos, e distribui os genes ao longo de eixos contínuos de acordo com estas tendências (Greenacre, 1984). Apenas os códons que há um códon sinônimo alternativo (59 códons, excluindo metionina e triptofano) são incluídos na análise. Cada gene é descrito por um vetor de 59 variáveis (códons). A CoA plota estes genes em um espaço de 59 dimensões e permite encontrar eixos neste espaço que descrevam as variações mais importantes quanto ao uso de códons. A CoA também tem sido usada na investigação dos padrões de utilização de códons sinônimos em vários organismos (Romero et al., 2000; Naya et al., 2001; Jenkins et al., 2001). De uma forma geral, tem-se observado que os genes altamente expressos tendem a usar códons correspondentes aos RNAs transportadores (RNAts) mais abundantes da célula (Perrière & Thioulouse, 2002) e também códons ricos em C3 e pobres em A3. O nível de expressão gênica interfere decisivamente na utilização dos códons sinônimos. 51 Ramos, C.P.S. 3.7 Análise de códons sinônimos em Chromobacterium violaceum Proteobactérias: Morfologia, Fisiologia, Ecologia e Diversidade Filogenética As proteobactérias são uma classe de bactérias que compreende as bactérias púrpuras e seus semelhantes, que formam um ramo da árvore predominantemente homologia de eubacterial. Gram-negativas sequências Este é equivalentes grupo classificado de de bactérias com base nucleotídeos de na RNA ribossômico 16S, ou pela hibridização de RNA ribossômico ou DNA com RNA ribossômico 16S e 23S (http://141.150.157.117:8080/prokPUB /chaphtm/379/02_00.htm). 52 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Figura 3. Árvore filogenética simplificada de proteobactérias baseadas nas seqüências de DNAr 16S da maioria do gênero das proteobactérias. 53 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Apenas os nomes das famílias e grupos maiores estão indicados. As Deltaproteobactérias e Epsilonproteobactérias são as mais ramificadas do filo; as Alfaproteobactérias estão também claramente separadas, enquanto que se observa uma relação mais próxima entre as Betaproteobactérias e Gamaproteobactérias, o que pode indicar uma origem comum destes dois últimos grupos. 3.7.1 Alfaproteobactérias O DNAr 16S separa claramente a classe alfa das demais classes de proteobactérias. Pertencem as alfaproteobactérias cerca de 140 gêneros e 425 espécies diferentes morfologicamente e metabolicamente. A Tabela 1 mostra uma revisão dos maiores grupos filogenéticos e nomes das ordens e famílias de alfaproteobactérias. Tabela 1. Alfaproteobactérias: Ordens, famílias e número de gêneros. Ordem Família Número de Gêneros Rhodospirillales Rhodospirillaceae 10 Acetobacteraceae 12 Rickettsiaceae 3 Ehrlichiaceae 5 Holosporaceae 7 Rhodobacterales Rhodobacteraceae Sphingomonadales Sphingomonadaceae 20 9 54 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Caulobacterales Caulobacteraceae 4 Rhizobiales Rhizobiaceae 7 Bartonellaceae 1 Brucellaceae 3 Phyllobacteriaceae 6 Methylocystaceae 3 Beijerinckiaceae 3 Bradyrhizobiaceae 8 Hyphomicrobiaceae 19 Methylobacteriaceae 3 Rhodobiaceae 1 Fonte: http://141.150.157.117:8080/prokPUB/figures/normal/p379-108.gif A maioria das alfaproteobactérias tem a forma de bastão, sendo que algumas espécies também podem apresentar formas diferentes deste padrão. Algumas são fototróficas, de cor púrpura e não sulfurosas (tais como Rhodospirillum e Rhodobacter), enquanto que outras são quimiolitotróficas (Nitrobacter, que oxida nitrito) ou quimiorganotróficas (Sphingomonas e Brucella). Batérias fototróficas não sulfurosas marinhas e halofílicas parecem estar restritas as alfaproteobactérias (Imhoff, 2001), enquanto que um notável grupo de bactérias contendo bacterioclorofil, mas incapaz de crescer fototroficamente sob condições anaeróbias pertence a várias linhagens de alfaroteobactérias (Yurkov & Beatty, 1998). Exceto para Roseateles, todas as bactérias aeróbicas contendo bacterioclorofil são exclusivamente encontradas dentro das alfaproteobactérias e parecem estar relacionadas filogeneticamente com as bactérias 55 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum quimiorganotróficas puramente aeróbicas. Isto poderia ondicar que a presença de bacterioclorofil em alguns membros de alfaproteobactérias (Erythrobacter e Roseobacter) é uma peculiaridade atávica que permanece funcional após a bactéria aeróbica evoluir dos seus ancestrais fototróficos anaeróbios (Stackebrandt et al., 1996). Então bactérias aeróbicas intermediária da fototróficas evolução poderiam das representar fototróficas uma anaeróbias para fase as quimiotróficas aeróbicas não-fotossintéticas. Na última década, a classificação das Rhodospirillum e Rhodopseudomonas, sofreu mudanças consideráveis, que estão de acordo com os dados das sequencias de DNAr 16S, parâmetros morfológicos, estruturas internas da membrana e importantes parâmetros quimiotaxonômicos tais como a composição dos ácidos graxos celulares, ubiquinonas e estruturas do citocromo-c. Muitas das bactérias fotossintéticas não-sulfurosas são também capazes de fixar o nitrogênio. Quimiorganotróficas clássicas (Sphingomonas), assim como acidófilas típicas (Acetobacter) e metilotróficas (Methylobacterium) pertencem as alfaproteobactérias. Um grande número de membros da classe alfa vive em associação com eucariotas: algumas são patógenos de humanos e animais (Brucella) ou plantas (Agrobacterium), e outras desenvolvem um estilo de vida parasita obrigatório, causando doenças em humanos e mamíferos, sendo transmitidos por mordidas de insetos ou carrapatos (Rickettsiaceae), ou vivem simbioticamente nas raízes de 56 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum plantas leguminosas (Rhizobium e Bradyrhizobium), e tem função na fixação do nitrogênio atmosférico. Assim, as alfaproteobactérias se destacam na grande divergência de habitats e exercem um impacto significante na biosfera do nosso planeta (Birch, 1997). 3.7.2 Betaproteobactérias As betaproteobactérias (cerca de 75 gêneros e 220 espécies) claramente representam um grupo monofilético dentro de um grande linhagem filogenética composta pelo complexo β-γ proteobactéria, chamado Chromatibacteria. Do ponto de vista metabólico, morfológico e ecológico, as betaproteobactérias são muito heterogêneas. Elas contêm algumas bactérias quimiolitotróficas, fototróficas algumas quimiorganotróficas, púrpuras metilotróficas, algumas bactérias não-sulfurosas, um grande fixadoras de várias número nitrogênio de e algumas que são importantes patógenos de plantas, humanos e animais. Suas morfologias podem variar de bacilos ou cocos a espirais e células revestidas. Alguns membros são de interesse biotecnológico devido a suas propriedades biodegradáveis. Recentemente, uma betaproteobactéria fixadora de nitrogênio que nodulava as raízes de leguminosas foi descrita (Chen et al., 2001). Embora a maioria das bactérias fototróficas não-sulforosas pertençam ao grupo alfa, algumas espécies não-sulfurosas são membros do grupo Rhodocyclus ou da família Comamonadaceae do grupo beta. Como no 57 Ramos, C.P.S. grupo Análise de códons sinônimos em Chromobacterium violaceum alfa, as betaproteobactérias fototróficas não-sulfurosas misturam-se filogeneticamente com as não-fototróficas e podem ser claramente diferenciadas daquelas pertencentes ao grupo das alfaproteobactérias (Rhodobacter, Rhodobium, etc.) com base na composição dos ácidos graxos e quinona, bem como das seqüências de citocromo-c (Imhoff, 2001). A Tabela 2 mostra uma revisão dos maiores grupos filogenéticos e nomes das ordens e famílias de betaproteobactérias. Tabela 2. Betaproteobactérias: Ordens, famílias e número de gêneros. Ordem Família Número de Gêneros Burkholderiales Burkholderiaceae 4 Ralstoniaceae 1 Oxalobacteraceae 5 Alcaligenaceae 6 Comamonadaceae 15 Hydrogenophilales Hydrogenophilaceae 2 Methylophilales Methylophilaceae 3 Neisseriales Neisseriaceae Nitrosomonadales Nitrosomonadaceae 2 Spirillaceae 1 Gallionellaceae 1 Rhodocyclaceae 6 Rhodocyclales 14 Fonte: http://141.150.157.117:8080/prokPUB/chaphtm/379/02_02.htm 58 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 3.7.3 Gamaproteobactérias As gamaproteobactérias correspondem ao maior grupo de proteobactérias (cerca de 180 gêneros e 750 espécies) incluindo o grupo fitopatogênico Xanthomonas como membro limítrofe. O grupo DNAr das Xanthomonas aparece perifericamente ligado às classes das betaproteobactérias ou gamaproteobactérias, e pode ser considerado como um grupo irmão das betaproteobactérias. As gamaproteobactérias contêm bactérias sulfurosas púrpuras fotossintéticas (Chromatiaceae e Ectothiorhodospiraceae) bactérias juntamente quimiorganotróficas, com tais um como grande número de Enterobacteriaceae, Legionellaceae, Pasteurellaceae, Pseudomonadaceae, Vibrionaceae e també, algumas quimiolitotróficas sulfurosas ou ferro-oxidantes. Há algumas classes que são importantes patógenos humanos e animais. O gênero Pseudomonas está restrito a todas as espécies filogeneticamente relacionadas à espécie Pseudomonas aeruginosa, um membro da gamaproteobactéria, enquanto às Pseudomonas pertencentes às classes alfa e beta foram alocadas a novos gêneros tais como Brevundimonas, Sphingomonas, Comamonas, Burkholderia, Ralstonia, etc. Tiobacilli relacionado à espécie T. thioparus pertence a betaproteobactéria, enquanto que as espécies Thiobacillus pertencem a gamaproteobactéria foram reclassificados nos gêneros Acidithiobacillus, Halothiobacillus e Thermithiobacillus. 59 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 3.7.4 Deltaproteobactérias Do ponto de vista de estilo de vida e morfologia, a classe delta é a mais peculiar porque contém bactérias que são típicos predadores de outros procariotos deltaproteobactérias (bdellovibrios), pertencentes às enquanto mixobactérias outras desenvolvem complexos ciclos de vida, formando estruturas muiticelulares produtoras de esporos. Até o momento, não fora encontradas bactérias fotossintéticas pertencentes à classe delta. Menaquinonas são as maiores carregadoras de elétrons na cadeia respiratória. Os maiores subgrupos de deltaproteobactérias são: 1) as mixobactérias desenvolvendo motilidade e formando esporos (Chondromyces); 2) os bdellovibrios vivendo como predadores de outras bactérias Gramnegativas; 3) as bactérias dissimilatórias redutoras de sulfato e enxofre (gênero recebe o prefixo Desulfo-); e 4) algumas bactérias sintróficas que transforma fermento (Syntrophobacter) ou benzoato (Syntrophus) a acetato, CO2 e hidrogênio em cocultura com metanógenos que consomem hidrogênio. Bdellovibrios e mixobactérias são estritamente aeróbios, enquanto que as bactérias sintróficas e redutoras de sulfato e enxofre são estritamente anaeróbias. O maior grupo filogenético das deltaproteobactérias contém atualmente cerca de 60 diferentes gêneros e 160 espécies. 60 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 3.7.5 Epsilonproteobactérias Este é o menor e a mais recentemente conhecida linha de descendentes dentro das Proteobactérias (6 gêneros e cerca de 50 espécies). Até o momento, bactérias fotossintéticas não foram repostadas e as chaves representativas são os gêneros Campylobacter e Helicobacter, que inclui enteropatógenos de humanos e animais. Muitas espécies das epsilonproteobactérias são microaerofílicas, quimiorganotróficas de forma espiralada não sacarolítica ou bactérias curvadas, tipicamente móveis com um flagelo polar. Elas obtêm sua energia principalmente de aminoácidos ou intermediários do ciclo do ácido tricarboxílico. Algumas espécies requerem fumarato e outras formam mais fumarato ou hidrogênio mais fumarato para crescimento em condições microaeróbias. Algumas epsilonproteobactérias ainda não cultiváveis têm sido reportadas como simbiontes de camarões e poliquetas. 3.8 Chromobacterium violaceum A bactéria Chromobacterium violaceum (Figura 4), microrganismo modelo utilizado neste estudo foi primeiramente descrita no século XIX (Boisbaudran, 1882) sendo um organismo particularmente interessante, uma vez que é β-proteobactéria, Gramnegativa, saprófita não patogênica, aeróbica facultativa presente em 61 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum amostras de solo e água de regiões tropicais e subtropicais de diversos continentes sendo encontrada em abundância nas águas do Rio Negro, região da Amazônia Brasileira (Duran & Menck, 2001). A análise de seu genoma deve fornecer informações importantes sobre adaptação fisiológica de organismos de vida livre. Figura 4. Chromobacterium violaceum Ocasionalmente, pode atuar como um patógeno oportunista em animais e homens e causar septicemia fatal de lesões na pele com abscessos no fígado e pulmão. Seu potencial patogênico foi descrito pela primeira vez por Wooley (1905) (em Rettori, 2000), ao comprovar que esse organismo causava a morte de búfalo d’água por septicemia, nas Filipinas. Posteriormente, verificou-se que esta bactéria poderia causar infecções em outros animais como porcos, macacos, ovelhas e cães. Alguns casos de infecções sérias e mesmo fatais, em humanos, foram reportadas em outros países, inclusive no Brasil (Bilton & Johnson, 2000). Aparentemente a incidência de infecção por C. violaceum em humanos é baixa, no entanto, deve-se alertar para o fato de que essa 62 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum bactéria é encontrada com freqüência na natureza e de causar infecções graves em humanos. Após uma análise de indivíduos infectados e diagnosticados, nos Estados Unidos, conclui-se que a C. violaceum é um agente patogênico de baixo grau, capaz de causar infecções severas, principalmente em pacientes imunodeprimidos. Entretanto, essas generalizações são questionáveis, uma vez que foi descrita uma infecção severa com C. violaceum em uma criança de 12 anos, que não apresentava imunodepressão (Bilton & Johnson, 2000). Outros relatos também associados à C. violaceum são a granulomatose crônica, a adenite, como complicação degranulomatose crônica, a osteomielite, a celulite periorbital e a infecção ocular. Todos os casos citados até agora foram produzidos por bactérias pigmentadas, mas há também casos de infecções originados por formas não pigmentadas (ausência de violaceína) (Miller et al., 1988). Portanto, a patogenicidade associada a essa bactéria parece ser independente de violaceína. O genoma completo da C. violaceum compreende um único cromossomo circular de 4.75 Mb contendo 4.431 matrizes abertas de leitura (Open Reading Frames - ORFs), destas 2.717 (61,3%) codificam proteínas com funções hipotéticas, 958 (21,6%) proteínas hipotéticas conservadas e as demais (17,1%) proteínas hipotéticas. Cerca de 539 ORFs do genoma da C. violaceum codificam proteínas envolvidas no transporte de metabólitos. Muitas destas ORFs (489, que representam 11% de todas as ORFs anotadas) codificam seqüências de proteínas que 63 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum tem similaridades semelhantes às proteínas de membrana relacionadas ao transporte de outros organismos (Vasconcelos et al., 2003). O número significante de proteínas transportadoras em C. violaceum é certamente um importante fator que marca esta bactéria como um microorganismo dominante em uma variedade de ecossistemas de regiões tropicais e subtropicais e parece estar relacionado à necessidade de adaptação às diversas condições externas. Do ponto de vista biotecnológico, o achado mais importante são os transportadores de metais pesados, que podem levar à exploração da C. violaceum para a biorremediação (Grangeiro et al., 2004). Como um organismo de vida livre, a C. violaceum está exposta a uma variedade de condições, tais como fontes e abundância de nutrientes diferentes, mudanças de temperatura e pH, compostos tóxicos e raios UV. Estas variações e os diversos ambientes requerem uma grande adaptabilidade e um forte sistema de proteção. O seqüenciamento do genoma desta bactéria revelou uma variedade de ORFs associadas a rotas metabólicas alternativas para geração de energia, proteínas relacionadas ao transporte, transdução de sinal, mobilidade celular, secreção e metabolismo secundário (Vascondelos et al., 2003). Adicionalmente, a disponibilidade limitada de ferro em muitos ambientes pode ser superada por quelantes de ferro, proteínas de armazenamento de ferro e por diversas proteínas relacionadas ao metabolismo do ferro no genoma da C. violaceum. Proteínas osmoticamente induzidas, canais transmembrana de água e outras 64 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum porinas podem estar regulando o movimento da água e mantendo o turgor da célula, atividades que tem função importante na adaptação às variações de pressão osmótica. Diversas proteínas relacionadas à tolerância ao estresse contra compostos antimicrobianos, metais pesados, temperatura, ácidos e luz UV, outros que promovem a sobrevivência sob condições de inanição e enzimas capazes de detoxificação de espécies reativas do oxigênio foram também detectadas em C. violaceum. Todas estas características juntas ajudam a explicar a remarcável competitividade e habilidade para sobreviver sob diferentes tipos de estresse ambiental (Hungria et al., 2004). A bactéria C. violaceum possui a característica marcante de produzir um pigmento violeta denominado violaceína que tem demonstrado o seu potencial como atividade antibiótica (Caldas, 1990), antitumoral (Ueda et al., 1994), antiparasitária (Duran et al., 1994; Souza et al., 1999; Leon et al., 2001), antifúngica (Shirata et al., 2000) e antiviral (Duran & Menck, 2001). Além disso, C. violaceum possui a capacidade de biossíntese (polihidroxivalerato ou do homopolímero PHV), bem como de 3-hidroxivalerato outros tipos de polihidroxialcanoatos (PHA’s) (Steinbüchel et al., 1993; Piemolini et al., 2003). Apesar da variedade de metabólitos produzidos por C. violaceum, de interesse médico, e potenciadores de antibióticos, antitumorais e enzimas, o potencial biotecnológico dessa bactéria ainda é pouco estudado, e merece estudos mais aprofundados. Por outro 65 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum lado, é importante relatar que algumas cepas de C. violaceum mostraram resistência a rifampicina e vancomicina, o que pode aumentar o potencial patogênico desta bactéria. Entre os aspectos biológicos interessantes dessa bactéria, já foi descrita, em 1999, sua capacidade de hidrolisar filmes plásticos de celulose, devido, provavelmente, à ação de hidrolases. Processos mais complexos também solubilização de foram ouro. relatados, Acredita-se que como o a desnitrificação cianeto produzido e por processos enzimáticos seja um dos elementos responsáveis pela extração do ouro. Aparentemente, esse método evitaria o uso de mercúrio e a conseqüente contaminação ambiental. Recentemente foi verificado que 53% do ouro poderiam ser extraídos de materiais com baixo teor em ouro (Lawson et al., 1999). Mais uma vez, é importante destacar que existem atualmente patentes destes tópicos. Com o anúncio do seqüenciamento do genoma de C. violaceum por um grupo de laboratórios brasileiros, o país se inclui entre os grupos que realizam clonagem gênica e sequenciamento de DNA dessa bactéria, em estudos iniciados em 1989. De fato, alguns trechos do genoma da C. violaceum, com interesse biotecnológico, já foram seqüenciados. Entre eles, estão os genes envolvidos na biossíntese de violaceína (Pemberton et al., 1991), a hidroxilase de fenilalanina (Onishi et al., 1991), o ácido polihidroxialquílico sintase (Kolibachuk et al., 1999), fragmentos genômicos contendo orfD (homólogo a SoxR de Escherichia coli) (Kolibachuk & Dennis, 1999) e 66 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum seqüências de genes que codificam RNAs ribossomais 16S and 23S (Dewhirst et al., 1989; Turner et al., 1996). Em termos biotecnólogicos, o conhecimento da seqüência dos genes permite desvendar as etapas envolvidas nos processos metabólicos e orientar eventuais melhorias na produtividade de metabólitos. Este conhecimento abre ainda a possibilidade do desenho de novos fármacos ou de inibidores de processos bioquímicos próprios a uma determinada patogenicidade. Obviamente, o interesse comercial desses dados científicos gera a proteção da informação científica por patentes, fato esse que se aplica aos dados de seqüência dos genes já descritos de C. violaceum. Entretanto, ainda há muito por ser descoberto sobre a seqüência de reações e a correlação genética dos processos que resultam na síntese desse pigmento. A violaceína de C. violaceum é codificada por um conjunto único de quatro genes, denominados vioABCD, encontrados em um fragmento de DNA de cerca de 8 Kbp, provavelmente arranjados em um operon. O uso desse fragmento de DNA permitiu a forte expressão heteróloga de violaceína em E.coli e em várias outras bactérias Gram-negativas (Pemberton et al., 1991). A análise da seqüência dos genes dessa via de produção de violaceína indica que vioA, vioC e vioD codificam para monooxigenases dependentes de nucleotídeos. A mutagênese de transposons resultou em um número diferente de fenótipos que variaram de ausência da produção do pigmento (colônias brancas) à formação de pigmentos 67 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum verdes ou violeta claro (e a mesma coloração da colônia). Esses fenótipos dependem do local de inserção do transposon: enquanto inativação dos genes vioA ou vioB, bloqueia completamente a formação do pigmento, a inativação de vioC ou vioD resulta em formação de pigmentos precursores de violaceína (August et al., 2000). O gene da hidroxilase de fenilanina (PHA; fenilalanina 4-monooxigenase) de C. violaceum foi também inteiramente seqüenciado e expresso em E. coli. Curiosamente, a proteína deduzida da seqüência de DNA apresenta muitas características de enzimas de fígado de mamíferos, o que indica um alto grau de conservação desses genes. Entretanto, PHA da C. violaceum é uma enzima monomérica que contém um mol de cobre no sítio ativo, enquanto as enzimas de mamíferos são ativas como um tetrâmero e contém um mol de ferro/subunidade (Onishi et al., 1991). Os ácidos polihidroxilalquílicos são reservas de carbono e energia produzidos em algumas bactérias, quando as fontes de nutrientes chegam a ser limitantes. Alguns desses poliácidos e seus poliésteres têm propriedades físicas similares às de polipropilenos, fazendo eles importantes como fonte de plásticos biodegradáveis de fontes renováveis (por exemplo, o BIO-POL) (Sherwood, 1983). A seqüência do gene responsável pela síntese do RNA ribossomal 16S foi realizada 12 anos atrás (Dewhirst et al., 1989), sendo que, recentemente, foi determinada a seqüência do gene do RNAr 23S (Harmsen & Singer, 1999). Esses genes têm grande 68 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum interesse, pois confirmam a posição filogenética da bactéria C. violaceum dentro do ramo das beta-proteobactérias, da família Neisseriaceae. Outro aspecto interessante da C. violaceum, diz respeito ao fato de ser uma bactéria encontrada livre no meio ambiente. Este fato permite seu contato com outras espécies de bactérias, podendo haver transferências genéticas entre elas. Assim, desvendar o código genético de C. violaceum poderá revelar aspectos não só da história evolutiva da bactéria como um todo, mas também da evolução específica dos seus genes. 69 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 4. Referências Bibliográficas Akashi H (1995) Inferring weak selection from patterns of polymorphism and divergence at silent sites in Drosophila DNA. Genetics 139: 1067-1076. Akashi H (1994) Synonymous codon usage in Drosophila melanogaster natural selection and translational accuracy. Genetics 136: 927-935. Andersson SGE, Buckingham RH and Kurland CG (1984) Does codon composition influence ribosome function? EMBO Journal 3: 9194. Archetti M (2004) Codon Usage Bias and Mutation Constraints Reduce the Level of Error Minimization of the Genetic Code. J Mol Evol 59:258-266. Ardell DH (1998) On error-minimization in a sequential origin of the standard genetic code. J Mol Evol 47: 1–13. Ardell DH and Sella G (2001) On the evolution of redundancy in genetic codes. J Mol Evol 53: 269–281. Ardell DH and Sella G (2002) No accident: genetic code freeze in errorcorrecting patterns of the standard genetic code. Phil Trans R Soc Lond B Biol Soc 357: 1625–1642. August PR, Grossman TH, Minor C, Draper MP, MacNeil IA, Pemberton JM, Call KM, Holt D, Sosburne MS (2000) Sequence analysis and functional characterization of the violacein biosynthetic 70 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum pathway from Chromobacterium violaceum. J Mol Microbiol Biotechnol 2: 513-519. Bagnoli F and Lio P (1995) Selection, mutations and codon usage in a bacterial model. J Theor Biol 173: 271-281. Bennetzen JL and Hall BD (1982) Codon selection in yeast. J Biol Chem 257: 3026-3031. Berg O and Martelius M (1995) Synonymous substitution-rate constants in Escherichia coli and Salmonella typhimurium and their relationship to gene expression and selection pressure. J Mol Evol 41: 449-456. Bernardi G (1993) The vertebrate genome - isochores and evolution. Mol Biol Evol 10: 186-204. Bernardi G, Mouchiroud D, Gautier C, Bernardi G (1988) Compositional patterns in vertebrate genomes: conservation and change in evolution. J Mol Evol 28: 7–18. Bilton BD and Johnson (2000) LW Recurrent nonfatal Chromobacterium violaceum infection in a nonimmunocompromised patient. Infect Med 17: 686-692. Birch RG (1997) Plant transformation: problems and strategies for practical application. Ann Rev Plant Physiol 48: 297–326. Boisbaudran LD (1882) apud Vasconcellos ATR, de Almeida DF, Almeida FC, de Almeida LGP et al (2003) The complete genome sequence of Chromobacterium violaceum reveals remarkable 71 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum and exploitable bacterial adaptability. Proc Natl Acad Sci U.S.A. 100: 11660-11665. Bulmer M (1988) Are codon usage patterns in unicellular organisms determined by selection mutation balance. J Evol Biol 1: 1526. Caldas LR (1990) Um pigmento nas águas negras. Jornal Ciência Hoje 11: 55-57. Chen WM, Laevens S, Lee TM, Coenye T, De Vos P, Mergeay M and Vandamme P (2001) Ralstonia taiwanensis sp. nov., isolated from root nodules of Mimosa species and sputum of a cystic fibrosis patient. Int J Syst Evol Microbiol 51: 1729–1735. Chen GFT and Inouye M (1994) Role of the AGA/AGG codons, the rarest codons in global gene expression in Escherichia coli. Genes Dev 8: 2641-2652. Clusters of Orthologs Genes (COG), http://www.ncbi.nlm.nih.gov/COG. Comeron JM and Aguade M (1998) An evaluation of measures of synonymous codon usage bias. J Mol Evol 47: 268–274. Copley SD, Smith E and Morowitz HJ (2005) A mechanism for the association of amino acids with their codons and the origin of the genetic code. Proc Natl Acad Sci U S A 102: 4442-4447. Crick FHC (1968) The origin of the Genetic Code. J Mol Biol 38: 367379. Crick FHC (1966) Codon-anticodon pairing: The wobble hypothesis. J Mol Biol 19:548–555. 72 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Crick FHC (1965) Recent research in molecular biology: introduction. Br Med Bull 21(3): 183-186. Crick FHC, Barnett L, Brenner S, Watts-Tobin RJ (1961) General nature of the genetic code for proteins. Nature 192: 1227-1232. Curran JF (1995) Decoding with the A-I wobble pair is inefficient. Nucleic Acids Res 23: 683-688. Deschavanne P and Filipski J (1995) Correlation of GC content with replication timing and repair mechanisms in weakly expressed Escherichia coli genes. Nucleic Acids Res 23: 1350-1353. Dewhirst FE, Paster BJ and Bright PL (1989) Chromobacterium, Eikenella, species Kingella, comprise Neisseria, a major Simonsiella and Vitreoscilla branch of the beta-group proteobacteria by 16S ribosomal ribonucleic-acid sequence comparison-transfer of Eikenella and Simonsiella to the family Neisseriaceae (emend.). Intern J System Bacteriol 39: 258266. Duran N and Menck CFM (2001) Chromobacterium violaceum: a review of pharmacological and industrial perspective. Crit Ver Microbiol 27: 201-222. Durán N, Antonio RV, Haun M and Pilli RA (1994) Biosynthesis of a trypanocide by Chromobacterium violaceum. World J Microbiol Biotechnol 10: 686-690. Ehrenberg M and Kurland CG (1984) Costs of accuracy determined by a maximal growth-rate constraint. Q Rev Biophys 17: 45-82. 73 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Estrutura de um RNAt. Disponível em: http://www.designeduniverse .com/articles/Nobel_Prize/trna.jpg Eyre-Walker A and Bulmer M (1995) Synonymous substitution rates in Enterobacteria. Genetics 140: 1407-1412. Eyre-Walker A (1994) Synonymous substitutions are clustered in Enterobacterial genes. J Mol Evol 39: 448-451. Eyre-Walker A and Bulmer M (1993). Reduced synonymous substitution rate at the start of Enterobacterial genes. Nucleic Acids Res 21: 4599-4603. Freeland SJ, Knight RD, Landweber LF and Hurst LD (2000) Early fixation of an optimal genetic code. Mol Biol Evol 17: 511–518. Freeland SJ and Hurst LD (1998) Load minimization of the genetic code: history does not explain the pattern. Proc R Soc Lond B 266: 2111–2119. Fuglsang A (2003) Strong association between gene function and codon usage. APMIS 111: 843-847. Goetz RM and Fuglsang A (2005) Correlation of codon bias measures with mRNA levels: analysis of transcriptome data from Escherichia coli. Biochem Biophys Res Commun 327:4–7. Goodarzi H, Najafabadi HS, Nejad HA and Torabi N (2005) The impact of including tRNA content on the optimality of the genetic code. Bull Math Biol 67:1355-1368. Gouy M (1987). Codon contexts in Enterobacterial and Coliphage genes. Mol Biol Evol 4: 426-444. 74 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Gouy M and Gautier C (1982) Codon usage in bacteria: correlation with gene expressivity. Nucleic Acids Res 10: 7055-7074. Granjeiro TB, Jorge DMM, Bezerra WM, Vasconcelos ATR, Simpson AJG (2004) Transport genes of Chromobacterium violaceum: an overview. Genet Mol Res 3: 117-133. Grantham R, Gautier C, Gouy M, Jacobzone M and Mercier R (1981) Codon catalogue usage is a genome strategy for genome expressivity. Nucleic Acids Res 9: r43-r75. Grantham R, Gautier C and Gouy M (1980a) Codon frequencies in 119 genes confirm consistent choices of degenerate base according to genome type. Nucleic Acids Res 8: 1892-1912. Grantham R, Gautier C, Gouy M, Mercier R and Pave A (1980b) Codon catalog usage and the genome hypothesis. Nucleic Acids Res 8: r49-r62. Greenacre MJ (1984) Theory and applications of correspondence analysis. Academic Press, London. Groisman EA, Sturmoski MA, Solomon FR, Lin R and Ochmann H (1993) Molecular, functional and evolutionary analysis of sequence specific to Salmonella. Proc Natl Acad Sci U S A 90: 10331037. Gutierrez G, Casadesus J, Oliver JL and Marin A (1994) Compositional heterogeneity of the Escherichia coli genome - a role for VSP repair. J Mol Evol 39: 340-346. 75 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Harmsen D and Singer C (1999). Chromobacterium violaceum strain DMS 30191 16S and 23S ribosomal RNA genes. NCBINucleotide AF124618; AJ247211. Hastings KE and Emerson CP Jr (1983) Codon usage in muscle genes and liver genes. J Biol Mol 19: 214-8. Hou ZC and Yang N (2002) Analysis of factors shaping S. Pneumoniae codon usage. Acta Gen Sinica 29 (8): 77-752. Hungria M, Nicolas MF, Guimarães CT, Jardim SN, Gomes EA and Vasconcelos ATR (2004) Tolerance to stress and environmental adaptability of Chromobacterium violaceum. Genet Mol Res 3: 102-116. Ikemura T (1985) Codon usage and transfer-RNA content in unicellular and multicellular organisms. Mol Biol Evol 2: 13-34. Ikemura T (1982) Correlation between the abundance of yeast transfer RNAs and the occurrence of the respective codons in protein genes. Differences in synonymous codon choice patterns of yeast and Escherichia coli with reference to the abundance of isoaccepting transfer RNAs. J Mol Biol 158: 573-597. Ikemura T and Ozeki H (1982) Codon usage and transfer RNA contents: organism specific codon choice patterns in reference to the isoacceptor contents. Cold Spring Harb Symp Quant Biol 47: 1087-1097. Ikemura T (1981a) Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons 76 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum in its protein genes: a proposal for a synonymous codon choice that is optimal for the E. coli system. J Mol Biol 151: 389-409. Ikemura T (1981b) Correlation between the abundance of Escherichia coli transfer RNAs and the occurrence of the respective codons of its protein genes. J Mol Biol 146: 1-21. Imhoff JF (2001) True marine and halophilic anoxygenic phototrophic bacteria. Arch Microbiol 176: 243-254. Jain R, Rivera MC and Lake JA (1999) Horizontal gene transfer among genomes: The complexity hypothesis. Proc Natl Acad Sci USA 96: 3801–3806. Jenkins GM, Pagel M, Gould EA, de A Zanotto PM and Holmes EC (2001) Evolution of base composition and codon usage bias in the genus Flavivirus. J Mol Evol 52: 383-390. Jin H, Bjömsson A and Isaksson LA (2002) Cis control of gene expression in E. coli by ribosome queuing at an inefficient translational stop signal. EMBO J 21 (16): 4357-4367. Jinks-Robertson S and Nomura N (1987) Ribosomes and tRNA. American Society for Microbiology, Washington DC. Kane JF (1995) Effects of rare codon clusters on high-level expression of heterologous proteins in Escherichia coli. Curr Opin Biotechnol 6: 494-500. 77 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Karlin S, Mrazek J and Campbell AM (1998). Codon usages in different classes of the Escherichia coli genome. Mol Microbiol 29: 1341-55. Kimura M (1983) The Neutral Theory of Molecular evolution. Cambridge University Press, Cambridge. Kimura M (1977) Preponderance of synonymous changes as evidence for the neutral theory of molecular evolution. Nature 267: 275-276. Knight RD, Freeland SJ and Landweber LF (1999) Selection, history and chemistry: the three faces of the genetic code. Trends Biochem Sci 24: 241–247. Kolibachuk D and Dennis D (1999) SoxR homolog [Chromobacterium violaceum]. NCBI-Protein AAC69613 AF061445. Kolibachuk D, Miller A and Dennis D (1999) Cloning, molecular analysis and expression of the polyhydroxyalkanoic acid syntase (phaC) gene from Chromobacterium violaceum. Appl Environ Microbiol 65: 3561-3565. Komine Y, Adaki T, Inokuchi H and Ozeki H (1990) Genomic organization and physical mapping of the transfer-RNA Genes in Escherichia coli K12. J Mol Biol 212: 579-598. Koonin EV, Makarova KS and Aravind L (2001) Horizontal gene transfer in prokaryotes: quantification and classification. Ann Rev Microbiol 55: 709-742. 78 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Kurland CG (1991) Codon bias and gene-expression. FEBS Letters 285: 165-169. Kyte J and Doolittle R (1982) A simple method for displaying the hydropathic character of a protein. J Mol Biol 157: 105-132. Lan R and Reeves PR (1996) Gene Transfer is a Major Factor in Bacterial Evolution. Mol Biol Evol 13 (1): 47-55. Lawson EN, Barkhuisen M, Dew DW (1999) Gold solubilization by the cyanide producing bacteria Chromobacterium violaceum. Chem Abstr 131: 239-246. Leon LL, Miranda CC, de Souza AO and Duran N (2001) Antileishmanial activity of the violacein extracted from Chromobacterium violaceum. J Antimicrob Chemother 48: 449-450. Li W-H (1997) Molecular evolution. Sinauer Associate Inc, Sunderland – MA, USA. 487 p. Li W-H (1987) Models of nearly neutral mutations with particular implications for nonrandom usage of synonymous codons. J Mol Evol 24: 337-345. Lobry JR (1996). Asymmetric Substitution Patterns in the Two DNA Strands of Bacteria. Mol Biol Evol 13: 660-5. Lobry JR and Gautier C (1994) Hydrophobicity, expressivity and aromaticity are the major trends of amino acid usage in 999 Escherichia coli chromosome encoded genes. Nucleic Acids Res 22: 3174-3180. 79 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Lynn DJ, Singer GAC and Hickey DA (2002) Synonymous codon usage is subject to selection in thermophilic bacteria. Nucleic Acids Research 30: 4272-4277. Matic I, Rayssiguier C and Radman M (1995) Interspecies gene exchange in bacteria: the role of SOS and mismatch repair systems in evolution of species. Cell 80: 507-515. Matic I, Radman M and Rayssiguier C (1994) Structure of recombinants from conjugational crosses between Escherichia coli donor and mismatch repair deficient Salmonella typhimurium. Genetics 136: 16-26. Miller DP, Blevins WT, Steele DB and Stower MD (1988) A comparative study of virulent and avirulent strains of Chromobacterium violaceum Can. J Microbiol 34: 249-255. Musto H (2001) Estructura y evolucion del genoma de los vertebrados. In: Capítulo 13 de El prisma de la Evolución. Editado por C. Altuna y M. Ubilla. Facultad de Ciencias, UdelaR. McLean MJ, Devine KM and Wolfe KH (1998) Base composition skews, replication orientation, and gene orientation in 12 prokaryotic genomes. J Mol Evol 47: 691–696. Najafabadi HS, Goodarzi H and Torabi N (2005) Optimality of codon usage in Escherichia coli due to load minimization. J Theor Biol 237: 203-9. 80 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Nakamura Y, Gojobori T and Ikemura T (2000) Codon usage tabulated from the intenational DNA sequences databases; its status 1999. Nucleic Acids Res 27: 292. National Center for Biotechnology Information (NCBI), http://www.ncbi.nlm.nih.gov. Medigue C, Rouxel T, Vigier P, Henaut A and Danchin A (1991) Evidence for horizontal gene transfer in Escherichia coli speciation. J Mol Biol 222: 851-856. Naya H, Romero H, Carels N, Zavala A and Musto H (2001) Translational selection shapes codon usage in the GC-rich genomes of Chlamydomonas reinhadtii. FEBS Lett 501: 127130. Nomura M, Sor F, Yamagashi M and Lawson M (1987) Heterogeneity of GC content within a single bacterium and its implications for evolution. Cold Spring Harb Symp Quant Biol 52: 658-663. Onishi A, Liotta LJ and Benkovic SJ (1991) Cloning and expression of Chromobacterium violaceum phenylalanine hydroxylase in Escherichia coli and comparison of amino acid sequence with mammalian aromatic amino acid hydroxylases. J Biol Chem 266: 18454-9. Osawa S and Jukes TH (1989) Codon reassignment (codon capture) in evolution. J Mol Evol 29: 271-278. 81 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Perrière G and Thioulouse J (2002) Use and misuse of correspondence analysis in codon usage studies. Nucleic Acids Res 30 (20): 4548-4555. Perrière G, Gouy M and Gojobori T (1994) NRSUB a nonredundant database for the Bacillus subtilis genome. Nucleic Acids Res 22: 5525-5529. Pemberton JM, Vincent KM and Penfold RJ (1991) Cloning and heterologous expression of the violacein biosynthesis gene cluster from Chromobacterium violaceum. Curr Microbiol 22: 355-358. Piemolini LT, Coral JT, Porto LM and Antônio RV (2003) Identificação de Sítios de PHA Sintases para Estudos de Controle de Comprimento de Cadeia de Polihidroxialcanoatos. In: XIV Simpósio Nacional de Fermentações - Sinaferm2003, Florianópolis/SC. Proteobactérias. Disponível em: http://141.150.157.117:8080/prokPUB /chaphtm /379/02_00.htm. Acessado em: 12/02/2006. Romero H, Zavala A and Musto H (2000) Codon usage in Chlamydia trachomatis is the result of strand-specific mutational biases and a complex pattern of selective forces. Nucleic Acids Res 28: 2084-2090. Saier MJ (1995) Differential codon usage: a safe guard against inappropriate gene expression of specialized genes. FEBS Lett 362: 1-4. 82 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Santos MA, Moura G, Massey SE and Tuite MF (2004) Driving change: the evolution of alternative genetic codes. Trends Genet 20: 95-102. Schultz DW and Yarus M (1994) Transfer RNA mutation and the malleability of the genetic code. J Mol Biol 235: 1377-80. Sella G and Ardell DH (2002) The impact of message on the fitness of a genetic code. J Mol Evol 54: 638–651. Sharp PM, Bailes E, Grocock RJ, Peden JF and Sockett RE (2005). Variation in the strength of selected codon usage bias among bacteria. Nucleic Acids Res 33: 1141–1153. Sharp PM, Averof M, Lloyd AT, Matassi G and Peden JF (1995) DNA sequence evolution: the sounds of silence. Philos Trans R Soc Lond B Biol Sci 349: 241-247. Sharp PM and Matassi G (1994) Codon usage and genome evolution. Curr Opin Genet Dev 4: 851-860. Sharp PM and Lloyd AT (1993) Regional base composition variation along yeast chromosome III evolution of chromosome primary structure. Nucleic Acids Res 21: 179-183. Sharp PM, Stenico M, Peden JF and Lloyd AT (1993) Codon usage mutational bias, translational selection, or both. Biochem Soc Trans 21: 835-841. Sharp PM (1990) Processes of genome evolution reflected by base frequency differences among Serratia marcescens genes. Mol Microbiol 4: 119-122. 83 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Sharp PM and Li WH (1989) On the rate of DNA-sequence - evolution in Drosophila. J Mol Evol 28: 398-402. Sharp PM, Shields DC, Wolfe KH and Li WH (1989) Chromosomal location and evolutionary rate variation in Enterobacterial genes. Science 246: 808-810. Sharp PM and Bulmer M (1988) Selective differences among translation termination codons. Gene 63: 141-145. Sharp PM and Li WH (1987) The codon adaptation index – a measure of directional synonymous codon usage bias, and its potential applications. Nucleic Acids Res 15: 1281-1295. Sharp PM (1986) What can aids virus codon usage tell us. Nature 324: 114. Sharp PM and Li WH (1986) Codon usage in regulatory genes in Escherichia coli does not reflect selection for rare codons. Nucleic Acids Res 14: 7737-7749. Sharp PM, Tuohy TMF and Mosurski KR (1986) Codon usage in yeast cluster-analysis clearly differentiates highly and lowly expressed genes. Nucleic Acids Res 14: 5125-5143. Sherwood M (1983) Bacterial plastic comes to market. Biotech 1: 388389. Shields D (1989) Evolution of codon usage patterns, in Department of Genetics. Trinity College Dublin, Dublin. 84 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Shields DC, Sharp PM, Higgins DG and Wright F (1988) Silent sites in Drosophila genes are not neutral - evidence of selection among synonymous codons. Mol Biol Evol 5: 704-716. Shirata A, Tsukamoto T, Yasui H, Hata T, Hayasaka S, Kojima A, Kato H (2000) Isolation of bacteria producing bluishpurple pigment and use for deyeing. Japan Agric Res Quart 34: 131-140. Smith JM and Smith NH (1986) Site specific codon bias in bacteria. Genetics 142: 1037-1043. Sonneborn TM (1965) Degeneracy of the Genetic Code: Extent, Nature, and Genetic Implications, in Evolving Genes and Proteins. Academic Press, New York, pp. 97–166. Sorensen MA, Kurland CG and Pedersen S (1989) Codon usage determines translation rate in Escherichia coli. J Mol Biol 207: 365-377. Souza AO de, Aily DCG, Sato DN and Durán N (1999) Atividade da violaceína in vitro sobre o Mycobacterium turbeculosis H37RA. Rev Inst Adolfo Lutz 58: 59-62. Stackebrandt E, Rainey FA and Ward-Rainey N (1996) Anoxygenic phototrophy across the phylogenetic spectrum: current understanding and future perspectives. Arch Microbiol 166: 211–223. Steinbüchel A, Debzi EM, Marchessault RH and Timm A (1993) Synthesis and production of poly (3-hydroxyvaleric acid) 85 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum homopolyester by Chromobacterium violaceum. Appl Microbiol Biotech 39:4-5. Stenico M, Lloyd AT and Sharp PM (1994) Codon usage in Caenorhabditis elegans - delineation of translational selection and mutational biases. Nucleic Acids Res 22: 2437-2446. Sueoka N (1992) Directional mutation pressure, selective constraints, and genetic equilibria. J Mol Evol 34: 95-114. Sueoka N (1988) Directional mutational pressure and neutral pressure. Proc Natl Acad Sci U S A 85: 2653-2657. Sueoka N (1962) On the genetic basis of variation and heterogeneity of DNA base composition. Proc Natl Acad Sci U S A 48: 582-592. Tabela do Código Genético Universal. Disponível em: http://www.class. unl.edu/biochem/gp2/gx/image_bank/codon.gif. Taylor FJR and Coates D (1989) The code within the codons. BioSystems 22: 177–187. Turner SJ, Lewis GD, Saul DJ, Baker CS and Rodrigi AG (1996) Chromobacterium violaceum 16S ribosomal RNA, partial sequence spanning the V3-V4 region. NCBI-nucleotide U65966. Ueda H, Nakajima H, Hori Y, Goto T and Okuhara M (1994) Action of FR901228, a novel antitumor bicyclic depsipeptide produced by Chromobacterium violaceum No. 968, on Ha-ras transformed NIH3T3 cells. Biosci Biotechnol Biochem 58: 1579-1583. 86 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Vasconcelos ATR, de Almeida DF, Almeida FC, de Almeida LGP, de Almeida R, Gonçalves JAA, Andrade EM, Antonio RV, Araripe J, de Araujo MFF, et al. (2003) The complete genome sequence of Chromobacterium violaceum reveals remarkable and exploitable bacterial adaptability. Proc Natl Acad Sci U S A 100 (20): 11660-11665. Wong JT (1975) A co-evolution theory of the genetic code. Proc Natl Acad Sci USA 72: 1909–1912. Woese CR (1967) The genetic code: the molecular basis for genetic expression. Harper & Row, New York. Woese CR, Dagre DH, Dagre SA, Kondo M and Saxinger WC (1966) On the fundamental nature and evolution of genetic code. Cold Spring Harb Symp Quant Biol 31: 723–736. Woese CR (1965) On the evolution of the genetic code. Proc Natl Acad Sci USA 54: 1546–1552. Wooley (1905) apud Rettori D (2000) Estudos físico-químicos e biológicos da violaceína: Um pigmento produzido pela Chromobacterium violaceum (Durán N - Orientador), Tese de Doutorado, Instituto de Química, UNICAMP. Wright F (1990) The ‘effective number of codons’ used in a gene. Gene 87: 23-29. Yockey HP (2000) Origin of life on earth and Shannon’s theory of communication. Comput Chem 24:105–123 87 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Yurkov VV and Beatty JT (1998) Aerobic anoxygenic phototrophic bacteria. Microbiol Molec Biol Rev 62: 695-724. Zhuo-Cheng H (2003) Factors affecting codon usage in Yersinia pestis. Acta Bioch Biophys Sinica 35 (6): 580-586. 88 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 5. Manuscrito de Artigo Científico Protein hydrophobicity and codon usage patterns in Chromobacterium violaceum Manuscrito submetido à revista Genetics and Molecular Research ISSN: (1676-5680) (v.6, n. 1, 2007) Submissão em Setembro/2006 89 Ramos, C.P.S. Protein Análise de códons sinônimos em Chromobacterium violaceum hydrophobicity and codon usage patterns in Chromobacterium violaceum Catarina Paula da Silva Ramos1, Tetsuo Tashiro2, Enivaldo Carvalho da Rocha3, Valdir de Queiroz Balbino1, Paulo Paes de Andrade1*. Addresses: 1. Departamento de Genética, Centro de Ciências Biológicas, Universidade Federal de Pernambuco, Cidade Universitária, Recife, Pernambuco, Brasil; 2. Departamento de Educação Física, Universidade Federal de Pernambuco, Cidade Universitária, Recife, Pernambuco, Brasil; 3. Departamento de Ciências Sociais, Centro de Filosofia e Ciências Humanas, Universidade Federal de Pernambuco, Cidade Universitária, Recife, Pernambuco, Brasil. Running title: Codon usage and hidrophobicity in Chromobacterium violaceum 90 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Abstract Biased codon usage may result from various factors. Among prokaryotes, it appears that the influences of natural selection and mutational biases are different if the genome is skewed towards AT or GC. A particular codon subset can often be observed in those genome regions where a maximized translational efficiency is required. Codon usage of a β-proteobacterium, Chromobacterium violaceum, is for the first time reported. The present study was aimed at the identification of the main cause of codon usage variation in C. violaceum ATCC 12472 genome. Correspondence analysis (CoA) on relative synonymous codon usage (RSCU) was used to examine the synonymous codon usage variation among the genes. The results have shown that one of the major determinants of codon bias trends in C. violaceum is, as expected, the G+C content. It shows a direct correlation with the first principal CoA axis. A strong inverse correlation between the effective number of codons (ENc) and GC3s content was also observed, showing that the codon usage was affected by gene nucleotide composition. Hydrophobicity was the second major source of variation and was significantly correlated to the second principal CoA axis. Axis 1 and 2 separated the genome in two gene groups. The minor group seems to be formed mostly by transport proteins, reflecting a putative codon usage bias of these genes. This unusual grouping may reflect the particular environment in which this bacterium dwells (river water) and is possibly related to the special features of α-proteobacterial cell walls and to a proper adaptation to environment variations. Moreover, the strong negative correlation between CAI and ENc reflected the regular use of optimal codons among these genes. Amino acid composition does not have any influence in selecting the codon usage in this organism and does not affect either Fop or CBI. In contrast to what has been observed in α-proteobacteria, strand asymmetry does not seem to influence on amino acid composition or in the number of genes, in the other hand codon usage may have some influence. The similar distribution of genes between leading and lagging strands is possibly due to an optimized translation and a very slow replication, reducing the expected conflict between transcription and replication. The generality of these observations among β-proteobacteria will depend on new studies on this group of microorganisms. Key-words: Correspondence analysis, strand asymmetry, hydrophobicity, transport proteins, adaptation to environment, βproteobacterium. 91 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum *Corresponding author: Paulo Paes de Andrade, Universidade Federal de Pernambuco, Departamento de Genética, Av. Prof. Moraes Rego S/N, Cidade Universitária, Recife, Pernambuco, Brazil, ZIP 50732-970, Fone/fax: (55) 8121268569; E-mail: [email protected] Introduction Most of the 20 natural amino acids are coded by more than one codon, with the exception of methionine and tryptophan. Codon usage for a single amino acid varies both between genes from the same genome as well as among different organisms (Grantham et al., 1980; Ikemura, 1985). The guanine/citosine content (C+C content) in bacteria is rather variable and results from three main factors: (1) different mutation rates between sense and anti-sense DNA strands, since genes on the first strand are GT richer than those from on the latter (Lobry et al., 1996; McLean et al., 1998); (2) codon usages that mirror the aminoacyl-tRNA abundance in a given species (Ikemura, 1985); and (3) horizontal gene transfer, allowing the existence of an atypical skewed codon usage for a specific set of genes when compared to the overall codon usage pattern for the whole genome (Nakamura et al., 2000; Goetz et al., 2005). The higher gene density in the leading strand is commonly observed in most bacterial genomes and especially in rDNA and 92 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum ribosomal protein encoding segments (reviewed by McLean et al., 1998). A particular codon subset can often be observed in those genome regions where a maximized translational efficiency is required (Gouy and Gautier, 1982; Sharp and Li, 1987). Lynn et al. (2002) studied codon usage patterns from 40 bacterial genomes and showed that codon usage was under direct influence of the G+C content and the environment temperature, demonstrating therefore the existence of a clear connection between a particular codon usage pattern and an external selective pressure. Chromobacterium violaceum (Boisbaudran, 1882) is a freeliving Gram-negative β-proteobacteria, belonging to the family Neisseriaceae (Garrity et al., 2001), found in water and soil samples from tropical and sub-tropical regions worldwide (Caldas, 1990). Its most conspicuous product is violacein, a pigment used for therapeutic purposes in dermatological products (Caldas et al., 1978). Violacein also exhibits anti-parasitic activity against important tropical pathogens, as Mycobacterium tuberculosis (Souza et al., 1999), Trypanosoma cruzi (Duran et al., 1994) and Leishmania sp. (Leon et al., 2001), as well as anti-bacterial (Caldas, 1990), anti-viral (Duran and Menck, 2001) and anti-cancer (Ueda et al., 1994) activities. The C. violaceum ATCC 12472 strain genome consists of a single circular 4.57 Mb chromosome containing 8 rRNA operons, 98 tRNA genes and 4,431 ORFs, from which 2,717 (61.3%) code for proteins with putative functions, 958 (21.6%) for hypothetical 93 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum conserved proteins and the rest (17.1%) for hypothetical proteins (Vasconcelos et al., 2003). These ORFs encompass 89% of the genome and must be expressed in such a way as to guarantee the bacteria adaptative success in a wide spectrum of different environmental conditions. C. violaceum genes have a mean length of 954 bp and a 64.83% G+C content (Vasconcelos et al., op. cit.). The present study is the first aimed at the identification of the main causes of codon usage variation in a β-proteobacteria, Chromobacterium violaceum. Material and Methods The sequence C. was violaceum obtained ATCC from 12472 GenBank (NC_005085) genomic (ftp://ftp.ncbi.nih.gov/ genomes/Bacteria). Codon usage analysis was performed with the software CodonW v. 1.4.2 available at http://bioweb.pasteur.fr/seqanal /interfaces/codonw.html. Correspondence analysis (CoA) on relative synonymous codon usage (RSCU) was used to examine the synonymous codon usage variation among the genes without any confounding influence of amino acid composition. All annotated genes with complete ORFs and without internal stop codons were included in the present analysis. For each gene the following features were considered: length, functional categories (according to COG, http://www.ncbi.nlm.nih.gov/COG), G+C 94 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum content (in categories ranging from < 21% to > 80%, in 10% intervals) and strand position (SS - sense strand or AS - antisense strand). The number of codons used in each gene sequence was determined by direct counting from amino acid sequence tables generated by conceptual translation. The following CodonW output indexes were analyzed: G+C content at the third codon position (GC3s); frequency of optimal codons (Fop); number of synonymous codons and total number of synonymous and non-synonymous codons (L_sym and L_aa, respectively); protein hydrophobicity (Gravy score), calculated as the sum of hydrophobicity indexes of each amino acid (Kyte and Doolittle, 1982); effective number of codons (ENC) (Wright, 1990); codon adaptation index (CAI), estimated from codon usage pattern among E. coli ribosomal and elongation factors genes; codon bias index (CBI), as defined by Bennetzen and Hall (1982). The overall information was compiled in a tabulated form and analyzed the help of the SPSS software for Windows (v.11.0) available at http://www.spss.com. In order to analyze the influence of gene strand position in codon usage genes were separated according to their location in the leading (total 2101 genes) and lagging (total 2306 genes) strands in a cumulative codon usage table. The correlation between codon usage and amino acid usage indexes (ENc, GC3s, GC, Gravy, CBI, Fop, CAI), as well as the principal axes contributions generated by the correspondence analysis were graphically displayed. 95 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Square 2 X 2 contingency tables were produced with the total number of occurrences for each codon in the first column and total number of available synonymous codons in the second column. Significance was evaluated by the χ-square test for the 59 codons at 5% level. Results The total number of codons in the lagging and leading strands were 736,495 and 665,853, summing up 1.402,348 codons. A CoA of RSCU values was conducted, in which the first four axes accounted for 49.4% of the total inertia of the 59-dimensional space. The first axis accounted for 20.1%, whereas the second axis only accounted for 12.2% and the two next axes for 17%. The position of each gene on the plane defined by the two first axes is displayed in Figure 1A. Two sets of genes were clearly demonstrated, a larger set and a smaller one, separated by second axis values. There was a strong positive correlation between gene position along the first axis and G+C content (r = 0.610, p<0.0001) (Figure 1B). The second axis displayed a strong correlation (r = - 0.720, p<0.0001) to protein hydrophobicity and was responsible for the separation of the two gene sets (Figure 1C). 96 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Figure 1. (A) Distribution of C. violaceum genes in the plane defined by the first two main axes of the CoA of RSCU values; (B) Correlation between first axis values and G+C content; (C) Correlation between second axis values and hydrophobicity (Gravy score). The smaller set of genes is formed mostly by genes responsible for the synthesis of transport proteins (53.3%), mainly of inorganic ions, carbohydrates and amino acids. On the other hand, genes for proteins involved in replication, transcription and translation were scarce, accounting for only 0.41%. When the COG categories for the genes belonging to the larger or the smaller groups were compared, 97 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum there was a patent difference of gene frequencies corresponding to transport-related proteins in the two sets (Figure 2). Figure 2. Gene frequencies on the 18 COG categories for the two C. violaceum gene subsets generated by CoA second axis/hydrophobicity values. Letters on the x-axis denote COG categories. In order to evaluate the influence of replication associated to mutational pressures on the amino acid composition of C. violaceum proteins, values of the relative amino acid usage were compared between proteins coded by genes on the leading and lagging strands. There were no significant differences (p<0.0001) between amino acid usage on both strands (data not shown). 98 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum The mean GC3s values on the leading and lagging strands were respectively 83.52% and 83.21%, while mean ENc values were 34.45 and 34.40, respectively, again without significant differences. The codon usage patterns for the two strands are shown in Table 1. Differences on codon usage were highly significant for only 13 codons: on the leading strand ACG (coding for threonine) had an increased use in relation to the lagging strand, whereas 12 codons ending on A or on U had an increase used in relation to the leading strand. As for the whole set of codons in the genome, as expected by the C. violaceum G+C content, there is a preference for codons terminated by C or G on both strands. Table 1. Comparison of codon usage on leading and lagging strands in C. violaceum genome. AA Phe Leu Ile Codon Leading Lagging Strand Strand N RSCU 1/1000 N RSCU 1/1000 UUU 3054 0.266 04.6 3490 0.278 04.7 UUC* 19895 1.734 29.9 21642 1.722 29.4 UUA+ 552 0.043 0.80 805 0.057 1.10 UUG 8538 0.671 12.8 9540 0.676 13.0 CUU 1954 0.153 02.9 2263 0.160 03.1 CUC 5668 0.445 08.5 6545 0.464 08.9 CUA 1002 0.079 01.5 1156 0.082 01.6 CUG* 58668 4.609 88.1 64382 4.561 87.4 AUU+ 3194 0.325 04.8 3713 0.345 05.0 AUC* 23975 2.439 36.0 26002 2.419 35.3 AUA 2321 0.236 03.5 2532 0.236 03.4 99 Ramos, C.P.S. AA Análise de códons sinônimos em Chromobacterium violaceum Codon Leading Lagging Strand Strand N RSCU 1/1000 N RSCU 1/1000 Met AUG 15915 1.000 23.9 17629 1.000 23.9 Val GUU 2303 0.206 03.5 2707 0.217 03.7 GUC 13855 1.237 20.8 15463 1.241 21.0 GUA 1771 0.158 02.7 2076 0.167 02.8 GUG* 26855 2.399 40.3 29595 2.375 40.2 UAU 4518 0.539 06.8 4864 0.543 06.6 UAC* 12246 1.461 18.4 13067 1.457 17.7 UAA 497 0.710 00.7 567 0.738 00.8 UAG 276 0.394 00.4 293 0.381 00.4 CAU 5134 0.701 07.7 5680 0.711 07.7 CAC* 9508 1.299 14.3 10305 1.289 14.0 CAA+ 5449 0.377 08.2 6425 0.396 08.7 CAG* 23434 1.623 35.2 26022 1.604 35.3 AAU 5090 0.539 07.6 5919 0.559 08.0 AAC* 13807 1.461 20.7 15272 1.441 20.7 AAA+ 4892 0.411 07.3 5875 0.445 08.0 AAG* 18909 1.589 28.4 20521 1.555 27.9 GAU 8526 0.472 12.8 9681 0.484 13.1 GAC* 27573 1.528 41.4 30287 1.516 41.1 GAA 14627 0.815 22.0 16081 0.819 21.8 GAG* 21278 1.185 32.0 23206 1.181 31.5 UCU+ 1143 0.184 01.7 1411 0.203 01.9 UCC 9923 1.598 14.9 10903 1.570 14.8 UCA 924 0.149 01.4 1005 0.145 01.4 UCG 8702 1.401 13.1 9769 1.407 13.3 CCU 1896 0.228 02.8 2184 0.242 03.0 CCC 8466 1.019 12.7 9057 1.003 12.3 CCA+ 1559 0.188 02.3 1827 0.202 02.5 CCG* 21316 2.565 32.0 23036 2.552 31.3 Tyr Ter His Gln Asn Lys Asp Glu Ser Pro 100 Ramos, C.P.S. AA Análise de códons sinônimos em Chromobacterium violaceum Codon Leading Lagging Strand Strand N RSCU 1/1000 N RSCU 1/1000 ACU 1443 0.204 02.2 1700 0.219 02.3 ACC* 18153 2.566 27.3 20103 2.586 27.3 ACA+ 962 0.136 01.4 1163 0.150 01.6 ACG+ 7741 1.094 11.6 8129 1.046 11.0 GCU+ 3944 0.192 05.9 4654 0.201 06.3 GCC* 42830 2.087 64.3 48152 2.083 65.4 GCA+ 3092 0.151 04.6 3754 0.162 05.1 GCG 32239 1.571 48.4 35910 1.553 48.8 UGU 715 0.207 01.1 759 0.203 01.0 UGC* 6201 1.793 09.3 6737 1.797 09.1 Ter UGA* 1328 1.896 02.0 1446 1.881 02.0 Trp UGG 9802 1.000 14.7 10715 1.000 14.5 Arg CGU+ 2679 0.350 04.0 3149 0.377 04.3 CGC* 29117 3.803 43.7 31558 3.776 42.8 CGA 1419 0.185 02.1 1643 0.197 02.2 CGG 9668 1.263 14.5 10217 1.223 13.9 AGU 1137 0.183 01.7 1325 0.191 01.8 AGC* 15437 2.485 23.2 17245 2.484 23.4 AGA+ 776 0.101 01.2 1001 0.120 01.4 AGG 2274 0.297 03.4 2572 0.308 03.5 GGU+ 2813 0.202 04.2 3444 0.223 04.7 GGC* 45239 3.250 67.9 49856 3.229 67.7 GGA 3085 0.222 04.6 3519 0.228 04.8 GGG 4546 0.327 06.8 4947 0.320 06.7 Thr Ala Cys Ser Arg Gly An asterisk (*) indicates that the codon is more often used by the amino acid on the leading and lagging strands. A plus (+) represents the 13 codons which presented a significant difference in face of the strands use (p<0.05). N is the codon frequency and RSCU is the relative synonymous codon usage. The total number of codons to the leading strand is 665853 and to the lagging strand 736495. The absence of any 101 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum symbol after a codon indicates that there is no significant difference in usage of that particular codon on either strand. AA, amino acid. The relation between GC3s and ENc for the complete C. violaceum gene set is displayed in Figure 3. GC3s values were inversely correlated to the differential use of codons (r = -0.836, p<0.0001). The majority of the genes have Enc values varying from 25 to 45, and GC3s values between 0.75 and 0.98, reflecting the C. violaceum high GC content. Figure 3. Correlation between ENc and GC3s values for all C. violaceum ORFs. A strong inverse correlation can be observed. Codon usage bias is frequently related to expression patterns of the related gene products. Highly expressed proteins have usually a CBI value > 0.2. Figure 4 displays the codon bias for all C. violaceum 102 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum genes. Most of the genes have CBI values larger than 0.2, suggesting that also for C. violaceum the most used codons are those found in highly expressed genes. Figure 4. Codon bias index in C. violaceum genome. There is a trend toward CBI values higher than 0.2. The pairwise analysis of CAI, Fop and CBI indexes showed that they are closely related to each other. To investigate if the translational selection has any influence on C. violaceum codon usage, a CoA between CAI expression values and the effective number of codons was performed for all 4,407 genes. CAI and Enc displayed a strong inverse correlation (r = -0.746, 103 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum p<0.0001), as displayed in Figure 5, reflecting the choice for optimal codons in C. violaceum genome. .7 .6 .5 .4 .3 CAI .2 .1 20 30 40 50 60 70 ENc Figure 5. Correlation between CAI and ENc on RSCU values for all C. violaceum genes. When the distribution of synonymous codons along the two principal CoA axes was examined, it was clear that codons ending in A or U clustered at the left side of the plane (with the exception of GAA, coding for glutamine), while those ending in G or C clustered at the right side (with the exceptions of AGG, UUG and GGG, coding for lysine, leucine and glycine, respectively) (Figure 6). 104 Ramos, C.P.S. .8 Análise de códons sinônimos em Chromobacterium violaceum UUA .6 AAA ACA AAG AAC UCA .4 ACU AUU AAU CUA UCU AGU .2 GUA AUA GCA GUU UAU CAA AGA 0.0 UUU GGU CUU GCU CCA UGUCCU -.2 GGA GAU CGU AUC UAC GAAUCC GAC UUC GUC AGC GUG CAC GGC GCC UCG CAG GAG ACG CUC CCG CGC CCC CUG UGC CAU GCG UUG -.4 CGA Axis 2 ACC -.6 -.8 -3.0 GGG AGG CGG -2.5 -2.0 -1.5 -1.0 -.5 0.0 .5 Axis 1 Figure 6. Distribution of codons along the first two main CoA axes for C. violaceum. Discussion Analysis of synonymous codon usage in bacteria have been restricted to alpha-proteobacteria and this is, to the best of our knowledge, the first report on such a study in a beta-proteobacterium, C. violaceum. In the present study, two gene groups were separated by correspondence analysis of codon usage, in the plane determined by the first two axes. Lynn et al. (2002) found a strong correlation between the first CoA axis and the G+C content in GC-rich genomes, like Mycobacterium tuberculosis and Pseudomonas aeruginosa. 105 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum This is also the case of C. violaceum, as a clear direct correlation between horizontal axis values and G+C content was observed for the whole genome. On the other hand, the second axis is related to protein hydrophobicity, as observed for other bacteria (Peden, 1999; Banerjee et al., 2004; Gupta et al., 2004; Liu et al., 2004; Das et al., 2006). These results suggest that the smaller gene group, generated by the CoA, contains a large proportion of highly hydrophobic proteins. When the COG categories for a randomly selected set of genes belonging to both groups were compared, the smaller group was clearly enriched in genes encoding transport proteins, mostly for inorganic ions, carbohydrates and amino acids, while the larger group was richer in soluble proteins related to replication, transcription and translation processes and to general metabolic functions. Moreover, also the R category, listed at COG as of general function, but described at the NCBI as related to transport, is also increased in the smaller group. A possible explanation for the existence of this particular subset of genes may be the composition of C. violaceum cellular wall, rich in peptidoglycans, that confers a highly stable cell form and protects the cytoplasm from changes in osmotic pressure. The petidoglycan is localized in the peri-plasmic space, between the cytoplasmic membrane and the external membrane. In the peri-plasmic membranes there is also a set of important proteins either hydrolytic (phosphatases, nucleases, proteases, etc.) or involved in the binding 106 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum and transport of nutrients, as well as enzymes able to inactivate antibacterial compounds (Burnett and Schuster, 1982; Nisengard and Newman, 1994). The presence of transport proteins among the most hydrophobic proteins in the bacterial genome was observed in other organisms (Peden, 1999). In effect, irrespective of their G+C content and phylogenetic relationship, bacteria usually display two sets of proteins, the smaller one constituted mainly of membrane-associated proteins, and coded by T2- rich and A2-poor codons and, therefore, more hydrophobic (Das et al., 2005b). However, in C. violaceum transport proteins constitute a separate group in the correspondence analysis, clearly separated from the rest of the proteins, what may reflect a special adaptative mechanism to environmental conditions. Opposite to what was observed in other bacterial genomes, the amino acid usage in the two strands in C. violaceum genome does not differ. Das et al. (2005a) demonstrated that amino acid usage was influenced by the asymmetric composition of bases in the leading and lagging strands in two Bartonella species. Borrelia burgdorferi (McInerney, 1998) and Treponema pallidum (Lafay et al., 1999) displayed significant differences in both codon and amino acid usages when the genes from the two strands were compared, the differences being originated by strand-specific mutational biases. On the other hand, the same authors could not demonstrate any influence of translational selection on the use of synonymous codons in highly 107 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum expressed gene in both species, suggesting that the asymmetric replication, together with the transcription selection, are probably the main source of variation of codon usage variation. In fact, DNA replication is semi-conservative and asymmetric, since one new strand has an uninterrupted synthesis (the leading strand), while the other is completed in short consecutive fragments (the lagging strand) (Alberts, 2003). Brewer (1988) proposed that gene density in a given strand is the result of a demand to optimize the replication fork speed along the DNA: highly expressed genes would tend to be positioned over the leading strand, favoring an increased fork speed and less transcript loss. An alternative hypothesis states that a selective pressure is exerted by the conflict of the replication and transcription antagonic directions, in particular in multigenic operons (Price et al., 2005). Both hypotheses may be true for Borrelia and Treponema. Also in the endosymbiotic bacterium Blochmannia floridanus replication and transcription answer for most codon usage variation, while the use of GC rich codons in highly expressed amino acids and the hydrophobicity of gene products are the main source of variation in the amino acid use (Banerjee et al., 2004). Miranda et al. (2000) analysed the Mycobacterium tuberculosis and Mycobacterium leprae and saw that they have a very low growth rate, and translational selection could not be as determinant in their codon preferences as it is in other fast-growing bacteria. Indeed, 108 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum principal components analysis of codon usage from the set of homologous genes revealed that the codon choices in M. tuberculosis and M. leprae are correlated not only with compositional constraints and translational selection, but also with the degree of amino acid conservation and the hydrophobicity of the encoded proteins. Smolka et al. (2003) analyzed the Xylella fastidiosa proteome and related its very slow growth to the lack of an optimized use of its tRNAs, evidenced by very low CBI values for most genes. A previous study of the X. fastidiosa genome from our group has show that the codon usage on RSCU values on both strands has differences for 32 codons in 59 codons (data not shown). In a different way, C. violaceum has only 13 codons differentially used in either the leading or the lagging strands, 12 of them more frequently used in the lagging strand. A possible explanation is that, although C. violaceum is a slow growing bacterium, like X. fastidiosa, it has a codon usage pattern corresponding to the most abundant tRNAs and, therefore, can ensure a faster, more effective translation that X. fastidiosa, which has CBI values below zero for most of their genes (Smolka et al., 2003). The slow translation rate would force X. fastidiosa to more frequently transcribe its genes to ensure a proper protein level, what would led to a conflict between transcription and translation, and hece strand asymmetry, while this conflict would be avoided by C. violaceum due to its optimized codon usage. 109 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum The correlation between GC3s and ENc was observed in many bacterial genomes (Liu et al., 2004; Das et al., 2006). The correlation for C. violaceum fits well to the expected theoretical curve, particularly for GC-rich genes displaying a low ENc. Most of the genes fit this curve and those outside the expected curve are possibly those with low CBI values, pointing towards heterogeneity in the adaptation of codon usage. In many bacterial genomes it was observed that the codon bias is related to expression patterns (Gouy and Gautier, 1982; Sharp et al., 1986; Gygi et al., 2000), highly expressed genes having CBI values > 0.2. Most C. violaceum genes have CBI values > 0.2, reflecting a co-adaptation between codon usage and tRNA abundance in order to optimize the efficiency of protein synthesis, as observed in other bacterial genomes (Moriyama and Powell, 1997; Kanaya et al., 1999; Duret, 2000). According to Sharp et al. (1993), highly expressed genes tend to use optimal codons to increase translational accuracy and efficiency. In C. violaceum, the first axis of RSCU CoA separates codons in two groups, and the G or C-ending codons group together and are possibly used in the most expressed genes. Codon optimization can only be successful if a strong correlation between CAI and ENc exists and highly expressed genes usually use G or C-ending codons (Fuglsang, 2003; Liu et al., 2004). C. violaceum displays a strong correlation between CAI and ENc. 110 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum In conclusion, the codon usage pattern in C. violaceum contrasts to other patterns described for alpha-proteobacteria. This study demonstrated the existence of a group of genes coding for highly hydrophobic proteins that may be related to the particular environmental stress faced by the bacterium in river waters and other water collections. There were no differences in gene distribution or codon usage among the leading and lagging strands, pointing towards the absence of a conflict between transcription and replication, possibly solved by an optimized translation coupled to a very slow replication. The generalization of these conclusions to other beta-proteobacteria depends on new studies with this group of prokaryotes. 111 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Bibliography Alberts B (2003). DNA replication and recombination. Nature 421: 431435. Banerjee T, Basak S, Gupta SK, Ghosh TC (2004). Evolutionary Forces in Shaping the Codon and Amino Acid Usages in Blochmannia floridanus. J. Biomol. Struct. Dyn., 22: 13-24. Bennetzen JL and Hall BD (1982). Codon selection in yeast. J. Biol. Chem., 257: 3026-3031. Boisbaudran LD (1882) apud Vasconcellos ATR, de Almeida DF, Almeida FC, de Almeida LGP et al (2003). The complete genome sequence of Chromobacterium violaceum reveals remarkable and exploitable bacterial adaptability. Proc. Natl. Acad. Sc.i U.S.A., 100: 11660-11665. Brewer BJ (1988). When polymerases collide: replication and the transcriptional organization of the E. coli chromosome. Cell, 53: 679-86. Burnett GW and Schuster GS (1982). Microbiologia Oral e Enfermidade infecciosas. Panamericana, Buenos Aires, Argentina. Caldas LR, Leitão AAC, Santos SM and Tyrrell RM (1978). Preliminary experiments on the photobiological properties of violacein. In: Proceedings of the International Symposium on Current Topics in Radiology and Photobiology (Tyrrell RM, ed.). Academia Brasileira de Ciências, Rio de Janeiro, pp. 121–126. 112 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Caldas LR (1990). Um pigmento nas águas negras. Jornal Ciencia Hoje, 11: 55-57. Das S, Paul S, Chatterjee S and Dutta C (2005a). Codon and Amino Acid Usage in Two Major Human Pathogens of Genus Bartonella - Optimization Between Replicational-Transcriptional Selection, Translational Control and Cost Minimization. DNA Research, 12: 91–102. Das S, Ghosh S, Pan A and Dutta C (2005b). Compositional variation in bacterial genes and proteins with potential expression level. FEBS Lett., 579:5205-10. Das S, Paul S and Dutta C (2006). Synonymous codon usage in adenoviruses: Influence of mutation, selection and protein hydropathy. Virus Res., 117: 227–236 Durán N, Antonio RV, Haun M and Pilli RA (1994). Biosynthesis of a trypanocide by Chromobacterium violaceum. World J. Microbiol. Biotechnol., 10: 686-690. Duran N and Menck CFM (2001). Chromobacterium violaceum: a review of pharmacological and industrial perspective. Crit. Rev. Microbiol., 27: 201-222. Duret L (2000). tRNA gene number and codon usage in the C. elegans genome are co-adapted for optimal translation of highly expressed genes. Trends Genet., 16: 287-289. 113 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Fuglsang A (2003). Lactic acid bacteria as prime candidates for codon optimization. Biochem. Biophys. Res. Commun., 312: 285– 291. Garrity GM, Winters M and Searles DB (2001). Taxonomic outline of the prokaryotic genera, Bergey’s Manual of Systematic Bacteriology. 2nd ed. Springer-Verlag, New York, NY, USA, pp. 1-39. Goetz RM and Fuglsang A (2005). Correlation of codon bias measures with mRNA levels: analysis of transcriptome data from Escherichia coli. Biochem. Biophys. Res. Commun., 327:4–7. Gouy M and Gautier C (1982). Codon usage in bacteria: correlation with gene expressivity. Nucleic. Acids Res.,10: 7055-7074. Gupta SK, Bhattacharvva TK and Ghosh TC (2004). Synonymous codon usage in Lactococcus lactis: mutational bias versus translational selection. J. Biol. Struct. Dyn., 21: 527-536. Grantham R, Gautier C, Gouy M, Mercier R et al (1980). Codon catalog usage and the genome hypothesis. Nucleic. Acids Res., 8: 4962. Gygi SP, Corthals GL, Zhang Y, Rochon Y et al (2000). Evaluation of two-dimensional gel electrophoresis-based proteome analysis technology. Proc. Natl. Acad. Sci. U.S.A, 97: 9390-9395. Ikemura T (1985). Codon usage and tRNA content in unicellular and multicelluar organisms. Mol. Biol. Evol., 2: 13-14. 114 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Kanaya S, Yamada Y, Kudo Y and Ikemura T (1999). Studies of codon usage and tRNA genes of 18 unicellular organisms and quantification of Bacillus subtilis tRNAs. Gene, 238: 143-155. Kyte J and Doolittle R (1982). A simple method for displaying the hydropathic character of a protein. J. Mol. Biol., 157: 105-132. Lafay B, Lloyd AT, McLean MJ, Devine KM et al (1999). Proteome composition and codon usage in spirochaetes: species-specific and DNA strand-specific mutational biases. Nucleic. Acids Res., 27: 1642-1649. Leon LL, Miranda CC, de Souza AO and Duran N (2001). Antileishmanial activity of the violacein extracted from Chromobacterium violaceum. J. Antimicrob. Chemother., 48: 449-450. Liu Q, Feng Y and Xue Q (2004). Analysis of factors shaping codon usage in the mitochondrion genome of Oryza sativa. Mitochondrion, 4: 313–320. Lobry JR (1996). Asymmetric substitution patterns in the two DNA strands of bacteria. Mol. Biol. Evol., 13: 660–665. Lynn DJ, Singer GAC and Hickey DA (2002). Synonymous codon usage is subject to selection in thermophilic bacteria. Nucleic Acids Res., 30: 4272-4277. McInerney JO (1998). Replicational and transcriptional selection on codon usage in Borrelia burgdorferi. Proc. Natl. Acad. Sci. USA, 95: 10698-10703. 115 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum McLean MJ, Devine KM and Wolfe KH (1998). Base composition skews, replication orientation, and gene orientation in 12 prokaryotic genomes. J. Mol. Evol., 47: 691–696. Miranda AB, Alvarez-Valin F, Jabbari K, (2000). Degrave WM and Bernardi G Gene Expression, Amino Acid Conservation, and Hydrophobicity are the Main Factors Shaping Codon Preferences in Mycobacterium tuberculosis and Mycobacterium leprae. J. Mol. Evol., 50: 45-55. Moriyama EN and Powell JR (1997). Codon usage bias and tRNA abundance in Drosophila. J. Mol. Evol., 45: 514-523. Nakamura Y, Gojobori T and Ikemura T (2000). Codon usage tabulated from the intenational DNA sequences databases; its status 1999. Nucleic. Acids Res., 27: 292. Nisengard RJ and Newman MG (1994). Oral Microbiology and Immunology. 2ª ed. Philadelphia, Sauders, USA. Peden JF (1999). Analysis of codon usage. PhD Thesis, University of Nottingham, UK. Price MN, Alm EJ and Arkin AP. Interruptions in gene expression drive highly expressed operons to the leading strand of DNA replication (2005). Nucleic. Acids Res., 33: 3224-3234. Sharp PM, Tuohy TMF and Mosurski KR (1986). Codon usage in yeast: cluster analysis clearly differentiates highly and lowly expressed genes. Nucleic. Acids Res., 14: 5125-5143. 116 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Sharp PM and Li WH (1987) The codon adaptation index – a measure of directional synonimous codon usage bias, and its potential applications. Nucleic. Acids Res., 15: 1281-1295. Sharp PM, Stenico M, Peden JF and Lloyd AT (1993). Codon usage: mutational bias, translational selection, or both? Biochem. Soc. Trans., 21: 835-841. Smolka MB, Martins D, Winck FV, Santoro CE, Ferrari F, Brum IJ et al (2003). Proteome analysis of the plant pathogen Xylella fastidiosa reveals major cellular and extracellular proteins and a peculiar codon bias distribution. Proteomics, 3: 224-237. Souza AO de, Aily DCG, Sato DN and Durán N (1999). Atividade da violaceína in vitro sobre o Mycobacterium turbeculosis H37RA. Rev. Inst. Adolfo Lutz, 58: 59-62. SPSS para Windows (versão 11.0) Disponível em: www.spss.com. Ueda H, Nakajima H, Hori Y, Goto T and Okuhara M (1994). Action of FR901228, a novel antitumor bicyclic depsipeptide produced by Chromobacterium violaceum No. 968, on Ha-ras transformed NIH3T3 cells. Biosci. Biotechnol. Biochem., 58: 1579-1583. Vasconcelos ATR, de Almeida DF, Almeida FC, de Almeida LGP et al (2003). The complete genome sequence of Chromobacterium violaceum reveals remarkable and exploitable bacterial adaptability. Proc Natl Acad Sci U.S.A., 100: 11660-11665. 117 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Wright F (1990) The ‘effective number of codons’ used in a gene. Gene, 87: 23-29. 118 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Abstract Biased codon usage may result from various factors. Among prokaryotes, it appears that the influences of natural selection and mutational biases are different if the genome is skewed towards AT or GC. A particular codon subset can often be observed in those genome regions where a maximized translational efficiency is required. Codon usage of a β-proteobacterium, Chromobacterium violaceum, is for the first time reported. The present study was aimed at the identification of the main cause of codon usage variation in C. violaceum ATCC 12472 genome. Correspondence analysis (CoA) on relative synonymous codon usage (RSCU) was used to examine the synonymous codon usage variation among the genes. The results have shown that one of the major determinants of codon bias trends in C. violaceum is, as expected, the G+C content. It shows a direct correlation with the first principal CoA axis. A strong inverse correlation between the effective number of codons (ENc) and GC3s content was also observed, showing that the codon usage was affected by gene nucleotide composition. Hydrophobicity was the second major source of variation and was significantly correlated to the second principal CoA axis. Axis 1 and 2 separated the genome in two gene groups. The minor group seems to be formed mostly by transport proteins, reflecting a putative codon usage bias of these genes. This unusual grouping may reflect the particular environment in which this bacterium dwells (river water) and is possibly related to the special features of α-proteobacterial cell walls and to a proper adaptation to environment variations. Moreover, the strong negative correlation between CAI and ENc reflected the regular use of optimal codons among these genes. Amino acid composition does not have any influence in selecting the codon usage in this organism and does not affect either Fop or CBI. In contrast to what has been observed in α-proteobacteria, strand asymmetry does not seem to influence on amino acid composition or in the number of genes, in the other hand codon usage may have some influence. The similar distribution of genes between leading and lagging strands is possibly due to an optimized translation and a very slow replication, reducing the expected conflict between transcription and replication. The generality of these observations among β-proteobacteria will depend on new studies on this group of microorganisms. Key-words: Correspondence analysis, strand asymmetry, hydrophobicity, transport proteins, adaptation to environment, βproteobacterium. 119 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 7. Conclusões 1. As características encontradas no uso de códons em C. violaceum contrastam com aquelas observadas em alfa-proteobactérias; 2. O estudo do uso de códons da C. violaceum demostrou a existência de um conjunto de genes de proteínas transportadoras e parece estar relacionado com o mecanismo de adaptação da bactéria ao meio ambiente (água); 3. Não houve distribuição desigual dos genes nas fitas contínua e descontínua, o que aponta para ausência de conflito entre transcrição e replicação, provavelmente devido a uma tradução optimizada e a uma replicação muito lenta; 4. A generalidade destas observações entre beta-proteobactérias dependerá de novos estudos com este grupo de microrganismos. 120 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 8. Anexos 121 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 8.1. Instruções para Autores Revista Genetics and Molecular Biology ISSN 1415-4757 Ribeirão Preto, Brasil Genetics and Molecular Biology (Instructions to authors) ISSN 1415-4757 (printed version) ISSN 1678-4685 (online version) Scope and Policy Genetics and Molecular Biology (formerly named Revista Brasileira de Genética/Brazilian Journal of Genetics - ISSN 0100-8455) is published quarterly by the Sociedade Brasileira de Genética (Brazilian Society of Genetics). The Journal considers contributions that present the results of original research in genetics, evolution and related scientific disciplines. Although Genetics and Molecular Biology is an official publication of the Brazilian Society of Genetics, contributors are not required to be members of the Society. It is a fundamental condition that submitted manuscripts have not been and will not be published elsewhere. With the acceptance of a manuscript for publication, the publishers acquire full and exclusive copyright for all languages and countries. Manuscripts considered in conformity with the scope of the journal as judged by the Editor in conjunction with the Editorial Board are reviewed by the Associate Editors and two or more external reviewers. Acceptance by the Editor is based on the quality of the work as substantial contribution to the field and on the overall presentation of the manuscript. Submission of Papers 1. Manuscripts should be submitted to Fábio de Melo Sene, Editor-in-Chief in the address below. 2. A submission package sent to the Editorial Office must contain: a) A cover letter signed by all authors stating that they have approved the submission of the manuscript and that the findings have not been published or are not under consideration for publication elsewhere; b) A copy of the manuscript, including original figures. c) A copy of any unpublished or in-press companion articles referred to in the submission. d) A copy of the text, tables and figures on a disk. Be sure that the disk is adequately protected. Formats for text are Word or RTF, in Windows platform. Images in TIFF or JPEG formats should be sent in separate files (For Figures, see detailed instructions in 3.1.g). Disk must be labeled with the first author's last name, platform and software. (See detailed instructions below). Failure to adhere to these 122 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum guidelines can delay the handling of your contribution, and manuscripts may be returned before being reviewed. 3. Categories of Contribution 3.1. Research Articles Manuscripts must be written in English in double-spaced, 12-point type throughout, including the References Cited section, appendices, tables and legends; printed on one side only of A4 paper with 2.5 cm margins; marked with consecutive page numbers, beginning with the cover page. The following elements must start on a new page and be ordered as they are listed below: a) The title page must contain: a concise and informative title; the authors' names (first name at full length); the authors' institutional affiliation, including department, institution, city, state or province and country; different affiliations indicated with superscript numbers; a short running title of about 35 characters, including spaces; up to five key words; the corresponding author's name, postal address, phone and fax numbers and email address. The corresponding author is the person responsible for checking the page proofs, arranging for the payment of color illustrations and author's alteration charges. b) The Abstract must be a single paragraph that does not exceed 200 words and summarizes the main results and conclusions of the study. It should not contain references. c) The text must be as succinct as possible. Text citations: articles should be referred to by authors' surnames and date of publication; citations with two authors must include both names; in citations with three or more authors, name the first author and use "et al". Only articles that are published or in press should be cited. In the case of personal communications or unpublished results, all contributors must be listed by initials and last name ("et al" should not be used). Numbers: In the text, numbers nine or less must be written out except as part of a date, a fraction or decimal, a percentage, or a unit of measurement. Use Arabic numerals for numbers larger than nine. Avoid starting a sentence with a number. Binomial Names: Latin names of genera, species and intraspecific taxa in the text must be printed in italics; names of orders and families should be in the Title. The text includes the following elements: Introduction - Description of the background that led to the study. Material (or Subjects) and Methods - Details relevant to the conduct of the study. Statistical methods should be explained at the end of this section. Results - Undue repetition in text and tables should be avoided. Comment on significance of results is appropriate but broader discussion should be part of the Discussion section. Discussion - The findings of the study should be placed in context of relevant published data. Ideas presented in other publications should not be discussed solely to make an exhaustive presentation. Some manuscripts may require different formats appropriate to their content. d) The Acknowledgments must be a single paragraph that immediately follows the discussion and includes references to grant support. e) The References Section: citations must be ordered alphabetically by the first author; only articles that are published or in press should be included; personal communications must be cited within the text; journal titles must be abbreviated according to Medline (http://www.ncbi.nlm.nih.gov/entrez/jrbrowser .cgi). Sample journal article citation: Breuer ME and Pavan C (1955) Behaviour of polytene chromosomes of Rhynchosciara angelae at different stages of larval development. Chromosoma 7:371-386. Bertollo LAC, Takahashi CS and Moreira-Filho O (1978) Cytotaxonomic consideration on Hoplias lacerdae (Pisces, Erythrinidae). Rev Bras Genet 1:103-120. Sample book citation: 123 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Salzano FM and Freire-Maia N (1967) Populações Brasileiras. Companhia Editora Nacional and EDUSP, São Paulo, 178 pp. Dobzhansky T (1951) Genetics and Origin of Species. 3rd edition. Columbia University Press, New York, 364 pp. Sample chapter-in-book citation: Carvalho A, Monaco LC and Krug CA (1966) Melhoramento genético das plantas e sua repercussão econômica. In: Pavan C and da Cunha AB (eds) Elementos de Genética. 2nd ed. EDUSP and Companhia Editora Nacional, São Paulo, pp 587-653. Sample abstracts in meeting citation: Basile R (1973) Cromossomos Politênicos em células nutritivas de ovócitos de ovário atrofiado de Rhyncosciara. Ciênc e Cult 25 (suppl): 248. XXV Reunião Anual da SBPC, Rio de Janeiro, Brazil. Sample Thesis/Dissertation citation: Frota-Pessoa O (1953) Revision of the Tripunctata group of Drosophila with description of fifteen new species. PhD Thesis, Universidade do Brasil, Rio de Janeiro. Sample Electronic Article citation: Simin K, Wu H, Lu L, Pinkel D, Albertson D, Cardiff RD, Van Dyke T (2004) pRb Inactivation in Mammary Cells Reveals Common Mechanisms for Tumor Initiation and Progression in Divergent Epithelia. Plos Biol 2: 194-205. http://www.plosbiology.org. Sample Electronic Database citation: Online Mendelian Inheritance in Man (OMIM), http://www.ncbi.nlm.nih.gov/OMIM f) Tables each table must start on a new page. A concise title should be provided above the table. Tables must be numbered consecutively in Arabic numerals. Each column must have a title in the box head. Footnotes typed directly below the table should be indicated in lowercase superscript numbers. g) Figures must be numbered consecutively in Arabic numerals. Legends should be typed on a separate sheet. A set of original illustrations of the highest quality must be provided in glossy paper. If you have created figures electronically submit them also as hard copies. Scanned figures should not be submitted. Images should be in TIFF or JPEG format and provided in separate files. Figures in Word format cannot be published. Journal quality reproduction will require grayscale and color at resolution yielding 300 dpi. Authors should submit bitmapped line art at resolution yielding 600-1200 dpi. These resolutions refer to the output size of the file; if it is anticipated that images will be enlarged or reduced, the resolutions should be adjusted accordingly. Identify each illustration by affixing on the back a label containing: the number of the figure, the name of the first author and an arrow indicating top of illustration. Illustrations supplied on disks must follow instructions in item 2 (Submission package). Color illustration can be accepted, but authors are asked to defray the cost. For costs of color figures, check with the Editorial Office. h) Nomenclature: current standard international nomenclature should be adhered to. i) Sequences may appear in text or in figure. DNA, RNA and protein sequences equal to or greater than 50 units must be entered into public databases. The accession number must be provided and released to the general public together with publication of the article. Long sequences requiring more than two pages to reproduce will not be published unless the Editorial decision is that the publication is necessary. Complete mtDNA sequence will not be published. j) Data access: reference should be made to availability of detailed data and materials used for reported studies. k) Ethical issues: Reports of experiments on live vertebrates must include a brief statement that the work was approved by the institutional review board. For experiments involving human subjects, authors must also include a statement that informed consent was obtained from all subjects. If photos or any other identifiable data are included, a copy of the signed consent must accompany the manuscript. 3.2 Short Communications present brief observations that do not warrant full-length articles. They should not be considered preliminary communications. They should be 15 or fewer typed pages in double spaced 12-point type, including literature cited. They should include an Abstract no longer than five 124 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum percent of the paper's length and no further subdivision with introduction, material and methods, results and discussion in a single section. Up to two tables and two figures may be submitted. The title page and reference section format is that of full-length article. 3.3 Letters to the Editor relate or respond to recent published items in the journal. Discussions of political, social and ethical issues of interest to geneticists are also welcome in this form. 3.4 Review Articles are welcome. 3.5 Book Reviews: publishers are invited to submit books on Genetics, Evolution and related disciplines, for review in the journal. Aspiring reviewers may propose writing a review. 3.6 History, Story and Memories: accounts on historical aspects of Genetics relating to Brazil. 4. Proofs: Page proofs will be sent to the corresponding author. Changes made to page proofs, apart from printer's errors, will be charged to the authors. Notes added in proof require Editorial approval. 5. Reprints are free of charge and provided as a pdf-file. [email protected] © 2002-2004 Sociedade Brasileira de Genética 125 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 8.2. Instruções para Autores Revista Genetics and Molecular Research ISSN 1676-5680 Ribeirão Preto, Brasil Genetics and Molecular Research (Instructions to authors) ISSN 1676-5680 (online version) Genetics and Molecular Research (GMR) publishes research articles, research reports, technical notes, scientific commentaries, news, views, and review articles on Genetics, Evolution and Molecular Biology. It is an exclusively online journal. Genetics and Molecular Research is maintained by a not-for-profit scientific foundation Ribeirão Preto Foundation for Scientific Research (FUNPEC-RP). There has been no institutional support for publication since 2003, so we are obliged to recover part of the costs of publishing. The Journal will bill authors for all "papers" accepted and submitted after February 1, 2005. The cost per accepted submission will be R$500.00 for Brazilian authors and US$250.00 for authors outside Brazil. This fee covers part of the expenses for language and technical revision, and for page setup, for publishing online in pdf and html. Authors of all papers are expected to pay "page charges", which will be billed to the author for correspondence at the time the galley proofs of the paper are sent. Payment, both from within or outside Brazil, should be made by bank deposit or by credit card (Visa or Master Card). Please contact the editorial office ([email protected]) if you have any questions. Payment Instructions Payment for page charges can be made by bank deposit, credit card or by check, as follows: - Bank deposit in our account in Brazil Bank: Banco do Brasil Agency Number: 3312-x Account Number: 160.314-0 Account of Fundação de Pesquisas Científicas de Ribeirão Preto Please mail or fax (55 16 3621 1991) a copy of the deposit, and include information that identifies the article (author name and manuscript number) - Visa Credit Card - if you choose this option, we will need the following information from you: card holder name, as it appears on the card, card number, card's expiration date (month/year), card's security code - three number code after the card number on the back of the card - and mother's full name - this can be sent via fax (55 16 3621 1991), along with information that identifies the article (author name and manuscript number) - Check in U.S. dollars written to Fundação de Pesquisas Científicas de Ribeirão Preto, payable in the U.S.A. All GMR articles must meet the highest scientific quality standards, both in terms of originality and significance, and the research reported should make substantial advances. As a journal serving a wide and varied scientific community, article abstracts, introductions and conclusions should be accessible to the non-specialist, stressing any wider implications of the work. However the papers should not compromise on the scientific rigor and detail demanded by an international research journal. The broad readership that GMR 126 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum attracts gives authors an opportunity to convey to a wider audience, as well as to specialists, the importance of their work. Contributions should be sent either by e-mail as attachments to [email protected], or on disk by post to: Prof. Dr. Francisco A. Moura Duarte, Editor Av. Presidente Vargas, 2627 2º andar - Itamarati 14020-260 Ribeirao Preto, SP BRAZIL It is a fundamental condition that submitted manuscripts have not been published and will not be simultaneously published elsewhere. With the acceptance of a manuscript for publication, the publishers acquire full and exclusive copyright for all languages and countries. The use of registered names, trademarks, etc., in this publication does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use. An initial evaluation of the language will be made upon receipt of each manuscript. Those that are considered inadequate will be returned or sent out for correction, at the discretion of the author. The manuscript will be considered officially received when the corrected version is ready to be sent to the referees. Before final acceptance, a submission letter with the title of the article and names and signatures of all the authors should be posted to the above address or faxed to the journal at 55 16 3621 1991. GMR articles have no rigid length restrictions. They should contain sufficient technical detail for an expert reader to understand and assess the methods and results. There is no page limit for GMR articles. You should still be concise, however, for two main reasons. Firstly, our electronic refereeing system relies on e-mail, and very large files occasionally cause problems. Referees also tend to dislike lengthy manuscripts, and they take longer to process. Readers of electronic journals often print articles to read them. Remember that a 10,000-word article takes up around eleven pages. How many pages would you be willing to read on-screen? What length of article would you be prepared to print out? Editorial policies: Genetics and Molecular Research is a refereed journal. Only original manuscripts will be considered for publication. Manuscripts will be reviewed by at least two independent reviewers before a decision is made on publication. The whole process is conducted electronically to speed progress and final publication. Papers will be published (placed online) within a few days after acceptance. Papers accepted in their final form from January 1 to March 31 constitute the first issue of each volume, and so on. There are four issues per year. Manuscripts (in U.S. English), together with a cover letter from the author responsible for all correspondence, should be submitted to the Editor in electronic format as .doc files saved in Microsoft Word 97 for Windows, or later. Do not use formatting such as Word’s “Heading” or “Style Sheets”. Spelling, punctuation, sentence structure, spacing, length, and consistency of usage in form and descriptions should be checked before submission. Please also check references for accuracy. Ensure that all figures and tables are mentioned in the text, and that all references are cited in the text. Figure files (see below) should be separate. Submission information: Authors are required to provide the following information with their electronic submissions: Article submitted by Article title Authors (full list) Article type and session Status of article (e.g., new, revised, etc.) Manuscript number (provided at the first submission) Postal address E-mail address Phone number Fax number Names and types of the files sent * Brazilian authors should not translate their institutional addresses. These should remain in the original (Portuguese) language. Revised Versions If you are submitting a revised version of your article then please remember to include a list of changes, and replies to the referees. You should also send all the files for the article, not just those you have revised. 127 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum Acknowledgment of electronic submissions. Successful receipt and processing of your submission will be acknowledged by e-mail when your submission has been checked. If you have no response within one week you should contact the editor at [email protected]. Articles are reviewed anonymously by independent referees. Authors are encouraged to suggest names of expert reviewers, but selection remains a prerogative of the editors. To facilitate the review process, the authors can send supplementary material, such as cited accepted but not published papers, which may be important for assessment of the manuscript. Order the sections comprising the manuscript as follows: title, running title, author, address, abstract, key words, introduction, material and methods, results, discussion, acknowledgments, and bibliography. Title Page: The title page should include the title of the article, author’s names with full first names (no degrees), and author’s affiliation. The affiliation should comprise the department, institution (usually university or company), city, and state (or nation). The title page should include the name and complete mailing address, telephone number, fax number, and e-mail address of the author designated to review proofs. The title page should start below the top margin, be single-spaced, and no space left before the Summary/Abstract. Provide a running title of no more than 60 characters (including spaces). Abstract: An abstract of fewer than 250 words, single-spaced, is required of research articles and reports and should be arranged in one paragraph. The following information (without headings) should be included: purpose, methods, results, and conclusions. Review articles also require an abstract, which need not include the same items. Key words: A list of key words or indexing terms (no more than 6) should be included. Text Format: Headings should be bold, first letters capitalized and left aligned. All text should be set in Times New Roman font, 12 point, left aligned, single spaced. Do not justify the right margin. Leave only one (1) space after periods. Paragraphs should not be indented, nor should there be any blank lines between them. Use line returns only at the end of paragraphs. Do not use tabs or spaces to create indents. Use the Symbol font for symbols and special characters. Do not use equation editors or footnoting utilities. Save equations as images. Equations should be numbered consecutively with Arabic numerals in parentheses on the right hand side of the page. Footnotes. Footnotes should be avoided. When their use is absolutely necessary, footnotes should be numbered consecutively using Arabic numerals and should be placed at the bottom of the page to which they refer. Place a line above the footnote, so that it is set off from the text. Tables/Charts. Special care should be taken to ensure that all Tables are properly formatted. Scientific symbols used should be in ‘Symbol’ or ‘Times New Roman’. Tables should be on a separate page, numbered consecutively (with Arabic numerals), referred to by number in the text and designed to fit the column or page size of the Journal. Use tables with cells to separate columns. Do not use spaces, tabs or vertical lines. Left justify the title above the table (bold font). Indicate each table’s location within the manuscript. Illustrations. Illustrations/figures (photographs, drawings, diagrams, and charts) should each be in a single file, numbered in one consecutive series of Arabic numerals in the order in which they are cited in the text. Illustrations must be submitted as separate files. All illustrations are to be supplied in JPEG (jpg) format in either color or black and white. Images must be saved as separate, stand-alone files. The image resolution should be 300 dpi. Do not embed images within the text file. The placing of graphics in the paper should be indicated in the text and should include the captions for the figures. The authors should also send, by mail, a printed version of the figures. These should be at least 10 x 15 cm, up to size A4, so that figures can be scanned to guarantee good quality for publishing online. Reference style: References in the text should include the name of the author and the year in parentheses, e.g. (Searle, 1961) or (King and Wilson, 1975). When a reference with more than two authors is cited, only the first author is named, e.g. (Comstock et al., 1958). The references must be cited, in the text, in chronological order, e.g., (Ideber, 2001; Uetz, 2002; Ottavai, 2004). References to “unpublished results” and “submitted papers” should appear in the text in parentheses following the individual name(s). Example: (Pereira KS, Martins PK and Silva TM, unpublished results). Abbreviations: Try to use abbreviations sparingly. When used extensively, provide a list of all nonstandard abbreviations on a separate page before the reference section. Use the metric system for all measurements without periods (cm, mL, s). Define all symbols used in equations and formulas. Do not abbreviate the word “Figure” or “Table” in titles or text. Acknowledgments: All acknowledgments (including those for grant and financial support) should be typed in one paragraph directly preceding the reference section. Authors of manuscripts 128 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum submitted to GMR are requested to state the source of all funding that enabled the described research to be undertaken. Bibliography: The bibliography should include only works referred to in the text. It should be arranged in alphabetical order under the first author’s last name. References should be cited as follows: journal papers - names and initials of the four first authors (after that use et al.), year, full title, journal abbreviated according to Index Medicus, volume number, first and last page numbers; books - names of authors, year, full title, edition, publishers, address (city, state and country); articles published in symposia - names of authors, year, full title of book, name(s) of editor(s) in parentheses, publisher, address (city, state and country), first and last page numbers. Examples of Bibliographic style: Journal article Searle SR (1961). Variance components in the unbalanced 2-way nested design. Ann. Math. Statist. 32: 1161-1166. Comstock RE, Kellcher T and Morrow EB (1959). Genetic variation in an asexual species, the garden strawberry. Genetics 43: 634-646. Book Mather K (1949). Biometrical Genetics. 1st edn. Methuen, London, England. Chapter in book Rhoades MM (1968). Studies on the cytological basis of crossing over. In: Replication and Recombination of Genetic Material (Peacock WJ and Brock RD, eds.). Australian Academy of Science, Canberra, Australia, pp. 229-241. Thesis abstracts Thesis abstracts should be submitted in English and in the original language (if the author is not a native speaker). Bibliographic data (original title, year, institution, address, number of pages and major (orienting) professor) should be included. Authors using GMR may view, reproduce or store copies of the Journal providing the information is not used for profit purposes. Copies of this Journal, in whole or in part, must include the copyright notice. Any use of this Journal in whole or in part should include the customary bibliographic citation, including author attribution, date, article title, Genetics and Molecular Research, and the URL http://www.funpecrp.com.br/gmr. Use of illustrations in other publications is only permitted with prior permission of Genetics and Molecular Research. Published by the Ribeirão Preto Foundation for Scientific Research (FUNPEC-RP). http://www.funpecrp.com.br This page last updated on September 2, 2005 Copyright © 2005 by FUNPEC. 129 Ramos, C.P.S. Análise de códons sinônimos em Chromobacterium violaceum 9. Apêndice - Classificação filogenética de proteínas codificadas em genomas completos (Clusters of Orthologous Groups-COGs). COG Domínios Descrição J 6449 Tradução, estrutura ribossomal e biogênese K 5438 Transcrição L 5337 Replicação do DNA, recombinação e reparo D 842 O 3165 Divisão celular e particionamento do cromossomo Modificação pós-traducional, turnover de proteínas, chaperones M 4079 Biogênese do envelope celular, fora da membrana N 3110 Mobilidade celular e secreção P 5112 Transporte e metabolismo de íons inorgânicos T 3627 Mecanismos de transdução de sinal C 5594 Produção e conversão de energia G 5262 Transporte e metabolismo de carboidratos E 8383 Transporte e metabolismo de aminoácidos F 2364 Transporte e metabolismo de nucleotídeos H 4057 Metabolismo de coenzimas I 2609 Metabolismo de lipídeos Q 2754 Biossíntese de metabólitos secundários, transporte e catabolismo R 11948 S 6416 Apenas predição de função geral Função desconhecida Fonte: (www.ncbi.nlm.nih.gov/COG) 130