Documentos Agrobiologia 213 ISSN 1517-8498 Junho/2006 http://www.sciencemag.org/cgi/content/full/291/5507/1221/F1 Credit: Joe Sutliff República Federativa do Brasil Luiz Inácio Lula da Silva Presidente Ministério da Agricultura, Pecuária e Abastecimento Roberto Rodrigues Ministro Empresa Brasileira de Pesquisa Agropecuária Conselho de Administração Luis Carlos Guedes Pinto Presidente Silvio Crestana Vice-Presidente Alexandre Kalil Pires Cláudia Assunção dos Santos Viegas Ernesto Paterniani Hélio Tollini Membros Diretoria Executiva Silvio Crestana Diretor Presidente José Geraldo Eugênio de França Kepler Euclides Filho Tatiana Deane de Abreu Sá Diretores Executivos Embrapa Agrobiologia José Ivo Baldani Chefe Geral Eduardo Francia Carneiro Campello Chefe Adjunto de Pesquisa e Desenvolvimento Rosângela Straliotto Chefe Adjunto Administrativo ISSN 1517-8498 Junho/2006 Empresa Brasileira de Pesquisa Agropecuária Centro Nacional de Pesquisa em Agrobiologia Ministério da Agricultura, Pecuária e Abastecimento Documentos 213 Genômica e Proteômica Kátia Regina dos Santos Teixeira Jean Luiz Simões Araújo Seropédica – RJ 2006 Exemplares desta publicação podem ser adquiridas na: Embrapa Agrobiologia BR465 – km 7 Caixa Postal 74505 23851-970 – Seropédica/RJ, Brasil Telefone: (0xx21) 2682-1500 Fax: (0xx21) 2682-1230 Home page: www.cnpab.embrapa.br e-mail: [email protected] Comitê Local de Publicações: Eduardo F. C. Campello (Presidente) José Guilherme Marinho Guerra Maria Cristina Prata Neves Verônica Massena Reis Robert Michael Boddey Maria Elizabeth Fernandes Correia Dorimar dos Santos Felix (Bibliotecária) Expediente: Revisor e/ou ad hoc: Luc Felicianus Marie Rouws Normalização Bibliográfica: Dorimar dos Santos Felix Editoração eletrônica: Marta Maria Gonçalves Bahia 1ª impressão (2006): 50 exemplares T266 Teixeira, Kátia Regina dos Santos Genômica e proteômica / Jean Luiz Simões Araújo. Seropédica: Embrapa Agrobiologia, 2006. 37 p. (Embrapa Agrobiologia. Documentos, 213). ISSN 1517-8498 1. Genôma. 2. Proteôma. 3. DNA. 4. Cromossoma. 5. Ácido nucléico. I. Simões-Araújo, Jean Luiz, colab. II. Embrapa. Centro Nacional de Pesquisa de Agrobiologia (Seropédica, RJ). III. Título. IV. Série. CDD 572.86 Embrapa 2006 Autores Kátia Regina dos Santos Teixeira Bióloga, PhD em Biologia Celular e Molecular, Pesquisadora da Embrapa Agrobiologia. BR 465, km 7 – Caixa Postal 74505, Cep 23851-970, Seropédica/RJ e-mail: [email protected] Jean Luiz Simões Araújo Engenheiro Agrônomo, PhD em Genética de Plantas, Pesquisador da Embrapa Agrobiologia BR 465, km 7, Caixa Postal 74505, Cep 23851-970, Seropédica/RJ e-mail: [email protected] § RONAGHI, M. Pyrosequencing sheds light on DNA sequencing. Genome Research, New York, v. 11, p. 3–11, 2001. RONAGHI, M.; KARAMOHAMED, S.; PETTERSSON, B.; UHLEN, M.; NYREN, P. Real-time DNA sequencing using detection of pyrophosphate release. Analytical biochemistry, New York, v. 242, p. 84–89, 1996. RONAGHI, M.; UHLEN, M.; NYREN, P. A sequencing method based on real-time pyrophosphate. Science, Washington, v. 281, p. 363– 365, 1998. SANGER, F.; NICKLEN, S.; COULSON, A. R. DNA sequencing with chain-terminating inhibitors (DNA polymerase/nucleotide sequences/bacteriophage 4X174). Proceeding of the National Academy of Science, Washington, v. 74, n. 12, p. 5463-5467, 1977. SKYLAS, D. J.; VAN DYK, D.; WRINGLEY, C. W. Proteomics of wheat and grain. Journal of Cereal Science, London, v. 41, p. 165179, 2005. SOUTHERN, E. M. Analysing polynucleotide sequences. US Patent no. WO/10977. 1989. TASTET, C.; LESCUYER, P.; DIEMER, H.; LUCHE, S.; VAN DORSSELAER, A.; RABILLOUD, T. A versatile electrophoresis system for the analysis of high- and low-molecular-weight proteins. Electrophoresis, Germany, v. 24, n. 11, p. 1787-1794, 2003. WASINGER, V. C.; CORTHALS, G. L. Proteomic tools for biomedicine. Journal of Chromatography B, Oxford, v. 771, p. 33– 48, 2002. WATSON, J. D.; CRICK, F. H. C. Molecular structure of nucleic acid: A structure for deoxyribose nucleic acid. Nature, London, v. 171, n. 4356, p. 737-738, 1953. WU, R.; TAYLOR, E. Nucelotide sequence analysis of DNA. II. Complete nucleotide sequence of the cohesive ends of bacteriophage λ DNA. Journal of Molecular Biology, Amsterdan, v. 57, p. 491-511, 1977. 37 MARGULIES, M.; EGHOLM, M.; ALTMAN, W. E.; ATTIYA, S.; BADER, J. S.; BEMBEN, L. A.; BERKA, J.; BRAVERMAN, M. S.; CHEN, Y. -J.; CHEN, Z.; DEWELL, S. B.; DU, L.; FIERRO, J. M.; GOMES, X. V.; GODWIN, B . C.; HE; W.; HELGESEN, S.; HO, C. H.; IRZYK, G. P.; JANDO, S. C.; ALENQUER, M. L. I.; JARVIE, T. P.; JIRAGE, K. B.; KIM, J. -B.; KNIGHT, J. R.; LANZA, J. R.; LEAMON, J. H.; LEFKOWITZ, S. M.; LEI, M.; LI, J.; LOHMAN, K. L.; LU, H.; MAKHIJANI, V. B.; MCDADE, K. E.; MCKENNA, M. P.; MYERS, E. W.; NICKERSON, E.; NOBILE, J. R.; PLANT, R.; PUC, B. P.; RONAN, M. T.; ROTH, G. T.; SARKIS, G. J.; SIMONS, J. F.; SIMPSON, J. W.; SRINIVASAN, M.; TARTARO, K. R.; TOMASZ, A.; VOGT, K. A.; VOLKMER, G. A.; WANG, S. H.; WANG, Y.; WEINER, M. P.; YU, P.; BEGLEY, R. F.; ROTHBERG, J. M. Genome sequencing in microfabricated high-density picolitre reactors. Nature, London, v. 437, n. 7057, p. 376-380, 2005. MAXAM, A. M.; GILBERT, W. Sequencing end-labeled DNA with base-specific chemical cleavages. In: GROSSMAN, L.; MOLDAVE, K. (Ed.) Methods in enzymology. New York: Academic, 1980. p. 499-559. MONTI, M.; ORRU, S.; PAGNOZZI, D.; PUCCI, P. Functional Proteomics. Clinica Chimica Acta, Amsterdam, v. 357, p. 140–150, 2005. NELSON, D. L.; COX, M. M.; LEHNINGER, A. L. Principles of biochemistry. 3. ed. New York: W. H. Freeman & Company, 2000. 1200 p. PANICKER, R. C.; CHATTOPADHAYA, S.; YAO, S. Q. Advanced analytical tools in proteomics. Analytica Chimica Acta, Amsterdam, v. 556, p. 69-79, 2006. RABILLOUD, T. Use of thiourea to increase the solubility of membrane proteins in two-dimensional electrophoresis. Electrophoresis, Germany, v. 19, p. 758-760, 1998. RAMSTRÖM, M.; BERGQUIST, J. Miniaturized proteomics and peptidomics using capillary liquid separation and high resolution mass spectrometry. FEBS Letters, Copenhagen, v. 567, p. 92–95, 2004. 36 Apresentação A preocupação crescente da sociedade com a preservação e a conservação ambiental tem resultado na busca pelo setor produtivo de tecnologias para a implantação de sistemas de produção agrícola com enfoques ecológicos, rentáveis e socialmente justos. O enfoque agroecológico do empreendimento agrícola se orienta para o uso responsável dos recursos naturais (solo, água, fauna, flora, energia e minerais). Dentro desse cenário, a Embrapa Agrobiologia orienta sua programação de P&D para o avanço de conhecimento e desenvolvimento de soluções tecnológicas para uma agricultura sustentável. O documento 213/2006 aborda a questão da genômica e Proteômica no contexto do avanço de conhecimento na área. O documento foi escrito com a finalidade de fornecer conhecimentos básicos das facilidades da genômica e proteômica hoje disponível na literatura. O documento procura introduzir o leitor na área de genômica e discute os diferentes métodos e estratégias de sequencimento completo de genomas e apresenta os diferentes programas de sequencimaneto no país. Da mesma forma, faz uma introdução a área de proteômica e discute os métodos disponíveis para o avanço de conhecimento da proteômica de expressão, funcional e estrutural. O documento está apresentado numa forma bastante amigável que permitirá ao leitor conhecer um pouco da área sem maiores dificuldades. José Ivo Baldani Chefe Geral da Embrapa Agrobiologia FEY, S. J.; LARSEN, P. M. 2D or not 2D. Current Opinion in Chemical Biology, London, v. 5, p. 26-33, 2001. SUMÁRIO 1. Introdução................................................................................ 7 2. Introdução a Genômica ......................................................... 2.1. O Sequenciamento de DNA ........................................ 2.2. Sequenciamento automático de DNA ....................... 2.3. Estratégias para sequenciamento completo de genômas......................................................................... 2.3.1. Sequenciamento hierárquico ........................... 2.3.2. Seqüenciamento por fragmentos aleatórios (Shotgun) ........................................................................ 2.4. Pirosseqüenciamento: nova alternativa para o seqüenciamento rápido de genômas......................... 7 8 9 3. Introdução a Proteômica ....................................................... 3.1. Análise do perfil de proteínas expressas através de eletroforese bidimensional (2D-GE)..................... 3.2. Espectrometria de massa e sua aplicabilidade na proteômica ..................................................................... 3.2.1. Equipamentos de espectrometria de massa e sua aplicação ............................................................. 11 12 13 16 20 22 25 28 4. Considerações finais.............................................................. 33 5. Referências Bibliográficas .................................................... 34 GARBIS, S.; LUBEC, G.; FOUNTOULAKIS, M. Limitations of current proteomics technologies. Journal of Chromatography A, Oxford, v. 1077, p. 1–18, 2005. GODOVAC-ZIMMERNANN, J.; BROWN, L. R. Perspectives for mass spectrometry and functional proteomics. Mass Spectrometry Reviews, New Jersey, v. 20, n. 1, p. 1-57, 2001. GÖRG, A.; OBERMAIER, C.; BOGUTH, G.; HARDER, A.; SCHEIBE, B.; WILDGRUBER, R.; WEISS, W. The current state of two-dimensional electrophoresis with immobilized pH gradients. Electrophoresis, Weinheim, v. 21, p. 1037-1053, 2000. HANASH, S. M. Biomedical applications of two-dimensional electrophoresis using immobilized pH gradients: current status. Electrophoresis, Weinheim, v. 21, p. 1202-1209, 2000. HOVING, S.; GERRITS, B.; VOSHOL, H.; MULLER, D.; ROBERTS, R. C.; VAN OOSTRUM, J. Preparative two-dimensional gel electrophoresis at alkaline pH using narrow range immmobilized pH gradients. Proteomics, Germany, v. 2, n. 2, p. 127-134, 2002. INAGAKI, N.; KATSUTA, K. Large Gel two-dimensional electrophoresis: improving recovery of cellular proteome. Current Proteomics, Claremont, v. 1, p. 35-39, 2004. ISSAQ, H. J.; CHAN, K. C.; JANINI, G. M.; CONRADS, T. P.; VEENSTRA, T. D. Multidimensional separation of peptides for effective proteomic analysis. Journal of Chromatography B, Oxford, v. 817, p. 35–47, 2005. KHRAPKO, K. R.; LYSOV, Y. U. P.; KHORLYN, A. A.; SHICK, V. V.; FLORENTIEV, V. L.; MIRZABEKOV, A. D. An oligonucleotide hybridization approach to DNA sequencing. FEBS Letters, Copenhagen, v. 256, p. 118–122, 1989. MANN, M.; HENDRICKSON, R. C.; PANDEY, A. Analysis of proteins and proteomes by mass spectrometry. Annual Review of Biochemistry, Palo Alto, v. 70, p. 437–473, 2001. 35 interesse, tem sido lançado no mercado não deve ser o parâmetro de escolha da técnica a ser usada no planejamento de um projeto na área de proteômica. Antes de tudo deve-se ter bom senso e conhecimento do funcionamento básico de cada um dos tipos de equipamentos disponíveis para que o objetivo do estudo seja alcançado. Foi com a finalidade de fornecer um conhecimento básico das facilidades da genômica e proteômica disponível que este documento foi escrito. Detalhes de variações das técnicas e outros avanços devem ser uma busca constante nestas áreas devido ao grande volume de informação disponível e que já foram temas de diversas revisões e publicações técnico-científicas. 5. Referencias bibliográficas AEBERSOLD, R.; GOODLETT, D. R. Mass spectrometry in proteomics. Chemical Reviews, Washington, v. 101, p. 269-295, 2001. AGAH, A.; AGHAJAN, M.; MASHAYEKHI, F.; AMINI, S.; DAVIS, R. W.; PLUMMER, J. D.; RONAGHI, M.; GRIFFIN, P. B. A multienzyme model for pyrosequencing. Nucleic Acids Research, London, v. 32, n. 21, p. 1-15, 2004. BAINS, W.; SMITH, G. C. A novel method for nucleic acid sequence determination. Journal Theoretical Biology, New York, v. 135, p. 303–307, 1988. BRENNER, S.; WILLIAMS, S. R.; VERMAAS, E. H.; STORCK, T.; MOON, K.; MCCOLLUM, C.; MAO, J. I.; LUO, S.; KIRCHNER, J. J.; ELETR, S.; DUBRIDGE, R. B.; BURCHAM, T.; ALBRECHT. G. In vitro cloning of complex mixtures of DNA on microbeads: Physical separation of differentially expressed cDNAs. Proceeding of the National Academy of Science, Washington, v. 97, p. 1665–1670, 2000. DRMANAC, R.; LABAT, I.; BRUKNER, I.; CRKVENJAKOV, R. Sequencing of megabase plus DNA by hybridization: Theory of the Method. Genomics, New York, v. 4, p. 114–128, 1989. 34 Genômica e Proteômica Kátia Regina dos Santos Teixeira Jean Luiz Simões-Araújo 1. Introdução O sufixo OME tem sua origem no latim e significa massa ou grandes quantidades. Neste contexto, a introdução no Brasil nos últimos 5 anos de equipamentos com capacidade para análise de um grande número de amostras e aplicação de técnicas avançadas nos estudos de caracterização de genes e proteínas resultou no avanço das disciplinas denominadas genômica e proteômica, assim como em outras áreas emergentes, que tem como base a produção de informações e processamento de dados em larga escala. A aplicação de técnicas de seqüenciamento de DNA e caracterização do conteúdo de proteínas e sua identificação tem sido fonte de geração de informação sobre diversos sistemas biológicos. A genômica, inicialmente aplicada ao estudo de genômas “completos” e parciais de diversos microrganismos, plantas e animais (inclusive o genôma humano) tem sido uma ferramenta cada vez mais utilizada para a prospecção de genes em comunidades complexas, recebendo portanto a denominação de metagenômica. 2. Introdução a Genômica A partir das primeira evidências em 1944 de que o Ácido Desoxirribonucléico (DNA) era responsável pelo armazenamento e transferência da informação genética de geração para geração, iniciou-se uma verdadeira corrida para determinação da estrutura do DNA. Diversos estudos mostravam que o DNA era uma molécula longa e fina, composto por açúcar, fósforo e quatro diferentes tipos de bases nitrogenados. Em 1953, WATSON & CRICK determinaram a estrutura do DNA, como uma dupla fita anti-paralela onde resíduos de timina (T) se pareiam com adenina (A) e guanina (G) com citosina (C) através de ligações do tipo pontes de hidrogênio. 07 Diversas outras descobertas importantes, ainda em meados do século passado, como a descoberta do RNA mensageiro e a identificação do código genético, possibilitaram a determinação do fluxo da informação genética, o que se convencionou chamar-se o Dogma Central da Biologia Molecular. No início dos anos 70, o isolamento das primeiras enzimas de restrição, bem como o seqüenciamento das primeiras moléculas de DNA, caracterizou o início da Era Genômica. O aprimoramento dos métodos de seqüenciamento, o surgimento de diferentes métodos de clonagem e da reação em Cadeia da Polimerase (PCR), bem como o desenvolvimento do seqüenciamento automático de DNA e a crescente capacidade da análise de dados, através do uso cada vez maior dos computadores, possibilitaram o seqüenciamento completo dos primeiros genômas em meados da década de 80. Esta revisão visa discutir de forma clara e objetiva os principais aspectos relacionados ao desenvolvimento da Era Genômica com o objetivo de preencher uma lacuna relacionada a deficiência de bibliográfica em língua Portuguesa. 2.1. O Seqüenciamento de DNA As primeiras seqüências de DNA foram obtidas no início da década de 70, quando as extremidades coesivas do fago λ, com apenas 12 pares de bases (pb), foram seqüenciadas (WU & TAYLOR, 1977). Apesar de diferentes métodos de seqüenciamento terem sido desenvolvidos, o método mais utilizado até hoje é o método da terminação de cadeia que utiliza didesoxirribonucleotídeos (ddNTP) (Figura 1), processo aprimorado por SANGER et al. (1977). Este método baseia-se na capacidade da DNA polimerase de utilizar ddNTP 2’, 3’ como substrato. No entanto, a incorporação do ddNTP na cadeia de DNA que está sendo sintetizada interrompe a reação de polimerização porque a extremidade 3’ do ddNTP não possui um grupo hidróxila necessário para a formação da ligação fosfodiéster com o nucleotídeo subseqüente da síntese. Dessa forma, a reação de amplificação e o fragmento anteriormente sintetizado fica com o ddNTP no final da cadeia. GILBERT E SANGER, através de estudos independentes (SANGER et al., 1977; MAXAM & GILBERT, 1980), utilizaram este princípio para determinar a seqüência do DNA a 08 identificação de proteínas em banco de dados públicos ou derivados de projetos de seqüenciamento em andamento. 4. Considerações finais A facilidade de acesso a equipamentos e técnicas que permitem a análise de ácidos nucléicos e proteínas em larga escala tem sido um marco importante para o avanço da ciência com base no volume e velocidade de geração de dados nos últimos anos. A tecnologia de seqüenciamento automatizado de DNA proporcionou alterações profundas na natureza das pesquisa realizada em diversos ramos da ciência. A redução significativa do custo, da complexidade e do tempo necessário para o seqüenciamento de grandes quantidades de DNA, incluindo melhorias na capacidade de seqüenciamento de genôma de bactérias e eucariotos, proporcionou um grande acúmulo de informações e um impacto significativo na econômica, ciência e cultura. Atualmente, já estão complemente seqüênciados o genôma humano, de diversas planta e insetos, 920 projetos de seqüenciamento do genômas de bactérias estão em andamento e mais de 350 genômas já foram concluídos. Além disso, o surgimento de novas abordagens, que permitem o seqüenciamento do genôma de uma bactéria em alguns dias, certamente, trará substanciais alterações na maneira de estudar os microrganismo e num futuro próximo, estaremos comparado genômas com a mesma freqüência que hoje comparamos genes. No campo da proteômica uma diversidade de técnicas tem sido desenvolvidas nos últimos anos, algumas com base no uso de espectrometria de massa e outras com base em técnicas de imunologia, ensaios enzimáticos, bio-imagens e microarranjos (RAMSTRÖM & BERGQUIST, 2004; ISSAQ et al., 2005; PANICKER et al., 2006). São tantas as opções de equipamentos e estratégias que os pesquisadores devem ser criteriosos no momento de fazer a escolha adequada ao objetivo de seus estudos. A freqüência com que novos equipamentos do tipo espectrometria de massa, resultante de combinações de módulos básicos para préfracionamento, ionização e separação das moléculas de nosso 33 sua característica de separar os peptídeos por massa seguido pela fragmentação dos peptídeos em uma câmara de dissociação induzida por colisão (CID – Collision induced dissociation) e separação de fragmentos parciais derivados após a quebra da ligação peptídica (em geral). Neste caso, os cromatrogramas obtidos correspondem a m/z do peptídeo menos uma carga referente ao resíduo liberado após a fragmentação. Para melhor entendimento ver a representação esquemática apresentada na figura 19. Fragmentação ao acaso dos peptídeos nas ligações amidas por CID. partir da marcação do ddNTP com radioatividade (32P, 33P, 35S). Durante os ciclos de polimerização os ddNTP vão sendo incorporados aleatoriamente e no final da reação se obtém um conjunto de fragmentos com tamanhos diferentes sendo o final marcado, nesse caso com radioatividade. A mistura de fragmentos é submetida a eletroforese para separação por tamanho (Figura 2A) e a análise visual do gel posteriormente possibilita a determinação da seqüência de bases. Pela descoberta desse método, Gilbert e Sanger receberam o prêmio Nobel de Química em 1980. Apesar de ser um método considerado rápido para a época o custo o seqüenciamento ainda era muito alto. Pelo método de Sanger o seqüenciamento é realizado em quatro reações independentes, sendo que em cada uma delas é adicionado um ddNTP diferente (ddATP, ddCTP, ddGTP e ddTTP) marcado com 32P, 33P, ou 35S. Após a reação os fragmentos são separados através de eletroforese em gel de poliacrilamida, o gel é seco e exposto a um filme de raio X. Após a revelação do filme de raio X é então realizada a leitura da seqüência, sendo possível identificar apenas de 200 a 300 pb por gel durante uma corrida longa. Figura 19 – Representação da fragmentação de peptídeos e cromatograma gerado a partir dos produtos derivados contendo menos um resíduo de aminoácidos. A seqüência é deduzida com base no valor de m/z total subtraído do m/z dos peptídeos fragmentados. As formas b e y produzidas correspondem a mesma seqüência porém os fragmentos são caracterizados pela presença de íons produzidos a partir do N-terminal ou C-terminal, respectivamente. A análise de peptídeos em espectrômetros do tipo MS/MS garante, além da obtenção de suas massas, a obtenção de informação sobre a sua estrutura primária e, apesar de nem todo espectro ser completo, a obtenção da seqüência de pelo menos um peptídeo pode permitir a identificação de uma proteína. Os dados gerados a partir de análise do tipo MS/MS confere uma alta especificidade na 32 Figura 1 - Didesoxirribonucleotídeo (ddNTP), análogo aos dNTP, utilizado para interromper a síntese de DNA durante a reação de polimerização. 2.2. Seqüenciamento automático de DNA Com o desenvolvimento do seqüenciamento automático de DNA grande parte das limitações apresentadas pelo método de Sanger 09 foram reduzidas ou eliminadas, principalmente devido aos aprimoramentos dos equipamentos, reagentes químicos e inovações ópticas, o que permitiu a utilização de ddNTPs marcados com fluorescência (Figura 2B). Cada ddNTP fluorescente constitui aproximadamente 1% da mistura de dNTPs, logo a reação de polimerização produz uma mistura de produtos fluorescentes de vários tamanhos que pode ser separadas em gel de poliacrilamida. Outra grande vantagem do seqüenciamento automático é a utilização do laser e programas de computadores específicos. Além disso, cada ddNTP é marcado com uma molecular fluorescente, que quando excitada pelo laser, emite fluorescência em comprimentos de onda diferentes para cada tipo de base associada. Dessa forma, não há necessidade de fazer quatro reações independentes para cada fragmento DNA a ser seqüenciado, como cada ddNTPs emite fluorescência em um comprimento de onda específico, os quatro ddNTPs podem ser misturados na mesma reação e o equipamento (seqüenciador) detecta o sinal que é analisado por programas específicos de bioinformática resultando na seqüência de DNA (Figura 2B). Uma outra etapa do processo de seqüenciamento bastante laboriosa é a preparação do gel de poliacrilamida e a eletroforese. No entanto, nos seqüenciadores mais modernos a eletroforese ocorre no interior de microcapilares preenchidos com uma matriz linear de poliacrilamida (LPA) que pode ser facilmente substituída, após cada eletroforese, utilizando gás sob alta pressão deixando o equipamento pronto para nova eletroforese, facilitando ainda mais o seqüenciamento e aumentando sua velocidade. A medida que os seqüenciadores automáticos de DNA foram sendo aperfeiçoados a capacidade de produção de seqüências de DNA foi aumentando cada vez mais havendo necessidade do desenvolvimento de uma plataforma computacional para processamento e análise dessas informações o que proporcionou o surgimento de uma área especifica da informática, a Bioinformática. a capacidade de detectar modificações, além de outros parâmetros variáveis (sítios de clivagem, modificações e inespecificidade enzimática). Por esta técnica é possível inferir certas modificações pós-traducionais tais como processamento de peptídeo sinal, cuja informação presente no gene não é recuperada na forma de proteína ativa e neste caso a massa deduzida in silico é diferente da massa obtida experimentalmente. Os dados resultantes da análise de fingerprint são simples e permitem a identificação de proteínas mesmo com apenas 25% de cobertura, apesar de não permitir inferir a seqüência do peptídeo, sem conhecimento prévio da seqüência de aminoácidos deduzida a partir de um gene conhecido (Figura 18). Figura 18 – Cromatograma derivado da análise de proteínas por Fingerprint em MALDI-MS. As figuras A e B apresentam alguns peptídeos, representando a cobertura parcial de duas proteínas diferentes. Observem que a massa dos peptídeos é correlacionada com as massas de peptídeos disponíveis em banco de dados e seqüências candidatas. Equipamentos de massa também permitem a obtenção das seqüências de peptídeos com base no método de fragmentação dos peptídeos. Para o seqüenciamento de peptídeos o equipamento de massa seqüencial (MS/MS, TOF/TOF) é o mais adequado devido a 10 31 opostas aos definidos no analisador são adsorvidos enquanto os outros atravessam o campo e alcançam o detector figura 17. A) B) Fragmentos de DNA com ddNTP fluorescente cópias do molde de DNA com seqüência desconhecida Molde de DNA Migração do DNA Detector Figura 17 – Esquema do funcionamento do espectrômetro de massas com analisadores do tipo quadrupólo. Espectrômetros de massa (MS) disponíveis atualmente para análise de proteínas e peptídeos permitem a aplicação de técnicas para a identificação de proteínas através de mapeamento (“fingerprint”) e seqüenciamento de aminoácidos, caracterização de modificações pós-traducionais e também como ferramenta para quantificação da expressão de proteínas. A análise de proteínas intactas em MS é pouco informativo e menos sensível que a caracterização das massas dos peptídeos derivados de sua proteólise. A obtenção de massa de uma proteína intacta não permite a sua identificação por estarem sujeitas a modificações pós-traducionais e ao grande número de proteínas que apresentam massas semelhantes. Por outro lado, a fragmentação de proteínas isoladas, derivadas de fracionamentos e até mesmo em solução permite a obtenção de um perfil de massas dos peptídeos presentes em sua composição. Este tipo de abordagem denominada “fingerprint” é mais informativo devido a exatidão da medida de massa obtida, a cobertura dos peptídeos em domínios estruturais que permitem identificar o tipo e até mesmo a função da proteína e 30 Autoradiografia do gel após eletroforese Seqüência de DNA Fragmentos de DNA com ddNTP fluorescente na extremidade são aplicados nos capilares e submetidos a eletroforese Feixe de Laser Fonte de Laser Resultado gerado pelo computador após os fragmentos passarem pelo detector Figura 2 - Seqüenciamento de DNA através do método de Sanger utilizando radioatividade (A) e seqüenciamento automático de DNA (B). Fonte NELSON et al. (2000). 2.3. Estratégias para seqüenciamento completo de genômas Apesar do desenvolvimento dos equipamentos para seqüenciamento ter possibilitado a diminuição do custo e aumentando sobremaneira a velocidade do processo, o tamanho do fragmento de DNA capaz de ser seqüenciado em cada reação, de maneira geral, fica em torno de 400 a 600 bp, um fragmento bem pequeno quando se comparado com o tamanho de um genôma completo. No caso de bactéria, por exemplo, o genôma pode conter entre 106 e 107 pares de bases (Figura 3). Logo o seqüenciamento de todo o genôma requer muitos milhares de trechos curtos de seqüências que precisam ser gerados. No momento existem duas principais estratégias utilizadas para gerar essas seqüências: o seqüenciamento hierárquico e o seqüenciamento completo por fragmentos aleatórios (Whole Genome shotgun sequencing). Em ambos os casos, para seqüenciar o genôma de um organismos, inicialmente é necessário isolar o DNA do organismo de interesse e 11 elaborar bibliotecas de DNA genômico, no entanto, a estratégia utilizada para clonagem e o tamanho dos fragmento clonados variam bastante. Plamídeos vírus bactéria grade com polaridade semelhante aos íons promove desaceleração das moléculas de mesmo tamanho que viajam em diferentes velocidades após a ionização (Figura 16). Este tipo de equipamento apresenta alta resolução (10000 a 20000) e o limite de massa varia até a faixa de 8 -10 kDa, neste caso íons de moléculas menores como os peptídeos derivados de tripsinização são mais facilmente analisados. fungos plantas algas insetos moluscos Peixe anfíbios répteis pássaros mamíferos 10 4 10 5 10 6 10 7 10 8 10 9 10 10 10 11 Figura 3 - Tamanho de alguns genômas em pares de base. 2.3.1. Seqüenciamento Hierárquico Essa estratégia geralmente é utilizada para o seqüenciamento de grandes genômas. Nesse caso, uma das primeira etapas é a construção de um mapa físico do genôma para que os fragmentos seqüenciados possam ser facilmente montados. Em seguida, grandes regiões do DNA genômico, como por exemplo um cromossomo, são cortados em grandes fragmentos e clonados em vetores específicos como BACs, PACs, and YACs. Esse DNA clonado é novamente fragmentado em pequenos pedaços entre 1000 a 3000 pares de bases, clonado em vetores adequados e posteriormente submetidos ao seqüenciamento. Essas seqüências associadas com o seqüenciamento das extremidades dos BACs, PACs, and YACs e o mapa físico são utilizadas para montagem do genôma (Figura 4). 12 Figura 16 – Esquema do funcionamento de espectrômetros de massas com analisadores do tipo TOF e tipo de informação obtida (resolução). Analisadores do tipo quadrupólo (dois pólos carregados positivamente e dois carregados negativamente) funcionam como um filtro de íons de diferentes cargas, geralmente produzidos a partir do tipo de ionização associada ao equipamento. Equipamentos do tipo quadrupólo usam módulo de ionização tipo ESI que gera dois tipos de íons (carregados positiva ou negativamente). Durante a passagem dos íons ao longo do quadrupólo em presença de uma corrente alternada, íons de cargas 29 Genoma Biblioteca BAC com sobreposição Biblioteca “shotgun” de cada BAC Seqüência de DNA do genoma Figura 4. Etapas para o seqüenciamento Hierárquico de Genôma 2.3.2. Seqüenciamento por fragmentos aleatórios (Shotgun) Figura 15 – Representação da ionização por de pulverização de elétrons (ESI). Moléculas em solução são ionizadas ao passar por um capilar metálico submetido a alta voltagem. As gotículas contendo moléculas carregadas são evaporadas em câmara durante fluxo de gás inerte sob pressão atmosférica. 3.2.1. Equipamentos de espectrometria de massa e sua aplicação Os equipamentos de espectrometria utilizados atualmente em estudos de proteôma utilizam dois tipos de analisadores do tipo m/z (massa/carga): TOF (Time-of-flight) e o Quadrupólo. O analisador tipo TOF, pode ser traduzido como tempo de vôo, pode ser caracterizado pelo tempo de vôo dos íons em uma câmara de vácuo. O valor obtido no cromatograma não é quantitativo e reflete a relação de massa e carga do íon (m/z). O modo Linear tem capacidade de caracterizar proteínas de massa acima de 50 kDa porém com baixíssima resolução. Duas estratégias para melhorar a resolução da análise em TOF são a extração atrasada (DE – delayed extraction) e o refletor. Na técnica de DE, o Laser incide sobre a matriz contendo a amostra e após a adsorção é aplicada a voltagem para promover a dissociação dos íons em direção ao detector no modo Linear. O desenvolvimento de um espelho do tipo refletor foi um avanço em relação ao modo Linear, e neste caso uma 28 Essa estratégia dispensa a etapa de mapeamento físico, uma das tarefas mais difíceis e demoradas. O genôma do organismo é fragmentado em pequenos pedaços, por quebra mecânica (sonicação ou nebulização) e diversas bibliotecas são geradas desses fragmentos aleatórios (Figura 5 e 6). O Tamanho dos fragmentos clonados varia entre 1000 a 4000 pb, podendo chegar a 10.000 pb, as extremidades de um grande número de clones são seqüenciadas e utilizadas para a montagem do genôma completo. Apesar de ser estratégia mais rápida, demanda uma alta capacidade computacional para processamento das seqüências e montagem correta do genôma. Esta estratégia tem sido empregada para o seqüenciamento de inúmeros genômas de procariontes como de bactéria, por exemplo Xilela fastidiosa e Gluconacetobacter diazotrophicus (consórcio RIOGENE) dentre outras, e também tem sido utilizada para genômas de eucariontes, bem maiores, incluindo o genôma humano. Um grande problema para os projetos de seqüenciamento genômico é a grande quantidade de regiões do genôma com seqüências repetidas o que, dentre outros problemas, dificulta bastante o trabalho final de bioinformática para montagem das seqüências. Para suplantar esse problema, mesmo quando se utiliza a estratégia “shotgun” podem ser utilizadas bibliotecas com grandes fragmentos de DNA para auxiliar a ordenação dos clones e montagem do genôma. Além de diminuir a quantidade de 13 seqüenciamento das bibliotecas “shotgun”. No caso de genômas de organismos eucariontes superiores, além da quantidade de DNA repetitivo ser muito maior, esses problemas são agravados pelo fato dos genes possuírem íntrons dificultando ainda mais a montagem e localização das regiões codificantes do genôma. Uma alternativa nesse caso é seqüenciar apenas o Genôma Funcional, ou seja, o DNA complementar ao RNA mensageiros ou o cDNA. Nesse caso, o RNA total do organismo é extraído, utilizado para síntese de cDNA através da enzima transcriptase reversa, o cDNA é então clonado e seqüenciado. Essa estratégia foi utilizada no Brasil para o seqüenciamento do genôma de cana-de-açúcar, onde foram seqüenciados um total de 340.000 ESTs (do Inglês Expressed Sequencing Tags ou Etiquetas de seqüências Expressas). O Brasil tem se destacado no seqüenciamento de genômas de diverso organismos através de diversos projetos em redes, a nível nacional e regional, envolvidos nos laboratórios de biologia molecular em mais de 48 instituições de ensino e pesquisa, com a mobilização de cerca de 240 cientistas de quase todas as regiões do país. Os projetos serão divididos nos setores agrícolas e de saúde. Conforme uma breve discussão a seguir. Genoma Bibliotecas “Shotgun” Seqüência de DNA do Genoma Figura 5 - Etapas para o seqüenciamento de genôma por fragmentos aleatórios (“Shotgun”). Área de Saúde Esquistossomose - Rede Genôma do Estado de Minas Gerais, utilizando como modelo o genôma expresso do Schistosoma mansoni, parasita responsável por infecção da esquistossomose, doença que atinge cerca de 200 milhões de indivíduos em todo o 14 Figura 14 – Esquema do processo de ionização por MALDI. Peptídeos ou fragmentos de proteínas co-cristalizada com uma matriz (derivada de pequenos compostos orgânicos) liberam molécula e partículas ionizadas após a ação do Laser. A protonação induzida dos peptídeos depende da sua interação com a matriz. Por sua vez o processo de ionização que utiliza a técnica de pulverização de elétrons (ESI) permite que amostras de peptídeos em solução (dissolvidos em solventes polares e voláteis) sejam submetidos a ionização pela passagem através de um capilar sob alta voltagem e pressão atmosférica (Figura 15). Neste caso, o uso de um gás, geralmente N2, promove a volatilização do solvente e com base no potencial electrostático ocorre a dissociação de íons de diferentes cargas. A ionização através da técnica de pulverização de elétrons (ESI) em microcapilares, sob pressão atmosférica e alta voltagem, ganhou popularidade devido a facilidade com que ela pode ser aplicada em conjunto com técnicas de cromatografia e técnicas de separação eletroforéticas em fase líquida (AEBERSOLD & GOODLETT, 2001). Além disso, a capacidade deste método de ionização em produzir analitos com múltiplas cargas é adequada para seu uso com instrumentos de espectrometria de massas do tipo quadrupólo ou outros tipos de analisadores de massa com faixa limitada de m/z (massa/carga). 27 spray ionization - ESI), são considerados métodos de ionização suaves em comparação com outros métodos conhecidos e associados ao processo de análise por espectrometria de massa. O fator determinante que caracteriza como suave estas formas de ionização depende das condições específicas utilizadas durante o processo de geração de íons que não provoca uma significante decomposição química e mesmo ligações fracas do tipo nãocovalentes são mantidas (MANN et al., 2001). O método de ionização por MALDI se utiliza de pulsos de Laser como fonte da energia de ionização e depende do uso de uma matriz. A mistura de peptídeos derivados de fragmentação enzimática é embebida em uma matriz orgânica (geralmente αcyano-4-hydroxycinaminic acid), composta por uma mistura de peptídeos padrões (tipo “bradykinin” e ACTH) com moléculas pequenas capazes de absorver energias do tipo UV (ultra-violeta) e IR (infra-vermelho) que se co-cristralizam com os peptídeos da amostra na presença de um doador de prótons (GARBIS et al., 2005). Posteriormente os peptídeos ionizados são liberados a partir dessa matriz após o bombardeamento com o feixe de laser emitido em uma câmara (Figura 14). A ionização via MALDI é geralmente utilizada com analisadores de massa do tipo tempo de vôo (Time-ofFlight - TOF) que são espectrômetros de massa mais simples e robustos que apresentam sensibilidade para uma faixa ampla de massas. Como este método de ionização produz predominantemente íons carregados com uma única carga os espectros gerados por MALDI-MS (ou MALDI-TOF) são simples de interpretar. mundo. Rede coordenada pela Fapemig (Fundação de Amparo à Pesquisa de Minas). Leishmaniose - ProGeNe (Programa Genôma do Nordeste), para o seqüenciamento de Leishmania chagasi, uma das três espécies responsáveis pela leishmaniose visceral, doença que afeta países de clima quente e temperado no mundo todo. Projeto coordenado pela UFPE (Universidade Federal de Pernambuco). P. brasiliensis (Micose) - Projeto em Rede do Centro-Oeste, para o estudo do genôma funcional e diferencial de Paracoccidioides brasiliensis, fungo responsável por micose endêmica, denominada paracoccidioidomicose, de alta prevalência na América Latina. Rede coordenada pela UnB (Universidade de Brasília). Doença de Chagas - Consórcio entre o Instituto de Biologia Molecular do Paraná, Fiocruz (Fundação Oswaldo Cruz) e Universidade de Mogi da Cruzes destinado a desenvolver a genômica funcional do processo de diferenciação celular do Trypanosoma cruzi: seleção e caracterização de novos genes e análise de novos alvos quimioterápicos, sob coordenação do IBMP (Instituto de Biologia Molecular do Paraná). Setor Agrícola Vassoura de Bruxa - Rede Genômica no Estado da Bahia, para estudos do genôma do fungo Crinipellis perniciosa causador da doença 'vassoura de bruxa' nas plantações de cacau, coordenado pela Unicamp (Universidade Estadual de Campinas). Fixador de Nitrogênio - Programa RioGene (Rede Genôma do Estado do Rio de Janeiro) destinado ao seqüenciamento do genôma da bactéria fixadora de nitrogênio Gluconacetobacter diazotrophicus, coordenado pela UFRJ (Universidade Federal do Rio de Janeiro) com participação da Embrapa Agrobiologia. Fixador de Nitrogênio - Programa Genôma do Estado do Paraná, para estudo do genôma estrutural e funcional da bactéria endofítica fixadora de nitrogênio Herbaspirillum seropedicae, coordenado pela UFPR (Universidade Federal do Paraná). 26 15 Fragmentos de DNA Cultura de E. coli no gel como alternativa para detecção de proteínas de baixa expressão não é a solução, pois tem sido observado ocorrência de saturação e fusão de spots em relação ao gel padrão, indicando limitação da resolução do gel 2D (INAGAKI & KATSUTA, 2004). Uma alternativa para estes problemas é o pré-fracionamento de amostras de proteínas para aumentar a resolução de proteôma em gel 2D através da redução da complexidade da amostra original. Maiores detalhes sobre estratégias de pré-fracionamento podem ser encontrados na revisão feita por WASINGER & CORTHALS (2002) ou em trabalhos mais recentes. æ Extração do DNA Plasmidial Reação de Sequeciamento (PCR) Transformação de E. coli e distribuição em placas de 96 poços Sequeciamento (MegaBace 1000) Read } “Contig” Bioinformática Ligação ao Vetor 3.2. Espectrometria proteômica Figura 6 - Estratégia utilizada pelo consorcio RIOGENE para o seqüenciamento completo do genôma de Gluconacetobacter diazotrophicus 2.4. Pirosseqüenciamento: nova seqüenciamento rápido de genômas alternativa para o Apesar do aumento significativo da velocidade de seqüenciamento com a utilização dos seqüenciadores automáticos, baseados no método de SANGER et al. (1977), e o desenvolvimento de diferentes estratégicas para o seqüenciamento completo do genôma, ainda há uma grande quantidade de trabalho, tempo e recursos financeiros para obtenção de hesito em um projeto de seqüenciamento. Diversos grupos de pesquisa têm realizado esforços para o desenvolvimento de métodos para a determinação da seqüenciamento de DNA. Três métodos são bastante promissores: seqüenciamento por hibridização (BAINS & SMITH 1988; DRMANAC et al., 1989; KHRAPKO et al., 1989; SOUTHERN, 1989), seqüenciamento por assinatura paralela, baseado na ligação e clivagem do DNA (BRENNER et al., 2000) e o pirosseqüenciamento (RONAGHI et al.; 1996, 1998). O pirosseqüenciamento é uma técnica baseada na detecção do pirofosfato (PPi) durante a síntese do DNA pela DNA polimerase. Através de uma cascata de reações uma certa quantidade de luz 16 de massa e sua aplicabilidade na A análise de peptídeos e proteínas por espectrometria de massa (MS – Mass spectrometry) se baseia na fragmentação de proteínas em moléculas menores (peptídeos) antes de sua ionização e separação por massa molecular (MW). O desenvolvimento de métodos de ionização adequados para proteínas e peptídeos e sua associação a instrumentos de análise de massa fizeram com que a técnica de espectrometria de massa (MS) se tornasse uma técnica complementar às técnicas de ressonância nuclear magnética (NMR – nuclear magnetic resonance), cristalografia de Raio X e outras técnicas clássicas de química de proteínas aplicadas no estudo de diversos aspectos de sua estrutura e função. Métodos de ionização Na década de 80, avanços no estudo de macromoléculas por espectrometria de massa foram marcados pelo desenvolvimento de dois processos de ionização capazes de gerar íons em moléculas grandes e não-voláteis tais como as proteínas e peptídeos, sem causar fragmentação significativa da molécula a ser analisada. Estes processos conhecidos como ionização por desadsorção da matriz mediada por Laser (MALDI - matrix-assisted laser desorption ionization) e por pulverização de elétrons em microcapilares sob pressão atmosférica e alta voltagem (electron 25 visível é gerada de acordo o número de nucleotídeos incorporados (Figura 7). Essa cascata é iniciada com a reação de polimerização do DNA e a liberação do PPi como resultado da incorporação no nucleotídeos pela polimerase. O PPi é subseqüentemente convertido a ATP através da ATP sulfurilase, o qual fornece energia para a luciferase oxidar luciferina e gerar luz. Anteriormente esse método não era utilizado para o seqüenciamento de genômas em função da limitação no tamanho das leituras (reads) gerados em torno de 80 a 120 pares de bases (RONAGHI et al., 1998). No entanto, diversos aprimoramentos tecnológicos possibilitaram a automação da reação e o desenvolvimento de uma equipamento capaz de seqüenciar 25 milhões de bases, como uma precisão de 99% ou mais, em apenas 4 horas (AGAH et al., 2004; MARGULIES et al., 2005). IPG strip Figura 13 – Exemplo do uso de diferentes faixas de gradientes de pH para caracterização preliminar do proteôma de uma cultivar de trigo (SKYLAS et al., 2005). Tiras contendo faixas de pH imobilizados do tipo ampla (Broad - pH 3–10), média (mid - pH 4–7, 5–8, and 6–11) e estreita (narrow-range (pH 5.5–6.7). Proteínas foram detectadas com corante fluorescente tipo SYPRO Ruby. A detecção de proteínas básicas, de alto peso molecular, hidrofóbicas ou pouco abundantes tem sido um dos desafios para a análise de proteôma através de 2D-GE. Diversas estratégias para superar estas limitações já foram descritas por vários autores para a detecção de proteínas básicas e hidrofóbicas (RABILLOUD, 1998; HOVING et al., 2002; TASTET et al., 2003). No caso de proteínas que apresentam baixo nível de expressão celular, tais como moléculas sinalizadoras e proteínas regulatórias (ex.: NifA – regulador positivo da transcrição de genes nif), a detecção de proteínas é de grande importância em estudos que visam caracterizar a expressão diferencial de proteínas e seu mecanismo de regulação. Aplicar maior quantidade de proteínas 24 Figura 7 - Princípio do Pirosseqüenciamento. A reação de polimerização do DNA libera o PPi que é convertido a ATP pela ATP sulforilase. O ATP é utilizado como fonte de energia para produção de luz pela luciferase (adaptado de RONAGHI, 2001). O Pirosseqüenciamento é um método rápido para seqüenciamento que não se baseia em eletroforese. No caso do equipamento desenvolvido pela Roche Apllied Science denominado “Genome Sequencer 20 System” (Figura 8), o seqüenciamento pode ser dividido em quatro etapas principais (Figura 9): 1) DNA Genômico é isolado e fragmentos com 300 a 800 pares de bases, gerados por 17 nebulização, são ligados a adaptadores e separados em fita simples; 2) os fragmentos ligados são imobilizados em nanoesferas de forma que apenas um fragmento seja ligado a cada esfera; 3) as esferas são capturas por gotículas de uma emulsão água-óleo contendo os reagentes para a reação de PCR (emPCR). Figura 12 – Ilustração da técnica de 2D-GE para separação de proteínas de acordo com seu pI e MW. Figura 8 - Esquema do equipamento para o pirosseqüenciamento. O seqüenciador consiste de quatro grandes subsistema: a) Câmara de distribuição de Fluídos, b) câmara de circulação que inclui lâminas de fibra ótica contendo poços, c) câmara CCD para captura e montagem das imagens e um computador que fornece ao usuário uma interface para controlar o equipamento (adaptado de MARGULIES et al., 2005). A reação de PCR ocorre em cada gota, resultando em esferas contendo em torno de 10 milhões de copias de um único DNA molde; 4) A emulsão e quebra, as fitas de DNA desnaturas, e as esferas contendo clones de DNA fita simples são depositados em poços de um lâmina de fibra ótica. Pequenas esferas contendo as enzimas necessárias para a reação de pirosseqüenciamento imobilizadas são depositadas em cada poço (Figura 9). Após a preparação das esferas a reação de seqüenciamento é realizada através da passagem de uma solução contendo o tampão de reação e os nucleotídeos (A, T, G, e C) independentemente, com uma 18 Apesar do grande potencial de separação desta técnica, nem todas as proteínas presentes em um extrato total podem ser resolvidas devido a sua reduzida taxa de expressão e/ou diferenças extremas em relação a solubilidade. Algumas estratégias podem ser adotadas para resolver algumas limitações associadas a 2D-GE, uma delas é o uso de múltiplos géis em diferentes faixas de pH ou peso molecular para implementar a resolução da análise (Figura 13). 23 3.1. Análise do perfil de proteínas expressas através de eletroforese bidimensional (2D-GE) A eletroforese bidimensional (2D-GE) se tornou uma das técnicas mais importantes para separação de proteínas com alta resolução para análise proteômica através de espectrometria de massa (MS). No entanto, apesar da grande demanda de substituição desta técnica e inúmeros questionamentos sobre sua aplicabilidade em relação a outras técnicas menos laboriosas para avaliação de grandes volumes de amostras, seu nível de resolução e sensibilidade ainda são bastante úteis para obter uma visão global da atividade celular (revisado por FEY & LARSEN, 2001). A técnica de eletroforese bidimensional tem como base a separação de proteínas de acordo com seu ponto isoelétrico (pI) e sua massa molecular (MW) em duas etapas de forma a ampliar o poder de resolução de amostras complexas de proteínas (Figura 12). Na primeira etapa a mistura de proteína solúvel do extrato bruto de uma amostra é submetida a eletroforese na ausência de agentes desnaturantes (SDS, uréia, DTT) de modo a favorecer a separação dos polipeptídeos em determinado pH devido ao conteúdo de cargas positivas e negativas de acordo com propriedade intrínseca de cada molécula. De acordo com seu pI, cada proteína apresenta carga líquida igual a zero e portanto tende a precipitar a partir de uma solução, ou deixa de migrar ao longo de uma matriz de poliacrilamida no caso da eletroforese, ao apresentar níveis de protonação e redução capazes de neutralizar sua carga. A técnica de 2D-GE, apesar dos seus mais de 25 anos de aplicação em análise de proteínas, só recentemente recebeu atenção e inovações que garantem a sua aplicação com altos índices de reproducibilidade tais como a introdução de gradientes de pH imobilizados em tiras de gel de poliacrilamida (GORG et al., 2000; HANASH, 2000), as quais podem ser adquiridas comercialmente. As condições de eletroforese utilizadas em diversos laboratórios não são fruto de um consenso, e portanto devido a estas variações dificilmente um gel pode ser comparado ao de outro laboratório em detalhe. 22 lavagem do sistema após a passagem de cada base. A luz gerada é capturada e utilizada para geração do pirograma (Figura 10). Figura 9 - Preparação das amostras para a reação de pirosseqüenciamento, reação de PCR em emulsão (emPCR), deposição das esferas contendo o DNA amplificado e detecção da luz (Adaptado de MARGULIES et al., 2005). Ver detalhes no texto. Figura 10 - Pirograma com os dados brutos obtidos na reação de pirosseqüenciamento mostrando a proporção de sinal obtida para a incorporação de um, dois, três e quatro nucleotídeos. Na parte inferior é indicado a ordem dos nucleotídeos e na parte superior a seqüência obtida (Adaptado de RONAGHI, 2001). 19 Essa tecnologia tem vantagens na exatidão e facilidade de utilização para diferentes aplicações. Dispensa a clonagem, construção de biblioteca e seleção de clones, marcação de nucleotídeos, e a eletroforese de DNA. Além disso, possui alta flexibilidade e suposta alto nível de automação. Apesar de produzir seqüências com tamanho entre 80 a 120 pares de bases, o que poderia ser um problemas para a montagem do genôma, o desenvolvimento de algoritmos matemáticos específicos e o grande número de seqüências geradas, torna possível o seqüenciamento de um genôma bacteriano em poucos dias (MARGULIES et al., 2005). Certamente se para o organismos de interesse já houver algum genôma seqüenciado será muito mais fácil a montagem do genôma e dessa forma, dada a velocidade do seqüenciamento, essa plataforma tecnológica poderá ser muito utilizada para o seqüenciamento de genômas microbianos em larga escala e a “tipagem” baseadas na seqüência do genôma. 3. Introdução a Proteômica como ferramenta para a caracterização estrutural de proteínas técnicas de cristalização e de análises por raio X e NMR. Além disso, estudos in silico utilizando ferramentas de bioinformática são essenciais para validar estruturas e identificar possíveis sítios de interações dessas moléculas com seus potenciais ligantes. Desde o final da década de 90, a análise proteômica tem sido feita com base em duas etapas principais: separação de proteínas e caracterização por espectrometria de massa (MS) da massa molecular e/ou seqüência de aminoácidos dos peptídeos derivados de digestão enzimática. A separação de proteínas pode ser realizada através da eletroforese bidimensional (2D-gel electrophoresis ou 2D-GE) ou diferentes tipos de cromatografia (Figura 11). A técnica de cromatografia líquida (LC – liquid chromatography ou CL) é uma das mais convencionais e pode ser aplicada em conjunto com equipamentos de espectrometria de massa sem necessidade de processamento entre a etapa de separação e a análise de espectrometria de massa (LC-MS e LCMS/MS). O termo proteôma pode ser traduzido no conteúdo de proteínas presentes em uma amostra (ex.: tecido, órgão, plantas, animais, cultura de células) em um determinado ponto ou ciclo de vida. A abordagem em larga escala do estudo de proteínas, sua estrutura, localização, modificação pós-traducional, função e interação com outras proteínas e ligantes é denominada Proteômica. A Proteômica pode ser separada em diversos campos de acordo com o objetivo de estudo: Proteômica da expressão, Proteômica Funcional, Proteômica Estrutural. A Proteômica da expressão tem como objetivo caracterizar os níveis de regulação da expressão de proteínas em respostas as condições ambientais ou fisiológicas da célula ou organismo em estudo (MONTI et al., 2005). Proteômica funcional visa monitorar e analisar as propriedades espacial e temporal da rede molecular envolvidos em células vivas ao longo de um processo ou ciclo celular. Neste caso o foco está associado a atividade protéica, complexos multiproteínas e vias sinalizadoras (GODOVAC-ZIMMERMANN & BROWN, 2001; MONTI et al., 2005). Proteômica estrutural utiliza 20 Figura 11 – Esquema da estratégia freqüentemente aplicada em estudos de Proteôma (adaptado de GARBIS et al., 2005). 21