UNIVERSIDADE DE SÃO PAULO ESCOLA DE ENGENHARIA DE LORENA Amanda Fanelli de Souza Estudo, Identificação e Evolução de Genes Transferases nos Vegetais Lorena 2015 Amanda Fanelli de Souza Estudo, Identificação e Evolução de Genes Transferases nos Vegetais Monografia apresentada à Escola de Engenharia de Lorena da Universidade de São Paulo como requisito parcial para obtenção do titulo de Engenheira Bioquímica. Orientador: Elisson Antonio da Costa Romanel Lorena 2015 NÃO AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE POR AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, PORTRABALHO, QUALQUER MEIO CONVENCIONAL ELETRÔNICO, PARA FINS DE ESTUDO E PESQUISA, DESDE QUE CITADA A FONTE QUALQUER MEIOOU CONVENCIONAL OU ELETRÔNICO. Ficha catalográfica elaborada pelo Sistema Automatizado da Escola de Engenharia de Lorena, com os dados fornecidos pelo(a) autor(a) Souza, Amanda Fanelli de Estudo, identificação e evolução de genes transferases nos vegetais / Amanda Fanelli de Souza; orientador Elisson Antonio da Costa Romanel. Lorena, 2015. 47 p. Monografia apresentada como requisito parcial para a conclusão de Graduação do Curso de Engenharia Bioquímica - Escola de Engenharia de Lorena da Universidade de São Paulo. 2015 Orientador: Elisson Antonio da Costa Romanel 1. Transferases. 2. Filogenia. 3. Bioinformática. I. Título. II. Romanel, Elisson Antonio da Costa, orient. À meus pais, por terem me ensinado o valor da educação AGRADECIMENTOS À Deus, por todas as bênçãos e oportunidades que colocou em minha vida. À minha mãe Cleonice, por todo seu esforço para que eu pudesse estudar, sem o qual eu jamais teria chegado até aqui. Por ter me ajudado, com toda paciência e carinho, a superar as dificuldades e me incentivar sempre, fazendo parte de cada conquista minha. Ao meu pai Vladimir (em memória), por ter se preocupado com a minha educação e pelos valores que me ensinou, que permanecerão comigo para sempre. Sua dedicação e seu exemplo também foram e sempre serão fundamentais para as minhas conquistas. Ao meu irmão Gabriel, por estar sempre comigo, me ajudar sempre, tirar minhas dúvidas, e por ter contribuído muito para minha formação. Ao meu professor orientador, prof. Dr. Elisson Romanel, por todas as coisas que me ensinou e por ter me mostrado novas oportunidades na incrível área de genética e biologia molecular de plantas. Pela dedicação à este trabalho e ajuda de sempre. “Se você sabe que está na direção certa, se você tem esse conhecimento interno, então ninguém pode te impedir, não importa o que digam.” Bárbara McClintock RESUMO SOUZA, A.F. Estudo, identificação e evolução de genes transferases nos vegetais. 2015. 47f. Monografia (Graduação) – Escola de Engenharia de Lorena, Universidade de São Paulo, Lorena, 2015. A conversão da biomassa vegetal em etanol é uma importante alternativa para a substituição dos combustíveis fósseis e redução na emissão de gases do efeito estufa. O etanol produzido a partir de materiais lignocelulósicos (etanol de segunda geração), como o bagaço e a palha de cana-de-açúcar, traz o ganho de produtividade. No entanto, devido à recalcitrância da biomassa, esse processo é difícil e custoso. Nesse contexto, a alteração da estrutura da parede celular das plantas de maneira a tornar a biomassa mais susceptível ao pré-tratamento e conversão aumenta os rendimentos de sacarificação, tornando o processo mais eficiente. Nesse trabalho foram destacados três genes transferases que podem ser usados para alterar as estruturas de hemicelulose (OsAt10) e lignina (PMT e FMT). O gene OsAt10 está relacionado com o conteúdo de ácidos hidroxicinâmicos da hemicelulose de gramíneas. O PMT é responsável pela transferência de um grupo p-cumarato a um monolignol, enquanto o FMT é responsável pela transferência de um grupo ferulato a um monolignol. Em vista dos avanços na pesquisa científica e biotecnológica de FMT, este gene foi selecionado para estudo, identificação de genes homólogos, origem e evolução nas espécies vegetais. Como resultado, na literatura foram encontradas espécies com evidências de atividade FMT as quais foram classificadas dentro da sistemática vegetal. A partir destes dados, realizou-se a identificação de genes homólogos de FMT em 41 espécies vegetais cujos genomas já foram sequenciados e disponibilizados. Esta análise revelou a identificação de possíveis sequências homólogas em cinco espécies vegetais, como batata, algodão, uva, álamo e cacau. A identificação do FMT em outras espécies vegetais permite investigar a homologia funcional desta enzima, abrindo perspectivas para aplicações biotecnológicas. Palavras-chave: Transferases; Filogenia; Bioinformática. ABSTRACT SOUZA, A.F. Study, identification and evolution of transferases genes in vegetables. 2015. 47f. Monografia (Graduação) – Escola de Engenharia de Lorena, Universidade de São Paulo, Lorena, 2015. The biomass conversion into ethanol is an important alternative to replace fossil fuels and reduce greenhouse gases emissions. The ethanol produced from lignocellulosic materials (second generation ethanol), like sugarcane bagasse and straw, can improve productivity. But, because of biomass recalcitrance, this process is hard and expensive. In this sense, altering plants cell wall to make biomass more likely to pretreatments can improve sacharification, making the process more effective. In this work, genes that can be used for altering hemicellulose (OsAt10) and lignin (PMT and FMT) structures were highlighted. The OsAt10 gene is related with the hydroxycinnamic acid content of grasses hemicelluloses. The PMT is responsible for transferring a p-coumaroyl group to a monolignol, while FMT is responsible for transferring a feruloyl group to a monolignol. Because of the advances in scientific and biotechnological research of FMT, this gene was selected to study, identification of homologs genes, origin and evolution in vegetables. As a result, in literature, species with FMT activity evidences, which were classified into the vegetable systematics, were found. With that data, FMT’s homologs genes were identified in 41 species whose genomes were already sequenced and available. It was found homolog sequences in five vegetable species, like potato, grape, cocoa, cotton and poplar. The FMT identification in other vegetable species allows investigation of the functional homology of that enzyme, opening perspectives of biotechnological applications. Key-words: Transferases; Phylogeny; Bioinformatics LISTA DE FIGURAS Figura 2.1 – Estrutura da lignocelulose ..............................................................14 Figura 2.2 – Visão global do processo de produção do etanol de segunda geração ..........................................................................................15 Figura 2.3 – Efeitos do pré-tratamento na biomassa lignocelulósica ..................16 Figura 2.4 – Estrutura do ácido ferúlico esterificado a unidades de arabinofuranose em glucuronoarabinoxilanas...............................18 Figura 2.5 – Reação de acilação via PMT ..........................................................21 Figura 2.6 – Reação de acilação via FMT ..........................................................26 Figura 2.6 – Rendimento de sacarificação de linhagens de Populus transgênicas submetidas ao pré-tratamento alcalino, comparadas com a planta do tipo selvagem ..................................23 Figura 4.1 - Filogenia das angiospermas eudicotiledôneas, de acordo com a classificação APG III (2009).........................................................35 Figura 4.2 – Árvore filogenética de sequências homólogas de AsFMT ..............40 LISTA DE TABELAS Tabela 4.1 – Taxonomia das espécies com evidências de atividade FMT .........32 Tabela 4.2 – Taxonomia das espécies do clado Asterids cujos genomas foram sequenciados .......................................................................33 Tabela 4.3 – Taxonomia das espécies do clado Rosids cujos genomas foram sequenciados .................................................................................34 Tabela 4.4 – Pontuações obtidas no Phytozome 9.1 para o gene FMT utilizando a ferramenta BLASTP em todas as espécies disponíveis .....................................................................................37 SUMÁRIO 1 Introdução ................................................................................................ 10 2 Revisão Bibliográfica .............................................................................. 13 2.1 A cana de açúcar como matéria prima para produção de etanol........ 13 2.2 Estrutura da lignocelulose...................................................................... 13 2.3 Processo de produção do etanol de segunda geração........................ 15 2.3.1 Pré-Tratamento ........................................................................................ 16 2.4 Alteração da estrutura da parede celular para melhorar o processamento da biomassa ................................................................. 17 2.5 Alterações na hemicelulose de gramíneas ........................................... 17 2.5.1 Gene transferase OsAt10 ........................................................................ 19 2.6 Alterações na lignina .............................................................................. 19 2.6.1 Gene transferase PMT ............................................................................. 20 2.6.2 Gene transferase FMT ............................................................................. 21 2.7 Revisão dos métodos de bioinformática ............................................... 23 2.8 Busca por possíveis sequências homólogas ....................................... 24 2.8.1 BLAST....................................................................................................... 24 2.8.2 BLAST no banco de dados do Phytozome............................................ 26 2.9 Reconstrução de filogenias .................................................................... 26 2.9.1 Programa de alinhamento: MUSCLE ..................................................... 27 2.9.2 Reconstrução de filogenias: MEGA 6 .................................................... 27 3 Materiais e Métodos ................................................................................ 30 4 Resultados e Discussão ......................................................................... 31 4.1 Análise das espécies quanto à presença de genes FMT ..................... 31 4.1.1 Espécies com evidências de atividade FMT ......................................... 31 4.1.2 Levantamento das espécies vegetais com genoma disponível com possível atividade FMT ................................................................... 32 4.2 Identificação dos genes homólogos e análise filogenética ................. 36 5 Conclusões .............................................................................................. 42 REFERÊNCIAS………………………………………………………………………....44 10 1 Introdução Nas últimas décadas, muitos esforços foram realizados na tentativa de substituir os combustíveis fósseis por fontes renováveis de energia. Neste contexto, a biomassa surge como uma alternativa viável, com o potencial de ser uma fonte sustentável capaz de suprir a crescente demanda por energia. Os combustíveis sólidos, líquidos ou gasosos produzidos predominantemente a partir de biomassa são chamados biocombustíveis (DEMIRBAS, 2009). Seus principais atrativos são a possibilidade de substituição do petróleo e redução na emissão de gases de efeito estufa. Isso porque as plantas absorvem CO2 durante o seu crescimento através da fotossíntese, e este carbono retorna para a atmosfera quando a biomassa é queimada ou degradada. Dessa forma, é possível atingir um balanço neutro de carbono. Os chamados biocombustíveis de primeira geração são produzidos principalmente a partir de cultivares alimentícios, como cereais, cana-de-açúcar e oleaginosas (SIMS et.al, 2010). De fato, benefícios relacionados à redução da emissão de CO2 e à diminuição da dependência do petróleo foram relatados. Estudos de avaliação de ciclo de vida (LCA, life cicle assessment) demonstraram uma redução nas emissões de CO2 globais e no consumo de energia fóssil devido ao uso de biocombustíveis como o bioetanol e biodiesel, utilizados para substituir o diesel e a gasolina, respectivamente (RODRIGUES, 2011). No entanto, existem algumas críticas. Os custos ainda são relativamente altos, necessitando muitas vezes de incentivos governamentais, bem como industriais. Além disso, cerca de 1% da terra arável hoje é utilizada para a produção de biocombustíveis, fornecendo 1% dos combustíveis para transporte no mundo. Essa produção concentra-se nos Estados Unidos (42,1% da produção mundial de biocombustíveis) e no Brasil (24,2 % da produção mundial) (BP, 2014). É preciso ampliar essa produção, porém aumentar a quantidade de terras aráveis não é uma opção ecologicamente viável (POTTERS, G.; VAN GOETHEM, D; SCHUTTE F., 2010). Existe também uma preocupação quanto ao uso de matérias-primas alimentícias. Isso pode gerar uma competição, entre a produção de alimentos e 11 de combustível, pelo uso da terra e água. Muitas autoridades, pelo menos em parte, concordam que alguns biocombustíveis de primeira geração contribuíram para o aumento do preço das commodities para alimentação e ração animal. (SIMS et.al, 2010). Com o objetivo de superar os problemas ambientais e econômicos dos biocombustíveis de primeira geração, foi desenvolvido um novo tipo de biocombustível, chamado de segunda geração. A matéria-prima neste caso é a biomassa lignocelulósica, que é abundante, barata e não compete com a produção de alimentos. Dentre esses materiais, destacam-se co-produtos como palha e bagaço de cana-de-açúcar, ou ainda resíduos (florestais, industriais ou agrícolas). Muitos estudos publicados demonstram vantagens sobre os biocombustíveis de primeira geração, em termos de eficiência do uso da terra e desempenho ambiental (RODRIGUES, 2011). O Brasil possui um enorme potencial para a produção do etanol de segunda geração, a partir da palha e bagaço de cana-de-açúcar. Por já se tratar do maior produtor mundial do etanol derivado de cana-de-açúcar, a integração dos processos de hidrólise seria de fácil adaptação (FUGITA, 2010). O aproveitamento da palha tornaria a produção bem mais eficiente. Estima-se que 1 tonelada de palha equivale a cerca de 1,2 a 2,8 EBP (equivalentes em barril de petróleo), significando uma fonte de energia desperdiçada (SANTOS et.al, 2012). No entanto, a conversão da biomassa lignocelulósica em etanol é um desafio, sobretudo porque a lignocelulose é composta por celulose, hemicelulose e lignina, que formam uma estrutura complexa e recalcitrante (MOOD, 2013). A lignina obstrui o acesso aos polissacarídeos, que são fontes de açúcares para a fermentação. Para superar essa recalcitrância, é preciso realizar o pré-tratamento da biomassa lignocelulósica. Os principais objetivos são remover a barreira da lignina, diminuir a cristalinidade da celulose e separar a hemicelulose (RAMIREZ, 2014). Assim, a celulose se torna mais acessível para as enzimas hidrolíticas, que a convertem em glicose. Essa etapa é uma das mais caras de todo o processo, chegando a contribuir com $ 0.09 por litro de etanol (RAMIREZ, 2014). Muitas pesquisas têm focado no desenvolvimento de tecnologias que facilitem e tornem mais barato o processamento da biomassa. Uma das alternativas mais promissoras é a alteração da estrutura e composição da parede 12 celular via engenharia genética de plantas (RALPH et.al, 2013, BARTLEY et.al, 2013). Uma abordagem nas gramíneas é alterar a estrutura da principal hemicelulose, a glucuronoarabinoxilana. Essa hemicelulose em gramíneas é esterificada com ácidos ferúlico e p-cumarílico. Estudos em arroz (Oryza sativa) identificaram genes responsáveis por alterar a composição da glucuronoarabinoxilana, dentre eles destaca-se o OsAt10, aumentando o rendimento de sacarificação de 20-40% (BARTLEY et.al, 2013). Outra abordagem é alterar a estrutura da lignina, inserindo ligações quimicamente mais lábeis, tornando mais fácil quebrá-la. Estudos buscaram identificar os genes necessários para essas alterações (RALPH et.al, 2013). Sabe-se que alguns genes transferases já participam da lignificação em algumas plantas. O gene PMT, por exemplo, transfere um grupo cumarato a monolignois em gramíneas (Ralph et.al, 2013). Outros genes podem produzir conjugados que podem ser endereçados para a lignificação (RALPH et.al, 2013). Tais novos genes transferases, como o FMT, que transfere um grupo ferulato a um monolignol, têm o potencial de promover a inserção de ésteres na estrutura da lignina (monolignois ésteres conjugados). Então, levando-se em conta todos os benefícios dos biocombustíveis de segunda geração, com destaque para o bioetanol brasileiro, o objetivo deste trabalho foi fazer uma revisão na literatura sobre os genes OsAt10, PMT e FMT, os quais promovem diferentes alterações na biomassa lignocelulósica. Devido à relevância do avanço científico e biotecnológico para o gene FMT, a proposta deste trabalho foi fazer uma busca por espécies vegetais com essa atividade, classificá-las dentro da sistemática vegetal, identificar possíveis genes homólogos nas diversas espécies vegetais que apresentam o genoma disponível e compreender a origem e diversificação destes genes nos vegetais. 13 2 Revisão Bibliográfica 2.1 A cana-de-açúcar como matéria-prima para o bioetanol A cana-de-açúcar (Saccharum spp.) é uma gramínea tropical e semiperene, que se desenvolve bem em solos onde há boa aeração e drenagem (CONAB, 2014). O Brasil, além de maior produtor de cana-de-açúcar, é líder na produção de etanol e açúcar derivados dessa cultura. Na safra 2014/2015 estima-se que a produção total de cana-de-açúcar seja de 642,1 milhões de toneladas (CONAB, 2014). Como o processamento da cana-de-açúcar produz cerca de 14% de palha e 12,5% de bagaço (em massa seca) (SZCZERBOWSKI, 2014), nesse período foram gerados 89,9 e 80,3 milhões de toneladas de palha e bagaço, respectivamente. Esses co-produtos são materiais lignocelulósicos e possuem grande potencial para a produção de etanol. O aproveitamento integral da cana-de-açúcar (colmo, palha e bagaço) traz um impacto enorme na produção de etanol, uma vez que possibilita o aumento na produtividade sem a necessidade de ampliar a área cultivada (SANTOS, 2012). Dessa forma, a produção de etanol de segunda geração a partir de bagaço e palha de cana-de-açúcar tem atraído à atenção da agroindústria brasileira. 2.2 Estrutura da lignocelulose Os principais componentes da biomassa lignocelulósica são a celulose, a hemicelulose e a lignina, estando presentes extrativos e cinzas em pequenas quantidades (BALAT, 2010). A celulose é o principal componente da biomassa (cerca de 30-60% em massa seca). Trata-se de um polímero linear de glicose, com alto grau de polimerização (BALAT, 2010) e de cristalinidade. As cadeias de celulose se organizam em feixes, formando estruturas chamadas fibrilas. As fibras de celulose 14 interagem entre si por uma série de ligações de hidrogênio intra- e intermoleculares (MOOD et.al, 2013). A hemicelulose contribui com cerca de 20-40% em massa seca do material lignocelulósico (BALAT, 2010). Consiste em um polímero ramificado heterogêneo, contendo pentoses (xilose, arabinose), hexoses (manose, glicose, galactose) e ácidos urônicos (ácidos glucurônicos, metilgalacturônicos, galacturônicos) (MOOD et.al, 2013). É de natureza amorfa e possui baixo grau de polimerização (BALAT, 2010). A lignina é um polímero hidrofóbico, constituído principalmente de unidades fenilpropano chamadas monolignois, que são: guaiacil (G), siringil (S) e hidróxifenol (H). Esses monômeros ou outros menos frequentes formam uma matriz extremamente complexa. A lignina é responsável por fixar as hemiceluloses e a celulose umas nas outras, garantindo a rigidez da estrutura (HENRIKSSON, 2009). A figura 2.1 mostra a estrutura recalcitrante da lignocelulose. Figura 2.1 – Estrutura da lignocelulose Fonte: RAMIREZ, 2014. 15 2.3 Processo de produção de etanol de segunda geração De uma forma geral, o etanol pode ser produzido a partir dos polissacarídeos (celulose e hemicelulose) após hidrólise e fermentação (SZCZERBOWSKI, 2014). No entanto, as pentoses, provenientes da hemicelulose, requerem microrganismos específicos para a fermentação (BALAT, 2010). Dessa forma, o processo produtivo do etanol a partir da biomassa lignocelulósica envolve várias etapas (figura 2.2), sendo as principais: colheita da biomassa, pré-tratamento, hidrólise, conversão dos açúcares em etanol por meio da fermentação e recuperação do produto (RAMIREZ, 2014). Figura 2.2 – Visão global do processo de produção do etanol de segunda geração Fonte: Sticklen, 2008 16 2.3.1 Pré-tratamento O pré-tratamento é necessário para superar a recalcitrância da biomassa, tornando os carboidratos disponíveis para a hidrólise e fermentação. Os principais objetivos do pré-tratamento são remover a lignina, separar a hemicelulose, diminuir a cristalinidade da celulose e aumentar a área superficial acessível da biomassa (BEHERA et.al, 2014). Figura 2.3 Efeitos do pré-tratamento na biomassa lignocelulósica Fonte: Mood, 2013 O pré-tratamento ideal deve aumentar o rendimento de açúcares depois da hidrólise, prevenir a degradação de carboidratos, evitar a formação de compostos tóxicos ou inibitórios da fermentação e minimizar o gasto de energia e de químicos (SINGH, SUHAG, DHAKA, 2015). Existem vários tipos de pré-tratamento, como por exemplo: físico (trituração e moagem), físico-químico (explosão a vapor), químico (alcalino, solventes orgânicos), ou ainda biológico. No entanto, todos esses métodos são custosos, o que dificulta a aplicação em grande escala (BALAT, 2010). 17 2.4 Alteração da estrutura da parede celular para melhorar o processamento da biomassa Diversas pesquisas buscam desenvolver formas de tornar a biomassa menos recalcitrante, mais susceptível a diferentes tipos de pré-tratamento e posterior hidrólise, de forma a aumentar o rendimento de sacarificação (açúcares para a fermentação). Uma das alternativas mais promissoras é a alteração da estrutura e composição da parede celular, via engenharia genética de plantas. Uma possibilidade para as gramíneas, como a cana-de-açúcar, é alterar a composição da principal hemicelulose, a glucuronoarabinoxilana (BARTLEY et.al, 2013). Outra possibilidade é alterar a estrutura da lignina, tornando-a mais lábil, e, portanto, mais facilmente removível (RALPH et.al, 2013). 2.5 Alterações na hemicelulose de gramíneas A parede celular das gramíneas e outras monocotiledôneas é constituída de 40% (em massa seca) do polissacarídeo glucuronoarabionoxilana (GAX). A GAX de gramíneas é um polímero de xilanas, substituídas na posição O3 por arabinofuranose e pouco frequentemente por ácido glucurônico (BARTLEY et.al, 2013). O ácido p-cumárico, além de ser esterificado com lignina, também se associa com GAX de gramíneas (BARTLEY et.al, 2013). Além disso, em parte dos resíduos de arabinofuranose, ocorre substituição na posição O5 pelo ácido ferúlico (Figura 2.4). Existem também ligações éter entre os ferulatos e monolignois, formando complexos ferulato-polissacarídeolignina (BUNAFINA, 2009). Também são formados dímeros de ferulato (diferulatos), de maneira a unir por ligações cruzadas as cadeias de xilanas (BARTLEY et.al, 2013; ISHII; SHIMIZU, 2000). Essas ligações cruzadas nas cadeias laterais interferem nas propriedades físicas da parede celular, e consequentemente, na sua resistência à digestão enzimática (ISHII; SHIMIZU, 2000). 18 Figura 2.4 – Estrutura do ácido ferúlico esterificado a unidades de arabinofuranose em glucuronoarabinoxilanas Fonte: Adaptado de Oliveira et.al, 2014. A) Ácido ferúlico esterificado à arabinofuranose de GAX. B) Ácido diferúlico unindo por ligações cruzadas duas FA-GAX. C) Àcido ferúlico ligando a lignina à GAX. O ácido ferúlico, especialmente os diferulatos, fortificam a parede celular. Sabe-se que os ésteres ferúlicos dificultam a digestão da biomassa, de forma que a quantidade de ácido ferúlico é inversamente relacionada com os parâmetros de liberação de açúcar em processos enzimáticos in vitro (BARTLEY et.al, 2013). As proteínas que incorporam os ácidos ferúlico e p-cumarílico na parede celular de gramíneas ainda estão sendo caracterizadas. Mitchell et.al (2007) propuseram que uma subclasse de proteínas, mais abundantes em gramíneas do que em eudicotiledôneas, seriam responsáveis pela incorporação de ácido ferúlico. Essas enzimas pertencem ao domínio PFAM PF02458. Em plantas, foram denominadas BAHD-aciltransferases.(BARTLEY et.al, 2013). Bartley e colaboradores (2013) demonstraram que essa subclasse de Mitchell está presente em gramíneas e sofreu expansão gênica com relação às espécies eudicotiledôneas e não-espermatófitas. 19 2.5.1 Gene transferase OsAt10 Bartley e colaboradores (2013) identificaram 20 genes aciltransferases em arroz (Oryza sativa), que foram denominados de OsAt1 a OsAt20. Eles estudaram 17 linhagens transgênicas de arroz (activation tagged lines). Oligonucleotídeos específicos de PCR, (reação em cadeia da DNA polimerase) com alvo em 12 dos 20 genes transferases, foram usados para identificar a ausência ou presença do T-DNA. Das 17 linhagens estudadas, apenas quatro tiveram alteração fenotípica no conteúdo de ácidos ferúlico e p-cumarílico na parede celular. Em uma delas, identificou-se que a super-expressão do gene OsAt10 aumenta as ligações éster da matriz do polissacarídeo com ácido p-cumarílico (em aproximadamente 300%) e diminui as com ácido ferúlico (em aproximadamente 60%) nas folhas e nas bainhas. A super-expressão de OsAt10 provocou um aumento na sacarificação in vitro, sem efeitos no desenvolvimento vegetativo da planta. Após pré-tratamento em condições brandas, seguido de hidrólise com coquetel de celulases, essa linhagem transgênica teve rendimento de açúcares redutores 20% maior que a planta tipo selvagem. É importante notar que, nenhuma alteração significativa ocorreu na estrutura da lignina nos mutantes analisados (BARTLEY et.al, 2013). Em suma, o gene OsAt10 é um alvo biotecnológico, uma vez que pode melhorar e tornar mais economicamente viável a produção de etanol de segunda geração. 2.6 Alterações na lignina Nas últimas décadas, comprovou-se que outros monômeros, além dos tradicionais três monolignois (G, S, H), podem ser incorporados na lignina, naturalmente ou em plantas mutantes ou transgênicas. Em Kenaf (Hibiscus canabinnus), a lignina das fibras da entrecasca é cerca de 50% gama-acetilada. Em gramíneas, mais de 10% das unidades da lignina é substituída por p- 20 cumaratos (RALPH et.al, 2004). Além disso, ferulatos em glucuronoarabinoxilanas de gramíneas são incorporados na lignina, podendo ser considerados monômeros (RALPH et.al, 2013). Ademais, quando a capacidade da planta de sintetizar monolignois é comprometida, ela exporta uma série de outros monômeros para a parede celular (RALPH et.al, 2013). Dessa forma, a introdução de “novos” monômeros na lignina é uma estratégia viável para alterar sua estrutura visando à eficiência no processamento da biomassa (RALPH et.al, 2013). Dentre as várias possibilidades, uma das mais vantajosas é a lignificação com monômeros que insiram ligações mais lábeis na lignina, como ésteres. Alguns genes transferases necessários para essas alterações já foram identificado (PMT e FMT), enquanto alguns ainda estão sendo estudados (AMT e BMT) (RALPH et.al, 2013). Neste trabalho, foram descritos dois genes que inserem monolignois ésteres conjugados na lignina: PMT e FMT. 2.6.1 Genes transferase PMT Em todas as gramíneas, a lignina é acilada por p-cumaratos. Tal acilação ocorre via lignificação com monolignol p-cumarato éster conjugados (RALPH et.al, 2013). O gene PMT codifica a enzima monolignol p-cumaril Coa transferase. A atividade da enzima PMT foi demonstrada em extratos proteicos de milho, e recentemente um possível candidato à gene PMT foi identificado no genoma de arroz (RALPH et.al, 2013). O gene OsAt4 foi recentemente nomeado como PMT ( WITHERS et.al, 2012). A atividade dessa enzima só foi identificada via expressão em E.coli. Estudos na planta modelo Brachypodium têm demonstrado o papel do gene e da proteína na planta (RALPH et.al, 2013). A lignificação com monolignois p-cumarato conjugados não introduz ligações ésteres na lignina. Por causa de sua preferência por transferência de radical em vez de acoplamento, o p-cumarato não participa das reações de polimerização em cadeias crescentes de lignina, e permanece quase sempre 21 como uma extremidade fenólica livre (WILKERSON et.al, 2014). No entanto, o gene PMT pode ser um alvo pelo fato de que o p-cumarato liberado das gramíneas durante o pré-tratamento inibe a fermentação. Além disso, ele tem uma função similar à de outro gene muito importante, o FMT (RALPH et.al, 2013). Figura 2.5 – Reação de acilação via PMT Fonte: Adaptado de Ralph et.al, 2013. 2.6.2 Genes transferase FMT Uma das formas de introduzir ligações ésteres na lignina é por meio da introdução de monolignois ferulatos conjugados. A ideia é que monolignois ferulatos sejam produzidos e endereçados para a parede celular. Sabe-se que esses monômeros são compatíveis com as reações de lignificação, uma vez que existem ligações ésteres entre os ferulatos de glucuronoarabinoxilanas de gramíneas e a lignina. Tal transformação requer uma enzima que transfira ferulato a um monolignol (Figura 2.6). Isso não faz parte de nenhuma via de síntese de monolignois conhecida, em nenhuma planta (RALPH et.al, 2013). 22 Figura 2.6 – Reação de acilação FMT Fonte: Adaptado de Ralph et.al, 2013. Dessa forma, houve uma busca por espécies com atividade enzimática do tipo monolignol ferulato transferase (FMT), ou seja, que catalisa a transferência de ferulato para um monolignol. Sabe-se que Angelica sinensis produz o coniferil ferulato como extrativo, em quantidades acima de 2% em massa seca da raiz (RALPH et.al, 2013). Wilkerson et.al (2014) isolaram um gene de Angelica sinensis, que produziu em E. coli uma enzima com a desejada atividade FMT. Esse gene foi inserido em linhagens de Populus híbridos (Populus alba × grandidentata). Como a expressão deveria ser endereçada para os tecidos em que há formação de lignina, foi utilizado um promotor tecido-específico de xilema CesA8, envolvido na biossíntese da celulose na parede celular secundária. Utilizou-se também o promotor 35S (expressão constitutiva) como controle. A fusão com o gene repórter proteína fluorescente amarela (YFP-Yellow Fluorescence Protein) demonstrou que, de fato, na presença do promotor CesA8, a enzima FMT só estava sendo produzida no xilema, enquanto que na presença do promotor 35S, a enzima FMT estava expressa em vários tecidos. Apesar da dificuldade em detectar a inserção de monolignol ferulato na lignina, foram feitas alterações em um método (derivatização seguida de clivagem redutora- DFRC), que permitiram comprovar que coniferil ferulato e sinapil ferulato foram de fato incorporados na estrutura em linhagens transgênicas. Após tais linhagens serem submetidas ao pré-tratamento alcalino brando (6.25 mMNaOH, 90°C, 3 horas), obtiveram-se rendimentos maiores de sacarificação (hexoses e pentoses) (Figura 2.7) (WILKERSON et.al, 2014). 23 Figura 2.7 – Rendimento de sacarificação de linhagens de Populus transgênicas submetidas ao pré-tratamento alcalino, comparadas com a planta do tipo selvagem. Fonte: Wilkerson et.al, 2014. Na figura 2.7, nota-se que o aumento no rendimento de sacarificação é expressivo. O rendimento de glicose chega a ser aproximadamente 10% maior do que em plantas do tipo selvagem. Os resultados de Wilkerson e colaboradores (2014) demonstram que a inserção de FMT extraído de Angelica na árvore Populus torna a planta mais eficiente para a produção de etanol de segunda geração. Dessa forma, a identificação e as pesquisas científicas sobre o gene FMT e sua inserção e estudo biotecnológico em árvores, torna o gene FMT um alvo biotecnológico de grande relevância. Por isso, foi escolhido para estudo nesse trabalho. 2.7 Revisão dos métodos de bioinformática O desenvolvimento da biologia molecular permitiu que muitas informações fossem obtidas a partir do sequenciamento do genoma de diversas espécies. Com isso, houve a necessidade da organização dessas sequências de DNA em 24 bancos de dados, de forma a torná-las disponíveis para a comunidade científica internacional. Além disso, esses dados permitem a obtenção de informações extremamente importantes, como comparação dos genes entre as espécies e inferências evolutivas. A análise e processamento dessa quantidade cada vez maior de sequências e informações requer o uso de ferramentas de informática. A bioinformática é, portanto, a aplicação da ciência da computação, matemática e estatística para entender e organizar a informação contida em macromoléculas como o DNA (Luscombe et.al, 2001). Para a análise evolutiva de sequências de DNA ou de proteínas, as ferramentas de bioinformática são fundamentais. Quando se tem um gene de interesse, é importante investigar como ele se relaciona com os seus homólogos. Isso é possível a partir da reconstrução da história evolutiva dessas sequências expressa através da construção de árvores filogenéticas. Para isso, é preciso buscar por sequências homólogas à de interesse, alinhá-las e então reconstruir a filogenia. Existem diversos softwares disponíveis para execução desse trabalho. 2.8 Busca por possíveis sequencias homólogas 2.8.1 BLAST A ferramenta BLAST ou Basic Local Alignment Search Tool identifica, a partir de uma sequência em particular (isca), a sequência mais similar possível em um banco de dados (LESK, 2008). O BLAST faz o chamado alinhamento local entre sequências. Isso significa que o programa encontra regiões similares, em vez de alinhar todos os caracteres de uma sequência com os de outra (alinhamento global). (MADDEN, 2002). Quando a sequência isca é submetida ao BLAST, o algoritmo identifica pequenas subsequências, ou seja, trechos contíguos de um número determinado de aminoácidos/pares de bases (por padrão, para sequências de proteínas, esse 25 número é três). Essas subsequências são chamadas words. Em seguida, ele inicia a procura nas sequências do banco de dados por partes similares a tais porções. Assim que o programa encontra uma região bem pareada sem permitir a introdução de lacunas (gaps), ele tenta expandir e distanciar as bases ou aminoácidos de uma sequencia no alinhamento. Depois de encontrar todas as regiões possíveis e estendê-las ao máximo, o algoritmo encontra o melhor alinhamento para cada par de sequências isca-banco de dados. O programa exibe, então, as sequências do banco de dados, na ordem da mais similar para a menos similar à sequência usada como isca (MADDEN, 2002). Essa identificação da qualidade do alinhamento se dá através da atribuição de uma pontuação (score), que representa uma medida quantitativa da similaridade entre as sequências (LESK, 2008). Uma abordagem para sequências de comprimentos distintos é a definição da distância de Levenshtein ou de edição, que é o número mínimo de operações de edição necessário para converter uma sequência na outra. Uma operação de edição pode ser uma inserção, deleção ou alteração de um caractere em uma sequência (LESK, 2008). É preciso considerar que algumas operações de edição são mais prováveis de acontecer evolutivamente. É mais plausível a troca de um aminoácido por outro que possua as mesmas propriedades físico-químicas (por exemplo, um aminoácido básico por outro básico). Também é mais provável a deleção de uma sequência contínua de bases ou aminoácidos do que a deleção do mesmo número de bases ou aminoácidos em posições isoladas na sequência. Dessa forma, um programa de computador pode atribuir pontos para essas operações de edição. Para cada substituição, dependendo do par de resíduos envolvido, ele atribui uma pontuação, que é maior para a operação mais provável. Também atribui uma penalidade adequada para a deleção ou inserção de lacunas, dependendo de sua extensão. Dessa forma, quanto maior a similaridade, maior a pontuação (LESK, 2008). Dentre os tipos de programas BLAST, o BLASTp é usado para comparar uma sequência de aminoácidos com um banco de dados contendo um conjunto de sequências de aminoácidos (MADDEN, 2002). 26 2.8.2 BLAST no banco de dados do Phytozome O BLAST permite que, em um banco de dados, possa se buscar por sequências similares de uma sequência usada como isca. Um dos bancos em que se pode realizar a busca em genomas e proteomas de espécies vegetais é o disponibilizado pelo website Phytozome v.10.2 (http://phytozome.jgi.doe.gov/pz/portal.html) (Goodstein, 2012). Trata-se de um projeto do Joint Genome Institute, da Universidade da Califórnia. A versão 10.2, mais recente, permite o acesso a 48 genomas sequenciados e anotados de plantas (GOODSTEIN, 2012). O próprio Phytozome executa a ferramenta BLAST. Basta selecionar opção BLAST, a espécie de interesse, o tipo de alvo (genoma ou proteoma) e inserir a sequência isca (query). O resultado é exibido em ordem decrescente de pontuação. 2.9 Reconstrução de filogenias Mutações ocorrem nas sequências de ácidos nucleicos dos indivíduos e algumas delas podem se tornar substituições que passam a fazer parte de uma população. Quanto mais relacionadas estiverem as populações, maior a chance de existir as mesmas sequências de DNA, e tais sequencias serem similares em sua ordem de bases nitrogenadas. Então, quando se realiza o alinhamento de sequências de DNA (ou de proteínas), é possível identificar hierarquias de substituições compartilhadas. Esses padrões podem ser usados para reconstruir a história evolutiva, representada por uma filogenia (BROMHAM, 2008). 27 2.9.1 Programa de alinhamento: MUSCLE É preciso inicialmente alinhar as diversas sequências que se deseja relacionar por meio de uma árvore filogenética. Um software disponível online para esse fim é o MUSCLE, que significa, em inglês, Multiple sequence comparison by Log-Expectation. O serviço é oferecido pelo EMBL-EBI, European Molecular Biology Laboratory – European Bioinformatics Institute De uma forma geral, o algoritmo do MUSCLE funciona em várias etapas. A função para atribuição da pontuação dos alinhamentos é a chamada logexpectation. Assim, constrói-se um alinhamento múltiplo (EDGARD, 2004). A interface com o usuário do MUSCLE é simples. Basta inserir as sequências que serão alinhadas (input sequences), escolher o formato de saída (Clustalw, FASTA) e enviar o trabalho. O resultado pode então ser salvo (no formato de saída selecionado). Por padrão, o MUSCLE rearranja as sequências no arquivo de saída, de forma que sequências similares sejam adjacentes (EDGAR, 2004). É possível visualizar a qualidade do alinhamento pelos símbolos. A anotação asterisco (*) indica posições que têm resíduos conservados, 100% idênticos. Os dois pontos (:) indicam conservação entre dois grupos com forte similaridade (aminoácidos de mesma propriedade, que têm altas pontuações). O símbolo ponto (.) significa que há conservação entre grupos de baixa similaridade (menores pontuações) (LARKIN et.al, 2007). 2.9.2 Reconstrução de filogenias: MEGA 6 O software MEGA 6, Molecular evolutionary genetics analysis, foi desenvolvido para inferir relações evolutivas a partir de sequências de DNA ou proteínas. Atualmente, a sexta versão se encontra disponível para baixar no site http://www.megasoftware.net/ (TAMURA et.al, 2013). 28 O MEGA 6 constrói uma árvore filogenética a partir de um arquivo contendo o alinhamento múltiplo de sequências, que pode ser gerado usando o MUSCLE ou outro software. O MEGA exige a conversão desse arquivo de alinhamento para o formato *.meg. Após a conversão, o programa pode reconstruir uma filogenia utilizando diversos métodos (Neighbor-joining, UPGMA maximum parsimony, Bayesian inference and Maximum Likehood) (HALL, 2013). A seguir, segue uma descrição geral do método usado nesse trabalho, Neighbor- joining A partir do alinhamento múltiplo, o algoritmo analisa as sequências par a par, contendo o número de diferenças entre as sequências de cada par. Essa informação é convertida numa medida de distância. Dessa forma, é criada uma matriz de distâncias. Em seguida, é feito um agrupamento progressivo das sequências, em um método chamado agrupamento (cluster). Primeiro, as sequências cujas distâncias entre si são menores são agrupadas. Cada grupo é considerado uma linhagem. Então a matriz de distância é recalculada para encontrar a distância média entre cada sequência e esse novo grupo criado. Então, a menor distância é usada para construir um novo agrupamento, e assim por diante. Por fim, é desenhada a árvore, indicando as sequências mais similares entre si, podendo-se visualizar a história evolutiva (BROMHAN, 2008). O software MEGA 6 permite a escolha de diversos parâmetros para a construção de uma filogenia pelo método Neighbor- joining. Um parâmetro importante é o modelo de substituição, usado no cálculo da matriz de distâncias. Como supracitado, ao se comparar duas sequências relacionadas filogeneticamente, uma diferença em um sítio significa que houve uma ou mais substituições, que deram origem a uma nova sequencia. Para aminoácidos, os modelos de substituição que o MEGA 6 disponibiliza são: p-distance, Poisson model, equal input model, dayhoff model e Jones Taylor Thorton model (HALL, 2013). Neste trabalho, utilizou-se o método p-distance. Trata-se do método mais simples. Consiste apenas na proporção (p) de nucleotídeos diferentes entre duas sequências que são comparadas. É obtido por meio da divisão entre o número de diferenças de aminoácidos pela quantidade total de aminoácidos. Esse método não leva em conta múltiplas substituições. Mesmo se um aminoácido substituído várias vezes, o que se observa pelo 29 alinhamento é apenas uma diferença, que é o que se considera no cálculo (NEI; KUMAR, 2000). É possível ainda selecionar um método para testar a filogenia. O MEGA 6 fornece as opções interior brench step e bootstrapping method (HALL, 2013). Este último foi usado no trabalho. O método bootstrap é uma técnica estatística, que consiste em replicar os dados. O programa realiza um alinhamento, e a partir deste gera um novo similar, mas não idêntico. Se a mesma filogenia é obtida sempre, não importa quantas vezes é realizada a réplica dos dados, então, para o método escolhido, esses pontos realmente estão relacionados nessa árvore em particular. No MEGA 6, o usuário pode escolher o número de bootstrapping desejado (BROMHAN, 2008). A principal vantagem do método Neighbor-joining utilizado é a sua rapidez. O MEGA 6, utilizando esse método, retorna uma árvore de distâncias quase que imediatamente, enquanto que outros métodos levam horas, dias, semanas ou até meses. Entretanto, outros métodos podem ser exigidos em alguns casos, sobretudo quando se sabe que a taxa de mutação não é a mesma em todas as linhagens (BROMHAN, 2008). 30 3 Materiais e Métodos A sequência do gene FMT e sua respectiva proteína da espécie Angelica sinensis foi retirada do GenBank (accession number JA758320.1) (WILKERSON, 2014), baixada e armazenada. Com o objetivo de identificar possíveis espécies com atividade FMT, utilizou-se o banco de (https://genomevolution.org/wiki/index.php/Main_Page) dados (LYONS; CoGePedia FREELING, 2014) o qual contempla informações sobre os genomas das espécies vegetais que já foram sequenciados e disponibilizados. Para encontrar possíveis homólogos das sequências de FMT, foram utilizados os proteomas de todas as espécies que estão disponíveis no Phytozome v.9.1 (http://phytozome.jgi.doe.gov/pz/portal.html) (GOODSTEIN, 2012). Utilizou-se a ferramenta BLASTp para realizar essa busca. Foi utilizado o software MEGA 6 (TAMURA et.al, 2013) para inferir e visualizar árvores filogenéticas, usando o método Neighbour-joining. O método de teste da filogenia foi o Bootstrap, com 1000 replicações. O modelo de substituições de aminoácidos usado foi a distância-p. Já o tratamento de buracos (gaps) ou deleção de aminoácidos, a deleção par a par. 31 4 Resultados e discussão 4.1 Análise das espécies quanto à presença de genes FMT 4.1.1 Espécies com evidências de atividade FMT Com o objetivo de encontrar plantas contendo monolignol ferulatos na composição dos extrativos e evidências de atividade FMT, fez-se uma busca na literatura, no banco de dados do pubmed do NCBI. Relatos de atividade monolignol ferulato foram encontrados nas seguintes espécies: Cinidium officiale (KOBAYASHI; FUJITA; MITSUHASHI, 1984); Ligusticum Chuaxiong (LI; LIN; TAM, 2006) e Lomaticum Californicum (CHOU et.al, 2006). Segundo Ralph e colaboradores (2013), a análise dos extrativos das espécies Kenaf (Hibiscus canabinnus) e Balsa (Ochroma pyramidale) demonstra ferulatos cujas estruturas derivam da dehidrodimerização de monolignol ferulatos ou similares, indicando que ambas possuem atividade FMT. Além disso, a espécie Angelica sinensis produz o coniferil ferulato em suas raízes, em uma taxa acima de 2% em massa seca da raiz (RALPH et.al, 2013). A partir da identificação das espécies com atividade FMT, buscou-se classificar tais espécies dentro da sistemática vegetal para ampliar a possibilidade de identificação deste composto em outras espécies vegetais. Como resultado, verificou-se que os gêneros Angelica, Cinidium, Ligusticum e Lomatium pertencem à ordem Apiales, enquanto que os gêneros Hibiscus e Ochroma pertencem à ordem Malvales, eudicotiledôneas (Tabela 4.1). ambas pertencentes às angiospermas 32 Tabela 4.1 – Taxonomia das espécies com evidências de atividade FMT Nome C officinale L. chuanxiong L. californicum Chinese angelica Kenaf Balsa Clado Asterids Asterids Asterids Asterids Rosids Rosids Ordem Apiales Apiales Apiales Apiales Malvales Malvales Família Apiaceae Apiaceae Apiaceae Apiaceae Malvaceae Malvaceae Gênero Cinidium Ligusticum Lomatium Angelica Hibiscus Ochroma Espécie C. officinale L. chuanxiong L. californicum A. sinensis H. canabinnus O. pyramidale Fonte: Bremer et.al, 2009 Pode-se observar que não foi encontrada na literatura nenhuma evidência de atividade FMT nas angiospermas monocotiledôneas (inclui as gramíneas), gimnospermas e briófitas. No entanto, outras espécies filogeneticamente relacionadas ao clado Asterids ou Rosids podem conter atividade FMT. 4.2 Levantamento das espécies vegetais com genoma disponível com possível atividade FMT A partir dos resultados expostos no item anterior, foi feita uma busca na literatura por outras espécies, cujos genomas já foram sequenciados, que poderiam apresentar genes com atividade FMT. Como hipótese do trabalho, baseado na teoria evolutiva e da seleção natural das espécies (DARWIN, 1859), infere-se a partir da origem e diversificação das espécies que as atividades biológicas caracterizadas, possam ser identificadas nas espécies próximas. Assim, se a espécie está filogeneticamente relacionada com um dos gêneros supracitados (Cinidium, Ligusticum, Lomatium, Angelica, Hibiscus e Ochroma), existe a possibilidade de possuir genes homólogos ao FMT. Desses gêneros, os quatro primeiros pertencem ao clado Asterids, e os outros dois ao clado Rosids (Tabela 4.1). Portanto, a probabilidade de encontrar espécies com sequências similares de FMT é maior nesses clados. Essa probabilidade aumenta 33 à medida que as espécies apresentam uma origem em comum, recente na história evolutiva. Dessa forma, foi feito um levantamento no banco de dados do CoGePedia (LYONS; FREELING, 2014), de todas as espécies do clado Asterids com genomas disponíveis. O mesmo procedimento foi realizado para as espécies do clado Rosids. Em seguida, buscou-se a taxonomia das espécies encontradas. Encontraram-se 14 espécies para a busca em Asterids (Tabela 4.2) e 31 para Rosids (Tabela 4.3). Tabela 4.2 – Taxonomia das espécies do clado Asterids cujos genomas foram sequenciados Nome comum Ordem Família Gênero Espécie Tomate Batata Berinjela Pimenta vermelha Tabaco Monkey Flower Freixo Genlisea aurea Mirtilo Cranberry Solanales Solanales Solanales Solanales Solanaceae Solanaceae Solanaceae Solanaceae Solanum Solanum Solanum Capsicum Solanum sp. S. tuberosum S. melongena C. annuum Solanales Lamiales Lamiales Lamiales Ericales Ericales Solanaceae Phrymaceae Oleaceae Lentibulariaceae Ericaceae Ericaceae Nicotiana Mimulus Fraxinus Genilsea Vaccinium Vaccinium Kiwi Café Urticularia gibba Buva Ericales Gentianales Lamiales Asterales Actinidaceae Rubiaceae Lentibulariaceae Asteraceae Actinidia Coffea Urticularia Conyza N. benthaniana M. guttatus F. excelsior G. aurea V. spp V. macrocarpon Ait. A. chinensis Coffea sp. U. gibba C. canadensis Fonte: Bremer et.al, 2009. 34 Tabela 4.3 – Taxonomia das espécies do clado Rosids cujos genomas foram sequenciados Nome comum Uva Eucalipto Álamo Salgueiro roxo Linho Mamona Mandioca Borracha Bétula Carvalho Pepino Morango selvagem Maçã Pêra Cannabis Lúpulo Jujuba Pêssego Barrel medic Grão de bico Lotus japonicas Ervilha d'angola Lentilha Tremoço Algodão Cacau Aquilaria Neem Citrus Papaya Arabidopsis Ordem Família Gênero Espécie Vitales Myrtales Malpighiales Malpighiales Vitaceae Myrtaceae Salicaceae Salicaceae Vitis Eucalyptus Populus Salix V. vinifera E.grandis P.thricocarpa S. purpurea Malpighiales Malpighiales Malpighiales Malpighiales Fagales Fagales Cucurbitales Rosales Linaceae Euphorbiaceae Euphorbiaceae Euphorbiaceae Betulaceae Fagaceae Cucurbitaceae Rosaceae Linum Ricinus Manihot Hevea Betula Quercus Cucumis Fragaria L.usitatissimum R.communis M.esculenta H. brasilliensis B.nana Q.robur C. sativus F.vesca Rosales Rosales Rosaceae Rosaceae Malus Pyrus Rosales Rosales Rosales Rosales Fabales Fabales Fabales Cannabaceae Cannabaceae Rhamnaceae Rosaceae Fabaceae Fabaceae Fabaceae Cannabis Humulus Ziziphus Prunus Medicago Cicier Lotus M.domestica P. bretschneideri C.sativa H.lupulus Z.jujuba P.persica M.truncatula C.arietinum L.japonicus Fabales Fabaceae Cajanus C.cajan Fabales Fabales Malvales Malvales Malvales Sapindales Sapindales Brassicales Brassicales Fabaceae Fabaceae Malvaceae Malvaceae Thymelaeaceae Meliaceae Rutaceae Caricaceae Brassicacea Vigna Lupinus Gossypium Theobroma Aquilaria Azaridchta Aurantioideae Carica Arabidopsis V.radiata L.angustifolius G. raimonddi T.cacao A. agallocha A. indica Citrus sp C.papaya Arabidopsis sp. Fonte:Bremer et.al, 2009. 35 Com o objetivo de selecionar, dentre as espécies acima (Tabelas 4.2 e 4.3), as mais próximas daquelas com atividade FMT (membros das ordens Apiales e Malvales), analisou-se a árvore filogenética das angiospermas (Figura 4.1). Figura 4.1 – Filogenia das angiospermas eudicotiledôneas, de acordo com a classificação APG III (2009) Fonte: Adaptado de Bremer et.al, 2009. 36 Observou-se na figura 4.1 a relação filogenética entre as ordens Apiales e Malvales (Tabela 4.1) e as espécies membros dos clados Asterids e Rosids cujos genomas foram sequenciados (Tabela 4.2 e 4.3). No caso das Asterids (Tabela 4.2), a espécie mais próxima das Apiales é a Conyza canadensis. Isso porque ela é da família Asterales, que é do clado Campanulids (Figura 1). Já as outras famílias encontradas (Solanales, Lamiales, Ericales, Gentianales) são Lamiids. No caso das Rosids (tabela 4.3), as espécies mais próximas encontradas foram G. raimondii (algodão), T. cacao (cacau) e A. agallocha, pois são Malvids. Entretanto, as duas primeiras espécies estão mais relacionadas ao H. canabinnus e ao O. pyramidale porque também pertencem à família das Malvales. Então, pela hipótese do trabalho, as espécies: C. canadensis, G. raimondii e T. cacao têm maior probabilidade de possuírem atividade FMT. No entanto, embora o genoma de C. canadensis já tenha sido sequenciado (PENG et.al, 2014), não é possível acessá-lo, pois os autores não disponibilizaram para acesso público. 4.2.1 Identificação dos genes homólogos e análise filogenética Na tentativa de encontrar genes homólogos de FMT utilizou-se como isca a sequência encontrada na literatura de Angelica sinensis (AsFMT) (WILKERSON, 2014). Inicialmente, utilizou-se a ferramenta BLASTp, para todas as espécies do Phytozome v. 9.1. Utilizando a proteína AsFMT como isca no Phytozome v. 9.1 para todas as 41 espécies desse banco de dados, foi possível identificar as espécies que possuíam sequências mais similares a AsFMT, por meio da comparação entre as pontuações. A organização dessa pontuação em ordem decrescente permitiu uma visualização clara dessas espécies (Tabela 4.4). 37 Tabela 4.4 – Pontuações obtidas no Phytozome 9.1 para o gene FMT utilizando a ferramenta BLASTP em todas as espécies disponíveis Espécie Pontuação Theobroma cacao Populus trichocarpa Solanum tuberosum Solanum Lycopersicum Vitis vinifera Gossypium raimondii Carica papaya Manihot esculenta Malus domestica Citrus sinensis Ricinus communis Citrus clementina Fragaria vesca Eucalyptus grandis Thellungiella halophile Cucumis sativus Glycine max Capsella rubella Arabidopsis thaliana Linium usitatissimum Brassica rapa chiifu 401 v1.2 Arabidopsis lyrata Medicago truncatula Mimulus guttatus v1.1 Phaseolus vulgaris Prunnus persica Selaginella moellendorffii Aquilegia coerulea Oryza sativa Sorghum bicolor v1.4 Panicum virgatum v0.0 Setaria italic Zea mays Brachypodium distachyon Physcinitrella patens v1.6 Chlamydomonas reinhardtii Volvox carteri Coccomyxa subellipsoidea C-169 Micromonas pusilla CCMP1545 Micromonas pusilla RCC 299 Ostreiciccus lucimarinus 276,2 261,5 258,8 256,9 254,6 244,6 235,7 229,9 223 223 219,9 216,9 212,2 207,6 196,1 194,1 193,4 193 189,1 188,3 188,3 188 186,8 183 182,6 172,9 119,4 115,2 114,4 114 113,6 113,2 112,1 110,5 97,8 0 0 0 0 0 0 Fonte: Phytozome V. 9.1 38 O resultado demonstra que dentre as espécies com proximidade filogenética à ordem Apiales (Angelica sinensis), as que apresentaram maior similaridade ao AsFMT foram as espécies Solanum tuberosum (pontuação 258,8) e Solanum lycopersicum (pontuação 256,9). Estas espécies ocuparam a terceira e quarta posição, respectivamente. Em vista do aparecimento de duas espécies do mesmo gênero com alta pontuação, apenas uma foi selecionada para prosseguir no estudo: S. tuberosum. Observa-se na figura 4.1, que as ordens Solanales e Apiales pertencem ao mesmo clado Asterids. É interessante notar que dentre as espécies vegetais que são membros da ordem Malvales (Rosids), cacau (pontuação 276,2) teve a primeira colocação, enquanto que algodão (pontuação 244,6) teve a sexta posição. Como cacau e algodão são membros da mesma ordem, é possível que a divergência entre estas espécies tenha levado a divergências nos genes homólogos de FMT. Ademais, Populus trichocarpa (261,5) e Vitis vinifera (254,6) ocuparam a segunda e quinta posição, respectivamente. Na tabela 4.3, observa-se que elas pertencem ao clado Rosids e às ordens Vitales e Malphigiales, respectivamente. Esses resultados mostraram que, dentre as espécies com genomas disponíveis cujas pontuações obtidas foram mais altos, S. tuberosum e S. lycopersicum não apresentaram a melhor colocação, apesar de serem do mesmo clado que Angelica sinensis. Adicionalmente, o fato de encontrar outras espécies do clado Rosids em melhores posições que os gêneros Solanum, indica que o gene homólogo ao FMT pode existir nestas espécies. Nesse trabalho, o objetivo foi identificar e analisar a origem e evolução do gene FMT nas espécies vegetais. Somente a análise filogenética fornece dados suficientes para inferir homologia entre os genes. Os resultados de pontuação representam a similaridade entre as sequências, ou seja, uma medida quantitativa de suas semelhanças e diferenças. A homologia, por sua vez, significa descender de um ancestral comum. Trata-se de uma característica qualitativa. Dessa forma, com o objetivo de compreender a relação filogenética dos genes homólogos ao AsFMT encontrados nas espécies acima mencionadas, construiu-se uma árvore filogenética (Figura 4.2) para todos os genes FMT homólogos que tiveram maior similaridade ao AsFMT das cinco espécies selecionadas. Como controle, incluiu-se na análise Arabidopsis thaliana, em que 39 não há evidências de atividade FMT (WILKERSON, 2014). Na análise filogenética foram utilizadas as sequências encontradas de cada uma das cinco espécies, para as quais as pontuações obtidas usando a ferramenta BLASTp no Phytozome v9.1 foram mais altas. 40 Figura 4.2 – Árvore filogenética de sequências homólogas de AsFMT 100 100 At4G15390 At3G30280 49 At5G47950 At1G24420 93 At5G47980 71 96 AtG23970 At3G26040 93 100 Tc1EG015761 Gr004G187400 100 29 Tc1EG023828 61 Tc1EG010738 100 Tc1EG025010 Gr012G006600 Vv01008706001 68 59 100 91 Gr007G301400 Gr002G117800 Tc1EG034371 100 100 51 Tc1EG034377 Gr009G188000 41 Tc1EG034370 100 Gr002G117900 100 Tc1EG025946 Tc1EG025949 100 Tc1EG014579 97 55 Tc1EG014578 Tc1EG014580 At1G24430 99 99 97 Tc1EG010714 Vv01010312001 100 83 Gr008G162900 Gr011G203000 97 Tc1EG010715 100 Gr005G172900 100 St400029255 St400007801 100 74 St400036129 St400012542 62 St400012537 100 St400012539 39 St400012540 AsFMT 100 Tc1EG007415 Gr005G224100 36 Pt017G029300 30 100 PtT124500 100 Pt015G126600 91 Pt015G127000 73 Pt006G036100 98 Pt019G001400 16 100 Pt019G001200 100 Vv01015704001 Vv01024119001 Pt001G310000 36 Pt004G017600 76 Pt005G028500 100 100 Pt005G028200 Fonte: A autora, 2015. Sequências de Arabidopsis thaliana em verde, Theobroma cacao em vermelho, Populus trichocarpa em marrom, Vitis vinifera em roxo, Gossypium raimondii em rosa, Solanum tuberosum em azul e a FMT de Angelica sinensis em amarelo. 41 A análise filogenética (Figura 4.2) permitiu observar a existência de sequências homólogas de AsFMT em cinco espécies vegetais, tais como Theobroma cacao (cacau), Populus trichocarpa (álamo), Vitis vinifera (uva), Gossypium raimondii (algodão) e Solanum tuberosum (batata). Dentre estas espécies, cinco genes de batata (Solanum tuberosum) apresentaram maior similaridade ao AsFMT, sugerindo que a atividade FMT exista nesta espécie. É interessante notar que este resultado confirma a hipótese do trabalho, encontrando genes homólogos nesta espécie vegetal pertencente ao clado asterids assim como A. Sinensis. A presença de genes homólogos de AsFMT em espécies do clado Rosids, como uva (Vitis vinifera), álamo (Populus trichocarpa), cacau (Theobroma cacao) e algodão (Gossypium raimondii), indica que provavelmente a origem deste gene ocorreu antes da divergência entre os clados Rosids e Asterids. O fato de terem sido encontrados genes homólogos em uva é interessante, uma vez que é possível notar que a família Vitales, à qual a espécie pertence, está na base da evolução das Rosids (Figura 4.1) reforçando a existência de genes homólogos em espécies Rosids. Outro resultado importante é que não foram encontrados genes homólogos em monocotiledôneas, o que está de acordo com a hipótese do trabalho que inferiu a ausência do gene em gramíneas como a cana-de-açúcar. Nota-se que, de fato, o grupo de genes de Arabidopsis thaliana mais próximos de AsFMT, incluindo o At3g26040 identificado com moderada similaridade ao AsFMT (RALPH et.al, 2013) não apresenta alta similaridade com o próprio AsFMT de Angelica sinensis, reforçando a não existência da atividade monolignol ferulato transferase em Arabidopsis ou a perda desta atividade em Brassicales (Figura 4.1) 42 5 Conclusões Considerando a importância da produção de etanol de segunda geração a partir de cana-de-açúcar, a proposta de alterar a estrutura da parede celular das plantas de forma a facilitar a conversão de biomassa é bastante promissora. Na literatura, foram encontrados três genes de grande relevância, responsáveis por tais alterações: OsAt10, PMT e FMT. A partir do estudo feito para o gene FMT, identificaram-se na literatura espécies com evidência de atividade FMT, membros dos clados Asterids e Rosids. Também foram encontradas espécies desses clados com possível atividade FMT, cujos genomas já foram sequenciados. Isso é importante para estudos futuros, baseados em sequências de FMT dessas espécies que venham a ser disponibilizadas. Nesse trabalho, a sequência protéica de FMT de Angelica Sinensis (AsFMT) foi usada como isca para a busca de homólogos . Esperava-se encontrar espécies relacionadas filogeneticamente com a família de Angelica (Apiales), cujo proteoma estivesse disponível, para realizar essa busca. Entretanto, encontraramse apenas espécies pertencentes ao mesmo clado Asterids. A busca por homólogos realizada para todas as espécies disponíveis no banco de dados do phytozome v.9.1 confirmou a hipótese do trabalho, pois as sequências mais relacionadas, ou seja, com ancestral comum mais próximo, são de fato as do clado Asterids. No entanto, também foram encontradas sequências homólogas em espécies Rosids. Isso, aliado ao fato de que outras espécies desse clado têm evidência de atividade FMT descrita na literatura, pode significar que o gene FMT surgiu antes da divergência entre os dois clados, Asterids e Rosids. É interessante destacar que o gene homólogo encontrado em uva, sugere o surgimento de FMT na origem das angiospermas eudicotiledôneas e ausência nas monocotiledôneas. O fato deste gene não ter sido identificado nas monocotiledôneas evidencia a atividade FMT ausente nas gramíneas. Estes resultados demonstram como os métodos de bioinformática e evolução podem auxiliar na identificação de genes de interesse biotecnológico. Como perspectivas, novos trabalhos nessa área podem confirmar a atividade FMT nas espécies vegetais onde os homólogos de FMT foram 43 encontrados. Pode-se realizar a extração e identificação do composto monolignol ferulato para evidenciar a atividade. 44 REFERÊNCIAS BALAT, et.al. Production of bioethanol from lignocellulosic materials via the biochemical pathway: A review. Energy conversion and management, Oxford, v.52, n.2, p.858-875, Feb.2011. BARTLEY, L. et.al. Overexpression of a BAHD acyltransferase, OsAt10, alters rice cell wall Hydroxycinnamic acid content and saccharification. Plant physiology, v.163, n.4, p.1615-1633, Apr.2013. BEHERA et.al. Importance of chemical pretreatment for bioconversion of lignocellulosic biomass. Renewable and Sustainable Energy Reviews, v.36, p.91-106, Aug 2014. BREMER, B. et.al. An update of the Angiosperm Phylogeny Group classification for the orders and families of flowering plants: APG III. Botanical Journal of the Linnean Society, London, v.162, n. 2, p. 105-121, 2009. BP. BP statistical review of world energy. London, 2014. BROMHAN, Lindell. Reading the story the in DNA: A beginner’s guide to molecular evolution. 1º ed. Oxford: Oxford University press, 2008. 368p. BUANAFINA, M.M.O. Feruloylation in Grasses: Current and Future Perspectives. Molecular Plant, London, v.2, n.5, p.861-872, Aug.2009. CHOU, S.C et.al. Antibacterial Activity of Components from Lomatium californicum. Phytotherapy Research, Chichester, v.20, n.2, p.153-156, Jan. 2006 COMPANHIA NACIONAL DE ABASTECIMENTO. Acompanhamento da safra brasileira de cana-de-açúcar. Observatório agrícola, Brasília, v.1, n.3, p. 1-27, Dez.2014. DARWIN, C. On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. London: John Murray, 1859. 45 DEMIRBAS, A. Biorefineries: Current activities and future developments. Energy conversion and management, Oxford, v.50, n.11, p. 2782-2801, 2009. EDGAR, R.C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic acids research, Oxford, v.32, n.5, p.1792-1797, 2004. FUGITA, T.P.L. Desempenho de leveduras que metabolizam xilose para produção de etanol em hidrolisado hemicelulósico de bagaço de cana. 2010. 60f. Dissertação (Mestrado) – Universidade Estadual paulista, Faculdade de ciências agrárias, Jaboticabal, 2010. GOODSTEIN et.al. Phytozome: a comparative platform for green plant genomics. Nucleic acids research, Oxford, v.40, n.D1, p.D 1178-D.1186, 2012. HALL, B.G. Building phylogenetic trees from molecular data with mega. Mol. Biol. Evol., Oxford, v.30, n.5, p. 1229-1235, 2013. HENRIKSSON, G. Lignin. In: EK, M.; GELLERSTED, G.; HENRIKSSON, G. Pulp and paper chemistry and technology. Berlim: De Gruyter, 2009, cap. 6, p. 121145. V.1: Wood chemistry and wood biotechnology. ISHII, T.; SHIMIZU K. Chemistry of cell wall polysaccharides . In: HON, D.N. S; SHIRAISHI, N. Wood and cellulosic chemistry, 2º ed. Nova York: Marcel Dekker, 2000, cap. 5, p. 175-212. KOBAYASHY, M.; FUJITA, M.; MITSUHASHI, H. Components of Cinidium officinale Markino: occurrence of pregnenolone, conyferil ferulate, and hydroxyphtalides. Chemical and Pharmaceutical Bulletin, Tokyo, v.32, n.9, p.3770-3773, 1984. LARKIN, M.A .et.al. Clustaw W and Clustal X version 2. Bioinformatics, v. 23, n. 21, p. 2947-2948, 2007. LESK, A.M. Introdução à bioinformática. Tradução Ardala Elisa Breda Andrade. 2º ed. Porto Alegre: Artmed, 2008. 384 p. LI, S.; LIN, G.; TAM, Y. Time course accumulation of main bioactive components of the rhizome of Ligusticum chuanxiong. Planta Medica, New York, v.72, n.3, p. 278-280, 2006. 46 LYONS, E. FREELING, M. How to usefully compare homologous plant genes and chromosomes as DNA sequences. The Plant Journal, v.53, p.661-673, 2008. MADDEN, T. The BLAST Sequence Analysis Tool. In: MCENTRYE, J.; OSTELL J. The NCBI handbook. Bethesda: National Center for Biotechnology Information, 2002. Cap.16. MOOD, S.H. et.al. Lignocellulosic biomass to bioethanol, a comprehensive review with a focus on pretreatment. Renewable and sustainable energy reviews, v.27, p. 77-93, Nov.2013. NEI, M.; KUMAR, S. Molecular evolution and phylogenetics. New York: Oxford University Press. 333 p. OLIVEIRA, D.M et.al. Ferulic acid: a key component in grass lignocellulose recalcitrance to hydrolysis. Plant biotechnology journal, London, v.13, n.4, p.19, Nov.2014. POTTERS, G.; VAN GOETHEM, D; SCHUTTE F. Promising biofuel resources: Lignocellulose and algae. Nature education. Disponível em:< http://www.nature.com/scitable/topicpage/promising-biofuel-resourceslignocellulose-and-algae-14255919> Acesso em 09.Feb.2015. RALPH, J. et.al. New genes from novel plants for altering lignification. In: 17th International Symposium on Wood, Fibre and Pulping Chemistry, 2013, Vancouver. Comunicaciones congressos. Sevilha:IRNAS, 2013. Disponível em: < http://digital.csic.es/handle/10261/86431>. Acesso em 01 Feb. 2015. RALPH et.al, 2004. Lignins: Natural polymers from oxidative coupling of 4hydroxyphenylpropanoids. Phytochemistry Reviews, Dordrecht, v.3, n.1-2, p.2960, 2004. RAMIREZ, R.Q. Hydrolysis of lignocellulosic biomass. In: CORTEZ. , L.A.B. (coord.). Sugarcane bioethanol – R&D for Productivity and Sustainability. São Paulo: Edgar Blucher, 2014. p. 717-732. RODRIGUES, J.A.R. Do engenho à biorrefinaria. A usina de cana-de-açúcar como empreendimento industrial para a geração de produtos bioquímicos e biocombustíveis. Química nova, São Paulo, v. 34, n.7, p.1242-1254, Maio 2011. 47 SANTOS, F.A et.al. Potencial da palha de cana-de-açúcar para produção de etanol. Química nova, São Paulo, v.35, n.5, p. 1004-1010, Jan.2012. SZCZERBOWSKI et.al. Sugarcane biomass for biorefineries: Comparative composition of carbohydrate and non-carbohydrate components of bagasse and straw. Carbohydrate polymers, Barking, v.114, n.19, p.95-101, Dec.2014. SIMS, R. et.al. An overview of second generation biofuel technologies. Bioresource technology, Essex, v.101, n.6, p. 1570-1580, Mar. 2010. SINGH, SUHAG, DHAKA. Augmented digestion of lignocellulose by lignin explosion, acid and alkaline pretreatment methods: a review. Carbohydrate polymers, Barking, v.117, n.6, p. 624-631, 2015. TAMURA, K. et.al. MEGA6: Molecular Evolutionary Genetics Analysis Version 6.0. Mol. Biol. Evol., Oxford, v.30, n.12, p. 2725-2729, Oct.2013. WILKERSON, C.G et.al. Monolignol ferulate introduces chemically labile linkages into the lignin backbone. Science, Washington D.C, v.344, n.6179, p. 90-93, Apr. 2014. WITHERS, S. et.al. Identification of grass-specific enzyme that acylates monolignols with p-coumarate. J. Biol. Chem., Baltimore, v.287, n.11, p. 8347– 8355, Mar.2012.