BIOINFORMÁTICA BioGRID 3.1 Docente: Paulo Fazendeiro Larry Lourenço # 18993 BIOGRID 3.1 • • The Biological General Repository for Interaction Datasets (BioGRID) • É uma base de dados pública que arquiva e dessemina dados sobre interacções de proteínas e genes a partir de modelos de organismos e humanos (thebiogrid.org). • Actualmente contém mais de 460 000 interacções obtidas quer por datasets altamente elaboradas ou estudos individuais, bem como a partir de mais de 30 000 publicações da literatura primária. • O BioGRID 3.1 web interface contém novas características de pesquisa e visualização que possibilitam rápidas “procuras” através de múltiplos tipos de dados e fontes. • Possibilita dados de interacção com várias bases de dados de modelos de organismos, recursos como, Entrez-Gene, SGD, TAIR, FlyBase e outras meta-base de dados de interacções. • Toda a colecção de dados pode ser descarregada em múltiplos formatos de ficheiro, incluindo IMEx compatível com PSI MI XML. Para investigadores que desenvolvem trabalho na área, as interacções também estão disponíveis a partir da REST based Web Service e do plugin Cytoscape. Toda a documentação do BioGRID está disponível online no BioGRID Wiki. Contactos: • EMAIL: [email protected] • TWITTER: @biogrid EQUIPA BIOGRID • Lorrie Boucher [curator, Toronto] • Bobby-Joe Breitkreutz [software engineer, Toronto] • Christie Chang [curator, San Diego] • Andrew Chatr-Aryamontri [curator, Montreal] • Kara Dolinski [co-principal investigator, Princeton] • Sven Heinicke [software engineer, Princeton] • Nadine Kolas [curator, Toronto] • Michael Livstone [curator, Princeton] • Julie Nixon [curator, Edinburgh] • Rose Oughtred [curator, Princeton] • Teresa Reguly [curator, Toronto] • Jennifer Rust [curator, San Diego] • Chris Stark [software engineer, Toronto] • Mike Tyers [principal investigator, Montreal] • Andrew Winter [curator, Edinburgh] FINANCIADORES OUTROS PARCEIROS Bases de dados de modelos de organismos / Bases de dados de interacções / Bases de dados de anotações / Ferramentas / Software / Livrarias AFILIAÇÕES BIOGRID • John Aitchison Lab • Bill Gelbart Lab • Brenda Andrews Lab • • Gary Bader Lab • Jürg Bähler Lab • Judy Blake Lab • Jef Boeke Lab • Charlie Boone Lab • David Botstein Lab • Gianni Cesarini Lab • Mike Cherry Lab • Russ Finley Lab • Anne-Claude Gavin Lab Anne-Claude Gingras • Lab • Henning Hermjakob • Lab • Eva Huala Lab • Trey Ideker Lab • Michael Katze Lab • Quaid Morris Lab • Tony Pawson Lab • Matthias Peter Lab • Francis Ouellette Lab • Sue Rhee Lab • • • • • • • • • • Ivan Sadowski Lab Chris Sander Lab Gavin Sherlock Lab Mike Snyder Lab Lincoln Stein Lab Paul Sternberg Lab Olga Troyanskaya Lab Alfonso Valencia Lab Monte Westerfield Lab Shoshana Wodak Lab Jim Woodgett Lab Mike Yaffe Lab PUBLICAÇÕES BIOGRID • Stark C, Breitkreutz BJ, Chatr-Aryamontri A, Boucher L, Oughtred R, Livstone MS, Nixon J, Van Auken K, Wang X, Shi X, Reguly T, Rust JM, Winter A, Dolinski K, Tyers M. The BioGRID Interaction Database: 2011 update. Nucleic Acids Res. 2010 Nov 11. (Pubmed) • Breitkreutz A, Choi H, Sharom JR, Boucher L, Neduva V, Larsen B, Lin ZY, Breitkreutz BJ, Stark C, Liu G, Ahn J, Dewar-Darch D, Reguly T, Tang X, Almeida R, Qin ZS, Pawson T, Gingras AC, Nesvizhskii AI, Tyers M. A global protein kinase and phosphatase interaction network in yeast. Science. 2010 May 21; 328(5981): 1043-6. (Pubmed) • Stark C, Ting-Cheng Su, Breitkreutz A, Lourenco P, Dahabieh M, Breitkreutz BJ, Tyers M, Sadowski I. PhosphoGRID: a database of experimentally verified in vivo protein phosphorylation sites from the budding yeast Saccharomyces cerevisiae. Database. 2010 Jan; Vol. 2010 (Pubmed) • Salwinski L, Licata L, Winter A, Thorneycroft D, Khadake J, Ceol A, Aryamontri AC, Oughtred R, Livstone M, Boucher L, Botstein D, Dolinski K, Berardini T, Huala E, Tyers M, Eisenberg D, Cesareni G, Hermjakob H. Recurated protein interaction datasets. Nat Methods. 2009 Jan; 6(1): 39-46. (Pubmed) • Breitkreutz BJ, Stark C, Reguly T, Boucher L, Breitkreutz A, Livstone M, Oughtred R, Lackner DH, Bähler J, Wood V, Dolinski K, Tyers M. The BioGRID Interaction Database: 2008 update. Nucleic Acids Res. 2008 Jan; 36 (Database issue): D637-40. Epub 2007 Nov 13. (Pubmed) • Reguly T, Breitkreutz A, Boucher L, Breitkreutz BJ, Hon GC, Myers CL, Parsons A, Friesen H, Oughtred R, Tong A, Stark C, Ho Y, Botstein D, Andrews B, Boone C, Troyanskya OG, Ideker T, Dolinski K, Batada NN, Tyers M. Comprehensive curation and analysis of global interaction networks in Saccharomyces cerevisiae. J Biol. 2006; 5(4): 11. Epub 2006 Jun 8. (Pubmed) • Stark C, Breitkreutz BJ, Reguly T, Boucher L, Breitkreutz A, Tyers M. BioGRID: a general repository for interaction datasets. Nucleic Acids Res. 2006 Jan 1; 34 (Database issue): D535-9. (Pubmed) • Breitkreutz BJ, Stark C, Tyers M. The GRID: the General Repository for Interaction Datasets. Genome Biol. 2003; 4(3): R23. Epub 2003 Feb 27. (Pubmed) • Breitkreutz BJ, Stark C, Tyers M. Osprey: a network visualization system. Genome Biol. 2003; 4(3): R23. Epub 2003 Feb 27. (Pubmed) ARQUITECTURA E MODELO DE DADOS • A arquitectura da base de dados do BioGRID consiste em três componentes distintos: • O Core (Núcleo) • A Web (Internet) • O Interaction Management System - IMS (Sistema de Gestão de Interacções) • O modelo de dados do BioGRID foi desenvolvido de forma a ser extensível e modular. Cada um dos três componentes tem um papel específico na condução do sistema do BioGRID, e pode ser facilmente modificado de modo a responder a necessidades de mudança no manuseamento de dados sem acarretar grandes alterações nas aplicações que suportam. Em bases de dados de grandes dimensões, a integridade do modelo de dados é frequentemente comprometida (por exemplo, pela duplicação de dados dentro da base de dados para acelerar “procuras”) para melhorar o desempenho. Estas “falhas” frequentemente levam a problemas sérios na integridade dos dados. Por outro lado, uma base de dados completamente normalizada que segue rigorosamente princípios de design teóricos, enquanto mantém a integridade dos dados, pode sofrer frequentemente e gravemente de desempenho, especialmente em casos onde a base de dados aumenta substancialmente de tamanho. O modelo de dados do BioGRID resolve este problema utilizando um conjunto de tabelas especificamente desenhadas para reduzir o tempo de “procura”, que mantêm uma forma estrutural normalizada que não compromete princípios fundamentais de design. • Todas as bases de dados do BioGRID usam o MySQL 5.1, por este estar livremente disponível, ser uma plataforma independente, e de fácil instalação e manutenção sem sacrifício de desempenho ou de características. ARQUITECTURA E MODELO DE DADOS SOFTWARE • Todos os projectos associados ao BioGRID actualmente e sempre, farão uso de fontes abertas e disponíveis, bem como ferramentas, linguagens de programação e bases de dados para todos os projectos de engenharia de software. • Linguagens de programação - PHP, Python, e Java. • Sistema de Gestão de Dados - MySQL. • Ferramentas e Recursos - GIT tracking system, DokuWiki system, jQuery JavaScript library, Eclipse, Xemacs, e VIM. • Hardware e Backups - Todos os websites e bases de dados usam servidores base de hardware Dell e Mac a partir de Toronto e Princeton. Todos os servidores usam o CentOS Linux. Para servidores web, usam o Apache 2.0 e o Apache Tomcat. Todos os backups (diários, semanais, e mensais) são feitos com o Python e RSync e são arquivados em múltiplas localizações, incluindo cassetes. • Protecção e Interacção com o Utilizador - Drupal, GMail. TUTURIAL • Utilizadores em todo o mundo devem apreciar o facto de que bases de dados são algo a evitar. No entanto, aqui apresento uma base de dados que cientistas, provávelmente, não irão ficar chateados de ficarem “presos” por horas a fio. • BioGRID (Biological General Repository for Interaction Datasets) é um website que contém informaçôes únicas sobre interacções biológicas. • 50 espécies são representadas na base de dados, que podem ser pesquisadas pelo nome do gene, pelo identificador, ou palavrachave. (Infelizmente, não existe uma opção de procura de “função”, por isso pesquisas como “apoptose”, ou “metabolismo”, retornam sem resultados.) • Para além de simplesmente pesquisar pela base de dados, visitantes podem construir e fazer o download de datasets de interacções, utilizar um número de ferramentas online e recursos (como ferramentas de visualização de rede), e também ver as estatísticas das interacções do site. • Existe ainda uma opção de ajuda wiki, mas mesmo com esta assistência pode levar algum tempo para se familiarizar com tudo o que está incluído neste website. FIM