Integração de Dados Web e Warehouse Aluno:Bruno Correia – bcs2 Data grid Data grid • Introdução e Origem – Metáfora: Power grids -> grids. • Poder Computacional. – Computação em Grid: • É uma forma de computação distribuída. • Visa compartilha poder computacional, armazenamento e acesso de informações. Data grid • Introdução e Origem – Surgiu com a necessidade das aplicações cientificas (áreas da física e biologia molecular). • Simulação populacional. • Estudos de proteínas. • Modelagem climática. – Seu objetivo é tratar uma grande quantidade de informações em simulações ou experimentos. Data grid • Introdução e Origem – Necessidade de resolução rápida de problemas com grande quantidade de dados. – Área de HPC (High Performance Computer). – Avanço de softwares e hardwares permite a possibilidade de almejar objetivos maiores. Data grid • Conceitos – Grid Computacional (do inglês Grid Computing) é um modelo computacional capaz de processar uma alta taxa de processamento divididos em diversas máquinas, podendo ser em rede local ou rede de longa distância, que em conjunto formam uma máquina virtual que está alocada em uma ou várias tarefas. Data grid • Conceitos – Data grid se baseia na tecnologia de grid computacional mas não é necessário ser um. – Data grid é uma plataforma para “comunidades científicas” que necessitam acessar, transferir, compartilhar, processar e gerenciar grandes quantidades de dados distribuídos geograficamente. Data grid • Pontos de estudo: – Proliferação de dados • Como a aplicação distribui os dados. – Distribuição geográfica • Como é distribuido a informação geograficamente. – Gerenciamento de réplicas • Cópias de um único dado em outras fonte. – Autonomia das fontes • Controle dos recursos das fontes, políticas de acesso. Data grid • Pontos de estudo: – Recursos limitados • Alocação de atividades para ponto com pouca recursividade. – Paralelização • Problemas de paralelização no gerenciamento da informação. – Imagem atrasada • Dados que teoricamente estaria em outra fonte já foi modificado. Data grid • Topologia e Arquitetura – Hierárquica • tem uma fonte central de dados, os quais devem ser distribuídos através de colaboração pela rede. – Federacional • esta topologia prevalece em Data Grids criados que querem compartilhar informações presentes em bases de dados já existentes. – Híbrida • esta topologia combina as topologias explicadas anteriormente, de modo a adaptar os modelos de acordo com as características específicas do Grid. Data grid • Topologia e Arquitetura – Hierárquica Data grid • Topologia e Arquitetura – Federacional Data grid • Topologia e Arquitetura – Híbrida Data grid • Cyberinfrastructure – Se trata da tecnologia de informação (de suporte a aplicação), que o sistema precisa oferecer para dar ao usuário uma infra-estrutura. Alguns desses itens: virtualidade, compartilhamento de recursos e colaboração das fontes. Data grid • Ferramentas – Criação de softwares que estejam utilizando a ontologia e o data grid de maneira eficiente. – Esses precisam ser especializados na área, permitindo o usuário manipulação profunda do gerenciamento e análise dos dados para que faça justiça a co-colaboração dos dados. Data grid • Informações (data) – Confiança no usuário do data grid é necessária. – O compartilhamento de informações não (deveria ser) são reguladas. – Qualquer tipo de mídia pode trafegar e também pode ser manipulada. Data grid • Integração de dados – Além de lidar com quantidade imensa de dados é preciso conseguir distribuir entre os bancos de dados contando com a heterogeneidade dos dados. – A consulta pode precisar da junção de vários bancos de dados relacionais diferentes, nas ontologias, nas ordenação e agregação no resultado das consultas ou nas formas de coleções de informações extraídas de ficheiros de imagem ou outro tipo de arquivos. Data grid • Integração de dados – Capacidade de navegar sobre os vários esquemas de dados (incluir aqui características OLAP) de maneira flexível, escalável e poderosa. Data grid • Ontologia – Todos as fontes precisam conhecer no mínimo uma ontologia (Complexidade e integridade) Data grid • Colaboração entre fontes – Precisa do auxilio da Infra-estrutura para dessa rede para promover a colaboração entre todas as fontes de dados – Problemas de grande escala, escalabilidade e aplicações que possam utilizar esses dados e suas heterogeneidades Data grid • Fatores relacionados ao Gerenciamento de Dados: – Meta-dados • Como, quando e por quem um conjunto particular de dados foi coletado, e como os dado se encontram formatados. • Estes dados são gerenciados por um serviço de gerenciamento de metadados, através de catálogos contendo nomes e localizações de arquivos replicados, históricos de erros e padrões de busca dos dados e ainda informações sobre a configuração do Data Grid: estado da rede, switches, clusters, nós e softwares. Data grid • Fatores relacionados ao Gerenciamento de Dados: – Acesso aos Dados • Heterogeneidade dos repositórios é um dos grandes problemas. Por isso criar um identificador ou algum tipo de processo que catalogue, facilita na hora de trazer para o grid um único dado, sem repetições. • A maneira de acessar os dados é transparente para os aplicativos que usam o Data Grid. Data grid • Fatores relacionados ao Gerenciamento de Dados: – Segurança • Garante segurança nas transações efetuadas nos Data Grid. • Estratégias de replicação síncrona. • Nível de acesso dos dados. Data grid • Fatores relacionados ao Gerenciamento de Dados: – Replicação • Estratégia na qual arquivos idênticos são disponíveis em vários locais diferentes do ambiente Data Grid, pensando em tempo de resposta menor. • Tolerância a falhas, disponibilidade de dados e metadados. Data grid • Fatores relacionados ao Gerenciamento de Dados: – Replicação • Problema de copiar os dados entre as fontes – Velocidade e esquemas de bancos. Data grid • Fatores relacionados ao Gerenciamento de Dados: – Otimização da busca • A busca pode ser otimizada ao se escolher uma cópia que minimize o tempo de acesso ao dado. • Maneiras de mostrar a busca. • Sobrecarregamento do servidor. • Largura de banda, distância e tráfego no Grid. Data grid • Projetos – Biomedical informatics Research Network ( BIRN ) • is a geographically distributed virtual community of shared resources offering tremendous potential to advance the diagnosis and treatment of disease. • hosts a collaborative environment rich with tools that permit uniform access to hundreds of researchers, enabling cooperation on multi-institutional investigations. • synchronizes developments in wide area networking, multiple data sources, and distributed computing. Data grid • Projetos – Oracle and Tangosol • Tangosol provides a proven reliable in-memory data grid technology designed to meet the new demands for real-time data analytics, compute intensive middleware and high performance transactions—often referred to as Extreme Transaction Processing (XTP). Coupled with Oracle Fusion Middleware, Oracle TimesTen, and Oracle Database, the combination will create the first integrated platform that enables extreme transaction processing. Data grid • Projetos – GigaSpaces eXtreme Application Platform (XAP) • GigaSpaces' eXtreme Application Platform is an application server built to scale that provides you a way to see your entire set of computers as one single, simple runtime environment in which both your processes and your data can reside, enabling predictable improvement of application performance while you increase the volume of data, transactions, and number of users, with no real need to rearchitect. Data grid • Projetos – Hazelcast (JAVA) Hazelcast is a clustering and highly scalable data distribution platform for Java • share data/state among many servers (e.g. web session sharing) cache your data (distributed cache). • cluster your application. • partition your in-memory data. • distribute workload onto many servers. • take advantage of parallel processing. • provide fail-safe data management. Data grid • Estado da Arte – Já há programas e máquinas que ofereçam suporte sustentável. – Já existe um nicho de mercado para a área de data grid. Data grid • Referências – http://gilda-forge.ct.infn.it/frs/?group_id=6, GridOur – http://eu-datagrid.web.cern.ch/eu-datagrid/ – http://www.infn.it/indexen.php – https://gilda.ct.infn.it/video.html – http://www.bioinfogrid.eu/ – http://grid.infn.it/modules/IG_history/ – http://grid2win.gildaforge.ct.infn.it/onlineDocumentation/ Data grid – www.nbirn.net – http://www.oracle.com/tangosol/index.html – http://www.gigaspaces.com/xap – http://www.hazelcast.com/