Integração de Dados Web e
Warehouse
Aluno:Bruno Correia – bcs2
Data grid
Data grid
• Introdução e Origem
– Metáfora: Power grids -> grids.
• Poder Computacional.
– Computação em Grid:
• É uma forma de computação distribuída.
• Visa compartilha poder computacional,
armazenamento e acesso de informações.
Data grid
• Introdução e Origem
– Surgiu com a necessidade das aplicações
cientificas (áreas da física e biologia molecular).
• Simulação populacional.
• Estudos de proteínas.
• Modelagem climática.
– Seu objetivo é tratar uma grande quantidade de
informações em simulações ou experimentos.
Data grid
• Introdução e Origem
– Necessidade de resolução rápida de problemas
com grande quantidade de dados.
– Área de HPC (High Performance Computer).
– Avanço de softwares e hardwares permite a
possibilidade de almejar objetivos maiores.
Data grid
• Conceitos
– Grid Computacional (do inglês Grid Computing) é
um modelo computacional capaz de processar
uma alta taxa de processamento divididos em
diversas máquinas, podendo ser em rede local ou
rede de longa distância, que em conjunto formam
uma máquina virtual que está alocada em uma ou
várias tarefas.
Data grid
• Conceitos
– Data grid se baseia na tecnologia de grid
computacional mas não é necessário ser um.
– Data grid é uma plataforma para “comunidades
científicas” que necessitam acessar, transferir,
compartilhar, processar e gerenciar grandes
quantidades de dados distribuídos
geograficamente.
Data grid
• Pontos de estudo:
– Proliferação de dados
• Como a aplicação distribui os dados.
– Distribuição geográfica
• Como é distribuido a informação geograficamente.
– Gerenciamento de réplicas
• Cópias de um único dado em outras fonte.
– Autonomia das fontes
• Controle dos recursos das fontes, políticas de acesso.
Data grid
• Pontos de estudo:
– Recursos limitados
• Alocação de atividades para ponto com pouca recursividade.
– Paralelização
• Problemas de paralelização no gerenciamento da informação.
– Imagem atrasada
• Dados que teoricamente estaria em outra fonte já foi modificado.
Data grid
• Topologia e Arquitetura
– Hierárquica
• tem uma fonte central de dados, os quais devem ser distribuídos através
de colaboração pela rede.
– Federacional
• esta topologia prevalece em Data Grids criados que querem compartilhar
informações presentes em bases de dados já existentes.
– Híbrida
• esta topologia combina as topologias explicadas anteriormente, de modo
a adaptar os modelos de acordo com as características específicas do
Grid.
Data grid
• Topologia e Arquitetura
– Hierárquica
Data grid
• Topologia e Arquitetura
– Federacional
Data grid
• Topologia e Arquitetura
– Híbrida
Data grid
• Cyberinfrastructure
– Se trata da tecnologia de informação (de suporte a
aplicação), que o sistema precisa oferecer para
dar ao usuário uma infra-estrutura. Alguns desses
itens: virtualidade, compartilhamento de recursos
e colaboração das fontes.
Data grid
• Ferramentas
– Criação de softwares que estejam utilizando a
ontologia e o data grid de maneira eficiente.
– Esses precisam ser especializados na área,
permitindo o usuário manipulação profunda do
gerenciamento e análise dos dados para que faça
justiça a co-colaboração dos dados.
Data grid
• Informações (data)
– Confiança no usuário do data grid é necessária.
– O compartilhamento de informações não (deveria
ser) são reguladas.
– Qualquer tipo de mídia pode trafegar e também
pode ser manipulada.
Data grid
• Integração de dados
– Além de lidar com quantidade imensa de dados é preciso
conseguir distribuir entre os bancos de dados contando
com a heterogeneidade dos dados.
– A consulta pode precisar da junção de vários bancos de
dados relacionais diferentes, nas ontologias, nas
ordenação e agregação no resultado das consultas ou nas
formas de coleções de informações extraídas de ficheiros
de imagem ou outro tipo de arquivos.
Data grid
• Integração de dados
– Capacidade de navegar sobre os vários esquemas
de dados (incluir aqui características OLAP) de
maneira flexível, escalável e poderosa.
Data grid
• Ontologia
– Todos as fontes precisam conhecer no mínimo
uma ontologia (Complexidade e integridade)
Data grid
• Colaboração entre fontes
– Precisa do auxilio da Infra-estrutura para dessa
rede para promover a colaboração entre todas as
fontes de dados
– Problemas de grande escala, escalabilidade e
aplicações que possam utilizar esses dados e suas
heterogeneidades
Data grid
• Fatores relacionados ao Gerenciamento de
Dados:
– Meta-dados
• Como, quando e por quem um conjunto particular de dados foi coletado,
e como os dado se encontram formatados.
• Estes dados são gerenciados por um serviço de gerenciamento de metadados, através de catálogos contendo nomes e localizações de arquivos
replicados, históricos de erros e padrões de busca dos dados e ainda
informações sobre a configuração do Data Grid: estado da rede, switches,
clusters, nós e softwares.
Data grid
• Fatores relacionados ao Gerenciamento de
Dados:
– Acesso aos Dados
• Heterogeneidade dos repositórios é um dos grandes problemas. Por isso
criar um identificador ou algum tipo de processo que catalogue, facilita na
hora de trazer para o grid um único dado, sem repetições.
• A maneira de acessar os dados é transparente para os aplicativos que
usam o Data Grid.
Data grid
• Fatores relacionados ao Gerenciamento de
Dados:
– Segurança
• Garante segurança nas transações efetuadas nos Data
Grid.
• Estratégias de replicação síncrona.
• Nível de acesso dos dados.
Data grid
• Fatores relacionados ao Gerenciamento de
Dados:
– Replicação
• Estratégia na qual arquivos idênticos são disponíveis
em vários locais diferentes do ambiente Data Grid,
pensando em tempo de resposta menor.
• Tolerância a falhas, disponibilidade de dados e metadados.
Data grid
• Fatores relacionados ao Gerenciamento de
Dados:
– Replicação
• Problema de copiar os dados entre as fontes
– Velocidade e esquemas de bancos.
Data grid
• Fatores relacionados ao Gerenciamento de
Dados:
– Otimização da busca
• A busca pode ser otimizada ao se escolher uma cópia
que minimize o tempo de acesso ao dado.
• Maneiras de mostrar a busca.
• Sobrecarregamento do servidor.
• Largura de banda, distância e tráfego no Grid.
Data grid
• Projetos
– Biomedical informatics Research Network ( BIRN )
• is a geographically distributed virtual community of shared
resources offering tremendous potential to advance the diagnosis
and treatment of disease.
• hosts a collaborative environment rich with tools that permit
uniform access to hundreds of researchers, enabling cooperation
on multi-institutional investigations.
• synchronizes developments in wide area networking, multiple data
sources, and distributed computing.
Data grid
• Projetos
– Oracle and Tangosol
• Tangosol provides a proven reliable in-memory data
grid technology designed to meet the new demands for
real-time data analytics, compute intensive middleware
and high performance transactions—often referred to
as Extreme Transaction Processing (XTP). Coupled with
Oracle Fusion Middleware, Oracle TimesTen, and Oracle
Database, the combination will create the first
integrated platform that enables extreme transaction
processing.
Data grid
• Projetos
– GigaSpaces eXtreme Application Platform (XAP)
• GigaSpaces' eXtreme Application Platform is an
application server built to scale that provides you a way
to see your entire set of computers as one single,
simple runtime environment in which both your
processes and your data can reside, enabling
predictable improvement of application performance
while you increase the volume of data, transactions,
and number of users, with no real need to rearchitect.
Data grid
• Projetos
– Hazelcast (JAVA)
Hazelcast is a clustering and highly scalable data
distribution platform for Java
• share data/state among many servers (e.g. web session sharing)
cache your data (distributed cache).
• cluster your application.
• partition your in-memory data.
• distribute workload onto many servers.
• take advantage of parallel processing.
• provide fail-safe data management.
Data grid
• Estado da Arte
– Já há programas e máquinas que ofereçam
suporte sustentável.
– Já existe um nicho de mercado para a área de data
grid.
Data grid
• Referências
– http://gilda-forge.ct.infn.it/frs/?group_id=6,
GridOur
– http://eu-datagrid.web.cern.ch/eu-datagrid/
– http://www.infn.it/indexen.php
– https://gilda.ct.infn.it/video.html
– http://www.bioinfogrid.eu/
– http://grid.infn.it/modules/IG_history/
– http://grid2win.gildaforge.ct.infn.it/onlineDocumentation/
Data grid
– www.nbirn.net
– http://www.oracle.com/tangosol/index.html
– http://www.gigaspaces.com/xap
– http://www.hazelcast.com/