A Revolução do Big Data
Foco em infraestrutura de dados
SUCESU–BA 2014
Ilan Grinspun ([email protected])
Storage Specialist
O Que é Big Data?
Definição de BIG DATA
• Big Data is like teenage sex: Everyone talks about it, nobody
really knows how to do it, everyone thinks everyone else is doing
it, so everyone claims they are doing it too!
• Big Data é como sexo na adolescência: Todos falam sobre ele,
ninguem realmente sabe como fazer, todos acham que os outros
estão fazendo, então todos dizem que estão fazendo tambem!
Ilan Grinspun
Definições de BIG DATA
• Big data é a habilidade de extrair informação de diferentes conjuntos de
dados estruturados e/ou não estruturados através de uma nova geração de
softwares, aplicações, sistemas e arquiteturas computacionais e de Storage.
• Data Analytics é a procura por padrões em quantidades massivas de dados
gerados por diferentes fontes.
Ilan Grinspun
Big Data em todo lugar!
Os dados estão sendo gerados, coletados,
armazenados e analizados
– Internet das coisas
– e-comerce
– Transações bancarias
– Redes Sociais
– RFID
– WIFI Tracking
– GPS+3G/4G
Informação Não Estruturada
Internet da coisas
Informação de posição, RFID, WIFI, 4G.
Ilan Grinspun
Quais os numeros do Big Data?
• Google executa 2 milhões de procuras por minuto e
processa 40 PB por dia
• O universo digital cresce a uma taxa de 2.200 PB / dia
• Apenas 1% dos dados globais são analisados
• Dados gerados por maquinas produzirão 40% de
todos os dados até 2020
• O equivalente ao conteudo inteiro da biblioteca do
congresso americano passa pela internet a cada 10
segundos 640K são suficientes para todo
mundo
Ilan Grinspun
A Dimensão do Big Data.
35 Zettabytes em
dados corporativos
2020
Tamanho dos dados explode a taxa de
650% nos proximos 5 anos.
Internet das coisas
Volume
De
Dados
Volume
Dados
Não estruturados
• Logs, Files
• Multi-Structured
Velocidade
92% taxa de crescimento de trafego de
dados de 2010 a 2015
1.8 Zettabytes em
dados corporativos
• Block & File
• Streaming
2011
Zettabyte
Exabyte
Variedade
Interações
85% não estruturado!
Petabyte
Arquivos Humanos
Terabyte
Valor
61% dos decisores querem mais
informações
Dados Transacionais (Estruturados)
Mainframe
PC
Internet
Mobile
Machine
Zettabyte = 1,000,000,000,000,000,000,000 Bytes
Graph based on IDC and UC Berkeley Data Growth Estimates, Source: IDC & CosmoBC.com: http://techblog.cosmobc.com/2011/08/26/data-storage-infographic/
7
Storage Marketing
Exemplos de Aplicações
• Netflix produziu o primeiro seriado(House of Cards) baseado em informações sobre o diretor mais assistido(David Fincher) e
do ator preferido(Kevin Spacey) do grande publico.
• Rede de supermercados canadense descobre o que casais compram e as marcas mais usadas antes de darem a luz e enviam
cupons de desconto para acessórios de bebes (carrinhos, fraldas, etc)
• Google descobre surtos de gripe antes da agencia nacional de saúde.
• Caso Turnstyle (Smartphones WIFI real time).
• Rede varegista Dollar General monitora combinações de compras nos carrinhos
• “Este é o Universo em que todos nós estamos: por causa do Big Data, todas as lojas
saberão o que nos oferecer, todos os governos vão estar nos monitorando, seu medico
saberá de seu passado, sua empresa lhe conhecerá antes de voce fazer a entrevista de
emprego, esta será a norma!"
Ilan Grinspun
Quais tecnologias tornam o Big Data uma
possibilidade?
Os Pilares do Big Data
Data Analytics
• Ex. Apache Hadoop
SSD/flash
• Utilizar discos de estado solido 100x mais rapidos que HDDs Tecnologias
SLC e MLC
Convergencia, Scale Out NAS
ou Flash Pool
• Consolidar recursos de Storage, e escalar ao extremo virtualmente sem fim,
Centralizar Gerencia..
Deduplicação
• Reduzir quantidade de Storage, removendo dados duplicados de dentro de
data sets
Ilan Grinspun
Big Data muda toda TI como
conhecemos!
Clientes
Clientes
Clientes
Nodes do cluster
SQL Server
Nodes do cluster
SQL Server
Nodes do cluster
SQL Server
SQL Server
Database
SQL Server
Database
SQL Server
Database
O crescimento scale-up ocorre adicionando
mais recursos para um single node ou
substituindo por um node maior
Ativo
Passivo
Arquiteturas: SAN Scale-Up e NAS Scale-Out
Rede Interna LAN
NFS
CIFS
FluidFS Gateways
FluidFS
FluidFS
SAN “back-end”
CONFIDENTIAL
FluidFS
FluidFS
• Sempre redundantes
FluidFS
• FluidFS
Write cache
espelhada
• Load Balanced
Disk Arrays
Disk Arrays
Disk Arrays
Disk Arrays
Storage Marketing
Load balancing Otimização de performance
• As conexões são automaticamente balanceadas por todas as portas e todas as controladoras no
cluster
• Single namespace significa que arquivos de dados não precisam ser fragmentados ou colocados
em silos individuais de grupos de arquivos quando appliances são adicionados
MAC address A
MAC address B
MAC address C
MAC address D
MAC address E
MAC address F
MAC address G
Client network
A, I
B
C
D
E
F
G
H
Single namespace
Controller 1
Controller 2
FluidFS appliance
Controller 1
Controller 2
FluidFS appliance
NAS storage pool (underlying SAN storage)
13
CONFIDENTIAL
Storage Marketing
Infraestrutura Hiper Convergente
Infraestrutura Tradicional
Infraestrutura Hiper Convergente
 Servidor  Storage
14
Arquitetura inovadora da Nutanix
VM
VM
VM
X86 Node
Storage
Storage
Compute
Capacity
Control
Melhor performance
• Convergência elimina gargalos
• Performance linear
15
VM
VM
VM
X86 Node
Storage
Storage
Compute
Capacity
Control
Escalabilidade
• Escale “um nó por vez"
• Expansão do cluster sem
parada
VM
VM
VM
X86 Node
Storage
Storage
Compute
Capacity
Control
Confiável
• Sem ponto único de falha
• Reproteção automática
Data Locality
VM
SSD
16
VM
VM
CVM
VM
VM
VM
CVM
VM
VM
VM
ESX
ESX
ESX
X86 Node
X86 Node
X86 Node
HDD
SSD
HDD
SSD
HDD
CVM
Hot Tier
VM
SSD
17
VM
VM
CVM
VM
VM
VM
CVM
VM
VM
VM
ESX
ESX
ESX
X86 Node
X86 Node
X86 Node
HDD
SSD
HDD
SSD
HDD
CVM
Flash Pool: Otimiza o caminho dos dados.
Storage
Array
Flash traz os
dados para
mais perto
da aplicação
• Gerenciado pela
controladora do storage
• Bandwidth é compartilhada
por muitos servidores
• Latencia SAN é problema
Server
Storage
Area
Network
Flash
SSDs
• Flash roda em appliance
como cache
• Compartilhada entre arrays
• Bandwidth é compartilhada
por muitos servidores
• Latencia SAN é problema
• Gerenciada pelo S.O.
• Não há latencia SAN
• Pode rodar a velocidade
PCIe mais rapido do que
SAN
• Escala performance
adicionando SSDs
• Roda como cache:
Localização e gerencia
dos dados é tranquila
• Tira proveito das
funcionalidades do
Storage:
HA, replicação, thin
provisioning, e Dedup
Global Marketing
Dell - Restricted - Confidential
18
Aproximando o Flash do Servidor:
INSTALL 1
ADD
2
Cache SW
Server
PCIe SSD
Cache SW
PCIe SSD
Server
Cache SW
Server
Cache SW
PCIe SSD
PCIe SSD
Fast access to data in the PCIe SSD Cache
between nodes
ADD
3
Server
Low Latency
IB Or 10Gb w/RDMA
Data has to go to SAN every time for shared storage writes and
reads
Pvt Cache Network
Storage Network
(FC or iSCSI)
ENABLE
4
Cache SW
Storage Area Network (SAN)
PCIe SSD (Sevidores) + Caching Software + SAN = Applicações Aceleradas = Problema resolvido
19
Confidential
Ilan Grinspun
A Tierização permite conseguir performance de
Storage flash ao preço de disco
Workload necessario:
40,000 IOPS
30TB Raw Storage
264 x
15k HDDs
20
@Dell_Enterprise
Beneficios do Tiered Flash
•
•
•
•
84% RU reduction
50% more IOPS
90% latency reduction
56% lower price
24 x
SSDs
Space
Savings
Enterprise Solutions Marketing
Redução de custos com MLC flash
• MLC SSDs reduz custo $/GB mas requer cuidados
especiais com os dados
• Arrays Hibridos:
• Tipos de utilização
– All flash arrays (Performance)
– Hibrido (Performance & capacidade)
– HDD (Capacidade e custo controlado)
$/GB
– 2 tiers de SSD e discos de 7.2k
– Custo equivalente ($/GB) a 15K
– Performance muito superior
Capacity
21
Nem todo SSD é criado igual
Enterprise SAS SSDs
–
–
–
–
–
Duas portas SAS para performance e alta disponibilidade
Monitoramento de uso integrado
Provisionado para durabilidade e performance sustentada.
Tecnologia de cache Non-volatil em cada drive
Proteção total de dados (IOEDC/IOECC)
Header
Write Intensive (WI)
Read Intensive (RI)
Utilização
Aplicações Top
Qualquer uso
Maioria Leitura
90/10 R/W Mix
Capacidade
400/800 GB
1.6 TB
30
3
21.9PB
8.76PB
38K
14K
Gravação de banda
400 MB/s
70 MB/s
Data Progression*
Escrita direta de servidores
Read-only replay data
Utilização(Full writes / Day)
Endurance (written PBs)
Performance IOPS (8K 70/30 R/W)
22
Confidential
Para o sucesso do Big Data em sua empresa procure o parceiro tecnologico correto!
Efficient Workforce
Efficient Data Center
IT management software
Cloud Client Computing
solutions
Remote systems
Mainframe migration,
modernization, and
optimization
Advanced data protection
& network security
management appliance
High-performance data centre networking
Archiving and image management solution for
healthcare vertical.
Efficient Cloud / Services
Application modernization software and
services
Server, data and application protection for virtual, physical
and cloud infrastructures
Consulting services & cloud expertise
A single point of mgmt
for both physical and
virtual resources
Simple, easy-to-use SaaS integration tool and
consulting
High performance SAN iSCSi
solutions for virtualization
Managed security services, threat intelligence and security & risk
consulting
Software asset management
Intelligent infrastructure and mgmt. of multi-tier storage
architecture
App mgmt.,
deployment svcs, and
infrastructure consulting
Storage compression & deduplication
Remote email management – continuity and
archiving SaaS
Distributed device management delivered as a SaaS
services
Clustered NAS storage
Memory Virtualization
technology
23
CONFIDENTIAL
IT monitoring software
Storage Marketing
•
•
•
•
24
SUCESU–BA
Ilan Grinspun
e-mail: [email protected]
Storage Specialist
CONFIDENTIAL
Storage Marketing
Scale Out
• Crescimento sem fim…
– NAS Scale-Out. Crescimento horizontal, com adição de controladoras.
– Sem necessidade de reconfigurações de provisionamento (Thin provisioning)
– Single Namespace capaz de crescimentos exponenciais: Dezenas ou centenas de Terabytes, para comportar dados não estruturados
Engineering Collaboration
Design Optimization
Process Flow
Fluid Dynamics
3D Modeling
Simulation
Genome Sequencing
Seismic Processing
Weather forecast
Analytics:
Predictive Modeling
Decision Processing
Demographics
Behavior Analysis
Data Warehouse
Hosting
Digitization/archive
Backup
Web 2.0
Ilan Grinspun
Download

Palestra Storage para BigData - Ilan Grinspun - Sucesu-BA