A Revolução do Big Data Foco em infraestrutura de dados SUCESU–BA 2014 Ilan Grinspun ([email protected]) Storage Specialist O Que é Big Data? Definição de BIG DATA • Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too! • Big Data é como sexo na adolescência: Todos falam sobre ele, ninguem realmente sabe como fazer, todos acham que os outros estão fazendo, então todos dizem que estão fazendo tambem! Ilan Grinspun Definições de BIG DATA • Big data é a habilidade de extrair informação de diferentes conjuntos de dados estruturados e/ou não estruturados através de uma nova geração de softwares, aplicações, sistemas e arquiteturas computacionais e de Storage. • Data Analytics é a procura por padrões em quantidades massivas de dados gerados por diferentes fontes. Ilan Grinspun Big Data em todo lugar! Os dados estão sendo gerados, coletados, armazenados e analizados – Internet das coisas – e-comerce – Transações bancarias – Redes Sociais – RFID – WIFI Tracking – GPS+3G/4G Informação Não Estruturada Internet da coisas Informação de posição, RFID, WIFI, 4G. Ilan Grinspun Quais os numeros do Big Data? • Google executa 2 milhões de procuras por minuto e processa 40 PB por dia • O universo digital cresce a uma taxa de 2.200 PB / dia • Apenas 1% dos dados globais são analisados • Dados gerados por maquinas produzirão 40% de todos os dados até 2020 • O equivalente ao conteudo inteiro da biblioteca do congresso americano passa pela internet a cada 10 segundos 640K são suficientes para todo mundo Ilan Grinspun A Dimensão do Big Data. 35 Zettabytes em dados corporativos 2020 Tamanho dos dados explode a taxa de 650% nos proximos 5 anos. Internet das coisas Volume De Dados Volume Dados Não estruturados • Logs, Files • Multi-Structured Velocidade 92% taxa de crescimento de trafego de dados de 2010 a 2015 1.8 Zettabytes em dados corporativos • Block & File • Streaming 2011 Zettabyte Exabyte Variedade Interações 85% não estruturado! Petabyte Arquivos Humanos Terabyte Valor 61% dos decisores querem mais informações Dados Transacionais (Estruturados) Mainframe PC Internet Mobile Machine Zettabyte = 1,000,000,000,000,000,000,000 Bytes Graph based on IDC and UC Berkeley Data Growth Estimates, Source: IDC & CosmoBC.com: http://techblog.cosmobc.com/2011/08/26/data-storage-infographic/ 7 Storage Marketing Exemplos de Aplicações • Netflix produziu o primeiro seriado(House of Cards) baseado em informações sobre o diretor mais assistido(David Fincher) e do ator preferido(Kevin Spacey) do grande publico. • Rede de supermercados canadense descobre o que casais compram e as marcas mais usadas antes de darem a luz e enviam cupons de desconto para acessórios de bebes (carrinhos, fraldas, etc) • Google descobre surtos de gripe antes da agencia nacional de saúde. • Caso Turnstyle (Smartphones WIFI real time). • Rede varegista Dollar General monitora combinações de compras nos carrinhos • “Este é o Universo em que todos nós estamos: por causa do Big Data, todas as lojas saberão o que nos oferecer, todos os governos vão estar nos monitorando, seu medico saberá de seu passado, sua empresa lhe conhecerá antes de voce fazer a entrevista de emprego, esta será a norma!" Ilan Grinspun Quais tecnologias tornam o Big Data uma possibilidade? Os Pilares do Big Data Data Analytics • Ex. Apache Hadoop SSD/flash • Utilizar discos de estado solido 100x mais rapidos que HDDs Tecnologias SLC e MLC Convergencia, Scale Out NAS ou Flash Pool • Consolidar recursos de Storage, e escalar ao extremo virtualmente sem fim, Centralizar Gerencia.. Deduplicação • Reduzir quantidade de Storage, removendo dados duplicados de dentro de data sets Ilan Grinspun Big Data muda toda TI como conhecemos! Clientes Clientes Clientes Nodes do cluster SQL Server Nodes do cluster SQL Server Nodes do cluster SQL Server SQL Server Database SQL Server Database SQL Server Database O crescimento scale-up ocorre adicionando mais recursos para um single node ou substituindo por um node maior Ativo Passivo Arquiteturas: SAN Scale-Up e NAS Scale-Out Rede Interna LAN NFS CIFS FluidFS Gateways FluidFS FluidFS SAN “back-end” CONFIDENTIAL FluidFS FluidFS • Sempre redundantes FluidFS • FluidFS Write cache espelhada • Load Balanced Disk Arrays Disk Arrays Disk Arrays Disk Arrays Storage Marketing Load balancing Otimização de performance • As conexões são automaticamente balanceadas por todas as portas e todas as controladoras no cluster • Single namespace significa que arquivos de dados não precisam ser fragmentados ou colocados em silos individuais de grupos de arquivos quando appliances são adicionados MAC address A MAC address B MAC address C MAC address D MAC address E MAC address F MAC address G Client network A, I B C D E F G H Single namespace Controller 1 Controller 2 FluidFS appliance Controller 1 Controller 2 FluidFS appliance NAS storage pool (underlying SAN storage) 13 CONFIDENTIAL Storage Marketing Infraestrutura Hiper Convergente Infraestrutura Tradicional Infraestrutura Hiper Convergente Servidor Storage 14 Arquitetura inovadora da Nutanix VM VM VM X86 Node Storage Storage Compute Capacity Control Melhor performance • Convergência elimina gargalos • Performance linear 15 VM VM VM X86 Node Storage Storage Compute Capacity Control Escalabilidade • Escale “um nó por vez" • Expansão do cluster sem parada VM VM VM X86 Node Storage Storage Compute Capacity Control Confiável • Sem ponto único de falha • Reproteção automática Data Locality VM SSD 16 VM VM CVM VM VM VM CVM VM VM VM ESX ESX ESX X86 Node X86 Node X86 Node HDD SSD HDD SSD HDD CVM Hot Tier VM SSD 17 VM VM CVM VM VM VM CVM VM VM VM ESX ESX ESX X86 Node X86 Node X86 Node HDD SSD HDD SSD HDD CVM Flash Pool: Otimiza o caminho dos dados. Storage Array Flash traz os dados para mais perto da aplicação • Gerenciado pela controladora do storage • Bandwidth é compartilhada por muitos servidores • Latencia SAN é problema Server Storage Area Network Flash SSDs • Flash roda em appliance como cache • Compartilhada entre arrays • Bandwidth é compartilhada por muitos servidores • Latencia SAN é problema • Gerenciada pelo S.O. • Não há latencia SAN • Pode rodar a velocidade PCIe mais rapido do que SAN • Escala performance adicionando SSDs • Roda como cache: Localização e gerencia dos dados é tranquila • Tira proveito das funcionalidades do Storage: HA, replicação, thin provisioning, e Dedup Global Marketing Dell - Restricted - Confidential 18 Aproximando o Flash do Servidor: INSTALL 1 ADD 2 Cache SW Server PCIe SSD Cache SW PCIe SSD Server Cache SW Server Cache SW PCIe SSD PCIe SSD Fast access to data in the PCIe SSD Cache between nodes ADD 3 Server Low Latency IB Or 10Gb w/RDMA Data has to go to SAN every time for shared storage writes and reads Pvt Cache Network Storage Network (FC or iSCSI) ENABLE 4 Cache SW Storage Area Network (SAN) PCIe SSD (Sevidores) + Caching Software + SAN = Applicações Aceleradas = Problema resolvido 19 Confidential Ilan Grinspun A Tierização permite conseguir performance de Storage flash ao preço de disco Workload necessario: 40,000 IOPS 30TB Raw Storage 264 x 15k HDDs 20 @Dell_Enterprise Beneficios do Tiered Flash • • • • 84% RU reduction 50% more IOPS 90% latency reduction 56% lower price 24 x SSDs Space Savings Enterprise Solutions Marketing Redução de custos com MLC flash • MLC SSDs reduz custo $/GB mas requer cuidados especiais com os dados • Arrays Hibridos: • Tipos de utilização – All flash arrays (Performance) – Hibrido (Performance & capacidade) – HDD (Capacidade e custo controlado) $/GB – 2 tiers de SSD e discos de 7.2k – Custo equivalente ($/GB) a 15K – Performance muito superior Capacity 21 Nem todo SSD é criado igual Enterprise SAS SSDs – – – – – Duas portas SAS para performance e alta disponibilidade Monitoramento de uso integrado Provisionado para durabilidade e performance sustentada. Tecnologia de cache Non-volatil em cada drive Proteção total de dados (IOEDC/IOECC) Header Write Intensive (WI) Read Intensive (RI) Utilização Aplicações Top Qualquer uso Maioria Leitura 90/10 R/W Mix Capacidade 400/800 GB 1.6 TB 30 3 21.9PB 8.76PB 38K 14K Gravação de banda 400 MB/s 70 MB/s Data Progression* Escrita direta de servidores Read-only replay data Utilização(Full writes / Day) Endurance (written PBs) Performance IOPS (8K 70/30 R/W) 22 Confidential Para o sucesso do Big Data em sua empresa procure o parceiro tecnologico correto! Efficient Workforce Efficient Data Center IT management software Cloud Client Computing solutions Remote systems Mainframe migration, modernization, and optimization Advanced data protection & network security management appliance High-performance data centre networking Archiving and image management solution for healthcare vertical. Efficient Cloud / Services Application modernization software and services Server, data and application protection for virtual, physical and cloud infrastructures Consulting services & cloud expertise A single point of mgmt for both physical and virtual resources Simple, easy-to-use SaaS integration tool and consulting High performance SAN iSCSi solutions for virtualization Managed security services, threat intelligence and security & risk consulting Software asset management Intelligent infrastructure and mgmt. of multi-tier storage architecture App mgmt., deployment svcs, and infrastructure consulting Storage compression & deduplication Remote email management – continuity and archiving SaaS Distributed device management delivered as a SaaS services Clustered NAS storage Memory Virtualization technology 23 CONFIDENTIAL IT monitoring software Storage Marketing • • • • 24 SUCESU–BA Ilan Grinspun e-mail: [email protected] Storage Specialist CONFIDENTIAL Storage Marketing Scale Out • Crescimento sem fim… – NAS Scale-Out. Crescimento horizontal, com adição de controladoras. – Sem necessidade de reconfigurações de provisionamento (Thin provisioning) – Single Namespace capaz de crescimentos exponenciais: Dezenas ou centenas de Terabytes, para comportar dados não estruturados Engineering Collaboration Design Optimization Process Flow Fluid Dynamics 3D Modeling Simulation Genome Sequencing Seismic Processing Weather forecast Analytics: Predictive Modeling Decision Processing Demographics Behavior Analysis Data Warehouse Hosting Digitization/archive Backup Web 2.0 Ilan Grinspun