MICROSOFT BUSINESS INTELLIGENCE & AZURE DATA SERVICES Next Generation Analytics Deck #2 The Modern Data Warehouse Data sources Non-relational data • Pre-built hardware + software appliance Projetado em conjunto (Dell – HP – Quanta)* • Hardware pré configurado • Software Pré-instalado • Pronto para uso em 1–2 dias • Suporte Primeiro nível de suporte via Microsoft; Parceiro de Hardware prove suporte on-site; *Quanta not available in all countries or regions Plug and play Melhores Práticas Menor Tempo Deck #3 Introducing Microsoft Analytics Platform System Microsoft SQL Server Microsoft Analytics Platform System • SMP – Multiprocessamento simétrico e NUMA (non unified memory architecture) para Data warehouse em qualquer hardware • Appliance para (MPP) data warehousing em Multi Processamento Paralelo. • Ideal for data marts, pequenos e médios data warehouses corporativos (EDWs) • Ideal para Data Warehouses corporativos de alta escala ou desempenho • Software apenas • Data warehouse appliance • (software and hardware altamente integrados) • 10s de TB • 10s de TB até 6 PB (PDW – compactado) • 24 TB – 1.2 PB (Hadoop – não compactado) Deck #4 Microsoft Data Warehousing Solutions Manter o investimento Escalabilidade limitada e capacidade de trabalhar com novos tipos de dados Deck #5 Desafios do Data warehouse moderno Adquirir novas soluções para BIG Data Adquirir mais Hardware lowend Adequerir novas soluções de BI e Apresentação de Dados Custo em Treinamento, Silo de informação Alto custo de manutenção, gerenciamento e aquisição Complexo se a adoção for baixa. Analytics Platform System SQL Server Parallel Data Warehouse PolyBase Microsoft HDInsight Deck #6 Hardware e Software Projetados para Funcionar Junto Hadoop Ecosystem Move os dados para o Warehouse antes da Análise Aprender novas Ferramentas New data sources “New” data sources Criar Integrar Gerenciar Manter Suportar New data sources T-SQL ETL Deck #7 Hadoop sozinho não é a solução para Tudo SQL Server Parallel Data Warehouse Alto desempenho alinhado com a capacidade do HW Autenticação via AD 100% Apache Hadoop Gerenciado e Monitorável pelo System Center PolyBase Microsoft HDInsight Acessível para análise através de Excel e Ferrentas BI Microsoft Deck #8 APS Contempla um Cluster Hadoop pronto para uso com HDInsight Select… Microsoft Azure HDInsight Hortonworks for Windows and Linux Cloudera Result set SQL Server Parallel Data Warehouse PolyBase Microsoft HDInsight Provê um modelo T-SQL para PDW com Haddop que permite até JOIN Direto (sem carga/ETL) Utiliza o Processamento Paralel o Massivo para Máximo Desempenho Suporte AZURE HDInsight como fonte de dados, permite escalabilidade na Nuvem Provê habilidade de integrar com outras distribuições de Haddop como Hortonworks and Cloudera Deck #9 Conecta a os Silos de Dados com PolyBase Consultas SQL são enviadas ao nó de controle Appliance Nó de controle cria o plano de execução O plano de execução cria consultas que irão rodar em cada nó Consultas são enviadas para todos os nós (todas rodando em paralelo) Nó de controle recebe os resultados, consolida e entrega ao usuárioi Management Client Control Compute Compute Compute Compute Deck #10 Como Funciona o Processamento Paralelo de Consultas Preço por TB nos principais fabricantes menor preço por TB que o Significativamete Price per terabyte for user-available storage (compressed) $30 competidor mais próximo. Thousands $25 $20 $15 $10 $5 $0 Oracle EMC IBM Teradata Microsoft NOTE: Orange line indicates average price per terabyte. Reduza custos de Armazenamento com Windows Server 2012 Storage Spaces Deck #11 Menor custo por TB em todos os Appliances SQL Server IaaS em AZURE Deck #13 SQL Server on AZURE - IaaS SEM CUSTOS ADICIONAIS!!! Fatura Única! Pode Transferir licenças locais para Azure para Clientes com SA - Precificação minuto a minuto - Não precisa da sua máquina a 24x7? – Automatize ShutDown/Up via PowerShell - Pagamento Proporcional ao tempo Ativo + Armazenamento - Garantia de Disponibilidade (da VM) pela infraestrutura de réplicas do Azure (3 máquinas) Deck #15 Benefícios de SQL Server em IaaS Deck #16 Tamanhos Disponíveis – Lista Parcial Deck #17 Tabela de Comparação de UpTime Deck #18 Azure SLAs para VMs http://azure.microsoft.com/pt-br/support/legal/sla/ Deck #19 SQL Databases SLA NoSQL e Window NoSQL em Windows AZURE Deck #21 NoSQL A Importância dos DADOS Esta não é a ERA pós SQL , é a ERA SQL+ Nosso área de trabalho era denominada Processamento de Dados Dados são mais críticos do que nunca Dados são mais abundantes Nossos e seus clientes nos PAGAM para cuidar deles. Custos de armazenamento sao menores Data Now The world today Existe muitas fontes de dados - Dados abertos de Governo - Clima e Tempo - Sociais, Internet of Things Novas Tecnologias estão disponíveis NoSQL Big data analytics Busca Deck #23 Dados na Nuvem Para onde vamos… SQL+ SQL On-Premises Cloud Dados Operacionais Deck #24 Tecnologias de Dados no AZURE Análise de Dados Document Store (DocumentDB, MongoDB, …) Tecnologias NoSQL Key/Value Store (Tables, Riak, …) Big Data Analytics (HDInsight, Hadoop) Column Family Store (HBase, Cassandra …) SQL Bases Relacionais (SQL Database, SQL Server, Oracle, MySQL, …) Relational Analytics (SQL Server, Oracle, MySQL, …) Gerenciados como Serviço no AZURE Instalável no AZURE, gerenciado pelo cliente Deck #25 Base SQL Serviço de dados Relacional SQL Database Tables Aplicação Consulta SQL ID int 1 3 Column Name Column Type Primary Key Data 2 7 Name País Idade char char int Modificado Em date Deck #26 DEFINIÇÃO DE SHARD Sharding Transações atômicas geramente precisam estam contidas no mesmo Shard Database Adam Carl Cynthia Bill Anusha Catherine Deck #27 Technology Basics Sharded Database Andrew Bertrand Shard 1 Shard 2 Shard 3 Adam Bertrand Carl Andrew Bill Catherine Anusha SQL Database Elastic Scale (in preview) agora supporta sharding Cynthia SQL Databases DEMO Category SQL Database Relationa l Maximu m Storage Abstractions Database Size Tables, rows, 500 GB columns Query Language Transaction Support SQL All rows and tables in a database Stored Secondary Procedure/ Indexes Triggers Yes Written in T-SQL Deck #29 Comparando Azure Managed Data Services Pricing Units of throughput Deck #30 Unidade de Performance de Database (DTU) DATABASE THROUGHPUT UNITE (DTU) - Não é baseado em condições de Hardware, uma vez que elas mudam. - Com base em (x) vezes o desempenho da versão básica - 5x - 10 x - 20 x - 50 x - 100 x - 200 x - 800 x BENCHMARK % WORKER THREADS % MEMORY % READS - Precificado em Níveis de Desempenho % WRITES - Garantia de MESMO DESEMPENHO o tempo todo % CPU Facilidade em Escalar a Aplicação Pros: Tecnologias NoSQL são muito mais escaláveis que as relacionais Cons: Perde recursos como com “transações entre databases” Para trabalhar melhor com dados não estruturados, como JSON Pros: A aplicação se torna muito mais fácil de Desenvolver… sem “DBAs para atrapalhar” Cons: Limita a capacidade fazer BI, o modelo persistido para uma única aplicação é DIFÍCIL DE COMPARTILHAR Deck #31 Por que NoSQL? Trabalhar de forma mais FLEXÍVEL Pros: NoSQL não possuem esquemas. Cons: esquemas EVITAM erros!!! AZURE DocumentDB A document store Deck #33 DocumentDB DocumentDB Collections Document 1 Request { { "name": "John", "country": "Canada", "age": 43, "lastUse": "March 4, 2014" Application {…} Document 2 "name": "Eva", "country": "Germany", "age": 25 } } Document 3 { { "name": "Lou", "country": "Australia", "age": 51, "firstUse": "May 8, 2013" } Document 4 "docCount": 3, "last": "May 1, 2014" } Deck #34 DocumentDB Sharding e transações Transações atômicas só podem afetar 1 Shard Database Collection A unidade de Sharding é a Coleção Collection Collection Collection JSON JSON JSON JSON JSON JSON JSON JSON JSON JSON JSON Deck #35 Technology Basics Replication and consistency Replicação pode melhorar desempenho e disponibilidade Database Uma replica de escritar pode demorar para ser propagada Shard A Shard A Shard A O que o leitor enxerga ? Primary replica Secondary replica Deck #36 DocumentDB Consistency options Leitores pode ver dados Antigos? Strong (Forte) Bounded Staleness Session Eventual Leitores pode ter Velocidade leituras sujas? de Gravação Velocidade de Leitura Não Não Mais Lenta Mais Lenta Sim, mas apenas dentro de um Intervalo definido Não Mais Rápido Moderada Lenta Sim, mas apenas para gravações de outros clientes Sim, mas apenas para gravações de outros clientes Fastest Moderately fast Sim Sim Mais Rápida Mais Rápida The default Category SQL Database DocumentDB Relational Document store Maximu Storage m Abstractions Database Size Tables, rows, 500 GB columns Collections, documents 100s of TBs Query Language Transaction Support SQL All rows and tables in a database All Extended documents in subset of the same SQL collection Deck #37 Comparing Azure Managed Data Services Stored Procedures/ Triggers Pricing Yes Written in T-SQL Units of throughput Yes Written in JavaScript Units of throughput Secondar y Indexes AZURE Storage TABLES Tables Tables A key/value store B A 1 A 2 2 Name Country Age String String int Name Country Age String String int Partition A Name Country Age FirstUse String String int Date Application B 2 B Entity Property Name Property Property Type Partition key Data Row key Deck #39 Azure Tables B 1 2 Count int Last Date LastUse Date Partition B Deck #40 Tables Sharding and transactions Atomic transactions can span only a single partition Table Partition A The unit of sharding is a partition Partition B Partition C A 1 B 1 C 1 A 2 B 2 C 2 A 3 B 3 C 3 Partitions are replicated; reads and writes provide strong consistency Category Storage Abstractions Stored Secondary Procedures/ Indexes Triggers Deck #41 Comparing Azure Managed Data Services Maximu m Database Size Query Language Transaction Support 500 GB SQL All rows and tables in a database Yes Written in T-SQL Units of throughput Pricing Relational Tables, rows, columns DocumentDB Document store Collections, documents 100s of TBs Extended subset of SQL All documents in the same collection Yes Written in JavaScript Units of throughput Tables Key/value store Tables, partitions, entities 100s of TBs Subset of OData queries All entities in the same partition No None GBs of storage SQL Database AZURE HDInsight HDInsight HBase A column family store Usage LastUse 2 v2 Application Tables Row Key 1 2 3 4 Column Key (Family) Column Key (Qualifier) Data (optionally with time-stamped versions) Deck #43 HDInsight HBase 5 6 Usage User Name Country Age LastUse FirstUse Sharding and transactions Atomic transactions can span only a single row Deck #44 HDInsight HBase Table Region A The unit of sharding is a region Regions are replicated; reads and writes provide strong consistency Region B Region C HBase automatically shards a table; users don’t see regions Category Maximum Storage Abstractions Database Size Deck #45 Comparing Azure Managed Data Services Stored Procedures/ Triggers Pricing Query Language Transaction Support Secondary Indexes Yes Written in T-SQL Units of throughput Relational Tables, rows, columns 500 GB SQL All rows and tables in a database DocumentDB Document store Collections, documents 100s of TBs Extended subset of SQL All documents in the same collection Yes Written in JavaScript Units of throughput Tables Key/value store Tables, partitions, entities 100s of TBs Subset of OData queries All entities in the same partition No None GBs of storage HDInsight HBase Column family store None All cells in the same row Written in Java GBs of storage plus VMs per hour SQL Database Tables, rows, columns, cells, column families 100s of TBs No Deck #46 Big Data Analytics O Padrão: Hadoop Hadoop MapReduce ... YARN HDFS HBase Azure HDInsight prove estas features como serviço Deck #47 HDInsight MapReduce A Implantação de Hadoop no Azure HDInsight MapReduce Excel Hive Pig ... MapReduce Job VM VM VM Logic Logic Logic HDFS API HDInsight HBase is also implemented on this API and relies on Azure Blobs 1000110100110 0111101111101 1011010001101 1000110100110 0111101111101 1011010001101 1000110100110 0111101111101 1011010001101 Blob Blob Blob Azure Blobs Deck #48 O que é Hadoop TRADITIONAL RDBMS Data Size Access Updates Structure Integrity Scaling DBA Ratio HADOOP HD INSIGHT DEMO AZYRE STREAM ANALYTICS Deck #51 Dados Armazenados Dados em Movimento - O dado não é Armazenado - A consulta é realizada em Tempo Real - Baseda em Eventos - A consulta é executada o tempo todo - Eventos são Capturados Deck #52 Para que serve o StreamInsight Deck #53 StreamInsight e Azure Stream Analytics - Cenários Deck #54 End-to-End Architecture Overview Azure Stream Analytics • • • Temporal Semantics Guaranteed delivery Guaranteed up time Event Inputs - Event Hub - Azure Blob Outputs Transform - Temporal joins Filter Aggregates Projections Windows Etc. - SQL Azure - Azure Blobs - Event Hub Enrich Correlate Reference Data - Azure Blob Azure Storage Data Source Collect Process Deliver Consume AZURE MACHINE LEARNING 1ª - CATEGORIA CONVECIONAL : BI 1.0 - “O QUE ACONTECEU?” - Reporting - DashBoards - ScoreCards - BASEADO EM DADOS DO PASSADO - NÃO POSSUI UM MODELO QUE “EXPLIQUE O DADO” 2º - PREDICTIVE ANALYTICS : BI 2.0 – “O QUE PODE ACONTECER?” - Passo 1 – Desenvolver um bom modelo “estatístico” que explique o Passado - Passo 2 - “ASSUMIR QUE O FUTURO SERÁ IGUAL AO PASSADO” - Passo 3 – Predizer o comportamento futuro com base num modelo estabelecido 3º - PRESCRITIVE ANALYTICS: BI 3.0 – “O QUE DEVE SER FEITO?” - Passo 1 – Definir o FOCO - Passo 2 – SIMULAÇÕES - Passo 3 – Escolha do Melhor Cenário Deck #56 As 3 Categorias de Business Analytics I believe over the next decade computing will become even more ubiquitous and intelligence will become ambient...This will be made possible by an ever-growing network of connected devices, incredible computing capacity from the cloud, insights from big data, and intelligence from machine learning “If you invent a breakthrough in Artificial Intelligence, so machines can learn that is worth 10 Microsofts” Deck #59 • • • • • • • http://blogs.msdn.com/b/msr_er/archive/2015/04/02/micr osoft-azure-helps-researchers-predict-traffic-jams.aspx DETECÇÃO DE FRAUDES TRANSCRIÇÃO DE VIDEO LEGENDAGEM (CLOSED CAPTION) RECONHECIMENTO DE IMAGENS DETECÇÃO DE ANOMALIAS ANÁLISE GENÉTICA ETC... Deck #60 Machine Learning não é Novidade.. Deck #61 Qual a Novidade então? - DISPONIBILIDADE FACILITADE DE USO ESCALABILDIADE CAPACIDADE DE TRABALHAR COM GRANDES VOLUMES DE DADOS Machine Learning Studio http://blogs.msdn.com/b/msr_er/archive/2015/04/02/micr osoft-azure-helps-researchers-predict-traffic-jams.aspx Deck #62 CASE Machine Learning - UFMG http://isstke.azurewebsites.net/#/ MACHINE LEARNING DEMO