BIG DATA ANALISE DE DADOS INTRODUÇÃO • Examinha conjuntos massivos de dados para extrair informações e insights valiosos • Objetivo principal é Auxilio à decisão • Fontes de dados: • Logs, dados de web clickstream, atividade em midia social, email de consumidores, IoT • Dados estruturados tambem? TECNOLOGIAS CHAVE • Uso de softwares comuns à área analitica • Uso de softwares de BI e de vizualizacão • Problema: Big Data x Data warehouses • Incompatibilidade com BDs relacionais • Alta demanda de processamento • Solução: nova classe de tecnologias • Hadoop, MapReduce, NoSQL... O QUE É HADOOP? • • Projeto de software de código aberto • • • Alta escalabilidade permite processamento distribuído de grandes conjuntos de dados em clusters de servidores. Software lida com as falhas 2 Pilares: • • YARN - Yet Another Resource Negotiator HDFS - Hadoop Distributed File System E O QUE É MAPREDUCE • Paradigma de programação que permite a escalabilidade massiva através de centenas ou milhares de servidores em um cluster Hadoop. • Duas tarefas : • • Map Reduce METODOS ANALITICOS TRADICIONAIS • • Analise de agrupamentos • Também denominado classificação não supervisionada, é a classificação de objetos em diferentes grupos, cada um dos quais deve conter os objetos semelhantes segundo alguma função de distância estatística. • Esta classificação deve ser realizada de maneira automática, sem intervenção do usuário Análise Fatorial • • • • • Descreve relação entre muitos elementos com apenas alguns fatores Agrupa variaveis intimamente relacionadas em um fator Esses fatores podem revelar a maioria das informacoes dos dados originais Analise Estatística • • Baseada na teoria estatistica • Amplamente aplicada nos dominios de economia e assistência médica A análise estatística descritiva pode resumir e descrever conjuntos de dados, enquanto a análise estatística inferencial pode tirar conclusões a partir dos dados sujeitos a variacoes aleatórias. Algoritmos de Mineração de Dados • • • Processo para extrair informação útil e escondida de dados ruidosos, aleatorios, incompletos, etc... Top 5(IEEE, 2006): C4.5, K-medias,SVM, Apriori, EM Cobrem classificação, clustering, regressão, aprendizado estatistico, analise associativa. os quais são os mais problemas importantes na pesquisa de mineração de dados. MÉTODOS ANALÍTICOS PARA BIG DATA • • Bloom Filter • • Serie de funções hash • • (+) Alta eficiência de espaço e de velocidade de consulta • ( - ) Falha de reconhecimento e exclusão Hashing • • • • Armazena valores hash dos dados ao invés dos dados em si utilizando um array de bit que é em essência, um índice bitmap que usa funcoes Hash para realizar armazenamento de dados com compressão lossy Dados -> Valores numericos de comprimento fixo e pequeno (+) Leitura e escrita rapida. (–) Dificil encontrar função eficaz Indices • índice é sempre um método eficaz para reduzir o custo da leitura e da escrita em disco e melhorar inserção, eliminação, alteração, velocidades de consulta em ambos bancos de dados relacionais tradicionais que gerenciam dados estruturados e outras tecnologias que gerenciam dados semi-estruturados e não estruturados.. • ( - ) Custo adicional para armazenar e manter de forma dinâmica Computação Paralela • • • A idéia básica é a de se decompor um problema e atribuí-los a vários processos separados a serem completado de forma independente. Atualmente, alguns modelos clássicos de computação paralela incluem MPI (Message Passing Interface), MapReduce, e Dryad. MPI, MapReduce, Dryad ARQUITETURAS • Criterio de Prontidão • Análise em tempo real • Mudança constante de dados • Análise e resultados rápidos • Principais: • • • Clusters paralelos usando BD’s relacionais tradicionais Plataformas de computação baseadas em memória. Greenplum da EMC, HANA da SAP. • Análise offline • Quando não há alta exigência para tempo de resposta • Aprendizadem de Maquina, análise estatística, recomendação de algoritmos.. • Importação de logs para uma plataforma especial • Geralmente baseada em Hadoop. • Scribe do Facebook, Kafka do LinkedIn, TimeTunnel do Taobao... ARQUITETURAS • Algum contexto: • “Here at Facebook, we're constantly facing scaling challanges because of our enormous growth. One particular problem we encountered a couple of years ago was collection of data from our servers. We were collecting a few billion messages a day (which seemed like a lot at the time) for everything from access logs to performance statistics to actions that went to News Feed. We used a variety of different technologies for the different use cases, and all of them were bursting at the seams. We decided to build a unified system (called Scribe) to handle all of these cases, and do it in a way that would scale with Facebook's growth. The system we built turned out to be enormously useful, handling over 100 use cases and tens of billions of messages a day[...] FERRAMENTAS • • R • • • Linguagem estatistica e ambiente de software • Popular na área de finanças, farmacia, mídia e marketing Combinada com ferramentas de Big Data, a linguagem R fornece funcoes estatisticas poderosas para lidar com grandes conjuntos de dados Excel • • • • Go-to para cientistas e desenvolvedores de Big Data Processamento de dados poderoso Capacidades de análise estatística Plugins: Analysis ToolPak, Solver Add-In RapidMiner • • • • • Software open source Mineração de dados, aprendizado de maquina e analise preditiva Fluxo de mineracao em xml e exibido através da uma GUI Escrito em java Funcoes -> conexao de processos DÚVIDAS? • Bibliografia: • Big Data: A Survey - Min Chen·Shiwen Mao·Yunhao Liu Published online: 22 January 2014 • http://www-01.ibm.com/software/data/infosphere/hadoop/ • en.wikipedia.org/wiki/Big_data