BIG DATA
ANALISE DE DADOS
INTRODUÇÃO
• Examinha conjuntos massivos de dados para
extrair informações e insights
valiosos
• Objetivo principal é Auxilio à decisão
• Fontes de dados:
• Logs, dados de web clickstream, atividade em midia social, email de consumidores, IoT
• Dados estruturados tambem?
TECNOLOGIAS CHAVE
• Uso de softwares comuns à área analitica
• Uso de softwares de BI e de vizualizacão
• Problema: Big Data x Data warehouses
• Incompatibilidade com BDs relacionais
• Alta demanda de processamento
• Solução: nova classe de tecnologias
• Hadoop, MapReduce, NoSQL...
O QUE É HADOOP?
•
•
Projeto de software de código aberto
•
•
•
Alta escalabilidade
permite processamento distribuído de grandes conjuntos de dados em clusters de
servidores.
Software lida com as falhas
2 Pilares:
•
•
YARN - Yet Another Resource Negotiator
HDFS - Hadoop Distributed File System
E O QUE É MAPREDUCE
•
Paradigma de programação
que permite a escalabilidade
massiva através de centenas
ou milhares de servidores em
um cluster Hadoop.
•
Duas tarefas :
•
•
Map
Reduce
METODOS ANALITICOS TRADICIONAIS
•
•
Analise de agrupamentos
•
Também denominado classificação não supervisionada, é a classificação de objetos em diferentes grupos,
cada um dos quais deve conter os objetos semelhantes segundo alguma função de distância estatística.
•
Esta classificação deve ser realizada de maneira automática, sem intervenção do usuário
Análise Fatorial
•
•
•
•
•
Descreve relação entre muitos elementos com apenas alguns fatores
Agrupa variaveis intimamente relacionadas em um fator
Esses fatores podem revelar a maioria das informacoes dos dados originais
Analise Estatística
•
•
Baseada na teoria estatistica
•
Amplamente aplicada nos dominios de economia e assistência médica
A análise estatística descritiva pode resumir e descrever conjuntos de dados, enquanto a análise estatística inferencial
pode tirar conclusões a partir dos dados sujeitos a variacoes aleatórias.
Algoritmos de Mineração de Dados
•
•
•
Processo para extrair informação útil e escondida de dados ruidosos, aleatorios, incompletos, etc...
Top 5(IEEE, 2006): C4.5, K-medias,SVM, Apriori, EM
Cobrem classificação, clustering, regressão, aprendizado estatistico, analise associativa.
os quais são os mais problemas importantes na pesquisa de mineração de dados.
MÉTODOS ANALÍTICOS PARA BIG DATA
•
•
Bloom Filter
•
•
Serie de funções hash
•
•
(+) Alta eficiência de espaço e de velocidade de consulta
•
( - ) Falha de reconhecimento e exclusão
Hashing
•
•
•
•
Armazena valores hash dos dados ao invés dos dados em si utilizando um array de bit
que é em essência, um índice bitmap que usa funcoes Hash para realizar armazenamento
de dados com compressão lossy
Dados -> Valores numericos de comprimento fixo e pequeno
(+) Leitura e escrita rapida.
(–) Dificil encontrar função eficaz
Indices
•
índice é sempre um método eficaz para reduzir o custo da leitura e da escrita em disco e melhorar inserção,
eliminação, alteração, velocidades de consulta em ambos bancos de dados relacionais tradicionais que gerenciam
dados estruturados e outras tecnologias que gerenciam dados semi-estruturados e não estruturados..
•
( - ) Custo adicional para armazenar e manter de forma dinâmica
Computação Paralela
•
•
•
A idéia básica é a de se decompor um problema e atribuí-los a vários processos separados a serem completado de forma independente.
Atualmente, alguns modelos clássicos de computação paralela incluem MPI (Message Passing Interface), MapReduce, e Dryad.
MPI, MapReduce, Dryad
ARQUITETURAS
• Criterio de Prontidão
• Análise em tempo real
• Mudança constante de dados
• Análise e resultados rápidos
• Principais:
•
•
•
Clusters paralelos usando BD’s relacionais tradicionais
Plataformas de computação baseadas em memória.
Greenplum da EMC, HANA da SAP.
• Análise offline
• Quando não há alta exigência para tempo de resposta
• Aprendizadem de Maquina, análise estatística, recomendação de algoritmos..
• Importação de logs para uma plataforma especial
• Geralmente baseada em Hadoop.
• Scribe do Facebook, Kafka do LinkedIn, TimeTunnel do Taobao...
ARQUITETURAS
•
Algum contexto:
•
“Here at Facebook, we're constantly facing scaling challanges because of our enormous
growth. One particular problem we encountered a couple of years ago was collection of data
from our servers. We were collecting a few billion messages a day (which seemed like a lot at
the time) for everything from access logs to performance statistics to actions that went to News
Feed. We used a variety of different technologies for the different use cases, and all of them
were bursting at the seams. We decided to build a unified system (called Scribe) to handle all
of these cases, and do it in a way that would scale with Facebook's growth. The system we
built turned out to be enormously useful, handling over 100 use cases and tens of billions of
messages a day[...]
FERRAMENTAS
•
•
R
•
•
•
Linguagem estatistica e ambiente de software
•
Popular na área de finanças, farmacia, mídia e marketing
Combinada com ferramentas de Big Data, a linguagem R
fornece funcoes estatisticas poderosas para lidar com grandes conjuntos de dados
Excel
•
•
•
•
Go-to para cientistas e desenvolvedores de Big Data
Processamento de dados poderoso
Capacidades de análise estatística
Plugins: Analysis ToolPak, Solver Add-In
RapidMiner
•
•
•
•
•
Software open source
Mineração de dados, aprendizado de maquina e analise preditiva
Fluxo de mineracao em xml e exibido através da uma GUI
Escrito em java
Funcoes -> conexao de processos
DÚVIDAS?
• Bibliografia:
• Big Data: A Survey - Min Chen·Shiwen Mao·Yunhao Liu
Published online: 22 January 2014
• http://www-01.ibm.com/software/data/infosphere/hadoop/
• en.wikipedia.org/wiki/Big_data
Download

Big Data