BIG DATA
Marcos Santos Borges Henriques1
Maria Renata Silva Furtado2
Paulo Eduardo Santos da Silva3
Rodrigo Vitorino Moravia4
RESUMO:
Vivemos hoje a era da informação. Os dados são mais valiosos e os produzimos de
uma forma impressionante. Todas as interações que temos com a tecnologia geram
quantidades astronômicas de dados e tudo isso, até pouco tempo atrás, era
descartado. A partir do desenvolvimento de tecnologias nos ramos de
processamento de informação, armazenamento de dados e algoritmos
computacionais, podemos agora trabalhar em cima desses dados, que antes eram
descartados, e transformá-los em informação muito útil em diversos setores tanto
comercial quanto social. Este estudo tem como objetivo demonstrar as motivações
para o surgimento do Big Data, demostrando uma visão geral do cenário atual no
que tange ao volume, velocidade e variedade dos dados que são gerados hoje.
Também expor o que dispomos no momento para trabalhar com essa quantidade
enorme de dados, já que o grande desafio é manusear essa infinidade de dados e
extrair informação relevante a partir dos mesmos, mostraremos algumas ferramentas
e conceitos que se tornam imprescindíveis no trabalho com Big Data. Recentemente
foi divulgado um programa de espionagem Norte Americana, que só é possível
graças ao advento do Big Data, o governo Americano intercepta e analisa
diariamente quantidades absurdas de dados, que são gerados continuamente,
vindos de diversas fontes, o nosso estudo tenta deixar um pouco mais claro com
funciona esse processo que está sendo praticado por muitos atualmente. Para
realização do estudo foram consultados como referencia, livros voltados ao assunto
Big Data, artigos impressos e online, pesquisas com empresas de todo o mundo,
revista e internet.
Palavras-chave: Big Data, Dados Estruturados, Dados Não Estruturados, Escalável,
Hadoop, Hardware, MapReduce.
1
Aluno da Faculdade Infórium de Tecnologia.
Professora da Faculdade Infórium de Tecnologia, e Mestre em Psicologia.
3
Aluno da Faculdade Infórium de Tecnologia.
4
Especialista em Gestão da Informação pelo IEC – PUC Minas. Analista de Business Intelligence há
12 anos. Professor da Pós-Graduação das Faculdades PUC Minas, Estácio e Infórium de Tecnologia.
Professor da graduação das Faculdades Infórium de Tecnologia e Batista.
2
1
1. Introdução
No cenário atual, dada a importância conquistada pela tecnologia em nossas
vidas, vivemos um momento jamais presenciado na história da humanidade.
Estamos a todo o momento gerando dados sobre tudo que fazemos, produzimos
dados em escalas inimagináveis há alguns anos atrás.
A sociedade acumula em um ano de vida digital cerca de 1,8 zettabytes5 de
dados. Para se ter ideia da dimensão da escala, 3 exabytes6 é tudo que a
humanidade conseguia guardar em 1986, hoje produzimos duas vezes esse valor
por dia. (Petry, 2013).
Esse oceano de dados – termo muito utilizado para dimensionar o volume –
esconde muita informação que, até pouco tempo atrás, não era explorada. Além do
volume, esses dados são muito variados, oriundos das mais diversas fontes e,
consequentemente, diversos formatos. Por serem tão variados, os dados podem vir
de fontes diversas efluir em tempo real, de uma forma contínua dando origem ao
conceito de velocidade desses dados.
Este estudo tem como objetivo demonstrar as motivações para o surgimento
do Big Data e também expor o que dispomos no momento para trabalhar com essa
quantidade enorme de dados.
Para realização do estudo foram consultados como referencia, livros voltados
ao assunto Big Data, artigos impressos e online, pesquisas com empresas de todo o
mundo, revista e internet.
2. Big Data
O conceito Big Data é utilizado para caracterizar os dados que excedem a
capacidade de processamento de sistemas de banco de dados convencionais. Big
Data é muito grande, se move muito rápido, e não se encaixa nas restrições de
arquiteturas de banco de dados. Para ganhar o valor a partir desses dados, você
5
6
Zettabyte = 1.000.000.000.000.000.000.000 de bytes
Exabyte = 1.000.000.000.000.000.000 de bytes
2
deve escolher um caminho alternativo para processá-lo. Big Data Now (Schneider,
2012).
Segundo Schneider (2012), o primeiro ponto a ser esclarecido é que Big Data
não tem uma única definição. Na verdade, é um termo que descreve pelo menos
três distintas, mas interligadas, tendências. A Captação e gerenciamento de lotes de
informação é uma delas. Estudos de mercado e pesquisas independentes têm
mostrado que o volume de dados está dobrando a cada ano. A outra é o trabalho
com muitos tipos novos de dados.
Estudos indicam, também, que oitenta por cento do total dos dados gerados é
não estruturado, tal como imagens, áudio, tweets, mensagens de texto e assim por
diante. Até recentemente a maioria das organizações eram incapazes de tirar
proveito desses dados. E por último a exploração dessa massa de informação e
dados não estruturados com um novo estilo de aplicação, muitas das ferramentas e
tecnologias que foram projetados para trabalhar com volumes de informação
relativamente grandes não mudaram muito nos últimos 15 anos. Estas ferramentas
simplesmente não podem manter-se com grandes volumes de dados, portanto,
novas classes de aplicações analíticas estão chegando ao mercado, todas com base
nessa nova abordagem do Big Data.
Para Schneider (2012), assim como não existe uma única definição para Big
Data, não existe uma causa específica para sua rápida expansão. Em vez disso,
várias tendências distintas contribuem para a explosão do Big Data.
Segundo Schneider (2012), um fator que ajudou na expansão do Big Data foi
a questão das novas fontes de dados: atualmente, temos mais geradores de
informação do que nunca. Os dados podem vir de diversas fontes tais como,
celulares, computadores, sensores, equipamentos médicos e outras plataformas que
reúnem grandes quantidades de informação. Os Aplicativos corporativos tradicionais
e científicos estão mudando e também contribuem para o crescimento do volume
gerado de dados.
Para Schneider (2012), as novas categorias de dados são outro aspecto
relevante. Com o crescimento alucinante dessas novas fontes de dados, passamos
agora a nos deparar com uma nova categoria de dado, que é não estruturado e tem
um grande potencial analítico como, mensagens de texto, tweets, posts do facebook,
sensores e outros tantos. Os bancos de dados convencionais (relacionais) e
3
ferramentas analíticas eram concebidos para interagir com a informação do tipo
estruturada, que se encaixa em linha e colunas. Mas muito da informação que se
tem hoje é não estruturada e está acoplada a fotos, vídeos, áudio, documentos XML.
No que tange aos documentos XML, destaca-se que são um caso à parte, pois
formam a espinha dorsal de muitas aplicações corporativas na atualidade. Isso se dá
em parte pelo tamanho do documento XML e por sua natureza semiestruturada.
Ainda segundo Schneider (2012), para fechar essa síntese do que pode
alavancar o crescimento do trabalho com Big Data é a questão do hardware
comoditizado e software: A última peça para o quebra-cabeça do Big Data é o baixo
custo de hardware e ambientes de software que se tornaram mais populares. A
tarefa de Big Data sem esses avanços seria muito difícil ou quase inviável.
Para Big Data Now (2012), Big Data tem o potencial de revolucionar a
maneira de fazer negócio, podendo fornecer novas perspectivas sobre as empresa,
incluindo a forma de interação entre a empresa e o cliente, a forma de entregar
produtos e serviços para o mercado, a posição da organização frente a seus
concorrentes, estratégias que a empresa pode adotar para aumentar a rentabilidade
e questões socioeconômicas que podem ser abordadas com Big Data. O que pode
ser ainda mais interessante é que isso tudo pode ser entregue em tempo real.
É sabido que Barack Obama, em sua campanha à presidência dos Estados
Unidos da América em 2012, fez uso de Big Data para poder direcionar sua
estratégia de campanha, tornando-a mais efetiva e fazendo com que o eleitor se
sentisse mais próximo ao candidato, já que os eleitores recebiam propostas de
governo relacionadas a temas em que estavam engajadas ou por algum motivo
(post no Facebook, SMS, tweet) detinham alguma opinião sobre algum assunto (Big
Data ajudou Obama a ganhar eleições, Moraes).
Segundo The Deciding Factor (2012), pesquisa finalizada em fevereiro de
2012, em 607 os executivos de empresas de todo o mundo participaram, as mídias
sociais não dizem apenas o que os consumidores gostam, mas o mais importante é
saber o que elas não devem fazer para deixar os seus clientes insatisfeitos. Elas são
utilizadas muitas vezes como um dos primeiros sistemas de aviso para alertar as
empresas se os clientes estão se voltando contra ela. Quarenta e três por cento dos
entrevistados concorda que analisar as mídias sociais para fazer tomada de decisão
é cada vez mais importante. Para bens de consumo e varejo, manufatura, saúde e
empresas farmacêuticas as mídias sociais fornecem o segundo mais valorizado
4
dataset após os dados de atividades de negócio. Lembrando que todos esses dados
são desestruturados e oriundos de vários lugares (Twitter, Facebook, Blogs, etc.).
Segundo The Deciding Factor (2012), quarenta por cento dos entrevistados
no estudo acreditam que eles têm muitos dados não estruturados para apoiar a
tomada de decisão. No gráfico abaixo estão relacionadas às respostas dos
entrevistados à seguinte pergunta: “Olhando especificamente para o seu
departamento, como você caracterizaria a quantidade de dados disponíveis para
apoiar a tomada de decisão?”:
FIGURA 1 – Dado estruturado e desestruturado
Fonte: The Deciding Factor, 2012.
Percebe-se que uma grande parte dos entrevistados cerca de cinquenta por
cento, acredita que seus dados estruturados não são suficientes para gerar
informações que auxiliem na tomada decisão. Por outro lado cerca de quarenta por
cento acredita que há muito dado não estruturado que seria relevante. Com o
advento das técnicas e ferramentas que possibilitam a extração e análise desses
dados não estruturados, será possível coletar esses dados que antes eram
descartados e avalia-los assim como é feito com o dado estruturado hoje, para a
realização de trabalhos com Data Mining e Business Intelligence.
Para Big Data Now (2012), com essa enxurrada de dados, totalmente
desestruturados que fogem a regra do que hoje até então predominava (dados
estruturados) com imponência, é necessário uma nova abordagem para que se
possa analisar esses dados de enorme potencial. Surge dessa grande necessidade
novas
ferramentas
capazes
de
tratar
essa
questão
e
proporcionar
o
desenvolvimento de soluções voltadas ao Big Data, são elas MapReduce, Hadoop,
Pig, Hive, Hadoop Distributed File System (HDFS) e bancos de dados NoSQL.
5
Segundo Schneider (2012), como qualquer novo movimento emergente, Big
Data possui seus obstáculos. O primeiro deles é o crescimento da Informação: mais
de oitenta por cento dos dados de uma empresa são dados desestruturados, o que
tende a crescer em um ritmo muito mais rápido do que a informação relacional
tradicional.
Um segundo obstáculo a ser considerado é o poder de processamento. A
abordagem atual de utilizar um único e caro computador para processar todos os
dados não é escalável para Big Data. O caminho mais coerente talvez seja a
utilização de commodity de hardware e divisão de processamento entre servidores
menos potentes e em maior numero proporcionando um escalabilidade horizontal.
Armazenamento físico é outro fator. Capturar e gerenciar toda essa informação pode
consumir enormes recursos, ultrapassando todas as expectativas orçamentais.
Problema de Dados, falta de mobilidade de dados, formatos proprietários, e os
obstáculos à interoperabilidade podem tornar o trabalho com Big Data mais difícil. E
o custo, Extração, transformação e carga (ETL) para Big Data pode ser alto e
moroso, particularmente na ausência de software especializado.
Conforme detalhado anteriormente, o que propicia o trabalho com Big Data é
o desenvolvimento de tecnologias que podem contornar a complexidade de se de
gerenciar uma enorme quantidade de dados. O MapReduce é uma solução que
surgiu sob tal ótica. Originalmente criado pela empresa Google, provou ser uma
técnica altamente inovadora para tirar proveito do enorme volume de dados que
agora rotineiramente são produzidos. É uma estrutura de software que subdivide
problemas em tarefas gerenciáveis e, em seguida, distribui para vários servidores
que não precisam ser extremamente poderosos. Esses servidores são chamados de
nós, que trabalham em conjunto e em paralelo para chegar a um resultado.
MapReduce é um enorme sucesso. O Google faz uso pesado de MapReduce
internamente, e a Fundação Apache Software utiliza MapReduce para formar a base
de sua implementação para tratar big data o Hadoop, outra poderosa ferramenta no
segmento. (Schneider, 2012).
MapReduce é capaz de trabalhar com dados brutos que estão armazenados
em arquivos de disco, em bases de dados relacionais, ou em ambos. Os dados
podem ser estruturados ou não estruturados, e é comumente composta de texto,
binário, ou registros multilinha. Registros de log e documentos complexos são
apenas exemplos do tipo de dados que MapReduce pode consumir.
6
O modelo de programação MapReduce consiste na construção de um
programa formado por duas operações básicas: map e reduce. A operação de map
recebe um par chave/valor e gera um conjunto intermediário de dados, também no
formato chave/valor. A operação de Reduce é executada para cada chave
intermediária, com todos os conjuntos de valores intermediários associados àquela
chave combinados. Em geral a operação de map é usada para encontrar algo, e a
operação de reduce é usada para fazer a sumarização do resultado (MapReduce:
Simplified Data Processing on Large Clusters, Dean, Ghemawat).
FIGURA 2 – Fluxo de execução do MapReduce
Fonte: MapReduce é o que há, 2010.
Baseado no conceito de MapReduce e Google File System (Sistema de
Arquivos do Google), a Fundação Apache Software desenvolveu uma solução
chamada Hadoop. É destinado a aproveitar o poder de processamento paralelo
massivo para processar Big Data, geralmente usando muitos servidores baratos, no
esquema de commodities. Hadoop é projetado para abstrair grande parte da
complexidade do processamento distribuído. Isso permite que os desenvolvedores
se concentrem na tarefa em mãos (dados), em vez de se perder nos detalhes
técnicos de implantação de um ambiente complexo. Hadoop está presente em
diversos setores que hoje convive com Big Data, tais como Facebook, Twitter,
Serviços Financeiros, Varejo e Governo e Ciências da Vida.
A NASA conta com o Hadoop para lidar com grandes volumes de dados em
projetos como o Square Kilometer Array, para visualização dos céus: prevê-se que
7
este produza 700 TB quando for construído na próxima década. Os sistemas de
dados vão incluir o Hadoop, assim como a tecnologia Apache OODT (Object
Oriented Data Technology), para lidar com maciços volumes de trabalho.
(Computerworld).
FIGURA 3 – Fluxo de execução do Hadoop
Fonte: Rose Business Technologies, 2012.
O esquema acima ilustra o cenário em que o Hoodop trabalha, consumindo
dados de fontes relacionais (estruturado) e fontes que dispõem dados não
estruturados. O Hadoop, utilizando MapReduce e HDFS (Hadoop Distributed File
System), consegue processar todos esses dados e dispor para diferentes tipos de
analises.
3. Conclusão
Com base no estudo realizado, torna-se evidente que não há como fugir do
fenômeno Big Data, pois já é uma realidade muito mais próxima de nós do que
possamos imaginar. A sociedade atual se organiza em torno dos meios de
comunicação, com a popularização da internet, dos dispositivos moveis com acesso
à mesma, a evolução da tecnologia como um todo, tudo isso alavancou uma nova
era, em que a tecnologia e a informação ditam as regras.
8
Atualmente a maioria das pessoas possui algum contato com algo que pode
contribuir para gerar essa grande quantidade de dados, de forma direta ou indireta.
As tecnologias para trabalhar com o oceano de dados que cresce em volume de
forma monstruosa e flui continuamente nos deixa otimista, porque se mostram
comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com
grandes quantidades de dados.
Outro ponto importante que deve ser enfatizado é a questão do potencial
analítico que o Big Data pode nos oferecer. O poder de quem detém a expertise de
trabalhar com grandes quantidades de dados é imensurável, a aplicação se estende
por diversas áreas, não ficando restrito apenas ao um setor. Podemos concluir que o
Big Data se revela um divisor de águas e seu impacto na sociedade poderá ser
comparado com o advento da internet, que hoje se tornou algo indispensável em
nossas vidas. É um mundo a ser explorado, mais que já no início se mostra de
grande potencial e será a questão tecnologia mais discutida nos próximos anos
certamente.
Como já foi dito, este estudo tem como objetivo demonstrar as motivações
para o surgimento do Big Data e também expor o que dispomos no momento para
trabalhar com essa quantidade enorme de dados. Demostrando uma visão geral do
cenário atual no que tange ao volume, velocidade e variedade dos dados que são
gerados hoje. Também expor o que dispomos no momento para trabalhar com essa
quantidade enorme de dados, já que o grande desafio é manusear essa infinidade
de dados e extrair informação relevante a partir dos mesmos, mostraremos algumas
ferramentas e conceitos que se tornam imprescindíveis no trabalho com Big Data.
Para realização do estudo foram consultados como referencia, livros voltados
ao assunto Big Data, artigos impressos e online, pesquisas com empresas de todo o
mundo, revista e internet.
Esse trabalho é apenas uma breve síntese de uma questão que a princípio
possa se parecer não tão importante mais não é algo que podemos deixar passar
despercebido. Há outros aspectos inerentes ao Big Data que poderiam ser
abordados em trabalhos futuros, com a questão do impacto que causaria a utilização
da análise de Big Data tanto positivo quanto negativamente na sociedade.
9
Referências
Big Data Now. 1. Ed. Sebastopol, CA: O’Reilly Media, Inc. 2012.
Computerworld. Hadoop cimenta importância para Big Data. Disponível em:
http://www.computerworld.com.pt/2012/06/19/hadoop-cimenta-importancia-para-bigdata/. Acesso em 24 maio 2013.
Dean, J. Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters.
Disponível em: http://research.google.com/archive/mapreduce.html. Acesso em: 21
maio 2013.
Gouveia,
W.
MapReduce
é
o
que
há.
Disponível
em:
http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-ha.html.
Acesso em: 21 maio de 2013.
Moraes, M. Big Data ajudou Obama a ganhar eleições. Info, 15 janeiro 2013.
Disponível em: http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhareleicoes-15012013-25.shl?3. Acesso em: 10 abril 2013.
Petry, A. Vida Digital: O Berço do Big Data. Revista Veja, São Paulo, Maio. p.71-81,
2013.
Rose Business Technologies. Disponível em: http://www.rosebt.com/1/archives/072012/1.html. Acesso em: 21 maio de 2013.
Schneider, R. D. Hadoop For Dummies, Special Edition. Mississauga, CAN: John
Wiley & Sons Canada, 2012. 41 p.
The Deciding Factor: Big data and decision-making. London, Economist Intelligence
Unit. 2012.
Download

BIG DATA Marcos Santos Borges Henriques1 Maria Renata Silva