BIG DATA Marcos Santos Borges Henriques1 Maria Renata Silva Furtado2 Paulo Eduardo Santos da Silva3 Rodrigo Vitorino Moravia4 RESUMO: Vivemos hoje a era da informação. Os dados são mais valiosos e os produzimos de uma forma impressionante. Todas as interações que temos com a tecnologia geram quantidades astronômicas de dados e tudo isso, até pouco tempo atrás, era descartado. A partir do desenvolvimento de tecnologias nos ramos de processamento de informação, armazenamento de dados e algoritmos computacionais, podemos agora trabalhar em cima desses dados, que antes eram descartados, e transformá-los em informação muito útil em diversos setores tanto comercial quanto social. Este estudo tem como objetivo demonstrar as motivações para o surgimento do Big Data, demostrando uma visão geral do cenário atual no que tange ao volume, velocidade e variedade dos dados que são gerados hoje. Também expor o que dispomos no momento para trabalhar com essa quantidade enorme de dados, já que o grande desafio é manusear essa infinidade de dados e extrair informação relevante a partir dos mesmos, mostraremos algumas ferramentas e conceitos que se tornam imprescindíveis no trabalho com Big Data. Recentemente foi divulgado um programa de espionagem Norte Americana, que só é possível graças ao advento do Big Data, o governo Americano intercepta e analisa diariamente quantidades absurdas de dados, que são gerados continuamente, vindos de diversas fontes, o nosso estudo tenta deixar um pouco mais claro com funciona esse processo que está sendo praticado por muitos atualmente. Para realização do estudo foram consultados como referencia, livros voltados ao assunto Big Data, artigos impressos e online, pesquisas com empresas de todo o mundo, revista e internet. Palavras-chave: Big Data, Dados Estruturados, Dados Não Estruturados, Escalável, Hadoop, Hardware, MapReduce. 1 Aluno da Faculdade Infórium de Tecnologia. Professora da Faculdade Infórium de Tecnologia, e Mestre em Psicologia. 3 Aluno da Faculdade Infórium de Tecnologia. 4 Especialista em Gestão da Informação pelo IEC – PUC Minas. Analista de Business Intelligence há 12 anos. Professor da Pós-Graduação das Faculdades PUC Minas, Estácio e Infórium de Tecnologia. Professor da graduação das Faculdades Infórium de Tecnologia e Batista. 2 1 1. Introdução No cenário atual, dada a importância conquistada pela tecnologia em nossas vidas, vivemos um momento jamais presenciado na história da humanidade. Estamos a todo o momento gerando dados sobre tudo que fazemos, produzimos dados em escalas inimagináveis há alguns anos atrás. A sociedade acumula em um ano de vida digital cerca de 1,8 zettabytes5 de dados. Para se ter ideia da dimensão da escala, 3 exabytes6 é tudo que a humanidade conseguia guardar em 1986, hoje produzimos duas vezes esse valor por dia. (Petry, 2013). Esse oceano de dados – termo muito utilizado para dimensionar o volume – esconde muita informação que, até pouco tempo atrás, não era explorada. Além do volume, esses dados são muito variados, oriundos das mais diversas fontes e, consequentemente, diversos formatos. Por serem tão variados, os dados podem vir de fontes diversas efluir em tempo real, de uma forma contínua dando origem ao conceito de velocidade desses dados. Este estudo tem como objetivo demonstrar as motivações para o surgimento do Big Data e também expor o que dispomos no momento para trabalhar com essa quantidade enorme de dados. Para realização do estudo foram consultados como referencia, livros voltados ao assunto Big Data, artigos impressos e online, pesquisas com empresas de todo o mundo, revista e internet. 2. Big Data O conceito Big Data é utilizado para caracterizar os dados que excedem a capacidade de processamento de sistemas de banco de dados convencionais. Big Data é muito grande, se move muito rápido, e não se encaixa nas restrições de arquiteturas de banco de dados. Para ganhar o valor a partir desses dados, você 5 6 Zettabyte = 1.000.000.000.000.000.000.000 de bytes Exabyte = 1.000.000.000.000.000.000 de bytes 2 deve escolher um caminho alternativo para processá-lo. Big Data Now (Schneider, 2012). Segundo Schneider (2012), o primeiro ponto a ser esclarecido é que Big Data não tem uma única definição. Na verdade, é um termo que descreve pelo menos três distintas, mas interligadas, tendências. A Captação e gerenciamento de lotes de informação é uma delas. Estudos de mercado e pesquisas independentes têm mostrado que o volume de dados está dobrando a cada ano. A outra é o trabalho com muitos tipos novos de dados. Estudos indicam, também, que oitenta por cento do total dos dados gerados é não estruturado, tal como imagens, áudio, tweets, mensagens de texto e assim por diante. Até recentemente a maioria das organizações eram incapazes de tirar proveito desses dados. E por último a exploração dessa massa de informação e dados não estruturados com um novo estilo de aplicação, muitas das ferramentas e tecnologias que foram projetados para trabalhar com volumes de informação relativamente grandes não mudaram muito nos últimos 15 anos. Estas ferramentas simplesmente não podem manter-se com grandes volumes de dados, portanto, novas classes de aplicações analíticas estão chegando ao mercado, todas com base nessa nova abordagem do Big Data. Para Schneider (2012), assim como não existe uma única definição para Big Data, não existe uma causa específica para sua rápida expansão. Em vez disso, várias tendências distintas contribuem para a explosão do Big Data. Segundo Schneider (2012), um fator que ajudou na expansão do Big Data foi a questão das novas fontes de dados: atualmente, temos mais geradores de informação do que nunca. Os dados podem vir de diversas fontes tais como, celulares, computadores, sensores, equipamentos médicos e outras plataformas que reúnem grandes quantidades de informação. Os Aplicativos corporativos tradicionais e científicos estão mudando e também contribuem para o crescimento do volume gerado de dados. Para Schneider (2012), as novas categorias de dados são outro aspecto relevante. Com o crescimento alucinante dessas novas fontes de dados, passamos agora a nos deparar com uma nova categoria de dado, que é não estruturado e tem um grande potencial analítico como, mensagens de texto, tweets, posts do facebook, sensores e outros tantos. Os bancos de dados convencionais (relacionais) e 3 ferramentas analíticas eram concebidos para interagir com a informação do tipo estruturada, que se encaixa em linha e colunas. Mas muito da informação que se tem hoje é não estruturada e está acoplada a fotos, vídeos, áudio, documentos XML. No que tange aos documentos XML, destaca-se que são um caso à parte, pois formam a espinha dorsal de muitas aplicações corporativas na atualidade. Isso se dá em parte pelo tamanho do documento XML e por sua natureza semiestruturada. Ainda segundo Schneider (2012), para fechar essa síntese do que pode alavancar o crescimento do trabalho com Big Data é a questão do hardware comoditizado e software: A última peça para o quebra-cabeça do Big Data é o baixo custo de hardware e ambientes de software que se tornaram mais populares. A tarefa de Big Data sem esses avanços seria muito difícil ou quase inviável. Para Big Data Now (2012), Big Data tem o potencial de revolucionar a maneira de fazer negócio, podendo fornecer novas perspectivas sobre as empresa, incluindo a forma de interação entre a empresa e o cliente, a forma de entregar produtos e serviços para o mercado, a posição da organização frente a seus concorrentes, estratégias que a empresa pode adotar para aumentar a rentabilidade e questões socioeconômicas que podem ser abordadas com Big Data. O que pode ser ainda mais interessante é que isso tudo pode ser entregue em tempo real. É sabido que Barack Obama, em sua campanha à presidência dos Estados Unidos da América em 2012, fez uso de Big Data para poder direcionar sua estratégia de campanha, tornando-a mais efetiva e fazendo com que o eleitor se sentisse mais próximo ao candidato, já que os eleitores recebiam propostas de governo relacionadas a temas em que estavam engajadas ou por algum motivo (post no Facebook, SMS, tweet) detinham alguma opinião sobre algum assunto (Big Data ajudou Obama a ganhar eleições, Moraes). Segundo The Deciding Factor (2012), pesquisa finalizada em fevereiro de 2012, em 607 os executivos de empresas de todo o mundo participaram, as mídias sociais não dizem apenas o que os consumidores gostam, mas o mais importante é saber o que elas não devem fazer para deixar os seus clientes insatisfeitos. Elas são utilizadas muitas vezes como um dos primeiros sistemas de aviso para alertar as empresas se os clientes estão se voltando contra ela. Quarenta e três por cento dos entrevistados concorda que analisar as mídias sociais para fazer tomada de decisão é cada vez mais importante. Para bens de consumo e varejo, manufatura, saúde e empresas farmacêuticas as mídias sociais fornecem o segundo mais valorizado 4 dataset após os dados de atividades de negócio. Lembrando que todos esses dados são desestruturados e oriundos de vários lugares (Twitter, Facebook, Blogs, etc.). Segundo The Deciding Factor (2012), quarenta por cento dos entrevistados no estudo acreditam que eles têm muitos dados não estruturados para apoiar a tomada de decisão. No gráfico abaixo estão relacionadas às respostas dos entrevistados à seguinte pergunta: “Olhando especificamente para o seu departamento, como você caracterizaria a quantidade de dados disponíveis para apoiar a tomada de decisão?”: FIGURA 1 – Dado estruturado e desestruturado Fonte: The Deciding Factor, 2012. Percebe-se que uma grande parte dos entrevistados cerca de cinquenta por cento, acredita que seus dados estruturados não são suficientes para gerar informações que auxiliem na tomada decisão. Por outro lado cerca de quarenta por cento acredita que há muito dado não estruturado que seria relevante. Com o advento das técnicas e ferramentas que possibilitam a extração e análise desses dados não estruturados, será possível coletar esses dados que antes eram descartados e avalia-los assim como é feito com o dado estruturado hoje, para a realização de trabalhos com Data Mining e Business Intelligence. Para Big Data Now (2012), com essa enxurrada de dados, totalmente desestruturados que fogem a regra do que hoje até então predominava (dados estruturados) com imponência, é necessário uma nova abordagem para que se possa analisar esses dados de enorme potencial. Surge dessa grande necessidade novas ferramentas capazes de tratar essa questão e proporcionar o desenvolvimento de soluções voltadas ao Big Data, são elas MapReduce, Hadoop, Pig, Hive, Hadoop Distributed File System (HDFS) e bancos de dados NoSQL. 5 Segundo Schneider (2012), como qualquer novo movimento emergente, Big Data possui seus obstáculos. O primeiro deles é o crescimento da Informação: mais de oitenta por cento dos dados de uma empresa são dados desestruturados, o que tende a crescer em um ritmo muito mais rápido do que a informação relacional tradicional. Um segundo obstáculo a ser considerado é o poder de processamento. A abordagem atual de utilizar um único e caro computador para processar todos os dados não é escalável para Big Data. O caminho mais coerente talvez seja a utilização de commodity de hardware e divisão de processamento entre servidores menos potentes e em maior numero proporcionando um escalabilidade horizontal. Armazenamento físico é outro fator. Capturar e gerenciar toda essa informação pode consumir enormes recursos, ultrapassando todas as expectativas orçamentais. Problema de Dados, falta de mobilidade de dados, formatos proprietários, e os obstáculos à interoperabilidade podem tornar o trabalho com Big Data mais difícil. E o custo, Extração, transformação e carga (ETL) para Big Data pode ser alto e moroso, particularmente na ausência de software especializado. Conforme detalhado anteriormente, o que propicia o trabalho com Big Data é o desenvolvimento de tecnologias que podem contornar a complexidade de se de gerenciar uma enorme quantidade de dados. O MapReduce é uma solução que surgiu sob tal ótica. Originalmente criado pela empresa Google, provou ser uma técnica altamente inovadora para tirar proveito do enorme volume de dados que agora rotineiramente são produzidos. É uma estrutura de software que subdivide problemas em tarefas gerenciáveis e, em seguida, distribui para vários servidores que não precisam ser extremamente poderosos. Esses servidores são chamados de nós, que trabalham em conjunto e em paralelo para chegar a um resultado. MapReduce é um enorme sucesso. O Google faz uso pesado de MapReduce internamente, e a Fundação Apache Software utiliza MapReduce para formar a base de sua implementação para tratar big data o Hadoop, outra poderosa ferramenta no segmento. (Schneider, 2012). MapReduce é capaz de trabalhar com dados brutos que estão armazenados em arquivos de disco, em bases de dados relacionais, ou em ambos. Os dados podem ser estruturados ou não estruturados, e é comumente composta de texto, binário, ou registros multilinha. Registros de log e documentos complexos são apenas exemplos do tipo de dados que MapReduce pode consumir. 6 O modelo de programação MapReduce consiste na construção de um programa formado por duas operações básicas: map e reduce. A operação de map recebe um par chave/valor e gera um conjunto intermediário de dados, também no formato chave/valor. A operação de Reduce é executada para cada chave intermediária, com todos os conjuntos de valores intermediários associados àquela chave combinados. Em geral a operação de map é usada para encontrar algo, e a operação de reduce é usada para fazer a sumarização do resultado (MapReduce: Simplified Data Processing on Large Clusters, Dean, Ghemawat). FIGURA 2 – Fluxo de execução do MapReduce Fonte: MapReduce é o que há, 2010. Baseado no conceito de MapReduce e Google File System (Sistema de Arquivos do Google), a Fundação Apache Software desenvolveu uma solução chamada Hadoop. É destinado a aproveitar o poder de processamento paralelo massivo para processar Big Data, geralmente usando muitos servidores baratos, no esquema de commodities. Hadoop é projetado para abstrair grande parte da complexidade do processamento distribuído. Isso permite que os desenvolvedores se concentrem na tarefa em mãos (dados), em vez de se perder nos detalhes técnicos de implantação de um ambiente complexo. Hadoop está presente em diversos setores que hoje convive com Big Data, tais como Facebook, Twitter, Serviços Financeiros, Varejo e Governo e Ciências da Vida. A NASA conta com o Hadoop para lidar com grandes volumes de dados em projetos como o Square Kilometer Array, para visualização dos céus: prevê-se que 7 este produza 700 TB quando for construído na próxima década. Os sistemas de dados vão incluir o Hadoop, assim como a tecnologia Apache OODT (Object Oriented Data Technology), para lidar com maciços volumes de trabalho. (Computerworld). FIGURA 3 – Fluxo de execução do Hadoop Fonte: Rose Business Technologies, 2012. O esquema acima ilustra o cenário em que o Hoodop trabalha, consumindo dados de fontes relacionais (estruturado) e fontes que dispõem dados não estruturados. O Hadoop, utilizando MapReduce e HDFS (Hadoop Distributed File System), consegue processar todos esses dados e dispor para diferentes tipos de analises. 3. Conclusão Com base no estudo realizado, torna-se evidente que não há como fugir do fenômeno Big Data, pois já é uma realidade muito mais próxima de nós do que possamos imaginar. A sociedade atual se organiza em torno dos meios de comunicação, com a popularização da internet, dos dispositivos moveis com acesso à mesma, a evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em que a tecnologia e a informação ditam as regras. 8 Atualmente a maioria das pessoas possui algum contato com algo que pode contribuir para gerar essa grande quantidade de dados, de forma direta ou indireta. As tecnologias para trabalhar com o oceano de dados que cresce em volume de forma monstruosa e flui continuamente nos deixa otimista, porque se mostram comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com grandes quantidades de dados. Outro ponto importante que deve ser enfatizado é a questão do potencial analítico que o Big Data pode nos oferecer. O poder de quem detém a expertise de trabalhar com grandes quantidades de dados é imensurável, a aplicação se estende por diversas áreas, não ficando restrito apenas ao um setor. Podemos concluir que o Big Data se revela um divisor de águas e seu impacto na sociedade poderá ser comparado com o advento da internet, que hoje se tornou algo indispensável em nossas vidas. É um mundo a ser explorado, mais que já no início se mostra de grande potencial e será a questão tecnologia mais discutida nos próximos anos certamente. Como já foi dito, este estudo tem como objetivo demonstrar as motivações para o surgimento do Big Data e também expor o que dispomos no momento para trabalhar com essa quantidade enorme de dados. Demostrando uma visão geral do cenário atual no que tange ao volume, velocidade e variedade dos dados que são gerados hoje. Também expor o que dispomos no momento para trabalhar com essa quantidade enorme de dados, já que o grande desafio é manusear essa infinidade de dados e extrair informação relevante a partir dos mesmos, mostraremos algumas ferramentas e conceitos que se tornam imprescindíveis no trabalho com Big Data. Para realização do estudo foram consultados como referencia, livros voltados ao assunto Big Data, artigos impressos e online, pesquisas com empresas de todo o mundo, revista e internet. Esse trabalho é apenas uma breve síntese de uma questão que a princípio possa se parecer não tão importante mais não é algo que podemos deixar passar despercebido. Há outros aspectos inerentes ao Big Data que poderiam ser abordados em trabalhos futuros, com a questão do impacto que causaria a utilização da análise de Big Data tanto positivo quanto negativamente na sociedade. 9 Referências Big Data Now. 1. Ed. Sebastopol, CA: O’Reilly Media, Inc. 2012. Computerworld. Hadoop cimenta importância para Big Data. Disponível em: http://www.computerworld.com.pt/2012/06/19/hadoop-cimenta-importancia-para-bigdata/. Acesso em 24 maio 2013. Dean, J. Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters. Disponível em: http://research.google.com/archive/mapreduce.html. Acesso em: 21 maio 2013. Gouveia, W. MapReduce é o que há. Disponível em: http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-ha.html. Acesso em: 21 maio de 2013. Moraes, M. Big Data ajudou Obama a ganhar eleições. Info, 15 janeiro 2013. Disponível em: http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhareleicoes-15012013-25.shl?3. Acesso em: 10 abril 2013. Petry, A. Vida Digital: O Berço do Big Data. Revista Veja, São Paulo, Maio. p.71-81, 2013. Rose Business Technologies. Disponível em: http://www.rosebt.com/1/archives/072012/1.html. Acesso em: 21 maio de 2013. Schneider, R. D. Hadoop For Dummies, Special Edition. Mississauga, CAN: John Wiley & Sons Canada, 2012. 41 p. The Deciding Factor: Big data and decision-making. London, Economist Intelligence Unit. 2012.