Conteúdo exclusivo escrito e fornecido pela AD Digital, proibida cópia total ou parcial desse documento Big Data: A nova era do Big Scale Série: Gestão Eficiente de Tapeless Workflow Por: Alex Santos Série: BIG DATA: A NOVA ERA DO BIG SCALE Além disso, este massivo incremento em escala ocorre por uma série de razões. Pela pressão na redução dos custos, muitas empresas estão consolidando seus data centers, pois ninguém mais está disposto a pagar uma estrutura própria de TI para cada uma de suas áreas, principalmente quando elas estão distribuídas em mais de um endereço. Mover dados para o cloud também colabora com o au mento da escala, agregando a demanda de muitos usuári os em sistemas centralizados. Vamos analisar alguns dados A análise de dados tem se tornado um elemento chave na de cisão dos negócios nesta última década. Relatórios clássicos com um conjunto de informações numa base de dados era su ficiente até então, porém hoje essa técnica já não mais se aplica em conjunto de dados não estruturados e o tempo necessári os para tornalas úteis. As limitações comuns para este tipo de análise são os recursos de computação e armazenamento necessários para se obter os resultados esperados em tempo hábil. Há 20 anos atrás, as equipes de TI estavam focadas em obter a melhor performance de uma aplicação e estrutura chave para as suas companhias. Estes silos atuavam como um “siste ma de registro” que relativamente desempenhou bem sua função em manter sob controle as informações vitais, mas eles são muito caros, dificultam o gerenciamento e não oferecem um “exame profundo” suficiente, de forma a conduzir alguma vantagem comercial. Há 10 anos atrás, o foco de TI deslocouse para a eficiência, ou seja, “fazer mais por menos”. Tecnologias como virtualização, compartilhamento e consolidação com a infraestrutura existente na empresa tornaramse os elementos chaves para as equipes de TI. Nos dias de hoje, estamos entrando em uma “nova era”, a era do big scale, onde uma quantidade de dados processados e armazenados pelas empresas estão desconstruindo cada con juntura estrutural na industria do armazenamento de dados. Como resultado disso, as equipes de TI estão tentando convert er os sistemas de registros existentes, desenvolvidos nas déca das dos anos ‘90 e 2000, em “sistemas de apontamento” que são definidos como sistemas que podem de maneira eficiente entregas as informações necessárias, para as pessoas certas, em tempo real, ajudandos a elaborar análises muito mais sofis ticadas, proporcionando uma melhor decisão no negócio. Outra fonte de incremento na escala é o massivo cresci mento dos dados gerados pelos usuários e pelas máqui nas. As tecnologias de armazenamento digital estão mov imentando dados mais densos como a fotografia digital e vídeos que usam cada vez mais altas resoluções. A análise destes dados se torna algo muito mais avançado (como um MAM, por exemplo), o que requer muito mais dados, portanto mais densas para o armazenamento. O Big Data requer um Big Plano A explosão do crescimento dos dados é uma realidade e essa trajetória cresce rapidamente. De forma a suportar e acomodar este nível intenso de crescimento, mais soluções poderosas e robustas de gerenciamento dos dados sur gem e tem se tornado vitais para os negócios. A geração do dado e a diversidade no uso deles, direciona a adoção de soluções de armazenamento baseadas em regras den tro de um data center. Estes fatores, em conjunto com os ambientes de transição de data centers altamente virtu alizados, afetam a forma como as empresas compram e gerenciam servidores, storages, e equipamentos de rede e eles são elementos chaves no que é o Big Data propria mente dito na realidade do dia a dia. A perspectiva é o Big Data no cloud. O Big Data é composto por um conjunto de dados que cresce de uma maneira tão intensa que eles podem difi cultar sua manipulação usando as ferramentas de geren ciamento tradicionais de base de dados. As dificuldades incluem a captação, armazenamento, busca, compartilha mento, análise e visualização. A tendência de crescimen to continua devido ao significante benefício em trabalhar com mais e mais conjuntos de dados que permitem anális es para descobrir tendências de negócios e resolver prob lemas. Apesar de ser um alvo em movimento, os limites atuais estão na ordem dos terabytes, petabytes e exabytes de dados. Nessa trajetória, até zettabytes (1.000 exabytes) serão uma realidade num futuro não muito distante. Os dados estão em qualquer lugar. Quaisquer usuários, 2 aplicações ou máquinas estão gerandoos e eles estão em exponencial crescimento independente de vertical de mercado ou indústria. Devido a esta realidade, qualquer empresa no mundo se vê obrigada a gerenciar e extrair valor de cada parte do armazenamento, da forma mais barata possível. Isso inicia uma corrida real ao cloud onde o fluxo de trabalho necessita da habilidade em processar dados cada vez mais em tempo real e nos mais distintos tamanhos de grandeza, numa “fração” do que seria o pro cesso tipicamente custaria. Grandes desafios Ultimamente, as empresas tem encontrado certa dificul dade ou, até mesmo, impossibilidade para gerenciar este exponencial crescimento no Big Data. Os acessos tradicio nais não podem escalar ao nível necessário que permiti ram o ingest de todos os dados, bem como analisalos na velocidade em que ele é entregue, e armazenar de forma eficiente este conjunto de dados por longos períodos de tempo. A indústria como um todo já iniciou um processo em como gerenciar esta crescente complexidade da in fraestrutura num mundo virtual, porém lidar com ela num ambiente escalável apresenta sérios desafios. O “tempo para informar” é crítico para algumas empresas, a fim de obterem máximo valor do seu dado. Se ela leva sem anas ou meses para executar uma análise, ela pode não ter tempo suficiente para detectar padrões para que podem afetalos no negócio em um instante. Portanto, os desafios do Big Data estão todos em volta do ganho da vantagem competitiva e, especificamente, como obter maior valor para a empresa do seu imenso universo digital de infor mações. É importante, também, estar consciente do fato de que o Big Data está desconstruindo a infraestrutura de armazenamento de hoje, ao longo destas 3 grandes ver tentes: Complexidade: os dados não são mais, apenas, textos e números. Eles podem ser, também, eventos em tempo real, infraestrutura compartilhada e a inerente relação com o dado. A informação é agora conectada, de alta fidelidade e consiste em múltiplos tipos de dados, muitos deles não estruturados. A aplicação de algoritmos típicos para busca, armazenamento e categorização estão se tornando cada vez mais complexo e ineficientes. Velocidade: Quão rápido a informação chega? Vídeos em alta definição, streaming de mídia na internet para repro dutores, feeds de straming em mídias sociais... todos eles tem altas taxas de ingestão. As empresas tem que manter se com o fluxo de dados para tornar as informações úteis, bem como para as taxas de ingestão, afim de impulsionar os negócios e obter resultados de forma mais rápida. Volume: Todos os dados coletados devem estar armazena dos num local seguro e sempre disponível. Com os altos volumes de dados (e em crescimento), as equipes de TI pre cisam definir sobre o que represente “muitos dados”. Por exemplo, eles podem descarregar todos os dados a cada semana e iniciar o processo novamente na semana se guinte. Mas para muitas unidades de negócios e suas apli cações, esta não é uma opção, então mais dados devem ser armazenados por mais tempo sem eliminar a complex idade operacional. Isso pode fazer com que a infraestrutura se rompa rapidamente ao longo do eixo do volume. O Local é onde o dado ESTÁ Os fornecedores de storage apresentam uma regra crítica no explosivo crescimento dos dados e no aumento do vol ume. Não obstante, eles armazenam o dado e precisam ser capazes de proporcionar um sólido e suficiente ambiente, bem como apresentando uma solução para acomodar este conjunto de dados. A solução mais efetiva é aquela que eficientemente processa, analiza, gerencia e acessa o dado na escala. Especificamente, os portifólios de soluções que são organizados pelo uso analítico, de largura de banda e conteúdo são a chave para o sucesso. A Função Analítica pelo conjunto de dados extremamente grandes com foco em fornecer uma eficiente análise para o conjunto de dados que são significantemente maiores do que aqueles que estávamos acostumados a lidar no passado, especialmente em se tratando de dados não estruturados. A função analítica é todo o que envolve o ganho de conhecimento, dando vantagem ao universo digital e tornando o dado uma informação de alta quali dade, dando profundos conhecimentos sobre o negócio e uma melhor tomada de decisões. A Largura de banda é relacionada a performance das car gas de trabalho intensivas de dados. As aplicações de alta largura de banda incluem o High Performance Computing 3 O Conteúdo foca na necessidade de proporcionar o arma zenamento do dado de forma segura e escalável sem limites. As soluções de conteúdo devem disponibilizar virtualmente o armazenamento de quantidades ilimitadas de dados. Des ta maneira as empresas poderão armazenar a quantidade de dados necessárias para a sua contínua operação, bem como encontralas quando necessário. Pense Grande, Pense Diferente Existem muitas e novas faces do Big Data. O que torna o Big Data diferente é que as companhias estão trabalhando para que todos os dados coletados façam parte da sua operação, do seu dia a dia no negócio. Resultados abrangendo uma alta gama em fornecer uma melhor exeperiência ao usuário. Outra diferença é que a maioria do dado em crescimento com preende ao dado não estruturado no Big Data. Um exemplo simples é comparar um registro de um cliente que é um dado estruturado com um vídeo que é um dado nãoestruturado. O registro de um cliente possui campos como “nome do cliente”, “endereço”, possui tamanho fixo, você pode armazenalo em uma coluna numa base de dados, você pode buscar por um cliente em específico usando uma query e assim por diante. Ao contrário, um vídeo é um stream de um dado digital tipica mente armazenado como um arquivo. Ele não possui campos fixos e não e é difícil de ser encontrado, logo ele é um arquivo nãoestruturado. O esforço para entregar e desenvolver produtos e serviços inovadores no futuro será alimentado cada vez mais pela ca pacidade das empresas para adquirir e analisar grandes quan tidades de dados estruturados e não estruturados. Muitas empresas, dos mais diversos portes, tem buscado essa capaci dade, aproveitando o grande poder da nuvem pública e pela criação de seus próprios data centers (privados). Os desafios são reais e complexos, mas a grande questão é o substancial crescimento dos dados que estão em toda a par te e as abordagens tradicionais não escalam o suficiente. Os avanços tecnológicos e as complexidades na precisão do mod elo, o compartilhamento das informações em tempo real, ima gens de alta resolução, streaming de vídeo e outras aplicações de uso intensivo do dado estão mudando dramaticamente a forma como os negócios são conduzidos. Eis que, definitiva mente, é chegada a hora em se pensar em investir em soluções robustas para gerenciar, suportar e manter sua operação e seu Big Data. Alex Santos é Gerente de Contas da AD Digital e mem bro da Storage Professional Council da SNIA Brasil (Storage Networking Industry Association). Para mais informações sobre como criar um armazena mento de acervo a longo prazo, consulte-nos. www.ad-digital.net [email protected] (11) 3467-3353