Prof. Daniela Barreiro Claro Estes dados vem dos diversos dispositivos Dados estão crescendo… 90% dos dados foram gerados há 2 anos Dados gerados 10% Há 2 anos atrás Desde o início 90% Prof. Daniela Barreiro Claro Grande quantidade de dados Não se trata de um simples gargalo de um SGBD Efetivamente, são capacidades de armazenamento e processamento sendo esgotadas. SGBD Prof. Daniela Barreiro Claro Qual a forma de se escolher um filme no cinema? Sinopse: Detroit - in the future - is crime-ridden, and run by a massive company. The company have developed a huge crime-fighting robot, which unfortunately develops a rather dangerous glitch. The company sees a way to get back in favour with the public when a cop called Alex Murphy is killed by a street gang. Murphy's body is reconstructed within a steel shell and named Robocop. The Robocop is very successful against criminals, and becomes a target of supervillian Boddicker. Trailer http://youtu.be/clqK5OC3BWE Prof. Daniela Barreiro Claro Quais os tipos de dados que temos hoje? ◦ Dados Estruturados ◦ Dados Semi-Estruturados ◦ Dados não-estruturados Prof. Daniela Barreiro Claro Relacionados a um SGBD SGBD Prof. Daniela Barreiro Claro Dados organizados em blocos semânticos (relações) Dados de um mesmo grupo possuem as mesmas descrições (atributos) Descrições para todas as classes de um grupo possuem o mesmo formato (esquema) Dados mantidos em um SGBD sao chamados de Dados Estruturados por manterem a mesma estrutura de representação (rígida), previamente projetada (esquema) Prof. Daniela Barreiro Claro Atualmente, muitos dados não são mantidos no SGBD Dados Web, por exemplo, apresentam uma organização bastante heterogênea. A alta heterogeneidade dificulta as consultas a estes dados Assim, estes dados sao classificados como semi-estruturados ◦ Não são estritamente tipados ◦ Não são complementamente não-estruturados Prof. Daniela Barreiro Claro Os dados semi-estruturados são dados onde o esquema de representação está presente (de forma explícita ou implícita) Auto-descritivo Uma análise do dado deve ser feita para que a sua estrutura possa ser identificada e extraída Prof. Daniela Barreiro Claro Características principais ◦ Definição à posteriori Esquemas são definidos após a existência dos dados Investigação de suas estruturas particulares ◦ Estrutura irregular Não existe um esquema padrão para os dados Coleções de dados são definidos de maneiras diferentes, contendo informações incompletas ◦ Estrutura implícita Muitas vezes existe uma estrutura implícita ◦ Estrutura parcial Apenas parte dos dados disponíveis podem ter uma estrutura Prof. Daniela Barreiro Claro Dados Estruturados Dados SemiEstruturados Esquema pré-definido Nem sempre há um esquema Estrutura regular Estrutura irregular Estrutura independente dos dados Estrutura embutida nos dados Estrutura reduzida Estrutura extensa (particularidades de cada dado, visto que cada um pode ter uma organização própria) Fracamente evolutiva Fortemente evolutiva (estrutura modifica-se com frequencia) Prescritiva (esquemas fechados e restrições de integridade) Estrutura descritiva Distinção entre estrutura e dados é Distinção entre estrutura e dados clara não é clara Prof. Daniela Barreiro Claro Exemplos ◦ XML – eXtensible Markup Language ◦ RDF – Resource Description Framework ◦ OWL – Web Ontology Language Prof. Daniela Barreiro Claro Sao os dados que não possuem uma estrutura definida. Normalmente caracterizados por documentos textos, imagens, videos, etc Nem as estruturas sao descritas implicitamente Grande maioria dos dados atuais na Web e nas empresas seguem este formato. Prof. Daniela Barreiro Claro Crescimento diferenciado dos tipos de dados 80 Filmes, figuras, 60 documentos Preferem RICH DATA 40 Word Textos 20 simples, HTML 0 1996 2012 Prof. Daniela Barreiro Claro Atualmente, devido a variedade de dispositivos, os dados também são variados Diversos dispositivos ◦ Explosão de sensores, dispositivos inteligentes, tecnologias de colaboração, redes sociais Dados não são mais relacionais, mas diversificados de paginas web, emails, documentos, dados de sensores, etc Sistemas tradicionais estão em colapso para processar estes dados Prof. Daniela Barreiro Claro Dados disponíveis x Processamento dos Dados Dados disponíveis Processamento dos dados Prof. Daniela Barreiro Claro Volume de Dados No ano 2000, eram armazenados no mundo ◦ 800.000 Petabytes (PB) IDC: Expectativa para 2020 ◦ 35 zetabytes (ZB) Twitter sozinho gera mais de 7 terabytes de dados TODOS OS DIAS Facebook 10TB Prof. Daniela Barreiro Claro Isso deu origem ao BIG DATA Prof. Daniela Barreiro Claro É ideal: ◦ Analisar dados semi-estruturados e nãoestruturados de uma variedade de fontes ◦ Quando todos os dados ou quase todos devem ser analisados ◦ Para analises interativas e exploratórias Big Data releva as formalidades e restrições do Data Warehouse Preserva a fidelidade dos dados Prof. Daniela Barreiro Claro