Prof. Daniela Barreiro Claro
Estes dados vem
dos diversos
dispositivos
 Dados estão

crescendo…
90% dos dados foram gerados há 2 anos
Dados gerados
10%
Há 2 anos atrás
Desde o início
90%
Prof. Daniela Barreiro Claro



Grande quantidade de dados
Não se trata de um simples gargalo de um
SGBD
Efetivamente, são capacidades de
armazenamento e processamento sendo
esgotadas.
SGBD
Prof. Daniela Barreiro Claro

Qual a forma de se escolher um filme no cinema?
Sinopse:
Detroit - in the future - is crime-ridden, and run by a
massive company. The company have developed a huge
crime-fighting robot, which unfortunately develops a rather
dangerous glitch. The company sees a way to get back in
favour with the public when a cop called Alex Murphy is killed
by a street gang. Murphy's body is reconstructed within a
steel shell and named Robocop. The Robocop is very
successful against criminals, and becomes a target of
supervillian Boddicker.
Trailer

http://youtu.be/clqK5OC3BWE
Prof. Daniela Barreiro Claro
 Quais
os tipos de dados que
temos hoje?
◦ Dados Estruturados
◦ Dados Semi-Estruturados
◦ Dados não-estruturados
Prof. Daniela Barreiro Claro

Relacionados a um SGBD
SGBD
Prof. Daniela Barreiro Claro




Dados organizados em blocos semânticos
(relações)
Dados de um mesmo grupo possuem as
mesmas descrições (atributos)
Descrições para todas as classes de um grupo
possuem o mesmo formato (esquema)
Dados mantidos em um SGBD sao chamados
de Dados Estruturados por manterem a
mesma estrutura de representação (rígida),
previamente projetada (esquema)
Prof. Daniela Barreiro Claro




Atualmente, muitos dados não são mantidos
no SGBD
Dados Web, por exemplo, apresentam uma
organização bastante heterogênea.
A alta heterogeneidade dificulta as consultas
a estes dados
Assim, estes dados sao classificados como
semi-estruturados
◦ Não são estritamente tipados
◦ Não são complementamente não-estruturados
Prof. Daniela Barreiro Claro



Os dados semi-estruturados são dados onde
o esquema de representação está presente
(de forma explícita ou implícita)
Auto-descritivo
Uma análise do dado deve ser feita para que
a sua estrutura possa ser identificada e
extraída
Prof. Daniela Barreiro Claro

Características principais
◦ Definição à posteriori
 Esquemas são definidos após a existência dos dados
 Investigação de suas estruturas particulares
◦ Estrutura irregular
 Não existe um esquema padrão para os dados
 Coleções de dados são definidos de maneiras
diferentes, contendo informações incompletas
◦ Estrutura implícita
 Muitas vezes existe uma estrutura implícita
◦ Estrutura parcial
 Apenas parte dos dados disponíveis podem ter uma
estrutura
Prof. Daniela Barreiro Claro
Dados Estruturados
Dados SemiEstruturados
Esquema pré-definido
Nem sempre há um esquema
Estrutura regular
Estrutura irregular
Estrutura independente dos dados
Estrutura embutida nos dados
Estrutura reduzida
Estrutura extensa (particularidades
de cada dado, visto que cada um
pode ter uma organização própria)
Fracamente evolutiva
Fortemente evolutiva (estrutura
modifica-se com frequencia)
Prescritiva (esquemas fechados e
restrições de integridade)
Estrutura descritiva
Distinção entre estrutura e dados é Distinção entre estrutura e dados
clara
não é clara
Prof. Daniela Barreiro Claro

Exemplos
◦ XML – eXtensible Markup Language
◦ RDF – Resource Description Framework
◦ OWL – Web Ontology Language
Prof. Daniela Barreiro Claro




Sao os dados que não possuem uma
estrutura definida.
Normalmente caracterizados por documentos
textos, imagens, videos, etc
Nem as estruturas sao descritas
implicitamente
Grande maioria dos dados atuais na Web e
nas empresas seguem este formato.
Prof. Daniela Barreiro Claro

Crescimento diferenciado dos tipos de dados
80
Filmes,
figuras,
60
documentos
Preferem
RICH DATA 40
Word
Textos
20
simples, HTML
0
1996
2012
Prof. Daniela Barreiro Claro


Atualmente, devido a variedade de
dispositivos, os dados também são variados
Diversos dispositivos
◦ Explosão de sensores, dispositivos inteligentes,
tecnologias de colaboração, redes sociais


Dados não são mais relacionais, mas
diversificados de paginas web, emails,
documentos, dados de sensores, etc
Sistemas tradicionais estão em colapso para
processar estes dados
Prof. Daniela Barreiro Claro
Dados disponíveis x Processamento dos Dados
Dados disponíveis
Processamento dos
dados
Prof. Daniela Barreiro Claro


Volume de Dados
No ano 2000, eram armazenados no mundo
◦ 800.000 Petabytes (PB)

IDC: Expectativa para 2020
◦ 35 zetabytes (ZB)


Twitter sozinho gera mais de 7 terabytes
de dados TODOS OS DIAS
Facebook 10TB
Prof. Daniela Barreiro Claro

Isso deu origem ao BIG DATA
Prof. Daniela Barreiro Claro

É ideal:
◦ Analisar dados semi-estruturados e nãoestruturados de uma variedade de fontes
◦ Quando todos os dados ou quase todos devem ser
analisados
◦ Para analises interativas e exploratórias


Big Data releva as formalidades e restrições
do Data Warehouse
Preserva a fidelidade dos dados
Prof. Daniela Barreiro Claro
Download

Dados Estruturados x Dados Semi