Tópicos Avançados de Bases de Dados
ESTG, Instituto Politécnico da Guarda
2004/2005
Perguntas sobre Data Warehousing
Nota 1:
Estas perguntas visam essencialmente ajudar os alunos no estudo das matérias de Data Warehousing. Estas e outras
perguntas serão também usadas pelo docente durante as aulas teóricas para promover discussão, gerar debate ou
ilustrar aspectos importantes da matéria.
Nota 2:
As perguntas não estão ordenadas por nenhum critério (grau de dificuldade, sequência lógica da matéria, etc) e não
são exaustivas, no que toca à cobertura da matéria da disciplina. Consistuem um exemplo de um conjunto de
perguntas que o docente deverá utilizar para, de acordo com a matéria que está a leccionar no momento, poder
utilizar oportunamente durante as aulas. As últimas perguntas são exemplos de exercícios a resolver no quadro,
promovendo o máximo de discussão com os alunos.
Nota 3:
Todas as perguntas referem-se à matéria sobre bases de dados para apoio à decisão (Data Warehousing/OLAP)
assumindo-se que o modelo multidimensional é concretizado sobre um motor relacional.
1.
Explique como é possível estimar o espaço ocupado por uma Data Warehouse (DW), mesmo antes de estar definido com
precisão o modelo de dados.
2.
O que é granularidade de uma DW?
3.
Qual a relevância da estimativa inicial de espaço ocupado pela DW para as decisões a tomar na definição do modelo de
dados e, particularmente, na escolha da granularidade?
4.
Explique que índices devem ser construídos para uma tabela de factos típica e para as suas dimensões.
5.
Como é que acha que os índices construídos pelo administrador para um modelo em estrela afectam o carregamento
periódico da DW? Acha que o administrador deve eliminar todos os índices antes de todos os carregamentos periódicos para
os depois voltar a criar ou há casos em que isto não se justifica?
6.
Em muitas DW o projectista decide ter vários níveis de granularidade ao longo do tempo. Por exemplo, pode ser
aconselhável ter dados com detalhe diário para os últimos três meses e para o restante período de tempo (para o passado) ter
um detalhe semanal. Explique que razões podem levar a decidir por DW com duplas (ou triplas, quádruplas, etc)
granularidades e como é que isto pode ser concretizado.
7.
Diga se acha que todas as dimensões de um modelo em estrela tem a mesma importância para o gestor e que reflexo é que
isto (dimensões a que o gestor estará mais atento) pode influenciar a concepção, construção e administração da DW.
8.
Qual a principal diferença entre uma Data Warehouse e uma Data Mart?
9.
Diga os principais factores que influenciam o número de estrelas necessárias para uma DW.
10. Porque é que a tabela de factos num modelo em estrela é bastante normalizada e porque é que as dimensões não são
normalizadas?
11. Em que casos é que acha ser aconselhável ter dimensões normalizadas (ou, pelo menos, parcialmente normalizadas)?
12. O que são agregados (também conhecidos por sumarizações ou vistas materializadas) e qual a sua importância para a DW?
13. O que é drill down, drill up e drill across?
14. O que são metadados e qual a sua relevâcia para o ciclo de vida de uma DW?
15. Como é que as múltiplas estrelas de uma DW se interligam? Diga algumas restrições nas pesquisas sobre multiplas estrelas.
16. Explique em que consiste o problema das dimensões que se alteram ao logo do tempo e como é que este pode ser resolvido?
1
Tópicos Avançados de Bases de Dados, 2004/2005
ESTG, Guarda
17. Porque é que a dimensão tempo está sempre presente numa DW? Será que os atributos desta dimensão são sempre os
mesmos para qualquer DW?
18. Dê uma ideia de qual o espaço necessário (em termos relativos) para armazenar por cada um dos seguintes componentes
necessários à concretização de um modelo em estrela: a) tabela de factos b) tabela de dimensões c) agregados d) índices da
tabela de factos e) índices das tabelas de dimensões.
19. Perante uma dada dimensão, como se decide quais os atributos a introduzir nessa dimensão?
20. Qual a vantagem em ter tabelas de cobertura numa DW e quais os critérios que devem presidir à decisão de as incluir no
modelo de dados ou não?
21. Acha que os agregados para uma estrela sem factos também não têm factos (i.e., são compostos apenas por chaves)?
22. Porque razão é que a identificação dos registos alterados no sistema operacional (necessária para se efectuar um
carregamento periódico da DW) deve ser feita no próprio sistema operacional? No caso de não ser possível fazê-lo no
sistema operacional como acha que este problema deve ser resolvido?
23. Porque é que muitas DW são esparsas e em que é que isso significa?
24. Qual o principal problema de uma DW não ser esparsa?
25. O que são mini-dimensões e qual a vantagem de as usar?
26. Em que consiste o problema das “dimensões sujas” e como é que este se resolve?
27. O que são dimensões heterogéneas e qual o seu impacto no modelo em estrela?
28. O que são factos não aditivos e quais os problemas que estes levantam?
29. Porque razão é que os agregados são sempre menos esparsos do que os factos base?
30. Porque é que medidas tais como saldos de contas, níveis de existências (em stocks), cotações de acções são inerentemente
não aditivas segundo a dimensão tempo? Como é que se tratam este tipo de situações.
31. Acha que faz sentido agregar tabelas de cobertura? Justifique e, em caso afirmativo, explique como seriam constituidos os
agregados correspondentes às tabelas de cobertura.
32. Suponha que estava a definir um modelo em estrela e que já tinha identificado os factos, as dimensões e a granularidade a
usar. Considere uma dada dimensão (exclua a dimensão tempo) e explique como é que define os atributos a incluir nessa
dimensão, deixando claro todos os aspectos que devem ser tidos em consideração.
33. Imagine uma tabela de factos sem factos. Acha que os agregados dessa tabela também não têm factos? Em caso negativo,
explique que tipo de factos teriam as tabelas de factos desses agregados.
34. Indique os dois principais problemas ou dificuldades na utilização de agregados (ou vistas materializadas).
35. Qual a relação entre os agregados e a ferramenta OLAP usada para fazer a análise de dados? Ou, por outras palavras, quais
as características que essa ferramenta deve ter para fazer o uso mais proveitoso da existência de agregados.
36. Indique duas situações em que se devem usar mini-dimensões, explicando para cada uma delas qual o problema que a minidimensão resolve e como é que esse problema é resolvido.
37. Quais são as limitações das mini-dimensões? Isto é, indique situações em que não é possível usar mini-dimensões.
38. Explique como e quando deve usar índices bit-map nos esquemas em estrela;
39. Enumere os factores que influenciam o número de estrelas necessárias para uma dada Data Warehouse, considerando todo o
tipo de factores que podem levar ao aparecimento de tabelas de factos e dimensões (factores relativos à situação a tratar,
relacionados com as bases de dados operacionais, com características específicas do modelo de dados da Data Warehouse,
etc).
40. Em muitas DW o projectista decide ter vários níveis de granularidade ao longo do tempo. Por exemplo, pode ser
aconselhável ter dados com detalhe diário para os últimos três meses e para o restante período de tempo (para o passado) ter
um detalhe semanal. Explique como é que isto pode ser concretizado e quais as fases no processo de concepção, construção
e manutenção da DW que são directamente afectadas pela granularidade dupla.
2
Tópicos Avançados de Bases de Dados, 2004/2005
ESTG, Guarda
41. Explique quais as diferentes maneiras de lidar com dimensões grandes (i.e., que têm muitos registos).
42. Ao definir tabelas de agregados assume-se um pressuposto relativamente à ferramenta OLAP para exploração de dados:
qual é esse pressuposto?
43. Relativamente à pergunta anterior, acha que o método de atributos de nível para armazenar agregados tem o mesmo
pressuposto sobre a ferramenta OLAP do que o método de armazenamento de agregados em tabelas separadas?
44. Em que consiste o problema da contagem dupla quando os agregados são armazenados usando o método de atributos de
nível?
45. Porque é que as manipulações (de formatos, cálculos prévios, etc) necessárias para converter os dados fonte no formato
próximo do que vai ser carregado na DW devem, normalmente, ser feitas no sistema fonte?
46. Qual é a principal razão porque nos motores multidimensionais os dados nunca estão num formato exactamente
multidimensional (em sentido estrito, ou seja, num formato que permita acesso directo)?
47. Em que consiste a redução de dados?
48. Qual é a utilização mais habitual da redução de dados?
49. Qual a grande vantagem dos métodos de redução de dados que permitem erros muito baixos.
50. Explique como é possível estimar o espaço ocupado por uma Data Warehouse (DW), mesmo antes de estar definido com
precisão o modelo de dados.
51. O que é granularidade de uma DW?
52. Qual a relevância da estimativa inicial de espaço ocupado pela DW para as decisões a tomar na definição do modelo de
dados e, particularmente, na escolha da granularidade?
53. Explique que índices devem ser construídos para uma tabela de factos típica e para as suas dimensões.
54. Como é que acha que os índices construídos pelo administrador para um modelo em estrela afectam o carregamento
periódico da DW? Acha que o administrador deve eliminar todos os índices antes de todos os carregamentos periódicos para
os depois voltar a criar ou há casos em que isto não se justifica?
55. Qual a principal diferença entre uma Data Warehouse e uma Data Mart?
56. Porque é que a tabela de factos num modelo em estrela é bastante normalizada e porque é que as dimensões não são
normalizadas?
57. Em que casos é que acha ser aconselhável ter dimensões normalizadas (ou, pelo menos, parcialmente normalizadas)?
58. O que é drill down, drill up e drill across?
59. O que são metadados e qual a sua relevância para o ciclo de vida de uma DW?
60. Como é que as múltiplas estrelas de uma DW se interligam?
61. Explique em que consiste o problema das dimensões que se alteram ao logo do tempo e como é que este pode ser resolvido?
62. Porque é que a dimensão tempo está sempre presente numa DW? Será que os atributos desta dimensão são sempre os
mesmos para qualquer DW?
63. Qual a vantagem em ter tabelas de cobertura numa DW e quais os critérios que devem presidir à decisão de as incluir no
modelo de dados ou não?
64. Acha que os agregados para uma estrela sem factos também não têm factos (i.e., são compostos apenas por chaves)?
65. Porque é que muitas DW são esparsas e em que é que isso significa?
66. Qual o principal problema de uma DW não ser esparsa?
67. O que são mini-dimensões e qual a vantagem de as usar?
3
Tópicos Avançados de Bases de Dados, 2004/2005
ESTG, Guarda
68. O que são factos não aditivos e quais os problemas que estes levantam?
69. Porque razão é que os agregados são sempre menos esparsos do que os factos base?
70. Porque é que medidas tais como saldos de contas, níveis de existências (em stocks), cotações de acções são inerentemente
não aditivas segundo a dimensão tempo? Como é que se tratam este tipo de situações.
71. Indique os critérios principais que devem obedecer os atributos de uma mini-dimensões para que a mini-dimensão seja
viável.
72. Explique quais as diferentes maneiras de lidar com dimensões grandes (i.e., que têm muitos registos).
73. Ao definir tabelas de agregados assume-se um pressuposto relativamente à ferramenta OLAP (ou ao motor de base de
dados) para exploração de dados: qual é esse pressuposto?
74. Relativamente à pergunta anterior, acha que o método de atributos de nível para armazenar agregados tem o mesmo
pressuposto sobre a ferramenta OLAP do que o método de armazenamento de agregados em tabelas separadas?
75. Porque é que a utilização de índices bitmap é tão frequente nas data warehouses?
76. Imagine que numa data warehouse há junções frequentes entre a tabela de factos e duas dimensões (i.e., as duas junções em
simultâneo). Suponha ainda que as duas dimensões têm poucos registos. Diga que índices criava na tabela de factos para
acelerar estas queries.
77. Se numa dada tabela tiver frequentemente queries que façam restrições sobre dois atributos de muito baixa cardinalidade
deve criar um índice bitmap composto (para os dois atributo) ou dois índices bitmap separados?
78. Uma DW permite fornecer uma visão centralizada, integrada e coerente ao longo do tempo de um vasto conjunto de dados
operacionais relativos a uma empresa/instituição. Acha que pode haver situações em que se justifica ter uma DW
distribuída? Em caso afirmativo, explique que circunstâncias podem levar à decisão de uma DW distribuída e em que
consistiria essa DW.
4
Download

Tópicos Avançados de Bases de Dados ESTG, Instituto Politécnico