Métodos de Acesso Indice estruturado por Hash AULA 15 Profa. Sandra de Amo Programa de Pós-Graduação em CC - UFU Sistemas de Banco de Dados - 2012-2 Plano Geral Vantagens e Limitações Hash Estático Hash Extensível Hash Linear Comparação entre Hash Extensível e Linear Vantagens e Limitações Hash : excelente para seleção por igualdade na chave . Não suporta seleção range (>, < ) B-Trees suportam seleção range e são quase tão boas quanto Hash para igualdade. Muitos SGBDs só implementam índices estruturados por BTrees Técnica de indexação Hash é muito útil na implementação do operador Junção, que inclu diversas seleções por igualdade Diferença de custo entre B-Tree e Hash é significativa neste caso. Hash Estático 0 h(chave) mod N 1 chave … … 2 h h = função hash N-1 Páginas Primárias dos Buckets Entradas do tipo <chave, * > … Páginas de Overflow Busca h(x) = x < 14, * > 0 h(14) mod 6 = 2 1 14 h … N=6 … …. 2 > <14,* 3 4 5 … Inserção Inserindo < 7, * > 0 … h(7) mod 6 = 1 < 7, * > 1 7 2 h Cheia 3 4 5 … Supressão Suprimindo < 25, * > 0 … h(25) mod 6 = 1 < 25, * > 1 25 2 h 3 4 5 … Função Hash Componente importante da técnica hash Deve distribuir valores das chaves de maneira uniforme nos buckets. Número de buckets = N = parâmetro h(x) = a*x + b , a, b : parâmetros de ajuste Custos Páginas primárias do índice podem ser armazenadas em páginas de disco sucessivas. Caso não haja overflow Busca no índice requer 1 I/O Inserção e Supressão requerem 2 I/O Custo pode ser alto se existem muitas páginas de overflow. Estratégia : criar inicialmente os buckets deixando 20% de área livre em cada um. Desvantagens do Hash Estático Número de buckets é fixo Se arquivo encolhe muito, o espaço é desperdiçado, já que os buckets são fixos. Crescimento do arquivo produz longas cadeias de páginas de overflow, prejudicando performance da busca. Alternativas Alternativa 1 : Periodicamente, modificar a função hash e reestruturar todo o arquivo de modo a evitar páginas de overflow. « Rehash » toma muito tempo Indice não pode ser utilizado durante o processo de « rehash ». Alternativa 2 : Hash dinâmicos Extensível Linear Hash Extensível Solução 1 : quando algum bucket ficar cheio Dobrar o número de buckets Distribuir as entradas nos novos buckets Defeito : o arquivo todo deve ser lido e reorganizado e o dobro de páginas devem ser escritas. Espaço em alguns buckets é alocado bem antes de sua utilização efetiva. Solução 2 : utilizar um diretório de ponteiros para os buckets. Dobrar o número de entradas no diretório Separar somente os buckets que ficaram cheios. Notação Para procurar, inserir ou suprimir entrada k* Aplicar h(k) h(k) identifica um bucket Duas chaves k1 e k2 podem ter h(k1) = h(k2) Exemplo Profundidade Global Profundidade Local 2 4* 12* 32* 1* 5* 16* Bucket A 2 2 00 21* Bucket B 01 2 Bucket C 10* 10 2 15* 7* 11 Diretório dos Ponteiros 19* Páginas do Indice Bucket D Exemplo – inserção 2 Inserindo 13* 4* 12* 32* 1* 5* 16* 2 2 00 21* 13* 01 2 10* 10 2 15* 7* 11 Diretório 19* Páginas do Indice Exemplo – inserção 2 Inserindo 20* 4* 12* 32* 1* 5* 16* 2 2 00 21* 13* 01 2 10* 10 2 15* 7* 11 Diretório 19* 2 4* 12* 20* Exemplo – Inserção Global Local 3 Inserindo 20* 32* 16* Bucket A1 21* 13* Bucket C 32 000 00 001 2 1* 010 01 011 5* 2 10* 100 10 101 Bucket C 2 110 11 111 15* 7* Diretório 19* Bucket D 12* 20* Bucket A2 3 4* Exercicio: Busca 22*, 21*, 8* Global Local 3 32* 16* Bucket A1 21* 13* Bucket C 3 000 2 001 1* 5* 010 011 2 10* 100 101 Bucket C 2 110 15* 7* 19* Bucket D 12* 20* Bucket A2 111 Diretório 3 4* Análise Se o diretório couber na memória Seleção com igualdade : 1 I/0 Se o diretório tiver que ser armazenado em disco Seleção com igualdade : 2 I/0 Hash Linear Assim como o Hash Extensível, o Hash Linear é ideal para inserções e supressões; Vantagem sobre extensível Lida muito bem com colisões Oferece muita flexibilidade Cadeias de overflow podem tornar o hash linear inferior em performance ao hash extensivel Parâmetros e Contadores Nivel = indica a rodada atual Next = bucket que deve ser dividido, se necessário Inicializado com 0 Nm = número de buckets na rodada m Inicializado com 0 N0 = N Nm = N*2m Somente o bucket com número Next é dividido. Usa-se páginas de overflow para os outros buckets, se ficarem cheios. Após divisão, Next é incrementado. Esquema Geral : rodada k Bucket b Bucket Next a ser dividido m = número de buckets da rodada k Buckets existentes no inicio da rodada k Bucket b + m Imagens dos buckets divididos Inserção de 43* h1 h0 Nivel = 0 , N = 4 = 22 Next = 0 000 00 h0(43) = 3 (11) 32* 44* 36* Next = 1 001 01 9* 010 10 14* 18* 10* 30* 011 11 31* 35* 7* 00 Esta informação não é armazenada ! 25* 5* 11* 44* 36* Páginas Primárias 43* Busca de 18* h1 000 h0 00 Nivel = 0 , N = 4 = 22 h0(18) = 2 (10) 32* Next = 1 001 01 9* 2 > Next 25* 5* 010 10 14* 18* 10* 30* 011 11 31* 35* 7* 100 00 44* 36* 11* Bucket 2 não foi dividido ainda 43* Busca de 32* e 44* h1 h0 000 00 Nivel = 0 , N = 4 = 22 h0(32) = 00 h0(44) = 00 32* Next = 1 001 01 9* 0 < Next 25* 5* Bucket 0 já foi dividido ainda 010 10 14* 18* 10* 30* 011 11 31* 35* 7* 100 00 11* 43* h1(32) = 000 44* 36* Bucket 0 + 4 h1(44) = 100 Inserção de 37* h0(37) = 01 000 00 32* Next = 1 001 01 9* 25* 5* 010 10 14* 18* 10* 30* 011 11 31* 35* 7* 100 00 44* 36* 37* 11* 43* Inserção de 29* 000 00 h0(29) = 01 32* Next =1 01 9* 010 10 14* 18* 10* 30* 011 11 31* 35* 7* 100 00 44* 36* 101 01 5* 001 25* 5* 37* 29* 37* 11* Next =2 43* Incremento de Nível Nivel = 1 Next =0 000 00 32* 001 01 9* 010 10 66* 18* 10* 34* 011 11 43* 31* 35* 7* 11* 11* 100 00 44* 36* 101 01 5* 110 10 14* 30* 22* 111 11 31* 7* h0(50) = 10 25* 37* 29* h1(50) = 010 50* Next =3 43*