NOME DA TRANSCRIÇÃO:
Reconhecimento de topologia de rede e gravação para
formato HDFS.
PT-BR
O Hadoop reconhece a topologia da rede. Este característica permite que ele
aperfeiçoe a forma como poder de processamento deve ser distribuído e
aplicado aos dados.
Aproximando as tarefas o mais próximo possível dos dados, ele
maximiza a capacidade de banda disponível para ler os dados. No diagrama,
temos o dado que nós queremos aplicar o processamento é para o bloco B1, o
retângulo azul no nó n1 do rack 1.
Após definir qual TaskTracker receberá o MapTask que lerá os dados de B1, a
melhor opção é escolher o TaskTracker que rode no mesmo nó que os dados.
Se nós não pudermos alocar o processamento no mesmo nó, nossa segunda melhor
alternativa é o alocar o processamento, num nó do mesmo rack dos dados.
O pior caso é que o Hadoop atualmente suporta é quando o processamento
necessita ser feito de um nó em um rack diferente dos dados. Quando o
reconhecimento de rack está configurado para o seu cluster,
o Hadoop sempre irá tentar rodar a tarefa no nó TaskTracker com a maior
disponibilidade de acesso de banda para os dados.
Vamos ver um exemplo de como um arquivo é escrito para o formato HDFS.
Primeiro, o cliente envia um pedido de “criação” para o NameNode. Então, o
NameNode verifica se o arquivo já não existe e se o cliente tem permissão
para escrever o arquivo.
Se ele conseguir isso, o NameNode determinará ao DataNode para que escreva o
primeiro bloco. Se o cliente estiver rodando num DataNode, ele irá tentar
coloca-lo ali, caso contrário ele ira escolher o destino de forma randômica.
Por padrão, o Hadoop, replica os dados para dois outros lugares no cluster.
Uma via e construída entre os três DataNodes que a compõe. O segundo
DataNode é um nó escolhido randomicamente
num outro rack que aquele da réplica do bloco. Isto é uma forma de aumentar
a redundância.
A última replica é alocada randomicamente num nó dentro do mesmo rack como a
segunda réplica. Os dados são encaminhados do segundo DataNode para o
terceiro DataNode.
Para garantir que os dados tenham sido escritos de forma correta, são
enviados pacotes de reconhecimento de volta do terceiro DataNode para o
segundo,
e do segundo DataNode para o primeiro e do primeiro DataNode para o cliente.
Esse processo é feito para cada um dos blocos que compõe o arquivo, neste
caso, o segundo
e o terceiro bloco. Veja que para cada bloco há uma réplica do mesmo em pelo
menos dois outros racks.
Quando o cliente acaba de gravar no pipeline do DataNode e recebe o
reconhecimento, ele avisa ao NameNode que está completo. Então, o NameNode
irá verificar se ao menos
os blocos foram replicados antes de responder.
1/2
NOME DA TRANSCRIÇÃO:
Reconhecimento de topologia de rede e gravação para
formato HDFS.
Isto concluiu a apresentação. Obrigado por nós assistir.
PT-BR
2/2
Download

O Hadoop reconhece a topologia da rede. Este característica