NOME DA TRANSCRIÇÃO: Reconhecimento de topologia de rede e gravação para formato HDFS. PT-BR O Hadoop reconhece a topologia da rede. Este característica permite que ele aperfeiçoe a forma como poder de processamento deve ser distribuído e aplicado aos dados. Aproximando as tarefas o mais próximo possível dos dados, ele maximiza a capacidade de banda disponível para ler os dados. No diagrama, temos o dado que nós queremos aplicar o processamento é para o bloco B1, o retângulo azul no nó n1 do rack 1. Após definir qual TaskTracker receberá o MapTask que lerá os dados de B1, a melhor opção é escolher o TaskTracker que rode no mesmo nó que os dados. Se nós não pudermos alocar o processamento no mesmo nó, nossa segunda melhor alternativa é o alocar o processamento, num nó do mesmo rack dos dados. O pior caso é que o Hadoop atualmente suporta é quando o processamento necessita ser feito de um nó em um rack diferente dos dados. Quando o reconhecimento de rack está configurado para o seu cluster, o Hadoop sempre irá tentar rodar a tarefa no nó TaskTracker com a maior disponibilidade de acesso de banda para os dados. Vamos ver um exemplo de como um arquivo é escrito para o formato HDFS. Primeiro, o cliente envia um pedido de “criação” para o NameNode. Então, o NameNode verifica se o arquivo já não existe e se o cliente tem permissão para escrever o arquivo. Se ele conseguir isso, o NameNode determinará ao DataNode para que escreva o primeiro bloco. Se o cliente estiver rodando num DataNode, ele irá tentar coloca-lo ali, caso contrário ele ira escolher o destino de forma randômica. Por padrão, o Hadoop, replica os dados para dois outros lugares no cluster. Uma via e construída entre os três DataNodes que a compõe. O segundo DataNode é um nó escolhido randomicamente num outro rack que aquele da réplica do bloco. Isto é uma forma de aumentar a redundância. A última replica é alocada randomicamente num nó dentro do mesmo rack como a segunda réplica. Os dados são encaminhados do segundo DataNode para o terceiro DataNode. Para garantir que os dados tenham sido escritos de forma correta, são enviados pacotes de reconhecimento de volta do terceiro DataNode para o segundo, e do segundo DataNode para o primeiro e do primeiro DataNode para o cliente. Esse processo é feito para cada um dos blocos que compõe o arquivo, neste caso, o segundo e o terceiro bloco. Veja que para cada bloco há uma réplica do mesmo em pelo menos dois outros racks. Quando o cliente acaba de gravar no pipeline do DataNode e recebe o reconhecimento, ele avisa ao NameNode que está completo. Então, o NameNode irá verificar se ao menos os blocos foram replicados antes de responder. 1/2 NOME DA TRANSCRIÇÃO: Reconhecimento de topologia de rede e gravação para formato HDFS. Isto concluiu a apresentação. Obrigado por nós assistir. PT-BR 2/2