Engenharia Múltipla Escolha

Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição?

Durante a execução de aplicações com Hadoop, a fase de redução desempenha papel fundamental no processamento final dos dados. Essa etapa é precedida por um processo que organiza e redistribui os pares chave-valor gerados pelas tarefas de mapeamento, otimizando a carga de trabalho entre os nós. Qual é o nome desse processo e qual é sua principal contribuição?

  1. Combinação – reduz a quantidade de tarefas no redutor ao eliminar duplicatas
  2. Classificação – organiza os dados em ordem alfabética antes da gravação final
  3. Embaralhamento – redistribui os dados intermediários para os redutores corretos
  4. Particionamento – divide os dados em grupos com base em similaridade semântica
  5. Agendamento – determina quais tarefas devem ser executadas com prioridade

Resolução completa

Explicação passo a passo

Resumo da resposta

Análise da Questão sobre Hadoop

A questão aborda o funcionamento interno do framework Hadoop MapReduce, especificamente a fase intermediária entre o mapeamento e a redução.

Para responder corretamente, é necessário entender o ciclo de vida dos dados nesse sistema distribuído:

  1. Mapeamento (Map): Processa os dados de entrada e gera pares chave-valor intermediários.
  2. Embaralhamento (Shuffle): Fase crítica que ocorre após o Map e antes do Reduce.
  3. Redução (Reduce): Consolida os dados recebidos pelos reducers.

## Análise das Alternativas

A descrição na questão ("processo que organiza e redistribui os pares chave-valor... otimizando a carga de trabalho") refere-se diretamente à fase de Shuffle. Vamos analisar cada opção:

AlternativaConceitoCorreçãoJustificativa
ACombinaçãoÉ uma otimização opcional (mini-reducer local) para reduzir volume de dados, não o processo de redistribuição principal.
BClassificaçãoRefere-se à ordenação (Sort) das chaves. Embora ocorra junto, a "redistribuição" é a função primária do Embaralhamento.
CEmbaralhamentoCorreto. O Shuffle garante que os dados sejam movidos da memória dos Mappers para os discos dos Reducers apropriados.
DParticionamentoÉ uma etapa dentro do Embaralhamento que define quem recebe os dados, mas não abrange toda a logística de redistribuição e organização.
EAgendamentoRelacionado ao gerenciamento de recursos (YARN), não ao fluxo de dados MapReduce.

## Explicação Detalhada

O processo de Embaralhamento (Shuffle) é responsável por:

  • Coletar os pares chave-valor produzidos pelos Mappers.
  • Particionar esses dados para saber qual Reducer deve receber qual conjunto de dados.
  • Transferir os dados pela rede (entre nós diferentes).
  • Ordenar (Sort) os dados na chegada ao Reducer para facilitar o agrupamento.

A opção C descreve exatamente essa função de garantir que os dados intermediários cheguem aos destinos corretos (reduzindo a complexidade para o reducer final).

Conclusão

A alternativa correta é a C.

Tem outra questão para resolver?

Resolver agora com IA

Mais questões de Engenharia

Ver mais Engenharia resolvidas

Tem outra questão de Engenharia?

Cole o enunciado, tire uma foto ou descreva o problema — a IA resolve com explicação completa em segundos.