Alternativa C - Task manager
Introdução
A questão aborda a arquitetura do Hadoop, solicitando a identificação do componente responsável pelo rastreamento de tarefas (monitoramento da execução). É fundamental distinguir os papéis dos principais módulos do ecossistema Hadoop para responder corretamente.
Análise Técnica
No ecossistema Hadoop, os componentes evoluíram com as versões (1.x vs 2.x/YARN), mas a função de gerenciar e monitorar tarefas sempre esteve associada a componentes específicos de execução e coordenação:
- HDFS (Hadoop Distributed File System): É o sistema de arquivos distribuído. Sua função exclusiva é o armazenamento dos dados, e não o processamento ou rastreamento de tarefas. Por isso, a opção B (marcada na imagem) está incorreta.
- MapReduce: É o modelo de programação e framework de processamento. Embora o rastreamento faça parte do fluxo do MapReduce, o termo "MapReduce" refere-se à lógica global de processamento (Mapeamento e Redução), não ao componente de infraestrutura que monitora as tarefas individualmente.
- Task Manager (TaskTracker/NodeManager):
- Na versão clássica (Hadoop 1.x), o componente que executava as tarefas nos nós escravos e enviava status ao JobTracker chamava-se TaskTracker.
- Na versão moderna (Hadoop 2.x com YARN), esse papel é desempenhado pelo NodeManager.
- Em contextos de testes ou materiais didáticos que utilizam terminologia genérica, "Task Manager" é frequentemente utilizado como sinônimo para o componente que gerencia a execução e o reporte de tarefas nos nós de trabalho.
Análise das Alternativas
| Opção | Função Real | Correta? |
|---|
| A) MapReduce | Framework de processamento (lógica). | Parcial (é o contexto, não o componente específico). |
| B) HDFS | Armazenamento de dados (Storage). | Incorreta (não rastreia tarefas). |
| C) Task manager | Gerenciamento de execução de tarefas (TaskTracker/NodeManager). | Correta (melhor correspondência conceitual). |
| D) Camada de ingestão | Conceito de arquitetura de entrada de dados. | Incorreta. |
| E) Mrjob | Biblioteca Python externa para rodar jobs. | Incorreta (não é componente nativo do Hadoop). |
Conclusão
Embora a nomenclatura exata do Hadoop clássico seja TaskTracker (e no YARN seja NodeManager), a opção C é a única que descreve semanticamente a função de gerenciamento e rastreamento de tarefas nos nós de processamento. As demais opções referem-se ao armazenamento (HDFS), ao modelo de programação (MapReduce) ou a bibliotecas externas.
Portanto, a alternativa correta é a C.