Esta questão apresenta cinco opções de múltipla escolha, das quais devemos selecionar três características corretas do framework Hadoop.
Alternativa A, B e E (Considerando a ordem de cima para baixo)
Análise Detalhada
O Hadoop é um framework de código aberto (open source) desenvolvido pela Apache Software Foundation para armazenamento e processamento distribuído de grandes volumes de dados.
Para responder corretamente, precisamos entender os pilares fundamentais de sua arquitetura:
- Escalabilidade Horizontal: O Hadoop foi projetado para rodar em clusters compostos por centenas ou milhares de nós. Ele permite adicionar novos servidores ao cluster de forma simples para aumentar a capacidade de processamento e armazenamento. Isso confirma a opção: "tamanhos de cluster facilmente escaláveis".
- Tolerância a Falhas e Replicação: O componente de armazenamento do Hadoop é o HDFS (Hadoop Distributed File System). Ele armazena os dados dividindo-os em blocos e criando cópias (réplicas) desses blocos em diferentes nós do cluster. Se um servidor falhar, os dados ainda estarão disponíveis nas outras réplicas. Isso confirma as opções: "replicação automática dos dados em clusters" e "usa HDFS como um sistema de arquivo tolerante a falhas".
Por que as outras opções estão incorretas?
| Opção Incorreta | Motivo da Incorreção |
|---|
| Requer software proprietário | O Hadoop é software livre/open source. Qualquer pessoa pode baixar e usar sem pagar licenças proprietárias. |
| Deve ser executado em uma única máquina virtual | Embora seja possível configurar o Hadoop em modo "pseudo-distribuído" em uma única máquina para fins de aprendizado, sua função principal é operar em clusters distribuídos (várias máquinas trabalhando juntas). Limitá-lo a uma única VM contradiz seu propósito de Big Data. |
Conclusão
As três características essenciais listadas que definem o funcionamento do Hadoop em ambientes de produção são a capacidade de escalar o cluster, a proteção de dados através da replicação automática e o uso do HDFS para gerenciar essas falhas.
Portanto, as respostas corretas são:
- tamanhos de cluster facilmente escaláveis
- replicação automática dos dados em clusters
- usa HDFS como um sistema de arquivo tolerante a falhas