Engenharia Múltipla Escolha

Os componentes do Spark (2.0 ou superior) têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.

Os componentes do Spark (2.0 ou superior) têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster.

  1. Spark.Catalog
  2. SparkSession
  3. DataFrame
  4. RDD
  5. SparkContext

Resolução completa

Explicação passo a passo

B
Alternativa B

Alternativa B - SparkSession

Análise da Questão

A questão aborda os componentes do framework Apache Spark, especificamente na versão 2.0 ou superior. Para responder corretamente, é necessário entender a evolução das APIs do Spark e qual é o "ponto de entrada" (entry point) padrão nas versões modernas.

Evolução do Ponto de Entrada

No Spark antigo (versões 1.x), o componente central para iniciar aplicações e conectar-se ao cluster era o SparkContext. Ele gerenciava todos os recursos e permitia criar RDDs (Resilient Distributed Datasets).

Com o lançamento do Spark 2.0, a arquitetura sofreu uma mudança importante para unificar as diferentes formas de processamento (SQL, Streaming, DataFrames). Isso resultou na criação do SparkSession:

  • SparkSession é o novo ponto de entrada unificado.
  • Ele encapsula o SparkContext e o SparkConf.
  • Permite acessar todas as funcionalidades do Spark (DataFrames, Datasets, Streaming, SQL) através de uma única instância.

Por que as outras alternativas estão incorretas?

Para compreender melhor, vamos analisar a função das demais opções listadas:

ComponenteFunção PrincipalStatus
Spark.CatalogGerencia metadados de tabelas e esquemas.Incorreta
DataFrameEstrutura de dados distribuída organizada em colunas nomeadas.Incorreta
RDDEstrutura de dados imutável fundamental, mas não é o ponto de entrada moderno.Incorreta
SparkContextPonto de entrada original (versões < 2.0), agora encapsulado.Incorreta
SparkSessionEntrada unificada para Spark 2.0+ e conexão com o cluster.Correta

Conclusão Didática

Embora o SparkContext seja tecnicamente quem estabelece a conexão física com o gerenciador de recursos (YARN, Kubernetes, etc.), a pergunta enfatiza o contexto "Spark (2.0 ou superior)". Na prática de desenvolvimento moderno, utilizamos o SparkSession para criar a aplicação, pois ela já inicia internamente o SparkContext e fornece a API unificada necessária. Portanto, o componente que representa a conexão e o ponto de partida para o desenvolvedor nessa versão é o SparkSession.

Alternativa B.

Tem outra questão para resolver?

Resolver agora com IA

Mais questões de Engenharia

Ver mais Engenharia resolvidas

Tem outra questão de Engenharia?

Cole o enunciado, tire uma foto ou descreva o problema — a IA resolve com explicação completa em segundos.