Alternativa C - Java e Python
Para utilizar o PySpark, é necessário compreender a arquitetura híbrida que une duas linguagens principais. O PySpark atua como uma interface que conecta o ambiente Python ao motor do Apache Spark.
Análise Técnica dos Pré-requisitos
O Apache Spark foi originalmente desenvolvido usando Scala e roda sobre a JVM (Java Virtual Machine). Isso significa que, independentemente da linguagem de programação usada para escrever o código (neste caso, Python), o ambiente subjacente precisa de Java para funcionar.
Os pré-requisitos fundamentais para a instalação e execução do PySpark são:
- Python: É a linguagem necessária para escrever os scripts e programas que serão executados via PySpark.
- Java: É essencial porque o Spark utiliza a JVM para gerenciar a memória, o escalonamento de tarefas e a execução real das operações de processamento de dados.
| Componente | Função no PySpark |
|---|
| Python | Interface de programação (escrever o código) |
| Java | Runtime execution (roda o Spark no fundo) |
As outras alternativas estão incorretas porque:
- Hadoop (Opção A): Embora muitas vezes usado junto, não é um pré-requisito estrito (Spark pode rodar localmente sem Hadoop).
- Cassandra (Opção B): É um banco de dados separado, não necessário para a instalação básica.
- Escalá (Opção D): Embora o Spark seja feito em Scala, o usuário final do PySpark não precisa instalar a ferramenta de compilação Scala.
Portanto, a combinação correta de pré-requisitos de instalação é Java e Python.