Alternativa A
A questão aborda conceitos fundamentais de manipulação de dados, especificamente dentro do contexto de frameworks de Big Data como o Apache Spark ou bibliotecas de análise de dados como o Pandas.
Análise da Função
A operação descrita no enunciado é "retornar um subconjunto aleatório dos dados de entrada". Isso é tecnicamente conhecido como amostragem (sampling).
- Função
sample: É o comando padrão utilizado para extrair uma amostra estatística de um conjunto de dados maior. Ela permite definir uma proporção (fração) ou um número fixo de registros para serem selecionados aleatoriamente. - Exemplo prático: Se você tem 1 milhão de registros e quer analisar apenas 10% deles para testar uma lógica, usa-se
sample(0.1).
Por que as outras alternativas estão incorretas?
Vamos entender a função de cada comando listado nas demais opções:
| Opção | Função Principal | Por que não é a resposta? |
|---|
| B) filter | Seleciona registros baseados em uma condição específica (ex: idade > 18). | Não é aleatório; depende de regras lógicas definidas pelo usuário. |
| C) random | Gera números aleatórios ou embaralha, mas geralmente não retorna um subconjunto estruturado diretamente como uma operação de DataFrame. | O termo exato para extração de amostras em frameworks de dados é sample. |
| D) mapRandom | Não é uma função padrão em linguagens de processamento de dados distribuídos. | Termo inventado para confundir. |
| E) distinct | Remove linhas duplicadas, mantendo apenas os valores únicos. | Foca na unicidade, não na aleatoriedade. |
Conclusão
Portanto, a operação projetada especificamente para criar uma amostra aleatória de dados é a sample.
Alternativa A.