Selecione a opção que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada.

Question

Selecione a opção que contenha a operação responsável por retornar um subconjunto aleatório dos dados de entrada. A) sample B) filter C) random D) mapRandom E) distinct

Sapien IA · Accepted Answer

Alternativa A A questão aborda conceitos fundamentais de manipulação de dados, especificamente dentro do contexto de frameworks de Big Data como o Apache Spark ou bibliotecas de análise de dados como o Pandas . Análise da Função A operação descrita no enunciado é "retornar um subconjunto aleatório dos dados de entrada" . Isso é tecnicamente conhecido como amostragem (sampling). Função sample : É o comando padrão utilizado para extrair uma amostra estatística de um conjunto de dados maior. Ela permite definir uma proporção (fração) ou um número fixo de registros para serem selecionados aleatoriamente. Exemplo prático : Se você tem 1 milhão de registros e quer analisar apenas 10% deles para testar uma lógica, usa se sample(0.1). Por que as outras alternativas estão incorretas? Vamos entender a função de cada comando listado nas demais opções: | Opção | Função Principal | Por que não é a resposta? | | : | : | : | | B) filter | Seleciona registros baseados em uma condição específica (ex: idade 18). | Não é aleatório; depende de regras lógicas definidas pelo usuário. | | C) random | Gera números aleatórios ou embaralha, mas geralmente não retorna um subconjunto estruturado diretamente como uma operação de DataFrame. | O termo exato para extração de amostras em frameworks de dados é sample. | | D) mapRandom | Não é uma função padrão em linguagens de processamento de dados distribuídos. | Termo inventado para confundir. | | E) distinct | Remove linhas duplicadas , mantendo apenas os valores únicos. | Foca na unicidade, não na aleatoriedade. | Conclusão Portanto, a operação projetada especificamente para criar uma amostra aleatória de dados é a sample . Alternativa A .

Explicação passo a passo

Análise da Função

Por que as outras alternativas estão incorretas?

Conclusão

Mais questões de Raciocínio Lógico

Tem outra questão de Raciocínio Lógico?

Opção	Função Principal	Por que não é a resposta?
B) filter	Seleciona registros baseados em uma condição específica (ex: `idade > 18`).	Não é aleatório; depende de regras lógicas definidas pelo usuário.
C) random	Gera números aleatórios ou embaralha, mas geralmente não retorna um subconjunto estruturado diretamente como uma operação de DataFrame.	O termo exato para extração de amostras em frameworks de dados é `sample`.
D) mapRandom	Não é uma função padrão em linguagens de processamento de dados distribuídos.	Termo inventado para confundir.
E) distinct	Remove linhas duplicadas, mantendo apenas os valores únicos.	Foca na unicidade, não na aleatoriedade.