Matemática Múltipla Escolha

A maioria dos algoritmos de machine learning trabalha somente com dados numéricos. Uma das etapas de preparação de dados consiste em converter o texto em variáveis categóricas para um valor numérico. Assinale a alternativa que apresenta corretamente duas técnicas possíveis de serem utilizadas para tratar as variáveis categóricas.

A maioria dos algoritmos de machine learning trabalha somente com dados numéricos. Uma das etapas de preparação de dados consiste em converter o texto em variáveis categóricas para um valor numérico.

Assinale a alternativa que apresenta corretamente duas técnicas possíveis de serem utilizadas para tratar as variáveis categóricas.

  1. Category Encoder e Label Encoder.
  2. One Hot Encoder e Category Encoder.
  3. Label Encoder e One Hot Encoder.
  4. Label Imputer e Category Encoder.
  5. One Hot Encoder e Label Imputer.

Resolução completa

Explicação passo a passo

C
Alternativa C

Alternativa C - Label Encoder e One Hot Encoder

Introdução ao Pré-processamento

Algoritmos de Machine Learning geralmente exigem que os dados de entrada sejam puramente numéricos. Quando lidamos com dados textuais (variáveis categóricas), como cores, cidades ou tipos de produtos, precisamos transformá-los em números para que a máquina possa calcular padrões matemáticos.

Existem diversas estratégias para essa conversão, mas as duas mais fundamentais e utilizadas são o Label Encoding e o One Hot Encoding.

Desenvolvimento das Técnicas

Para entender por que a alternativa C é a correta, vamos analisar os conceitos principais:

  • Label Encoder (Codificação de Rótulos):
  • Consiste em atribuir um número inteiro único a cada categoria.
  • Exemplo: Se temos as categorias ["Gato", "Cachorro", "Pássaro"], o encoder pode transformar em [0, 1, 2].
  • É simples e economiza memória, mas pode introduzir uma ordem ordinal falsa (o modelo pode pensar que "Pássaro" é maior que "Gato").
  • One Hot Encoder (Codificação "Um em Um"):
  • Cria uma nova coluna binária (0 ou 1) para cada categoria existente.
  • Exemplo: Para as mesmas categorias acima, cria-se 3 novas colunas (é_Gato, é_Cachorro, é_Pássaro).
  • Se o animal for "Gato", a coluna correspondente recebe 1 e as outras 0. Isso evita a criação de qualquer hierarquia numérica entre as categorias.

## Análise das Alternativas

Abaixo, verificamos o porquê das outras opções estarem incorretas:

TécnicaFunção PrincipalStatus na Questão
Label EncoderConverter texto em números inteirosCorreto
One Hot EncoderConverter texto em vetores bináriosCorreto
Label ImputerPreencher valores ausentes (missing values)Incorreto (não codifica texto)
Category EncoderTermo genérico ou de bibliotecas específicas, menos comum que os dois anterioresMenos preciso
  • As alternativas que mencionam "Imputer" (D e E) estão erradas porque imputadores servem para lidar com dados faltantes (valores nulos), não para converter texto em números.
  • A alternativa C é a única que combina as duas técnicas padrão de mercado para transformação de variáveis categóricas.

Conclusão

A transformação de variáveis categóricas em numéricas é essencial para o funcionamento da maioria dos modelos preditivos. As técnicas Label Encoder e One Hot Encoder são as respostas clássicas e tecnicamente corretas para esse processo de engenharia de features (feature engineering).

Tem outra questão para resolver?

Resolver agora com IA

Mais questões de Matemática

Ver mais Matemática resolvidas

Tem outra questão de Matemática?

Cole o enunciado, tire uma foto ou descreva o problema — a IA resolve com explicação completa em segundos.