Alternativa C - Label Encoder e One Hot Encoder
Introdução ao Pré-processamento
Algoritmos de Machine Learning geralmente exigem que os dados de entrada sejam puramente numéricos. Quando lidamos com dados textuais (variáveis categóricas), como cores, cidades ou tipos de produtos, precisamos transformá-los em números para que a máquina possa calcular padrões matemáticos.
Existem diversas estratégias para essa conversão, mas as duas mais fundamentais e utilizadas são o Label Encoding e o One Hot Encoding.
Desenvolvimento das Técnicas
Para entender por que a alternativa C é a correta, vamos analisar os conceitos principais:
- Label Encoder (Codificação de Rótulos):
- Consiste em atribuir um número inteiro único a cada categoria.
- Exemplo: Se temos as categorias
["Gato", "Cachorro", "Pássaro"], o encoder pode transformar em [0, 1, 2]. - É simples e economiza memória, mas pode introduzir uma ordem ordinal falsa (o modelo pode pensar que "Pássaro" é maior que "Gato").
- One Hot Encoder (Codificação "Um em Um"):
- Cria uma nova coluna binária (0 ou 1) para cada categoria existente.
- Exemplo: Para as mesmas categorias acima, cria-se 3 novas colunas (
é_Gato, é_Cachorro, é_Pássaro). - Se o animal for "Gato", a coluna correspondente recebe
1 e as outras 0. Isso evita a criação de qualquer hierarquia numérica entre as categorias.
## Análise das Alternativas
Abaixo, verificamos o porquê das outras opções estarem incorretas:
| Técnica | Função Principal | Status na Questão |
|---|
| Label Encoder | Converter texto em números inteiros | Correto |
| One Hot Encoder | Converter texto em vetores binários | Correto |
| Label Imputer | Preencher valores ausentes (missing values) | Incorreto (não codifica texto) |
| Category Encoder | Termo genérico ou de bibliotecas específicas, menos comum que os dois anteriores | Menos preciso |
- As alternativas que mencionam "Imputer" (D e E) estão erradas porque imputadores servem para lidar com dados faltantes (valores nulos), não para converter texto em números.
- A alternativa C é a única que combina as duas técnicas padrão de mercado para transformação de variáveis categóricas.
Conclusão
A transformação de variáveis categóricas em numéricas é essencial para o funcionamento da maioria dos modelos preditivos. As técnicas Label Encoder e One Hot Encoder são as respostas clássicas e tecnicamente corretas para esse processo de engenharia de features (feature engineering).