A maioria dos algoritmos de machine learning trabalha somente com dados numéricos. Uma das etapas de preparação de dados consiste em converter o texto em variáveis categóricas para um valor numérico. Assinale a alternativa que apresenta corretamente duas técnicas possíveis de serem utilizadas para tratar as variáveis categóricas.

Question

A maioria dos algoritmos de machine learning trabalha somente com dados numéricos. Uma das etapas de preparação de dados consiste em converter o texto em variáveis categóricas para um valor numérico. Assinale a alternativa que apresenta corretamente duas técnicas possíveis de serem utilizadas para tratar as variáveis categóricas. A) Category Encoder e Label Encoder. B) One Hot Encoder e Category Encoder. C) Label Encoder e One Hot Encoder. D) Label Imputer e Category Encoder. E) One Hot Encoder e Label Imputer.

Sapien IA · Accepted Answer

Alternativa C Label Encoder e One Hot Encoder Introdução ao Pré processamento Algoritmos de Machine Learning geralmente exigem que os dados de entrada sejam puramente numéricos. Quando lidamos com dados textuais (variáveis categóricas), como cores, cidades ou tipos de produtos, precisamos transformá los em números para que a máquina possa calcular padrões matemáticos. Existem diversas estratégias para essa conversão, mas as duas mais fundamentais e utilizadas são o Label Encoding e o One Hot Encoding . Desenvolvimento das Técnicas Para entender por que a alternativa C é a correta, vamos analisar os conceitos principais: Label Encoder (Codificação de Rótulos): Consiste em atribuir um número inteiro único a cada categoria. Exemplo: Se temos as categorias ["Gato", "Cachorro", "Pássaro"], o encoder pode transformar em [0, 1, 2]. É simples e economiza memória, mas pode introduzir uma ordem ordinal falsa (o modelo pode pensar que "Pássaro" é maior que "Gato"). One Hot Encoder (Codificação "Um em Um"): Cria uma nova coluna binária (0 ou 1) para cada categoria existente. Exemplo: Para as mesmas categorias acima, cria se 3 novas colunas (é Gato, é Cachorro, é Pássaro). Se o animal for "Gato", a coluna correspondente recebe 1 e as outras 0. Isso evita a criação de qualquer hierarquia numérica entre as categorias. Análise das Alternativas Abaixo, verificamos o porquê das outras opções estarem incorretas: | Técnica | Função Principal | Status na Questão | | : | : | : | | Label Encoder | Converter texto em números inteiros | Correto | | One Hot Encoder | Converter texto em vetores binários | Correto | | Label Imputer | Preencher valores ausentes (missing values) | Incorreto (não codifica texto) | | Category Encoder | Termo genérico ou de bibliotecas específicas, menos comum que os dois anteriores | Menos preciso | As alternativas que mencionam "Imputer" (D e E) estão erradas porque imputadores servem para lidar com dados faltantes (valores nulos), não para converter texto em números. A alternativa C é a única que combina as duas técnicas padrão de mercado para transformação de variáveis categóricas. Conclusão A transformação de variáveis categóricas em numéricas é essencial para o funcionamento da maioria dos modelos preditivos. As técnicas Label Encoder e One Hot Encoder são as respostas clássicas e tecnicamente corretas para esse processo de engenharia de features ( feature engineering ).

Explicação passo a passo

Introdução ao Pré-processamento

Desenvolvimento das Técnicas

## Análise das Alternativas

Conclusão

Mais questões de Matemática

Tem outra questão de Matemática?

Técnica	Função Principal	Status na Questão
Label Encoder	Converter texto em números inteiros	Correto
One Hot Encoder	Converter texto em vetores binários	Correto
Label Imputer	Preencher valores ausentes (missing values)	Incorreto (não codifica texto)
Category Encoder	Termo genérico ou de bibliotecas específicas, menos comum que os dois anteriores	Menos preciso