Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?

Question

Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto? A) TF IDF B) KNN C) K Means D) Gaussian Naive Bayes E) LSTM

Sapien IA · Accepted Answer

Alternativa A TF IDF A questão aborda conceitos fundamentais de Mineração de Texto e Processamento de Linguagem Natural (PLN). Para responder corretamente, precisamos distinguir entre algoritmos de agrupamento e métricas de ponderação de termos. Análise Detalhada O enunciado faz duas partes distintas: 1. Contexto: Fala sobre juntar documentos semelhantes (Clusterização). 2. Pergunta Específica: Pede o algoritmo/métrica para determinar a relevância de uma palavra em um corpus. Vamos analisar as opções: TF IDF (Term Frequency Inverse Document Frequency): Esta é a métrica correta. Ela calcula a importância de uma palavra em um documento específico em relação a todo o conjunto de documentos (corpus). TF (Frequência do Termo): Quantas vezes a palavra aparece no documento (quanto mais, maior a relevância local). IDF (Inverso da Frequência do Documento): Penaliza palavras que aparecem em muitos documentos (como "o", "de", "um"), pois elas têm pouca capacidade de diferenciar os textos. O resultado é um peso numérico que indica o quão relevante é aquela palavra para aquele texto específico. K Means (Opção C): É um algoritmo de clustering (agrupamento). Ele agrupa documentos baseados em similaridade, mas não calcula a relevância individual das palavras. Ele precisa de dados de entrada (features), muitas vezes gerados pelo TF IDF. KNN (Opção B): Algoritmo de Classificação ou Regressão baseado em vizinhos mais próximos. Serve para prever categorias ou valores, não para medir relevância lexical. Gaussian Naive Bayes (Opção D): Um classificador probabilístico usado para atribuir rótulos (ex: spam/não spam). Não calcula pesos de palavras. LSTM (Opção E): Uma arquitetura de Rede Neural Recorrente. É usada para modelar sequências e dependências temporais em dados, muito mais complexa e diferente da métrica estatística simples descrita na questão. Resumo da Lógica | Algoritmo | Função Principal | Relevância para a Pergunta | | : | : | : | | TF IDF | Medir importância de termos | Correto (Calcula relevância da palavra) | | K Means | Agrupar dados similares | Incorreto (Usa a relevância, não a calcula) | | KNN | Classificar por proximidade | Incorreto | | Naive Bayes | Classificação probabilística | Incorreto | | LSTM | Processamento de sequências | Incorreto | Portanto, a ferramenta estatística projetada especificamente para calcular a relevância de uma palavra em um texto comparada a um corpus é o TF IDF .

Explicação passo a passo

Análise Detalhada

Resumo da Lógica

Mais questões de Informática

Tem outra questão de Informática?

Algoritmo	Função Principal	Relevância para a Pergunta
TF-IDF	Medir importância de termos	Correto (Calcula relevância da palavra)
K-Means	Agrupar dados similares	Incorreto (Usa a relevância, não a calcula)
KNN	Classificar por proximidade	Incorreto
Naive Bayes	Classificação probabilística	Incorreto
LSTM	Processamento de sequências	Incorreto