Alternativa A - TF-IDF
A questão aborda conceitos fundamentais de Mineração de Texto e Processamento de Linguagem Natural (PLN). Para responder corretamente, precisamos distinguir entre algoritmos de agrupamento e métricas de ponderação de termos.
Análise Detalhada
O enunciado faz duas partes distintas:
- Contexto: Fala sobre juntar documentos semelhantes (Clusterização).
- Pergunta Específica: Pede o algoritmo/métrica para determinar a relevância de uma palavra em um corpus.
Vamos analisar as opções:
- TF-IDF (Term Frequency-Inverse Document Frequency): Esta é a métrica correta. Ela calcula a importância de uma palavra em um documento específico em relação a todo o conjunto de documentos (corpus).
- TF (Frequência do Termo): Quantas vezes a palavra aparece no documento (quanto mais, maior a relevância local).
- IDF (Inverso da Frequência do Documento): Penaliza palavras que aparecem em muitos documentos (como "o", "de", "um"), pois elas têm pouca capacidade de diferenciar os textos.
- O resultado é um peso numérico que indica o quão relevante é aquela palavra para aquele texto específico.
- K-Means (Opção C): É um algoritmo de clustering (agrupamento). Ele agrupa documentos baseados em similaridade, mas não calcula a relevância individual das palavras. Ele precisa de dados de entrada (features), muitas vezes gerados pelo TF-IDF.
- KNN (Opção B): Algoritmo de Classificação ou Regressão baseado em vizinhos mais próximos. Serve para prever categorias ou valores, não para medir relevância lexical.
- Gaussian Naive Bayes (Opção D): Um classificador probabilístico usado para atribuir rótulos (ex: spam/não-spam). Não calcula pesos de palavras.
- LSTM (Opção E): Uma arquitetura de Rede Neural Recorrente. É usada para modelar sequências e dependências temporais em dados, muito mais complexa e diferente da métrica estatística simples descrita na questão.
Resumo da Lógica
| Algoritmo | Função Principal | Relevância para a Pergunta |
|---|
| TF-IDF | Medir importância de termos | Correto (Calcula relevância da palavra) |
| K-Means | Agrupar dados similares | Incorreto (Usa a relevância, não a calcula) |
| KNN | Classificar por proximidade | Incorreto |
| Naive Bayes | Classificação probabilística | Incorreto |
| LSTM | Processamento de sequências | Incorreto |
Portanto, a ferramenta estatística projetada especificamente para calcular a relevância de uma palavra em um texto comparada a um corpus é o TF-IDF.