Informática Múltipla Escolha

Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?

Quando nos referimos à tarefa de juntar documentos semelhantes em subconjuntos de forma automática, baseado em similaridades em suas palavras, escrita ou tema, estamos nos referindo à clusterização ou agrupamento. Qual destes algoritmos poderia nos ajudar na determinação do cálculo da relevância de uma palavra em uma série ou corpus para um texto?

  1. TF-IDF
  2. KNN
  3. K-Means
  4. Gaussian Naive Bayes
  5. LSTM

Resolução completa

Explicação passo a passo

A
Alternativa A

Alternativa A - TF-IDF

A questão aborda conceitos fundamentais de Mineração de Texto e Processamento de Linguagem Natural (PLN). Para responder corretamente, precisamos distinguir entre algoritmos de agrupamento e métricas de ponderação de termos.

Análise Detalhada

O enunciado faz duas partes distintas:

  1. Contexto: Fala sobre juntar documentos semelhantes (Clusterização).
  2. Pergunta Específica: Pede o algoritmo/métrica para determinar a relevância de uma palavra em um corpus.

Vamos analisar as opções:

  • TF-IDF (Term Frequency-Inverse Document Frequency): Esta é a métrica correta. Ela calcula a importância de uma palavra em um documento específico em relação a todo o conjunto de documentos (corpus).
  • TF (Frequência do Termo): Quantas vezes a palavra aparece no documento (quanto mais, maior a relevância local).
  • IDF (Inverso da Frequência do Documento): Penaliza palavras que aparecem em muitos documentos (como "o", "de", "um"), pois elas têm pouca capacidade de diferenciar os textos.
  • O resultado é um peso numérico que indica o quão relevante é aquela palavra para aquele texto específico.
  • K-Means (Opção C): É um algoritmo de clustering (agrupamento). Ele agrupa documentos baseados em similaridade, mas não calcula a relevância individual das palavras. Ele precisa de dados de entrada (features), muitas vezes gerados pelo TF-IDF.
  • KNN (Opção B): Algoritmo de Classificação ou Regressão baseado em vizinhos mais próximos. Serve para prever categorias ou valores, não para medir relevância lexical.
  • Gaussian Naive Bayes (Opção D): Um classificador probabilístico usado para atribuir rótulos (ex: spam/não-spam). Não calcula pesos de palavras.
  • LSTM (Opção E): Uma arquitetura de Rede Neural Recorrente. É usada para modelar sequências e dependências temporais em dados, muito mais complexa e diferente da métrica estatística simples descrita na questão.

Resumo da Lógica

AlgoritmoFunção PrincipalRelevância para a Pergunta
TF-IDFMedir importância de termosCorreto (Calcula relevância da palavra)
K-MeansAgrupar dados similaresIncorreto (Usa a relevância, não a calcula)
KNNClassificar por proximidadeIncorreto
Naive BayesClassificação probabilísticaIncorreto
LSTMProcessamento de sequênciasIncorreto

Portanto, a ferramenta estatística projetada especificamente para calcular a relevância de uma palavra em um texto comparada a um corpus é o TF-IDF.

Tem outra questão para resolver?

Resolver agora com IA

Mais questões de Informática

Ver mais Informática resolvidas

Tem outra questão de Informática?

Cole o enunciado, tire uma foto ou descreva o problema — a IA resolve com explicação completa em segundos.