Alternativa E - Corpus
A questão aborda conceitos fundamentais do Processamento de Linguagem Natural (PLN). Para entender a resposta, precisamos diferenciar as unidades de texto dos conjuntos de dados usados para treinar sistemas de IA.
Definição de Corpus:
Em linguística computacional e IA, o termo Corpus (do latim, significando "corpo") refere-se a uma coleção extensa e estruturada de textos escritos ou transcritos.
- É a base de dados onde os algoritmos aprendem padrões linguísticos.
- Pode conter livros, notícias, conversas, entre outros documentos.
Análise das outras alternativas:
Para garantir o entendimento, veja por que as outras opções não se encaixam na definição de "conjunto de documentos":
- Token: Refere-se à menor unidade de texto processada (como uma única palavra ou sinal de pontuação) dentro do corpus.
- Lema: É a forma canônica de uma palavra (ex: "comer" é o lema de "comi", "comemos"), usado na lematização.
- Radical: É a parte da palavra que carrega o significado principal, comum a várias palavras (morfologia).
- Símbolo: Representação abstrata de um objeto ou conceito, muito genérico para definir um banco de dados textual.
Conclusão
O termo correto para designar o conjunto de documentos passados ao processo de mineração de texto ou treinamento de modelos é Corpus. Portanto, a alternativa correta é a E.