Alternativa D - Prompt evaluation with automated testing
A questão aborda a metodologia de validação e monitoramento de prompts de Inteligência Artificial. Para saber se um prompt funciona bem na prática, é necessário estabelecer métricas e testá-lo sistematicamente.
Análise Detalhada
Por que a Alternativa D é correta?
- Medição Objetiva: Avaliar (measure) implica coletar dados sobre o desempenho. Testes automatizados permitem comparar a saída da IA contra respostas esperadas ou critérios específicos de qualidade.
- Escalabilidade: Na prática, um único teste manual não basta. Scripts de avaliação rodando em lote (batch) garantem que o prompt funcione consistentemente sob diferentes entradas.
- Frameworks Modernos: Ferramentas como RAGAS, TruLens ou LangSmith são usadas exatamente para essa finalidade: pontuar precisão, relevância e alucinação.
Por que as outras alternativas estão incorretas?
| Alternativa | Motivo da Incorreção |
|---|
| A. Using multishot prompting examples | Esta é uma técnica para melhorar a resposta (Few-Shot), não para medir o resultado final. |
| B. Prompt engineering techniques like XML tags | Tags XML servem para estruturar a entrada (formatação), mas não avaliam a qualidade da saída. |
| C. Writing longer, more detailed prompts | O tamanho do prompt não garante eficácia. Prompts longos podem até introduzir ruído ou custo desnecessário. |
Conceito Chave:
Em Engenharia de Prompts, distingue-se a fase de Construção (writing, engineering, few-shot) da fase de Avaliação (evaluation, testing, benchmarking). Para medir o sucesso, focamos na segunda.
Alternativa D.