Alternativa D - Feed the responses through a grader for scoring
Análise da Questão
A questão aborda o fluxo de trabalho (workflow) típico na avaliação de prompts para modelos de linguagem (como o Claude). O processo de avaliação visa garantir que o modelo esteja respondendo corretamente antes de ser usado em cenários reais.
Passos Lógicos da Avaliação de Prompt
Em um ambiente de desenvolvimento de IA, a sequência padrão costuma ser:
- Definição do Prompt: Criar a instrução inicial.
- Geração de Respostas: O modelo (Claude) processa o prompt e gera saídas.
- Avaliação (Grading): As respostas geradas precisam ser verificadas quanto à qualidade, precisão e aderência às regras.
- Iteração: Com base na nota obtida, ajusta-se o prompt ou os dados.
Por que as outras opções estão incorretas?
- Rewrite the prompt completely from scratch: Reescrever tudo do zero é uma medida drástica. Primeiro, é necessário entender onde o prompt falhou ou funcionou bem através da avaliação.
- Create a new dataset with different questions: Alterar o conjunto de dados é uma etapa de treinamento ou teste futuro, não o passo imediato após obter respostas de um prompt específico.
- Deploy the prompt to production immediately: Implantação imediata sem validação (scoring) é arriscada, pois pode levar a erros operacionais se o prompt não estiver performando bem.
Conclusão
O termo chave na pergunta é "evaluation" (avaliação). Para realizar uma avaliação, você precisa transformar as respostas brutas em métricas quantitativas ou qualitativas. Isso é feito através de um grader (avaliador), que pode ser outro modelo ou um sistema de verificação automática/manual.
Portanto, a ação correta é: Feed the responses through a grader for scoring.