Alternativa C - Use prompt caching com cache breakpoints
Análise da Questão
Esta questão aborda otimização de custos e desempenho ao interagir com modelos de linguagem grandes (LLMs) como Claude. Vamos analisar cada alternativa:
| Alternativa | Viabilidade | Explicação |
|---|
| A - Comprimir o documento | ❌ Ineficiente | Compressão não reduz tokens significativamente para LLMs |
| B - Dividir em partes menores | ⚠️ Parcial | Perde contexto entre trechos; exige múltiplas chamadas |
| C - Prompt caching | ✅ Ideal | Armazena conteúdo fixo no cache; só paga pelas perguntas novas |
| D - Múltiplas perguntas juntas | ⚠️ Limitado | Não elimina custo de reprocessar o mesmo documento |
O que é Prompt Caching?
Prompt caching é uma técnica que permite armazenar partes do input (como documentos longos) na memória do servidor:
- Primeira requisição: O documento é enviado e processado normalmente
- Requisições subsequentes: Apenas as perguntas novas são enviadas
- Resultado: Redução significativa de custos e tempo de resposta
Cache breakpoints definem onde o sistema pode "quebrar" o cache para atualizar apenas partes específicas quando necessário.
Conclusão
A alternativa C é a correta porque resolve diretamente o problema descrito: evitar reenviar o mesmo documento repetidamente enquanto faz diferentes perguntas sobre ele.
Nota: Recursos específicos de caching dependem da plataforma utilizada pelo provedor do modelo. Consulte a documentação oficial para implementação.