You keep sending the same long document to Claude with different questions. How can you make this faster and cheaper?

Question

You keep sending the same long document to Claude with different questions. How can you make this faster and cheaper? A) Compress the document first B) Split the document into smaller pieces C) Use prompt caching with cache breakpoints D) Ask multiple questions at once

Sapien IA · Accepted Answer

Alternativa C Use prompt caching com cache breakpoints Análise da Questão Esta questão aborda otimização de custos e desempenho ao interagir com modelos de linguagem grandes (LLMs) como Claude. Vamos analisar cada alternativa: | Alternativa | Viabilidade | Explicação | | | | | | A Comprimir o documento | ❌ Ineficiente | Compressão não reduz tokens significativamente para LLMs | | B Dividir em partes menores | ⚠️ Parcial | Perde contexto entre trechos; exige múltiplas chamadas | | C Prompt caching | ✅ Ideal | Armazena conteúdo fixo no cache; só paga pelas perguntas novas | | D Múltiplas perguntas juntas | ⚠️ Limitado | Não elimina custo de reprocessar o mesmo documento | O que é Prompt Caching? Prompt caching é uma técnica que permite armazenar partes do input (como documentos longos) na memória do servidor: Primeira requisição : O documento é enviado e processado normalmente Requisições subsequentes : Apenas as perguntas novas são enviadas Resultado : Redução significativa de custos e tempo de resposta Cache breakpoints definem onde o sistema pode "quebrar" o cache para atualizar apenas partes específicas quando necessário. Conclusão A alternativa C é a correta porque resolve diretamente o problema descrito: evitar reenviar o mesmo documento repetidamente enquanto faz diferentes perguntas sobre ele. Nota : Recursos específicos de caching dependem da plataforma utilizada pelo provedor do modelo. Consulte a documentação oficial para implementação.

Explicação passo a passo

Análise da Questão

O que é Prompt Caching?

Conclusão

Mais questões de Geral

Tem outra questão de Geral?

Alternativa	Viabilidade	Explicação
A - Comprimir o documento	❌ Ineficiente	Compressão não reduz tokens significativamente para LLMs
B - Dividir em partes menores	⚠️ Parcial	Perde contexto entre trechos; exige múltiplas chamadas
C - Prompt caching	✅ Ideal	Armazena conteúdo fixo no cache; só paga pelas perguntas novas
D - Múltiplas perguntas juntas	⚠️ Limitado	Não elimina custo de reprocessar o mesmo documento