Cache de prompt
Le cache de prompt signifie que le fournisseur de modèle peut réutiliser des préfixes de prompt inchangés (généralement les instructions system/developer et d’autres contextes stables) entre les tours, au lieu de les retraiter à chaque fois. OpenClaw normalise l’usage fournisseur encacheRead et cacheWrite lorsque l’API amont expose directement ces compteurs.
Les surfaces de statut peuvent aussi récupérer les compteurs de cache à partir du dernier journal
d’usage de transcription lorsque l’instantané live de session ne les contient pas, de sorte que /status puisse
continuer d’afficher une ligne de cache après une perte partielle des métadonnées de session. Les valeurs live existantes non nulles de cache restent prioritaires par rapport aux valeurs de repli issues de la transcription.
Pourquoi c’est important : coût en jetons plus faible, réponses plus rapides, et performances plus prévisibles pour les sessions de longue durée. Sans cache, les prompts répétés paient le coût total du prompt à chaque tour même lorsque la majeure partie de l’entrée ne change pas.
Cette page couvre tous les paramètres liés au cache qui affectent la réutilisation des prompts et le coût en jetons.
Références des fournisseurs :
- Cache de prompt Anthropic : https://platform.claude.com/docs/en/build-with-claude/prompt-caching
- Cache de prompt OpenAI : https://developers.openai.com/api/docs/guides/prompt-caching
- En-têtes API OpenAI et IDs de requête : https://developers.openai.com/api/reference/overview
- IDs de requête et erreurs Anthropic : https://platform.claude.com/docs/en/api/errors
Paramètres principaux
cacheRetention (valeur par défaut globale, modèle et par agent)
Définissez la rétention du cache comme valeur par défaut globale pour tous les modèles :
agents.defaults.params(valeur par défaut globale — s’applique à tous les modèles)agents.defaults.models["provider/model"].params(remplacement par modèle)agents.list[].params(ID d’agent correspondant ; remplace par clé)
contextPruning.mode: "cache-ttl"
Élague l’ancien contexte des résultats d’outils après les fenêtres TTL du cache afin que les requêtes après inactivité ne remettent pas en cache un historique surdimensionné.
Maintien à chaud via heartbeat
Heartbeat peut garder les fenêtres de cache chaudes et réduire les réécritures répétées du cache après des périodes d’inactivité.agents.list[].heartbeat.
Comportement des fournisseurs
Anthropic (API directe)
cacheRetentionest pris en charge.- Avec les profils d’authentification à clé API Anthropic, OpenClaw initialise
cacheRetention: "short"pour les références de modèles Anthropic lorsqu’elle n’est pas définie. - Les réponses Messages natives Anthropic exposent à la fois
cache_read_input_tokensetcache_creation_input_tokens, donc OpenClaw peut affichercacheReadetcacheWrite. - Pour les requêtes Anthropic natives,
cacheRetention: "short"correspond au cache éphémère par défaut de 5 minutes, etcacheRetention: "long"passe à la TTL de 1 heure uniquement sur les hôtes directsapi.anthropic.com.
OpenAI (API directe)
- Le cache de prompt est automatique sur les modèles récents pris en charge. OpenClaw n’a pas besoin d’injecter de marqueurs de cache au niveau des blocs.
- OpenClaw utilise
prompt_cache_keypour garder un routage de cache stable d’un tour à l’autre et utiliseprompt_cache_retention: "24h"uniquement lorsquecacheRetention: "long"est sélectionné sur des hôtes directs OpenAI. - OpenAI expose les jetons de prompt mis en cache via
usage.prompt_tokens_details.cached_tokens(ouinput_tokens_details.cached_tokenssur les événements Responses API). OpenClaw les mappe verscacheRead. - OpenAI n’expose pas de compteur distinct de jetons d’écriture de cache, donc
cacheWritereste à0sur les chemins OpenAI même lorsque le fournisseur réchauffe un cache. - OpenAI renvoie des en-têtes utiles de traçage et de limitation de débit comme
x-request-id,openai-processing-ms, etx-ratelimit-*, mais la comptabilisation des hits de cache doit venir de la charge utile d’usage, pas des en-têtes. - En pratique, OpenAI se comporte souvent comme un cache de préfixe initial plutôt que comme la réutilisation complète d’un historique mobile à la Anthropic. Les tours texte stables avec un long préfixe peuvent atteindre un plateau d’environ
4864jetons mis en cache dans les sondes live actuelles, tandis que les transcriptions riches en outils ou de type MCP plafonnent souvent près de4608jetons mis en cache, même sur des répétitions exactes.
Anthropic Vertex
- Les modèles Anthropic sur Vertex AI (
anthropic-vertex/*) prennent en chargecacheRetentionde la même façon que l’API Anthropic directe. cacheRetention: "long"correspond à la vraie TTL de cache de prompt de 1 heure sur les points de terminaison Vertex AI.- La rétention de cache par défaut pour
anthropic-vertexcorrespond aux valeurs par défaut directes d’Anthropic. - Les requêtes Vertex passent par un façonnage de cache sensible aux frontières afin que la réutilisation du cache reste alignée sur ce que les fournisseurs reçoivent réellement.
Amazon Bedrock
- Les références de modèle Anthropic Claude (
amazon-bedrock/*anthropic.claude*) prennent en charge le passage explicite decacheRetention. - Les modèles Bedrock non Anthropic sont forcés à
cacheRetention: "none"à l’exécution.
Modèles Anthropic OpenRouter
Pour les références de modèleopenrouter/anthropic/*, OpenClaw injecte
cache_control Anthropic sur les blocs de prompt system/developer afin d’améliorer la
réutilisation du cache de prompt uniquement lorsque la requête cible toujours une route OpenRouter vérifiée
(openrouter sur son point de terminaison par défaut, ou tout provider/base URL qui se résout vers openrouter.ai).
Si vous redirigez le modèle vers une URL de proxy arbitraire compatible OpenAI, OpenClaw
cesse d’injecter ces marqueurs de cache Anthropic spécifiques à OpenRouter.
Autres fournisseurs
Si le fournisseur ne prend pas en charge ce mode de cache,cacheRetention n’a aucun effet.
API directe Google Gemini
- Le transport Gemini direct (
api: "google-generative-ai") rapporte les hits de cache viacachedContentTokenCountamont ; OpenClaw le mappe verscacheRead. - Lorsque
cacheRetentionest défini sur un modèle Gemini direct, OpenClaw crée, réutilise et rafraîchit automatiquement des ressourcescachedContentspour les prompts système dans les exécutions Google AI Studio. Cela signifie que vous n’avez plus besoin de précréer manuellement un handle cached-content. - Vous pouvez toujours transmettre un handle Gemini cached-content existant via
params.cachedContent(ou l’ancienparams.cached_content) sur le modèle configuré. - Ceci est distinct du cache de préfixe de prompt Anthropic/OpenAI. Pour Gemini,
OpenClaw gère une ressource native fournisseur
cachedContentsau lieu d’injecter des marqueurs de cache dans la requête.
Usage JSON Gemini CLI
- La sortie JSON de Gemini CLI peut aussi exposer des hits de cache via
stats.cached; OpenClaw le mappe verscacheRead. - Si la CLI omet une valeur directe
stats.input, OpenClaw dérive les jetons d’entrée destats.input_tokens - stats.cached. - Il ne s’agit que d’une normalisation d’usage. Cela ne signifie pas qu’OpenClaw crée des marqueurs de cache de prompt de style Anthropic/OpenAI pour Gemini CLI.
Frontière de cache du prompt système
OpenClaw divise le prompt système en un préfixe stable et un suffixe volatil séparés par une frontière interne de préfixe de cache. Le contenu au-dessus de la frontière (définitions d’outils, métadonnées de Skills, fichiers d’espace de travail, et autres contextes relativement statiques) est ordonné pour rester identique octet pour octet entre les tours. Le contenu sous la frontière (par exempleHEARTBEAT.md, horodatages runtime, et
autres métadonnées par tour) peut changer sans invalider le préfixe mis en cache.
Choix de conception clés :
- Les fichiers stables de contexte projet de l’espace de travail sont ordonnés avant
HEARTBEAT.mdafin que les variations de heartbeat n’invalident pas le préfixe stable. - La frontière est appliquée dans le façonnage des transports de la famille Anthropic, de la famille OpenAI, Google et CLI afin que tous les fournisseurs pris en charge bénéficient de la même stabilité de préfixe.
- Les requêtes Codex Responses et Anthropic Vertex passent par un façonnage de cache sensible aux frontières afin que la réutilisation du cache reste alignée sur ce que les fournisseurs reçoivent réellement.
- Les empreintes du prompt système sont normalisées (espaces, fins de ligne, contexte ajouté par hook, ordre des capacités runtime) afin que des prompts inchangés sur le plan sémantique partagent le KV/cache entre les tours.
cacheWrite après un changement de configuration ou d’espace de travail,
vérifiez si ce changement se situe au-dessus ou au-dessous de la frontière de cache. Déplacer
du contenu volatil sous la frontière (ou le stabiliser) résout souvent le
problème.
Garde-fous de stabilité du cache OpenClaw
OpenClaw maintient aussi plusieurs formes de charges utiles sensibles au cache déterministes avant que la requête n’atteigne le fournisseur :- Les catalogues d’outils MCP bundle sont triés de manière déterministe avant l’enregistrement
des outils, afin que les changements d’ordre
listTools()ne modifient pas le bloc d’outils et n’invalident pas les préfixes du cache de prompt. - Les sessions héritées avec des blocs d’image persistés conservent intacts les 3 tours terminés les plus récents ; les blocs d’image plus anciens déjà traités peuvent être remplacés par un marqueur afin que les suivis riches en images ne renvoient pas sans cesse de grosses charges utiles obsolètes.
Modèles de réglage
Trafic mixte (valeur par défaut recommandée)
Gardez une base de référence durable sur votre agent principal, désactivez le cache sur les agents notificateurs par rafales :Référence orientée coût
- Définissez la base sur
cacheRetention: "short". - Activez
contextPruning.mode: "cache-ttl". - Gardez heartbeat en dessous de votre TTL uniquement pour les agents qui bénéficient de caches chauds.
Diagnostics du cache
OpenClaw expose des diagnostics dédiés de trace de cache pour les exécutions d’agent embarquées. Pour les diagnostics utilisateur normaux,/status et d’autres résumés d’usage peuvent utiliser
la dernière entrée d’usage de transcription comme source de repli pour cacheRead /
cacheWrite lorsque l’entrée live de session ne contient pas ces compteurs.
Tests live de régression
OpenClaw conserve une seule barrière combinée de régression live du cache pour les préfixes répétés, les tours d’outil, les tours d’image, les transcriptions d’outils de style MCP, et un témoin sans cache Anthropic.src/agents/live-cache-regression.live.test.tssrc/agents/live-cache-regression-baseline.ts
Attentes live Anthropic
- Attendez-vous à des écritures explicites d’échauffement via
cacheWrite. - Attendez-vous à une réutilisation presque complète de l’historique sur les tours répétés car le contrôle de cache Anthropic fait progresser le point de coupure du cache au fil de la conversation.
- Les assertions live actuelles utilisent encore des seuils élevés de taux de hit pour les chemins stables, outils et images.
Attentes live OpenAI
- Attendez-vous uniquement à
cacheRead.cacheWritereste à0. - Traitez la réutilisation du cache sur tours répétés comme un plateau spécifique au fournisseur, et non comme une réutilisation mobile complète de l’historique à la Anthropic.
- Les assertions live actuelles utilisent des seuils prudents dérivés du comportement live observé sur
gpt-5.4-mini:- préfixe stable :
cacheRead >= 4608, taux de hit>= 0.90 - transcription d’outil :
cacheRead >= 4096, taux de hit>= 0.85 - transcription d’image :
cacheRead >= 3840, taux de hit>= 0.82 - transcription de style MCP :
cacheRead >= 4096, taux de hit>= 0.85
- préfixe stable :
- préfixe stable :
cacheRead=4864, taux de hit0.966 - transcription d’outil :
cacheRead=4608, taux de hit0.896 - transcription d’image :
cacheRead=4864, taux de hit0.954 - transcription de style MCP :
cacheRead=4608, taux de hit0.891
88s.
Pourquoi les assertions diffèrent :
- Anthropic expose des points de coupure de cache explicites et une réutilisation mobile de l’historique de conversation.
- Le cache de prompt OpenAI reste sensible au préfixe exact, mais le préfixe effectivement réutilisable dans le trafic live Responses peut plafonner plus tôt que le prompt complet.
- À cause de cela, comparer Anthropic et OpenAI avec un unique seuil de pourcentage inter-fournisseur crée de faux cas de régression.
Configuration diagnostics.cacheTrace
filePath:$OPENCLAW_STATE_DIR/logs/cache-trace.jsonlincludeMessages:trueincludePrompt:trueincludeSystem:true
Basculements env (débogage ponctuel)
OPENCLAW_CACHE_TRACE=1active la trace de cache.OPENCLAW_CACHE_TRACE_FILE=/path/to/cache-trace.jsonlremplace le chemin de sortie.OPENCLAW_CACHE_TRACE_MESSAGES=0|1active/désactive la capture complète des charges utiles des messages.OPENCLAW_CACHE_TRACE_PROMPT=0|1active/désactive la capture du texte du prompt.OPENCLAW_CACHE_TRACE_SYSTEM=0|1active/désactive la capture du prompt système.
Ce qu’il faut inspecter
- Les événements de trace de cache sont au format JSONL et incluent des instantanés par étape comme
session:loaded,prompt:before,stream:context, etsession:after. - L’impact des jetons de cache par tour est visible dans les surfaces normales d’usage via
cacheReadetcacheWrite(par exemple/usage fullet les résumés d’usage de session). - Pour Anthropic, attendez-vous à voir
cacheReadetcacheWritelorsque le cache est actif. - Pour OpenAI, attendez-vous à
cacheReadlors des hits de cache et àcacheWriterestant à0; OpenAI ne publie pas de champ distinct pour les jetons d’écriture du cache. - Si vous avez besoin de traçage de requête, journalisez les IDs de requête et les en-têtes de limitation de débit séparément des métriques de cache. La sortie actuelle de trace de cache d’OpenClaw est centrée sur la forme du prompt/de la session et l’usage normalisé des jetons plutôt que sur les en-têtes bruts de réponse du fournisseur.
Dépannage rapide
cacheWriteélevé sur la plupart des tours : vérifiez les entrées volatiles du prompt système et confirmez que le modèle/fournisseur prend en charge vos réglages de cache.cacheWriteélevé sur Anthropic : cela signifie souvent que le point de coupure du cache tombe sur du contenu qui change à chaque requête.cacheReadfaible sur OpenAI : vérifiez que le préfixe stable est au début, que le préfixe répété fait au moins 1024 jetons, et que le mêmeprompt_cache_keyest réutilisé pour les tours censés partager un cache.- Aucun effet de
cacheRetention: confirmez que la clé de modèle correspond àagents.defaults.models["provider/model"]. - Requêtes Bedrock Nova/Mistral avec réglages de cache : forçage runtime attendu vers
none.