Technical reference
Mise en cache des prompts
La mise en cache des prompts signifie que le fournisseur du modèle peut réutiliser les préfixes de prompt inchangés (généralement les instructions système/développeur et d’autres contextes stables) d’un tour à l’autre au lieu de les retraiter à chaque fois. OpenClaw normalise l’utilisation du fournisseur en cacheRead et cacheWrite lorsque l’API amont expose directement ces compteurs.
Les surfaces d’état peuvent aussi récupérer les compteurs de cache depuis le journal
d’utilisation de la transcription la plus récente lorsque l’instantané de session en direct
ne les contient pas, afin que /status puisse continuer à afficher
une ligne de cache après une perte partielle des métadonnées de session. Les valeurs de cache
en direct non nulles existantes restent prioritaires sur les valeurs de secours issues de la transcription.
Pourquoi c’est important : coût en tokens plus faible, réponses plus rapides et performances plus prévisibles pour les sessions de longue durée. Sans mise en cache, les prompts répétés paient le coût complet du prompt à chaque tour, même lorsque la plupart des entrées n’ont pas changé.
Les sections ci-dessous couvrent tous les réglages liés au cache qui influencent la réutilisation des prompts et le coût en tokens.
Références des fournisseurs :
- Mise en cache des prompts Anthropic : https://platform.claude.com/docs/en/build-with-claude/prompt-caching
- Mise en cache des prompts OpenAI : https://developers.openai.com/api/docs/guides/prompt-caching
- En-têtes de l’API OpenAI et ID de requête : https://developers.openai.com/api/reference/overview
- ID de requête et erreurs Anthropic : https://platform.claude.com/docs/en/api/errors
Réglages principaux
cacheRetention (valeur par défaut globale, modèle et par agent)
Définissez la rétention du cache comme valeur par défaut globale pour tous les modèles :
agents: defaults: params: cacheRetention: "long" # none | short | longRemplacez-la par modèle :
agents: defaults: models: "anthropic/claude-opus-4-6": params: cacheRetention: "short" # none | short | longRemplacement par agent :
agents: list: - id: "alerts" params: cacheRetention: "none"Ordre de fusion de la configuration :
agents.defaults.params(valeur par défaut globale — s’applique à tous les modèles)agents.defaults.models["provider/model"].params(remplacement par modèle)agents.list[].params(ID d’agent correspondant ; remplace par clé)
contextPruning.mode: "cache-ttl"
Élague l’ancien contexte de résultats d’outils après les fenêtres de TTL du cache afin que les requêtes après inactivité ne remettent pas en cache un historique surdimensionné.
agents: defaults: contextPruning: mode: "cache-ttl" ttl: "1h"Consultez Élagage de session pour le comportement complet.
Heartbeat keep-warm
Heartbeat peut maintenir les fenêtres de cache au chaud et réduire les écritures répétées dans le cache après des périodes d’inactivité.
agents: defaults: heartbeat: every: "55m"Le Heartbeat par agent est pris en charge dans agents.list[].heartbeat.
Comportement des fournisseurs
Anthropic (API directe)
cacheRetentionest pris en charge.- Avec les profils d’authentification par clé API Anthropic, OpenClaw initialise
cacheRetention: "short"pour les références de modèles Anthropic lorsqu’il n’est pas défini. - Les réponses Messages natives d’Anthropic exposent à la fois
cache_read_input_tokensetcache_creation_input_tokens, ce qui permet à OpenClaw d’affichercacheReadetcacheWrite. - Pour les requêtes Anthropic natives,
cacheRetention: "short"correspond au cache éphémère par défaut de 5 minutes, etcacheRetention: "long"passe au TTL de 1 heure uniquement sur les hôtes directsapi.anthropic.com.
OpenAI (API directe)
- La mise en cache des prompts est automatique sur les modèles récents pris en charge. OpenClaw n’a pas besoin d’injecter de marqueurs de cache au niveau des blocs.
- OpenClaw utilise
prompt_cache_keypour garder le routage du cache stable d’un tour à l’autre. Les hôtes OpenAI directs utilisentprompt_cache_retention: "24h"lorsquecacheRetention: "long"est sélectionné. - Les fournisseurs Completions compatibles OpenAI reçoivent
prompt_cache_keyuniquement lorsque leur configuration de modèle définit explicitementcompat.supportsPromptCacheKey: true. Le transfert de rétention longue est une capacité distincte :cacheRetention: "long"explicite envoieprompt_cache_retention: "24h"uniquement lorsque cette entrée compat prend aussi en charge la rétention longue du cache. Les fournisseurs comme Mistral peuvent activer les clés de cache tout en définissantcompat.supportsLongCacheRetention: falsepour supprimer le champ de rétention longue.cacheRetention: "none"supprime les deux champs. - Les réponses OpenAI exposent les tokens de prompt mis en cache via
usage.prompt_tokens_details.cached_tokens(ouinput_tokens_details.cached_tokenssur les événements de l’API Responses). OpenClaw mappe cela verscacheRead. - L’utilisation GPT-5.6 Responses peut aussi exposer
input_tokens_details.cache_write_tokens. OpenClaw mappe cela verscacheWriteet le tarifie au taux d’écriture cache du modèle ; les réponses Responses qui omettent le champ gardentcacheWriteà0. - OpenAI renvoie des en-têtes utiles de traçage et de limite de débit, comme
x-request-id,openai-processing-msetx-ratelimit-*, mais la comptabilisation des hits de cache doit venir de la charge utile d’utilisation, pas des en-têtes. - En pratique, OpenAI se comporte souvent comme un cache de préfixe initial plutôt que comme une réutilisation de tout l’historique mobile à la manière d’Anthropic. Les tours de texte à long préfixe stable peuvent atteindre un plateau proche de
4864tokens mis en cache dans les sondes en direct actuelles, tandis que les transcriptions riches en outils ou de style MCP plafonnent souvent près de4608tokens mis en cache, même lors de répétitions exactes.
Anthropic Vertex
- Les modèles Anthropic sur Vertex AI (
anthropic-vertex/*) prennent en chargecacheRetentionde la même façon que l’Anthropic direct. cacheRetention: "long"correspond au véritable TTL de cache de prompt de 1 heure sur les points de terminaison Vertex AI.- La rétention de cache par défaut pour
anthropic-vertexcorrespond aux valeurs par défaut d’Anthropic direct. - Les requêtes Vertex sont routées via une mise en forme du cache consciente des limites afin que la réutilisation du cache reste alignée avec ce que les fournisseurs reçoivent réellement.
Amazon Bedrock
- Les références de modèles Anthropic Claude (
amazon-bedrock/*anthropic.claude*) prennent en charge le transfert explicite decacheRetention. - Les modèles Bedrock non Anthropic sont forcés à
cacheRetention: "none"à l’exécution.
Modèles OpenRouter
Pour les références de modèles openrouter/anthropic/*, OpenClaw injecte le
cache_control Anthropic dans les blocs de prompt système/développeur afin d’améliorer la réutilisation
du cache de prompt uniquement lorsque la requête cible toujours une route OpenRouter vérifiée
(openrouter sur son point de terminaison par défaut, ou tout fournisseur/URL de base qui se résout
en openrouter.ai).
Pour les références de modèles openrouter/deepseek/*, openrouter/moonshot*/* et openrouter/zai/*,
contextPruning.mode: "cache-ttl" est autorisé parce qu’OpenRouter
gère automatiquement la mise en cache des prompts côté fournisseur. OpenClaw n’injecte pas
de marqueurs Anthropic cache_control dans ces requêtes.
La construction du cache DeepSeek est au mieux opportuniste et peut prendre quelques secondes. Un
suivi immédiat peut encore afficher cached_tokens: 0 ; vérifiez avec une requête répétée
au même préfixe après un court délai et utilisez usage.prompt_tokens_details.cached_tokens
comme signal de hit de cache.
Si vous repointez le modèle vers une URL proxy arbitraire compatible OpenAI, OpenClaw cesse d’injecter ces marqueurs de cache Anthropic propres à OpenRouter.
Autres fournisseurs
Si le fournisseur ne prend pas en charge ce mode de cache, cacheRetention n’a aucun effet.
API directe Google Gemini
- Le transport Gemini direct (
api: "google-generative-ai") signale les hits de cache via lecachedContentTokenCountamont ; OpenClaw le mappe verscacheRead. - Lorsque
cacheRetentionest défini sur un modèle Gemini direct, OpenClaw crée, réutilise et actualise automatiquement les ressourcescachedContentspour les prompts système sur les exécutions Google AI Studio. Cela signifie que vous n’avez plus besoin de précréer manuellement un handle de contenu mis en cache. - Vous pouvez toujours transmettre un handle Gemini de contenu mis en cache préexistant via
params.cachedContent(ou l’ancienparams.cached_content) sur le modèle configuré. - Ceci est distinct de la mise en cache des préfixes de prompt Anthropic/OpenAI. Pour Gemini,
OpenClaw gère une ressource native du fournisseur
cachedContentsplutôt que d’injecter des marqueurs de cache dans la requête.
Utilisation de la CLI Gemini
- La sortie Gemini CLI
stream-jsonpeut exposer les hits de cache viastats.cached; OpenClaw mappe cela verscacheRead. Les anciens remplacements--output-format jsonutilisent la même normalisation de l’utilisation. - Si la CLI omet une valeur directe
stats.input, OpenClaw déduit les tokens d’entrée depuisstats.input_tokens - stats.cached. - Il s’agit uniquement de normalisation de l’utilisation. Cela ne signifie pas qu’OpenClaw crée des marqueurs de cache de prompt de style Anthropic/OpenAI pour Gemini CLI.
Limite de cache du prompt système
OpenClaw divise le prompt système en un préfixe stable et un suffixe volatil
séparés par une limite interne de préfixe de cache. Le contenu au-dessus de la
limite (définitions d’outils, métadonnées de Skills, fichiers de l’espace de travail et autre
contexte relativement statique) est ordonné pour rester identique octet pour octet d’un tour à l’autre.
Le contenu sous la limite (par exemple HEARTBEAT.md, les horodatages d’exécution et
d’autres métadonnées propres à chaque tour) peut changer sans invalider le préfixe
mis en cache.
Choix de conception clés :
- Les fichiers de contexte de projet stables de l’espace de travail sont ordonnés avant
HEARTBEAT.mdafin que les changements fréquents du heartbeat ne cassent pas le préfixe stable. - La limite est appliquée à la mise en forme des transports Anthropic-family, OpenAI-family, Google et CLI afin que tous les fournisseurs pris en charge bénéficient de la même stabilité de préfixe.
- Les requêtes Codex Responses et Anthropic Vertex sont routées via une mise en forme du cache consciente des limites afin que la réutilisation du cache reste alignée avec ce que les fournisseurs reçoivent réellement.
- Les empreintes du prompt système sont normalisées (espaces, fins de ligne, contexte ajouté par les hooks, ordre des capacités d’exécution) afin que les prompts sémantiquement inchangés partagent le KV/cache d’un tour à l’autre.
Si vous voyez des pics inattendus de cacheWrite après un changement de configuration ou d’espace de travail,
vérifiez si le changement atterrit au-dessus ou au-dessous de la limite du cache. Déplacer
le contenu volatil sous la limite (ou le stabiliser) résout souvent
le problème.
Garde-fous de stabilité du cache OpenClaw
OpenClaw garde aussi plusieurs formes de charges utiles sensibles au cache déterministes avant que la requête n’atteigne le fournisseur :
- Les catalogues d’outils Bundle MCP sont triés de façon déterministe avant l’enregistrement des outils,
afin que les changements d’ordre de
listTools()ne modifient pas le bloc d’outils et ne cassent pas les préfixes de cache de prompt. - Les sessions anciennes avec des blocs d’image persistés conservent les 3 tours terminés les plus récents intacts ; les blocs d’image plus anciens déjà traités peuvent être remplacés par un marqueur afin que les suivis riches en images ne renvoient pas en permanence de grandes charges utiles obsolètes.
Modèles de réglage
Trafic mixte (valeur par défaut recommandée)
Gardez une base de référence longue durée sur votre agent principal, désactivez la mise en cache sur les agents de notification par rafales :
agents: defaults: model: primary: "anthropic/claude-opus-4-6" models: "anthropic/claude-opus-4-6": params: cacheRetention: "long" list: - id: "research" default: true heartbeat: every: "55m" - id: "alerts" params: cacheRetention: "none"Base de référence axée sur les coûts
- Définissez la base de référence
cacheRetention: "short". - Activez
contextPruning.mode: "cache-ttl". - Gardez le heartbeat sous votre TTL uniquement pour les agents qui bénéficient de caches chauds.
Diagnostics du cache
OpenClaw expose des diagnostics dédiés de trace de cache pour les exécutions d’agents intégrées.
Pour les diagnostics ordinaires visibles par l’utilisateur, /status et d’autres résumés d’utilisation peuvent utiliser
la dernière entrée d’utilisation de transcription comme source de secours pour cacheRead /
cacheWrite lorsque l’entrée de session en direct ne contient pas ces compteurs.
Tests de régression en direct
OpenClaw conserve un seul garde-fou combiné de régression de cache en direct pour les préfixes répétés, les tours d’outils, les tours d’image, les transcriptions d’outils de style MCP et un contrôle Anthropic sans cache.
src/agents/live-cache-regression.live.test.tssrc/agents/live-cache-regression-baseline.ts
Exécutez le garde-fou en direct ciblé avec :
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_CACHE_TEST=1 pnpm test:live:cacheLe fichier de référence stocke les nombres en direct observés les plus récents, ainsi que les seuils minimaux de régression propres à chaque fournisseur utilisés par le test. L’exécuteur utilise aussi de nouveaux ID de session et espaces de noms d’invite à chaque exécution, afin que l’état de cache précédent ne pollue pas l’échantillon de régression actuel.
Ces tests n’utilisent volontairement pas des critères de réussite identiques pour tous les fournisseurs.
Attentes en direct pour Anthropic
- Attendez-vous à des écritures de préchauffage explicites via
cacheWrite. - Attendez-vous à une réutilisation de presque tout l’historique lors des tours répétés, car le contrôle du cache Anthropic fait avancer le point de rupture du cache au fil de la conversation.
- Les assertions en direct actuelles utilisent encore des seuils élevés de taux de réussite pour les chemins stable, outil et image.
Attentes en direct pour OpenAI
- Attendez-vous uniquement à
cacheRead.cacheWritereste à0. - Traitez la réutilisation du cache sur les tours répétés comme un plateau propre au fournisseur, et non comme une réutilisation mobile de tout l’historique à la manière d’Anthropic.
- Les assertions en direct actuelles utilisent des vérifications de seuils prudentes dérivées du comportement en direct observé sur
gpt-5.4-mini:- préfixe stable :
cacheRead >= 4608, taux de réussite>= 0.90 - transcription d’outil :
cacheRead >= 4096, taux de réussite>= 0.85 - transcription d’image :
cacheRead >= 3840, taux de réussite>= 0.82 - transcription de style MCP :
cacheRead >= 4096, taux de réussite>= 0.85
- préfixe stable :
La nouvelle vérification en direct combinée du 2026-04-04 a donné :
- préfixe stable :
cacheRead=4864, taux de réussite0.966 - transcription d’outil :
cacheRead=4608, taux de réussite0.896 - transcription d’image :
cacheRead=4864, taux de réussite0.954 - transcription de style MCP :
cacheRead=4608, taux de réussite0.891
Le temps écoulé réel local récent pour la porte combinée était d’environ 88s.
Pourquoi les assertions diffèrent :
- Anthropic expose des points de rupture de cache explicites et une réutilisation mobile de l’historique de conversation.
- La mise en cache des invites OpenAI reste sensible au préfixe exact, mais le préfixe effectivement réutilisable dans le trafic Responses en direct peut plafonner avant l’invite complète.
- Pour cette raison, comparer Anthropic et OpenAI avec un seul seuil de pourcentage commun à tous les fournisseurs crée de fausses régressions.
Configuration diagnostics.cacheTrace
diagnostics: cacheTrace: enabled: true filePath: "~/.openclaw/logs/cache-trace.jsonl" # optional includeMessages: false # default true includePrompt: false # default true includeSystem: false # default trueValeurs par défaut :
filePath:$OPENCLAW_STATE_DIR/logs/cache-trace.jsonlincludeMessages:trueincludePrompt:trueincludeSystem:true
Variables d’environnement (débogage ponctuel)
OPENCLAW_CACHE_TRACE=1active le traçage du cache.OPENCLAW_CACHE_TRACE_FILE=/path/to/cache-trace.jsonlremplace le chemin de sortie.OPENCLAW_CACHE_TRACE_MESSAGES=0|1active ou désactive la capture de la charge utile complète des messages.OPENCLAW_CACHE_TRACE_PROMPT=0|1active ou désactive la capture du texte de l’invite.OPENCLAW_CACHE_TRACE_SYSTEM=0|1active ou désactive la capture de l’invite système.
Ce qu’il faut inspecter
- Les événements de trace de cache sont en JSONL et incluent des instantanés par étape comme
session:loaded,prompt:before,stream:contextetsession:after. - L’impact des jetons de cache par tour est visible dans les surfaces d’utilisation normales via
cacheReadetcacheWrite(par exemple/usage tokens,/status, les résumés d’utilisation de session et les mises en pagemessages.usageTemplatepersonnalisées). - Pour Anthropic, attendez-vous à la fois à
cacheReadet àcacheWritelorsque la mise en cache est active. - Pour OpenAI, attendez-vous à
cacheReadlors des succès de cache. GPT-5.6 Responses peut aussi signalercacheWritependant l’écriture des segments d’invite ; les autres charges utiles Responses qui omettent le compteur d’écriture le maintiennent à0. - Si vous avez besoin de tracer les requêtes, consignez les ID de requête et les en-têtes de limite de débit séparément des métriques de cache. La sortie actuelle de trace de cache d’OpenClaw se concentre sur la forme des invites/sessions et l’utilisation normalisée des jetons plutôt que sur les en-têtes bruts de réponse du fournisseur.
Dépannage rapide
cacheWriteélevé sur la plupart des tours : vérifiez les entrées volatiles de l’invite système et assurez-vous que le modèle/fournisseur prend en charge vos paramètres de cache.cacheWriteélevé sur Anthropic : cela signifie souvent que le point de rupture du cache tombe sur du contenu qui change à chaque requête.cacheReadfaible sur OpenAI : vérifiez que le préfixe stable est au début, que le préfixe répété compte au moins 1024 jetons et que le mêmeprompt_cache_keyest réutilisé pour les tours qui doivent partager un cache.- Aucun effet de
cacheRetention: confirmez que la clé de modèle correspond àagents.defaults.models["provider/model"]. - Requêtes Bedrock Nova/Mistral avec paramètres de cache : forçage d’exécution attendu sur
none.
Docs connexes :