Modèles locaux
Le local est possible, mais OpenClaw attend un grand contexte + de fortes défenses contre l’injection de prompt. Les petites cartes tronquent le contexte et affaiblissent la sécurité. Visez haut : ≥2 Mac Studios entièrement équipés ou une machine GPU équivalente (~30k$+). Un seul GPU de 24 GB ne fonctionne que pour des prompts plus légers avec une latence plus élevée. Utilisez la variante de modèle la plus grande / en taille complète que vous pouvez exécuter ; les checkpoints fortement quantifiés ou « small » augmentent le risque d’injection de prompt (voir Sécurité). Si vous voulez la configuration locale la plus simple, commencez par Ollama etopenclaw onboard. Cette page est le guide orienté pour les piles locales haut de gamme et les serveurs locaux personnalisés compatibles OpenAI.
Recommandé : LM Studio + grand modèle local (Responses API)
Meilleure pile locale actuelle. Chargez un grand modèle dans LM Studio (par exemple, une version complète de Qwen, DeepSeek ou Llama), activez le serveur local (par défauthttp://127.0.0.1:1234), et utilisez Responses API pour séparer le raisonnement du texte final.
- Installez LM Studio : https://lmstudio.ai
- Dans LM Studio, téléchargez la plus grande version de modèle disponible (évitez les variantes « small »/fortement quantifiées), démarrez le serveur, vérifiez que
http://127.0.0.1:1234/v1/modelsle liste. - Remplacez
my-local-modelpar l’ID réel du modèle affiché dans LM Studio. - Gardez le modèle chargé ; un chargement à froid ajoute de la latence au démarrage.
- Ajustez
contextWindow/maxTokenssi votre build LM Studio diffère. - Pour WhatsApp, restez sur Responses API afin que seul le texte final soit envoyé.
models.mode: "merge" afin que les replis restent disponibles.
Configuration hybride : primaire hébergé, repli local
Local en priorité avec filet de sécurité hébergé
Inversez l’ordre du primaire et du repli ; conservez le même bloc providers etmodels.mode: "merge" afin de pouvoir retomber sur Sonnet ou Opus lorsque la machine locale est indisponible.
Hébergement régional / routage des données
- Des variantes MiniMax/Kimi/GLM hébergées existent aussi sur OpenRouter avec des points de terminaison épinglés par région (par ex., hébergés aux États-Unis). Choisissez la variante régionale là-bas pour conserver le trafic dans la juridiction choisie tout en utilisant
models.mode: "merge"pour les replis Anthropic/OpenAI. - Le local uniquement reste la voie la plus protectrice pour la confidentialité ; le routage régional hébergé est l’option intermédiaire lorsque vous avez besoin de fonctionnalités du fournisseur mais souhaitez garder le contrôle sur le flux de données.
Autres proxys locaux compatibles OpenAI
vLLM, LiteLLM, OAI-proxy ou des gateways personnalisées fonctionnent s’ils exposent un point de terminaison/v1 de style OpenAI. Remplacez le bloc provider ci-dessus par votre point de terminaison et votre ID de modèle :
models.mode: "merge" afin que les modèles hébergés restent disponibles comme replis.
Remarque de comportement pour les backends locaux/proxifiés /v1 :
- OpenClaw les traite comme des routes compatibles OpenAI de type proxy, et non comme des points de terminaison OpenAI natifs
- le façonnage de requête réservé à OpenAI natif ne s’applique pas ici : pas de
service_tier, pas destoreResponses, pas de façonnage de charge utile de compatibilité de raisonnement OpenAI, et pas d’indices de cache de prompt - les en-têtes d’attribution OpenClaw cachés (
originator,version,User-Agent) ne sont pas injectés sur ces URL de proxy personnalisées
Dépannage
- Gateway peut-il atteindre le proxy ?
curl http://127.0.0.1:1234/v1/models. - Modèle LM Studio déchargé ? Rechargez-le ; le démarrage à froid est une cause fréquente de « blocage ».
- Erreurs de contexte ? Réduisez
contextWindowou augmentez la limite de votre serveur. - Sécurité : les modèles locaux contournent les filtres côté fournisseur ; gardez des agents étroits et la compaction activée pour limiter le rayon d’explosion de l’injection de prompt.