Providers
ds4
ds4 stellt DeepSeek V4 Flash über ein lokales
Metal-Backend mit einer OpenAI-kompatiblen /v1-API bereit. OpenClaw verbindet sich mit ds4
über die generische Provider-Familie openai-completions.
ds4 ist kein gebündeltes OpenClaw-Provider-Plugin. Konfigurieren Sie es unter
models.providers.ds4 und wählen Sie dann ds4/deepseek-v4-flash aus.
- Provider-ID:
ds4 - Plugin: keines
- API: OpenAI-kompatible Chat Completions (
openai-completions) - Vorgeschlagene Basis-URL:
http://127.0.0.1:18000/v1 - Modell-ID:
deepseek-v4-flash - Tool-Aufrufe: unterstützt über OpenAI-ähnliche
toolsundtool_calls - Reasoning: DeepSeek-ähnliches
thinkingundreasoning_effort
Anforderungen
- macOS mit Metal-Unterstützung.
- Ein funktionierender ds4-Checkout mit
ds4-serverund der DeepSeek V4 Flash-GGUF-Datei. - Ausreichend Arbeitsspeicher für den von Ihnen gewählten Kontext. Größere
--ctx-Werte weisen beim Serverstart mehr KV-Speicher zu.
Schnellstart
Start ds4-server
Ersetzen Sie <DS4_DIR> durch den Pfad zu Ihrem ds4-Checkout.
<DS4_DIR>/ds4-server \ --model <DS4_DIR>/ds4flash.gguf \ --host 127.0.0.1 \ --port 18000 \ --ctx 32768 \ --tokens 128Verify the OpenAI-compatible endpoint
curl http://127.0.0.1:18000/v1/modelsDie Antwort sollte deepseek-v4-flash enthalten.
Add the OpenClaw provider config
Fügen Sie die Konfiguration aus Vollständige Konfiguration hinzu und führen Sie dann eine einmalige Modellprüfung aus:
openclaw infer model run \ --local \ --model ds4/deepseek-v4-flash \ --thinking off \ --prompt "Reply with exactly: openclaw-ds4-ok" \ --jsonVollständige Konfiguration
Verwenden Sie diese Konfiguration, wenn ds4 bereits auf 127.0.0.1:18000 läuft.
{ agents: { defaults: { model: { primary: "ds4/deepseek-v4-flash" }, models: { "ds4/deepseek-v4-flash": { alias: "DS4 local", }, }, }, }, models: { mode: "merge", providers: { ds4: { baseUrl: "http://127.0.0.1:18000/v1", apiKey: "ds4-local", api: "openai-completions", timeoutSeconds: 300, models: [ { id: "deepseek-v4-flash", name: "DeepSeek V4 Flash (ds4)", reasoning: true, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 32768, maxTokens: 128, compat: { supportsUsageInStreaming: true, supportsReasoningEffort: true, maxTokensField: "max_tokens", supportsStrictMode: false, thinkingFormat: "deepseek", supportedReasoningEfforts: ["low", "medium", "high", "xhigh"], }, }, ], }, }, },}Halten Sie contextWindow mit dem Wert ds4-server --ctx synchron. Halten Sie maxTokens
mit --tokens synchron, es sei denn, Sie möchten absichtlich, dass OpenClaw weniger Ausgabe anfordert
als die Servervorgabe.
Start bei Bedarf
OpenClaw kann ds4 nur starten, wenn ein ds4/...-Modell ausgewählt ist. Fügen Sie
localService demselben Provider-Eintrag hinzu:
{ models: { providers: { ds4: { baseUrl: "http://127.0.0.1:18000/v1", apiKey: "ds4-local", api: "openai-completions", timeoutSeconds: 300, localService: { command: "<DS4_DIR>/ds4-server", args: [ "--model", "<DS4_DIR>/ds4flash.gguf", "--host", "127.0.0.1", "--port", "18000", "--ctx", "32768", "--tokens", "128", ], cwd: "<DS4_DIR>", healthUrl: "http://127.0.0.1:18000/v1/models", readyTimeoutMs: 300000, idleStopMs: 0, }, models: [ { id: "deepseek-v4-flash", name: "DeepSeek V4 Flash (ds4)", reasoning: true, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 32768, maxTokens: 128, compat: { supportsUsageInStreaming: true, supportsReasoningEffort: true, maxTokensField: "max_tokens", supportsStrictMode: false, thinkingFormat: "deepseek", supportedReasoningEfforts: ["low", "medium", "high", "xhigh"], }, }, ], }, }, },}command muss ein absoluter ausführbarer Pfad sein. Shell-Suche und ~-Erweiterung werden
nicht verwendet. Siehe Lokale Modelldienste für jedes
localService-Feld.
Think Max
ds4 wendet Think Max nur an, wenn beide Bedingungen erfüllt sind:
ds4-serverstartet mit--ctx 393216oder höher.- Die Anfrage verwendet
reasoning_effort: "max"oder das entsprechende ds4-Effort-Feld.
Wenn Sie diesen großen Kontext ausführen, aktualisieren Sie sowohl die Server-Flags als auch die OpenClaw-Modellmetadaten:
{ contextWindow: 393216, maxTokens: 384000, compat: { supportsUsageInStreaming: true, supportsReasoningEffort: true, maxTokensField: "max_tokens", supportsStrictMode: false, thinkingFormat: "deepseek", supportedReasoningEfforts: ["low", "medium", "high", "xhigh", "max"], },}Testen
Beginnen Sie mit einer direkten HTTP-Prüfung:
curl http://127.0.0.1:18000/v1/chat/completions \ -H 'content-type: application/json' \ -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"Reply with exactly: ds4-ok"}],"max_tokens":16,"stream":false,"thinking":{"type":"disabled"}}'Testen Sie dann das OpenClaw-Modell-Routing:
openclaw infer model run \ --local \ --model ds4/deepseek-v4-flash \ --thinking off \ --prompt "Reply with exactly: openclaw-ds4-ok" \ --jsonVerwenden Sie für einen vollständigen Agent- und Tool-Aufruf-Smoke-Test einen Kontext von mindestens 32768:
openclaw agent \ --local \ --session-id ds4-tool-smoke \ --model ds4/deepseek-v4-flash \ --thinking off \ --message "Use the shell command pwd once, then reply exactly: tool-ok <output>" \ --json \ --timeout 240Erwartetes Ergebnis:
executionTrace.winnerProvideristds4executionTrace.winnerModelistdeepseek-v4-flashtoolSummary.callsist mindestens1finalAssistantVisibleTextbeginnt mittool-ok
Fehlerbehebung
curl /v1/models cannot connect
ds4 läuft nicht oder ist nicht an Host und Port in baseUrl gebunden. Starten Sie
ds4-server und versuchen Sie es dann erneut:
curl http://127.0.0.1:18000/v1/models500 prompt exceeds context
Das konfigurierte --ctx ist für den OpenClaw-Turn zu klein. Erhöhen Sie
ds4-server --ctx und aktualisieren Sie dann models.providers.ds4.models[].contextWindow
entsprechend. Vollständige Agent-Turns mit Tools benötigen deutlich mehr Kontext als eine
direkte curl-Anfrage mit einer einzelnen Nachricht.
Think Max does not activate
ds4 verwendet Think Max nur, wenn --ctx mindestens 393216 beträgt und die Anfrage
reasoning_effort: "max" anfordert. Kleinere Kontexte fallen auf hohes
Reasoning zurück.
The first request is slow
ds4 hat eine kalte Metal-Residency- und Modell-Aufwärmphase. Verwenden Sie
localService.readyTimeoutMs: 300000, wenn OpenClaw den Server bei Bedarf startet.