Providers

ds4

ds4는 OpenAI 호환 /v1 API를 사용하는 로컬 Metal 백엔드에서 DeepSeek V4 Flash를 제공합니다. OpenClaw는 범용 openai-completions 제공자 계열을 통해 ds4에 연결합니다.

ds4는 OpenClaw에 번들로 포함된 제공자 Plugin이 아닙니다. models.providers.ds4 아래에 구성한 다음 ds4/deepseek-v4-flash를 선택하세요.

제공자 ID: ds4
Plugin: 없음
API: OpenAI 호환 Chat Completions(openai-completions)
권장 기본 URL: http://127.0.0.1:18000/v1
모델 ID: deepseek-v4-flash
도구 호출: OpenAI 스타일 tools와 tool_calls를 통해 지원됨
추론: DeepSeek 스타일 thinking 및 reasoning_effort

요구 사항

Metal을 지원하는 macOS.
ds4-server와 DeepSeek V4 Flash GGUF 파일이 있는 작동하는 ds4 체크아웃.
선택한 컨텍스트에 충분한 메모리. 더 큰 --ctx 값은 서버가 시작될 때 더 많은 KV 메모리를 할당합니다.

빠른 시작

Start ds4-server

<DS4_DIR>을 ds4 체크아웃 경로로 바꾸세요.

bash

&lt;DS4_DIR&gt;/ds4-server \  --model &lt;DS4_DIR&gt;/ds4flash.gguf \  --host 127.0.0.1 \  --port 18000 \  --ctx 32768 \  --tokens 128

Verify the OpenAI-compatible endpoint

bash

curl http://127.0.0.1:18000/v1/models

응답에 deepseek-v4-flash가 포함되어야 합니다.

Add the OpenClaw provider config

전체 구성의 구성을 추가한 다음, 일회성 모델 검사를 실행하세요.

bash

openclaw infer model run \  --local \  --model ds4/deepseek-v4-flash \  --thinking off \  --prompt "Reply with exactly: openclaw-ds4-ok" \  --json

전체 구성

ds4가 이미 127.0.0.1:18000에서 실행 중일 때 이 구성을 사용하세요.

json5

{  agents: {    defaults: {      model: { primary: "ds4/deepseek-v4-flash" },      models: {        "ds4/deepseek-v4-flash": {          alias: "DS4 local",        },      },    },  },  models: {    mode: "merge",    providers: {      ds4: {        baseUrl: "http://127.0.0.1:18000/v1",        apiKey: "ds4-local",        api: "openai-completions",        timeoutSeconds: 300,        models: [          {            id: "deepseek-v4-flash",            name: "DeepSeek V4 Flash (ds4)",            reasoning: true,            input: ["text"],            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },            contextWindow: 32768,            maxTokens: 128,            compat: {              supportsUsageInStreaming: true,              supportsReasoningEffort: true,              maxTokensField: "max_tokens",              supportsStrictMode: false,              thinkingFormat: "deepseek",              supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],            },          },        ],      },    },  },}

contextWindow를 ds4-server --ctx 값과 맞추세요. OpenClaw가 서버 기본값보다 더 적은 출력을 요청하도록 의도한 경우가 아니라면 maxTokens를 --tokens와 맞추세요.

필요 시 시작

OpenClaw는 ds4/... 모델이 선택된 경우에만 ds4를 시작할 수 있습니다. 같은 제공자 항목에 localService를 추가하세요.

json5

{  models: {    providers: {      ds4: {        baseUrl: "http://127.0.0.1:18000/v1",        apiKey: "ds4-local",        api: "openai-completions",        timeoutSeconds: 300,        localService: {          command: "&lt;DS4_DIR&gt;/ds4-server",          args: [            "--model",            "&lt;DS4_DIR&gt;/ds4flash.gguf",            "--host",            "127.0.0.1",            "--port",            "18000",            "--ctx",            "32768",            "--tokens",            "128",          ],          cwd: "&lt;DS4_DIR&gt;",          healthUrl: "http://127.0.0.1:18000/v1/models",          readyTimeoutMs: 300000,          idleStopMs: 0,        },        models: [          {            id: "deepseek-v4-flash",            name: "DeepSeek V4 Flash (ds4)",            reasoning: true,            input: ["text"],            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },            contextWindow: 32768,            maxTokens: 128,            compat: {              supportsUsageInStreaming: true,              supportsReasoningEffort: true,              maxTokensField: "max_tokens",              supportsStrictMode: false,              thinkingFormat: "deepseek",              supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],            },          },        ],      },    },  },}

command는 절대 실행 파일 경로여야 합니다. 셸 조회와 ~ 확장은 사용되지 않습니다. 모든 localService 필드는 로컬 모델 서비스를 참조하세요.

Think Max

ds4는 두 조건이 모두 참일 때만 Think Max를 적용합니다.

ds4-server가 --ctx 393216 이상으로 시작됩니다.
요청이 reasoning_effort: "max" 또는 동등한 ds4 effort 필드를 사용합니다.

그처럼 큰 컨텍스트를 실행하는 경우 서버 플래그와 OpenClaw 모델 메타데이터를 모두 업데이트하세요.

json5

{  contextWindow: 393216,  maxTokens: 384000,  compat: {    supportsUsageInStreaming: true,    supportsReasoningEffort: true,    maxTokensField: "max_tokens",    supportsStrictMode: false,    thinkingFormat: "deepseek",    supportedReasoningEfforts: ["low", "medium", "high", "xhigh", "max"],  },}

테스트

직접 HTTP 검사부터 시작하세요.

bash

curl http://127.0.0.1:18000/v1/chat/completions \  -H 'content-type: application/json' \  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"Reply with exactly: ds4-ok"}],"max_tokens":16,"stream":false,"thinking":{"type":"disabled"}}'

그런 다음 OpenClaw 모델 라우팅을 테스트하세요.

bash

openclaw infer model run \  --local \  --model ds4/deepseek-v4-flash \  --thinking off \  --prompt "Reply with exactly: openclaw-ds4-ok" \  --json

전체 에이전트 및 도구 호출 스모크에는 최소 32768의 컨텍스트를 사용하세요.

bash

openclaw agent \  --local \  --session-id ds4-tool-smoke \  --model ds4/deepseek-v4-flash \  --thinking off \  --message "Use the shell command pwd once, then reply exactly: tool-ok <output>" \  --json \  --timeout 240

예상 결과:

executionTrace.winnerProvider는 ds4입니다.
executionTrace.winnerModel은 deepseek-v4-flash입니다.
toolSummary.calls는 최소 1입니다.
finalAssistantVisibleText는 tool-ok로 시작합니다.

문제 해결

curl /v1/models cannot connect

ds4가 실행 중이 아니거나 baseUrl의 호스트와 포트에 바인딩되어 있지 않습니다. ds4-server를 시작한 다음 다시 시도하세요.

bash

curl http://127.0.0.1:18000/v1/models

500 prompt exceeds context

구성된 --ctx가 OpenClaw 턴에 너무 작습니다. ds4-server --ctx를 늘린 다음 models.providers.ds4.models[].contextWindow를 일치하도록 업데이트하세요. 도구가 포함된 전체 에이전트 턴은 직접 한 메시지만 보내는 curl 요청보다 훨씬 더 많은 컨텍스트가 필요합니다.

Think Max does not activate

ds4는 --ctx가 최소 393216이고 요청이 reasoning_effort: "max"를 요청할 때만 Think Max를 사용합니다. 더 작은 컨텍스트는 높은 추론으로 폴백합니다.

The first request is slow

ds4에는 콜드 Metal 상주 및 모델 워밍업 단계가 있습니다. OpenClaw가 필요 시 서버를 시작할 때는 localService.readyTimeoutMs: 300000을 사용하세요.

ds4

요구 사항

빠른 시작

Start ds4-server

Verify the OpenAI-compatible endpoint

Add the OpenClaw provider config

전체 구성

필요 시 시작

Think Max

테스트

문제 해결

관련 항목

On this page

Molty