Providers

ds4

ds4는 OpenAI 호환 /v1 API를 사용하는 로컬 Metal 백엔드에서 DeepSeek V4 Flash를 제공합니다. OpenClaw는 범용 openai-completions 제공자 계열을 통해 ds4에 연결합니다.

ds4는 OpenClaw에 번들로 포함된 제공자 Plugin이 아닙니다. models.providers.ds4 아래에 구성한 다음 ds4/deepseek-v4-flash를 선택하세요.

  • 제공자 ID: ds4
  • Plugin: 없음
  • API: OpenAI 호환 Chat Completions(openai-completions)
  • 권장 기본 URL: http://127.0.0.1:18000/v1
  • 모델 ID: deepseek-v4-flash
  • 도구 호출: OpenAI 스타일 toolstool_calls를 통해 지원됨
  • 추론: DeepSeek 스타일 thinkingreasoning_effort

요구 사항

  • Metal을 지원하는 macOS.
  • ds4-server와 DeepSeek V4 Flash GGUF 파일이 있는 작동하는 ds4 체크아웃.
  • 선택한 컨텍스트에 충분한 메모리. 더 큰 --ctx 값은 서버가 시작될 때 더 많은 KV 메모리를 할당합니다.

빠른 시작

  • Start ds4-server

    <DS4_DIR>을 ds4 체크아웃 경로로 바꾸세요.

    bash
    <DS4_DIR>/ds4-server \  --model <DS4_DIR>/ds4flash.gguf \  --host 127.0.0.1 \  --port 18000 \  --ctx 32768 \  --tokens 128
  • Verify the OpenAI-compatible endpoint

    bash
    curl http://127.0.0.1:18000/v1/models

    응답에 deepseek-v4-flash가 포함되어야 합니다.

  • Add the OpenClaw provider config

    전체 구성의 구성을 추가한 다음, 일회성 모델 검사를 실행하세요.

    bash
    openclaw infer model run \  --local \  --model ds4/deepseek-v4-flash \  --thinking off \  --prompt "Reply with exactly: openclaw-ds4-ok" \  --json
  • 전체 구성

    ds4가 이미 127.0.0.1:18000에서 실행 중일 때 이 구성을 사용하세요.

    json5
    {  agents: {    defaults: {      model: { primary: "ds4/deepseek-v4-flash" },      models: {        "ds4/deepseek-v4-flash": {          alias: "DS4 local",        },      },    },  },  models: {    mode: "merge",    providers: {      ds4: {        baseUrl: "http://127.0.0.1:18000/v1",        apiKey: "ds4-local",        api: "openai-completions",        timeoutSeconds: 300,        models: [          {            id: "deepseek-v4-flash",            name: "DeepSeek V4 Flash (ds4)",            reasoning: true,            input: ["text"],            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },            contextWindow: 32768,            maxTokens: 128,            compat: {              supportsUsageInStreaming: true,              supportsReasoningEffort: true,              maxTokensField: "max_tokens",              supportsStrictMode: false,              thinkingFormat: "deepseek",              supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],            },          },        ],      },    },  },}

    contextWindowds4-server --ctx 값과 맞추세요. OpenClaw가 서버 기본값보다 더 적은 출력을 요청하도록 의도한 경우가 아니라면 maxTokens--tokens와 맞추세요.

    필요 시 시작

    OpenClaw는 ds4/... 모델이 선택된 경우에만 ds4를 시작할 수 있습니다. 같은 제공자 항목에 localService를 추가하세요.

    json5
    {  models: {    providers: {      ds4: {        baseUrl: "http://127.0.0.1:18000/v1",        apiKey: "ds4-local",        api: "openai-completions",        timeoutSeconds: 300,        localService: {          command: "<DS4_DIR>/ds4-server",          args: [            "--model",            "<DS4_DIR>/ds4flash.gguf",            "--host",            "127.0.0.1",            "--port",            "18000",            "--ctx",            "32768",            "--tokens",            "128",          ],          cwd: "<DS4_DIR>",          healthUrl: "http://127.0.0.1:18000/v1/models",          readyTimeoutMs: 300000,          idleStopMs: 0,        },        models: [          {            id: "deepseek-v4-flash",            name: "DeepSeek V4 Flash (ds4)",            reasoning: true,            input: ["text"],            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },            contextWindow: 32768,            maxTokens: 128,            compat: {              supportsUsageInStreaming: true,              supportsReasoningEffort: true,              maxTokensField: "max_tokens",              supportsStrictMode: false,              thinkingFormat: "deepseek",              supportedReasoningEfforts: ["low", "medium", "high", "xhigh"],            },          },        ],      },    },  },}

    command는 절대 실행 파일 경로여야 합니다. 셸 조회와 ~ 확장은 사용되지 않습니다. 모든 localService 필드는 로컬 모델 서비스를 참조하세요.

    Think Max

    ds4는 두 조건이 모두 참일 때만 Think Max를 적용합니다.

    • ds4-server--ctx 393216 이상으로 시작됩니다.
    • 요청이 reasoning_effort: "max" 또는 동등한 ds4 effort 필드를 사용합니다.

    그처럼 큰 컨텍스트를 실행하는 경우 서버 플래그와 OpenClaw 모델 메타데이터를 모두 업데이트하세요.

    json5
    {  contextWindow: 393216,  maxTokens: 384000,  compat: {    supportsUsageInStreaming: true,    supportsReasoningEffort: true,    maxTokensField: "max_tokens",    supportsStrictMode: false,    thinkingFormat: "deepseek",    supportedReasoningEfforts: ["low", "medium", "high", "xhigh", "max"],  },}

    테스트

    직접 HTTP 검사부터 시작하세요.

    bash
    curl http://127.0.0.1:18000/v1/chat/completions \  -H 'content-type: application/json' \  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"Reply with exactly: ds4-ok"}],"max_tokens":16,"stream":false,"thinking":{"type":"disabled"}}'

    그런 다음 OpenClaw 모델 라우팅을 테스트하세요.

    bash
    openclaw infer model run \  --local \  --model ds4/deepseek-v4-flash \  --thinking off \  --prompt "Reply with exactly: openclaw-ds4-ok" \  --json

    전체 에이전트 및 도구 호출 스모크에는 최소 32768의 컨텍스트를 사용하세요.

    bash
    openclaw agent \  --local \  --session-id ds4-tool-smoke \  --model ds4/deepseek-v4-flash \  --thinking off \  --message "Use the shell command pwd once, then reply exactly: tool-ok <output>" \  --json \  --timeout 240

    예상 결과:

    • executionTrace.winnerProviderds4입니다.
    • executionTrace.winnerModeldeepseek-v4-flash입니다.
    • toolSummary.calls는 최소 1입니다.
    • finalAssistantVisibleTexttool-ok로 시작합니다.

    문제 해결

    curl /v1/models cannot connect

    ds4가 실행 중이 아니거나 baseUrl의 호스트와 포트에 바인딩되어 있지 않습니다. ds4-server를 시작한 다음 다시 시도하세요.

    bash
    curl http://127.0.0.1:18000/v1/models
    500 prompt exceeds context

    구성된 --ctx가 OpenClaw 턴에 너무 작습니다. ds4-server --ctx를 늘린 다음 models.providers.ds4.models[].contextWindow를 일치하도록 업데이트하세요. 도구가 포함된 전체 에이전트 턴은 직접 한 메시지만 보내는 curl 요청보다 훨씬 더 많은 컨텍스트가 필요합니다.

    Think Max does not activate

    ds4는 --ctx가 최소 393216이고 요청이 reasoning_effort: "max"를 요청할 때만 Think Max를 사용합니다. 더 작은 컨텍스트는 높은 추론으로 폴백합니다.

    The first request is slow

    ds4에는 콜드 Metal 상주 및 모델 워밍업 단계가 있습니다. OpenClaw가 필요 시 서버를 시작할 때는 localService.readyTimeoutMs: 300000을 사용하세요.

    관련 항목

    Was this useful?
    On this page

    On this page