メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw は、送信返信を 14 の音声プロバイダーで音声に変換し、Feishu、Matrix、Telegram、WhatsApp ではネイティブ音声メッセージとして、それ以外では音声添付として、さらに電話と Talk 向けには PCM/Ulaw ストリームとして配信できます。 TTS は、Talk の stt-tts モードにおける音声出力側です。プロバイダーネイティブの realtime Talk セッションでは、この TTS パスを呼び出す代わりにリアルタイムプロバイダー内で音声を合成します。一方、transcription セッションではアシスタントの音声応答を合成しません。

クイックスタート

1

Pick a provider

OpenAI と ElevenLabs は、ホスト型オプションの中で最も信頼性があります。Microsoft と Local CLI は API キーなしで動作します。完全な一覧はプロバイダーマトリクスを参照してください。
2

Set the API key

プロバイダー用の環境変数をエクスポートします(例: OPENAI_API_KEY, ELEVENLABS_API_KEY)。Microsoft と Local CLI にはキーは不要です。
3

Enable in config

messages.tts.auto: "always"messages.tts.provider を設定します。
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
    },
  },
}
4

Try it in chat

/tts status は現在の状態を表示します。/tts audio Hello from OpenClaw は単発の音声返信を送信します。
Auto-TTS はデフォルトでオフです。messages.tts.provider が未設定の場合、 OpenClaw はレジストリの自動選択順で最初に設定済みのプロバイダーを選びます。 組み込みの tts エージェントツールは明示的な意図がある場合のみ使われます。通常のチャットは、 ユーザーが音声を要求する、/tts を使う、または Auto-TTS/ディレクティブ音声を有効にするまでは テキストのままです。

対応プロバイダー

プロバイダー認証メモ
Azure SpeechAZURE_SPEECH_KEY + AZURE_SPEECH_REGION (also AZURE_SPEECH_API_KEY, SPEECH_KEY, SPEECH_REGION)ネイティブ Ogg/Opus 音声ノート出力と電話対応。
DeepInfraDEEPINFRA_API_KEYOpenAI 互換 TTS。デフォルトは hexgrad/Kokoro-82M
ElevenLabsELEVENLABS_API_KEY or XI_API_KEY音声クローニング、多言語対応、seed による決定性。Discord 音声再生向けにストリーミングされます。
Google GeminiGEMINI_API_KEY or GOOGLE_API_KEYGemini API バッチ TTS。promptTemplate: "audio-profile-v1" によりペルソナを反映できます。
GradiumGRADIUM_API_KEY音声ノートと電話向けの出力。
InworldINWORLD_API_KEYストリーミング TTS API。ネイティブ Opus 音声ノートと PCM 電話対応。
Local CLIなし設定済みのローカル TTS コマンドを実行します。
Microsoftなしnode-edge-tts 経由の公開 Edge neural TTS。ベストエフォートで SLA はありません。
MiniMaxMINIMAX_API_KEY (or Token Plan: MINIMAX_OAUTH_TOKEN, MINIMAX_CODE_PLAN_KEY, MINIMAX_CODING_API_KEY)T2A v2 API。デフォルトは speech-2.8-hd
OpenAIOPENAI_API_KEY自動要約にも使用されます。ペルソナ instructions をサポートします。
OpenRouterOPENROUTER_API_KEY (models.providers.openrouter.apiKey を再利用可能)デフォルトモデルは hexgrad/kokoro-82m
VolcengineVOLCENGINE_TTS_API_KEY or BYTEPLUS_SEED_SPEECH_API_KEY (legacy AppID/token: VOLCENGINE_TTS_APPID/_TOKEN)BytePlus Seed Speech HTTP API。
VydraVYDRA_API_KEY画像、動画、音声で共有されるプロバイダー。
xAIXAI_API_KEYxAI バッチ TTS。ネイティブ Opus 音声ノートはサポートされません
Xiaomi MiMoXIAOMI_API_KEYXiaomi chat completions 経由の MiMo TTS。
複数のプロバイダーが設定されている場合、選択されたものが最初に使用され、 それ以外はフォールバックオプションになります。自動要約は summaryModel(または agents.defaults.model.primary)を使用するため、要約を有効のままにする場合は、 そのプロバイダーも認証済みである必要があります。
バンドルされている Microsoft プロバイダーは、node-edge-tts 経由で Microsoft Edge のオンライン neural TTS サービスを使用します。これは公開 Web サービスであり、公開された SLA やクォータはありません。 ベストエフォートとして扱ってください。レガシープロバイダー ID edgemicrosoft に正規化され、openclaw doctor --fix は永続化された設定を書き換えます。 新しい設定では常に microsoft を使用してください。

設定

TTS 設定は ~/.openclaw/openclaw.jsonmessages.tts 配下にあります。 プリセットを選び、プロバイダーブロックを調整してください。
{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          apiKey: "${AZURE_SPEECH_KEY}",
          region: "eastus",
          voice: "en-US-JennyNeural",
          lang: "en-US",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
          voiceNoteOutputFormat: "ogg-24khz-16bit-mono-opus",
        },
      },
    },
  },
}

エージェントごとの音声オーバーライド

1 つのエージェントに別のプロバイダー、音声、モデル、ペルソナ、または Auto-TTS モードで話させる場合は、agents.list[].tts を使用します。エージェントブロックは messages.tts の上にディープマージされるため、プロバイダー認証情報はグローバルなプロバイダー設定に置いたままにできます。
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
      providers: {
        elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", model: "eleven_multilingual_v2" },
      },
    },
  },
  agents: {
    list: [
      {
        id: "reader",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },
          },
        },
      },
    ],
  },
}
エージェントごとのペルソナを固定するには、プロバイダー設定と並べて agents.list[].tts.persona を設定します。このエージェントに対してのみ、グローバルな messages.tts.persona を上書きします。 自動返信、/tts audio/tts statustts エージェントツールの優先順位:
  1. messages.tts
  2. アクティブな agents.list[].tts
  3. チャンネルが channels.<channel>.tts をサポートする場合のチャンネル上書き
  4. チャンネルが channels.<channel>.accounts.<id>.tts を渡す場合のアカウント上書き
  5. このホストのローカル /tts 設定
  6. モデルによるディレクティブが有効な場合のインライン [[tts:...]] ディレクティブ
チャンネルとアカウントの上書きは messages.tts と同じ形を使用し、前のレイヤーに対してディープマージされます。そのため、共有プロバイダー認証情報は messages.tts に置いたまま、チャンネルやボットアカウントでは voice、model、persona、auto モードだけを変更できます。
{
  messages: {
    tts: {
      provider: "openai",
      providers: {
        openai: { apiKey: "${OPENAI_API_KEY}", model: "gpt-4o-mini-tts" },
      },
    },
  },
  channels: {
    feishu: {
      accounts: {
        english: {
          tts: {
            providers: {
              openai: { voice: "shimmer" },
            },
          },
        },
      },
    },
  },
}

ペルソナ

ペルソナ は、プロバイダー間で決定論的に適用できる安定した音声上の同一性です。1つのプロバイダーを優先し、プロバイダー非依存のプロンプト意図を定義し、voice、model、プロンプトテンプレート、seed、voice 設定に対するプロバイダー固有のバインディングを保持できます。

最小ペルソナ

{
  messages: {
    tts: {
      auto: "always",
      persona: "narrator",
      personas: {
        narrator: {
          label: "Narrator",
          provider: "elevenlabs",
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL", modelId: "eleven_multilingual_v2" },
          },
        },
      },
    },
  },
}

完全なペルソナ(プロバイダー非依存プロンプト)

{
  messages: {
    tts: {
      auto: "always",
      persona: "alfred",
      personas: {
        alfred: {
          label: "Alfred",
          description: "Dry, warm British butler narrator.",
          provider: "google",
          fallbackPolicy: "preserve-persona",
          prompt: {
            profile: "A brilliant British butler. Dry, witty, warm, charming, emotionally expressive, never generic.",
            scene: "A quiet late-night study. Close-mic narration for a trusted operator.",
            sampleContext: "The speaker is answering a private technical request with concise confidence and dry warmth.",
            style: "Refined, understated, lightly amused.",
            accent: "British English.",
            pacing: "Measured, with short dramatic pauses.",
            constraints: ["Do not read configuration values aloud.", "Do not explain the persona."],
          },
          providers: {
            google: {
              model: "gemini-3.1-flash-tts-preview",
              voiceName: "Algieba",
              promptTemplate: "audio-profile-v1",
            },
            openai: { model: "gpt-4o-mini-tts", voice: "cedar" },
            elevenlabs: {
              voiceId: "voice_id",
              modelId: "eleven_multilingual_v2",
              seed: 42,
              voiceSettings: {
                stability: 0.65,
                similarityBoost: 0.8,
                style: 0.25,
                useSpeakerBoost: true,
                speed: 0.95,
              },
            },
          },
        },
      },
    },
  },
}

ペルソナ解決

アクティブなペルソナは決定論的に選択されます。
  1. 設定されている場合は、/tts persona <id> のローカル設定。
  2. 設定されている場合は、messages.tts.persona
  3. ペルソナなし。
プロバイダー選択は明示指定を優先して実行されます。
  1. 直接上書き(CLI、Gateway、Talk、許可された TTS ディレクティブ)。
  2. /tts provider <id> のローカル設定。
  3. アクティブなペルソナの provider
  4. messages.tts.provider
  5. レジストリの自動選択。
各プロバイダー試行について、OpenClaw は次の順序で設定をマージします。
  1. messages.tts.providers.<id>
  2. messages.tts.personas.<persona>.providers.<id>
  3. 信頼済みリクエストの上書き
  4. 許可されたモデル出力 TTS ディレクティブの上書き

プロバイダーがペルソナプロンプトを使用する方法

ペルソナプロンプトフィールド(profilescenesampleContextstyleaccentpacingconstraints)は プロバイダー非依存 です。各プロバイダーがそれらの使い方を決定します。
有効な Google プロバイダー設定で promptTemplate: "audio-profile-v1" または personaPrompt が設定されている 場合にのみ、ペルソナプロンプトフィールドを Gemini TTS プロンプト構造でラップします。古い audioProfile フィールドと speakerName フィールドは、引き続き Google 固有のプロンプトテキストとして先頭に追加されます。[[tts:text]] ブロック内の [whispers][laughs] などのインライン音声タグは Gemini トランスクリプト内に保持されます。OpenClaw はこれらのタグを生成しません。
明示的な OpenAI instructions が設定されていない 場合にのみ、ペルソナプロンプトフィールドをリクエストの instructions フィールドにマッピングします。明示的な instructions が常に優先されます。
personas.<id>.providers.<provider> の下にあるプロバイダー固有のペルソナバインディングだけを使用します。プロバイダーが独自のペルソナプロンプトマッピングを実装していない限り、ペルソナプロンプトフィールドは無視されます。

フォールバックポリシー

fallbackPolicy は、試行されたプロバイダーに対する バインディングがない ペルソナの動作を制御します。
ポリシー動作
preserve-personaデフォルト。 プロバイダー非依存のプロンプトフィールドは利用可能なままです。プロバイダーはそれらを使用することも無視することもできます。
provider-defaultsその試行のプロンプト準備からペルソナが省略されます。別のプロバイダーへのフォールバックが継続する間、そのプロバイダーは中立的なデフォルトを使用します。
failreasonCode: "not_configured"personaBinding: "missing" でそのプロバイダー試行をスキップします。フォールバックプロバイダーは引き続き試行されます。
TTS リクエスト全体が失敗するのは、試行されたプロバイダーが すべて スキップされるか失敗した場合だけです。 Talk セッションのプロバイダー選択はセッションスコープです。Talk クライアントは talk.catalog から provider id、model id、voice id、locale を選び、Talk セッションまたはハンドオフリクエスト経由で渡す必要があります。音声セッションを開いても、messages.tts やグローバルな Talk プロバイダーデフォルトを変更してはいけません。

モデルによるディレクティブ

デフォルトでは、アシスタントは [[tts:...]] ディレクティブを出力して、1つの返信について voice、model、speed を上書きできます。さらに、音声のみに現れる表現上のキュー用に、任意で [[tts:text]]...[[/tts:text]] ブロックも出力できます。
Here you go.

[[tts:voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
[[tts:text]](laughs) Read the song once more.[[/tts:text]]
messages.tts.auto"tagged" の場合、音声をトリガーするには ディレクティブが必須 です。ストリーミングブロック配信では、隣接するブロックに分割されている場合でも、チャンネルに届く前に表示テキストからディレクティブが削除されます。 provider=... は、modelOverrides.allowProvider: true でない限り無視されます。返信で provider=... が宣言されている場合、そのディレクティブ内の他のキーはそのプロバイダーだけが解析します。サポートされていないキーは削除され、TTS ディレクティブ警告として報告されます。 利用可能なディレクティブキー:
  • provider(登録済み provider id。allowProvider: true が必要)
  • voice / voiceName / voice_name / google_voice / voiceId
  • model / google_model
  • stability, similarityBoost, style, speed, useSpeakerBoost
  • vol / volume(MiniMax volume、0–10)
  • pitch(MiniMax の整数 pitch、−12 から 12。小数値は切り捨て)
  • emotion(Volcengine emotion タグ)
  • applyTextNormalizationauto|on|off
  • languageCode(ISO 639-1)
  • seed
モデル上書きを完全に無効化:
{ messages: { tts: { modelOverrides: { enabled: false } } } }
他のノブを設定可能にしたままプロバイダー切り替えを許可:
{ messages: { tts: { modelOverrides: { enabled: true, allowProvider: true, allowSeed: false } } } }

スラッシュコマンド

単一コマンド /tts。Discord では、/tts が組み込み Discord コマンドであるため、OpenClaw は /voice も登録します。テキストの /tts ... は引き続き機能します。
/tts off | on | status
/tts chat on | off | default
/tts latest
/tts provider <id>
/tts persona <id> | off
/tts limit <chars>
/tts summary off
/tts audio <text>
コマンドには認可済み送信者が必要です(許可リスト/所有者ルールが適用されます)。また、commands.text またはネイティブコマンド登録が有効である必要があります。
動作メモ:
  • /tts on はローカル TTS 設定を always に書き込みます。/tts offoff に書き込みます。
  • /tts chat on|off|default は現在のチャットに対して、セッションスコープの auto-TTS 上書きを書き込みます。
  • /tts persona <id> はローカルペルソナ設定を書き込みます。/tts persona off はそれをクリアします。
  • /tts latest は現在のセッショントランスクリプトから最新のアシスタント返信を読み取り、一度だけ音声として送信します。重複する音声送信を抑制するために、その返信のハッシュだけをセッションエントリに保存します。
  • /tts audio は単発の音声返信を生成します(TTS をオンに しません)。
  • limitsummary はメイン設定ではなく ローカル設定 に保存されます。
  • /tts status には最新の試行に対するフォールバック診断が含まれます。Fallback: <primary> -> <used>Attempts: ...、試行ごとの詳細(provider:outcome(reasonCode) latency)です。
  • /status は TTS が有効な場合、アクティブな TTS モードに加え、設定済みの provider、model、voice、サニタイズ済みのカスタムエンドポイントメタデータを表示します。

ユーザーごとの設定

スラッシュコマンドはローカル上書きを prefsPath に書き込みます。デフォルトは ~/.openclaw/settings/tts.json です。OPENCLAW_TTS_PREFS 環境変数または messages.tts.prefsPath で上書きします。
保存フィールド効果
autoローカル auto-TTS 上書き(alwaysoff、…)
providerローカルのプライマリプロバイダー上書き
personaローカルペルソナ上書き
maxLength要約しきい値(デフォルト 1500 文字)
summarize要約トグル(デフォルト true
これらは、そのホストに対する messages.tts とアクティブな agents.list[].tts ブロックから得られる有効設定を上書きします。

出力形式(固定)

TTS 音声配信はチャンネル機能によって制御されます。チャンネル Plugin は、音声形式の TTS でプロバイダーにネイティブな voice-note ターゲットを要求するべきか、通常の audio-file 合成を維持して互換性のある出力を音声配信用にマークするだけにするべきかを広告します。
  • ボイスノート対応チャンネル: ボイスノート返信は Opus(ElevenLabs の opus_48000_64、OpenAI の opus)を優先します。
    • 48kHz / 64kbps は音声メッセージとしてバランスのよいトレードオフです。
  • Feishu / WhatsApp: ボイスノート返信が MP3/WebM/WAV/M4A または別の音声ファイルと思われる形式で生成された場合、チャンネルPluginはネイティブ音声メッセージを送信する前に、ffmpeg で 48kHz Ogg/Opus にトランスコードします。WhatsApp は Baileys の audio ペイロードで ptt: trueaudio/ogg; codecs=opus を付けて結果を送信します。変換に失敗した場合、Feishu は元の ファイルを添付ファイルとして受信します。WhatsApp の送信は、互換性のない PTT ペイロードを投稿するのではなく失敗します。
  • その他のチャンネル: MP3(ElevenLabs の mp3_44100_128、OpenAI の mp3)。
    • 44.1kHz / 128kbps は音声の明瞭さに対するデフォルトのバランスです。
  • MiniMax: 通常の音声添付ファイルには MP3(speech-2.8-hd モデル、32kHz サンプルレート)を使用します。チャンネルが通知するボイスノート対象では、チャンネルがトランスコードを通知している場合、OpenClaw は配信前に ffmpeg で MiniMax MP3 を 48kHz Opus にトランスコードします。
  • Xiaomi MiMo: デフォルトでは MP3、設定されている場合は WAV を使用します。チャンネルが通知するボイスノート対象では、チャンネルがトランスコードを通知している場合、OpenClaw は配信前に ffmpeg で Xiaomi 出力を 48kHz Opus にトランスコードします。
  • ローカル CLI: 設定された outputFormat を使用します。ボイスノート対象は Ogg/Opus に変換され、電話出力は ffmpeg で生の 16 kHz モノラル PCM に変換されます。
  • Google Gemini: Gemini API TTS は生の 24kHz PCM を返します。OpenClaw は音声添付ファイル用にそれを WAV としてラップし、ボイスノート対象用に 48kHz Opus にトランスコードし、Talk/電話用には PCM を直接返します。
  • Gradium: 音声添付ファイルには WAV、ボイスノート対象には Opus、電話には 8 kHz の ulaw_8000 を使用します。
  • Inworld: 通常の音声添付ファイルには MP3、ボイスノート対象にはネイティブ OGG_OPUS、Talk/電話には 22050 Hz の生 PCM を使用します。
  • xAI: デフォルトでは MP3 です。responseFormatmp3wavpcmmulaw、または alaw にできます。OpenClaw は xAI のバッチ REST TTS エンドポイントを使用し、完全な音声添付ファイルを返します。xAI のストリーミング TTS WebSocket は、このプロバイダーパスでは使用されません。ネイティブ Opus ボイスノート形式は、このパスではサポートされていません。
  • Microsoft: microsoft.outputFormat(デフォルト audio-24khz-48kbitrate-mono-mp3)を使用します。
    • バンドルされたトランスポートは outputFormat を受け付けますが、すべての形式がサービスから利用できるわけではありません。
    • 出力形式の値は Microsoft Speech の出力形式(Ogg/WebM Opus を含む)に従います。
    • Telegram sendVoice は OGG/MP3/M4A を受け付けます。Opus 音声メッセージを 確実に必要とする場合は OpenAI/ElevenLabs を使用してください。
    • 設定された Microsoft 出力形式が失敗した場合、OpenClaw は MP3 で再試行します。
OpenAI/ElevenLabs の出力形式はチャンネルごとに固定されています(上記を参照)。

Auto-TTS の動作

messages.tts.auto が有効な場合、OpenClaw は次を行います。
  • 返信にすでにメディアまたは MEDIA: ディレクティブが含まれている場合、TTS をスキップします。
  • 非常に短い返信(10 文字未満)をスキップします。
  • 要約が有効な場合、summaryModel(または agents.defaults.model.primary)を使用して 長い返信を要約します。
  • 生成された音声を返信に添付します。
  • mode: "final" では、テキストストリームの完了後も、ストリーミングされた最終返信に対して 音声のみの TTS を送信します。生成されたメディアは通常の返信添付ファイルと同じ チャンネルメディア正規化を通ります。
返信が maxLength を超え、要約がオフ(または要約モデルの API キーがない)場合、 音声はスキップされ、通常のテキスト返信が送信されます。
Reply -> TTS enabled?
  no  -> send text
  yes -> has media / MEDIA: / short?
          yes -> send text
          no  -> length > limit?
                   no  -> TTS -> attach audio
                   yes -> summary enabled?
                            no  -> send text
                            yes -> summarize -> TTS -> attach audio

チャンネル別の出力形式

対象形式
Feishu / Matrix / Telegram / WhatsAppボイスノート返信は Opus(ElevenLabs の opus_48000_64、OpenAI の opus)を優先します。48 kHz / 64 kbps は明瞭さとサイズのバランスを取ります。
その他のチャンネルMP3(ElevenLabs の mp3_44100_128、OpenAI の mp3)。44.1 kHz / 128 kbps は音声のデフォルトです。
Talk / 電話プロバイダーのネイティブ PCM(Inworld 22050 Hz、Google 24 kHz)、または電話用の Gradium の ulaw_8000
プロバイダー別の注記:
  • Feishu / WhatsApp のトランスコード: ボイスノート返信が MP3/WebM/WAV/M4A として届くと、チャンネルPluginは ffmpeg で 48 kHz Ogg/Opus にトランスコードします。WhatsApp は Baileys 経由で ptt: trueaudio/ogg; codecs=opus を付けて送信します。変換に失敗した場合: Feishu は元のファイルを添付するようにフォールバックします。WhatsApp の送信は、互換性のない PTT ペイロードを投稿するのではなく失敗します。
  • MiniMax / Xiaomi MiMo: デフォルトは MP3(MiniMax speech-2.8-hd は 32 kHz)。ボイスノート対象では ffmpeg によって 48 kHz Opus にトランスコードされます。
  • ローカル CLI: 設定された outputFormat を使用します。ボイスノート対象は Ogg/Opus に変換され、電話出力は生の 16 kHz モノラル PCM に変換されます。
  • Google Gemini: 生の 24 kHz PCM を返します。OpenClaw は添付ファイル用には WAV としてラップし、ボイスノート対象用には 48 kHz Opus にトランスコードし、Talk/電話用には PCM を直接返します。
  • Inworld: MP3 添付ファイル、ネイティブ OGG_OPUS ボイスノート、Talk/電話用には 22050 Hz の生 PCM
  • xAI: デフォルトでは MP3 です。responseFormatmp3|wav|pcm|mulaw|alaw にできます。xAI のバッチ REST エンドポイントを使用します。ストリーミング WebSocket TTS は使用されません。ネイティブ Opus ボイスノート形式はサポートされていません
  • Microsoft: microsoft.outputFormat(デフォルト audio-24khz-48kbitrate-mono-mp3)を使用します。Telegram sendVoice は OGG/MP3/M4A を受け付けます。Opus 音声メッセージを確実に必要とする場合は OpenAI/ElevenLabs を使用してください。設定された Microsoft 形式が失敗した場合、OpenClaw は MP3 で再試行します。
OpenAI と ElevenLabs の出力形式は、上記のとおりチャンネルごとに固定されています。

フィールドリファレンス

auto
"off" | "always" | "inbound" | "tagged"
Auto-TTS モード。inbound はインバウンド音声メッセージの後にのみ音声を送信します。tagged は返信に [[tts:...]] ディレクティブまたは [[tts:text]] ブロックが含まれている場合にのみ音声を送信します。
enabled
boolean
非推奨
レガシートグル。openclaw doctor --fix はこれを auto に移行します。
mode
"final" | "all"
デフォルト:"final"
"all" は最終返信に加えてツール/ブロック返信を含めます。
provider
string
音声プロバイダー ID。未設定の場合、OpenClaw はレジストリの自動選択順で最初に設定されたプロバイダーを使用します。レガシー provider: "edge"openclaw doctor --fix によって "microsoft" に書き換えられます。
persona
string
personas からのアクティブなペルソナ ID。小文字に正規化されます。
personas.<id>
object
安定した発話上のアイデンティティ。フィールド: labeldescriptionproviderfallbackPolicypromptproviders.<provider>ペルソナ を参照してください。
summaryModel
string
自動要約用の低コストモデル。デフォルトは agents.defaults.model.primary です。provider/model または設定済みのモデルエイリアスを受け付けます。
modelOverrides
object
モデルが TTS ディレクティブを出力できるようにします。enabled のデフォルトは trueallowProvider のデフォルトは false です。
providers.<id>
object
音声プロバイダー ID でキー付けされた、プロバイダー所有の設定。レガシーの直接ブロック(messages.tts.openai.elevenlabs.microsoft.edge)は openclaw doctor --fix によって書き換えられます。messages.tts.providers.<id> のみをコミットしてください。
maxTextLength
number
TTS 入力文字数のハード上限。超過した場合、/tts audio は失敗します。
timeoutMs
number
リクエストタイムアウト(ミリ秒)。
prefsPath
string
ローカル設定 JSON パス(プロバイダー/制限/要約)を上書きします。デフォルトは ~/.openclaw/settings/tts.json です。
apiKey
string
Env: AZURE_SPEECH_KEYAZURE_SPEECH_API_KEY、または SPEECH_KEY
region
string
Azure Speech リージョン(例: eastus)。Env: AZURE_SPEECH_REGION または SPEECH_REGION
endpoint
string
任意の Azure Speech エンドポイント上書き(エイリアス baseUrl)。
voice
string
Azure 音声 ShortName。デフォルトは en-US-JennyNeural
lang
string
SSML 言語コード。デフォルトは en-US
outputFormat
string
標準音声用の Azure X-Microsoft-OutputFormat。デフォルトは audio-24khz-48kbitrate-mono-mp3
voiceNoteOutputFormat
string
ボイスノート出力用の Azure X-Microsoft-OutputFormat。デフォルトは ogg-24khz-16bit-mono-opus
apiKey
string
ELEVENLABS_API_KEY または XI_API_KEY にフォールバックします。
model
string
モデル ID(例: eleven_multilingual_v2eleven_v3)。
voiceId
string
ElevenLabs 音声 ID。
voiceSettings
object
stabilitysimilarityBooststyle(それぞれ 0..1)、useSpeakerBoosttrue|false)、speed0.5..2.01.0 = 通常)。
applyTextNormalization
"auto" | "on" | "off"
テキスト正規化モード。
languageCode
string
2 文字の ISO 639-1(例: ende)。
seed
number
ベストエフォートの決定性のための整数 0..4294967295
baseUrl
string
ElevenLabs API ベース URL を上書きします。
apiKey
string
GEMINI_API_KEY / GOOGLE_API_KEY にフォールバックします。省略した場合、TTS は env フォールバックの前に models.providers.google.apiKey を再利用できます。
model
string
Gemini TTS モデル。デフォルトは gemini-3.1-flash-tts-preview
voiceName
string
Gemini 事前構築済み音声名。デフォルトは Kore。エイリアス: voice
audioProfile
string
発話テキストの前に付加される自然言語スタイルプロンプト。
speakerName
string
プロンプトが名前付き話者を使用する場合、発話テキストの前に付加される任意の話者ラベル。
promptTemplate
"audio-profile-v1"
アクティブなペルソナプロンプトフィールドを決定的な Gemini TTS プロンプト構造でラップするには audio-profile-v1 に設定します。
personaPrompt
string
テンプレートの Director’s Notes に追加される、Google 固有の追加ペルソナプロンプトテキスト。
baseUrl
string
https://generativelanguage.googleapis.com のみ受け付けられます。
apiKey
string
Env: GRADIUM_API_KEY
baseUrl
string
デフォルトは https://api.gradium.ai
voiceId
string
デフォルトは Emma (YTpq7expH9539ERJ)。

Inworld プライマリ

apiKey
string
Env: INWORLD_API_KEY
baseUrl
string
デフォルトは https://api.inworld.ai
modelId
string
デフォルトは inworld-tts-1.5-max。ほかに inworld-tts-1.5-miniinworld-tts-1-maxinworld-tts-1
voiceId
string
デフォルトは Sarah
temperature
number
サンプリング温度 0..2
command
string
CLI TTS 用のローカル実行ファイルまたはコマンド文字列。
args
string[]
コマンド引数。{{Text}}{{OutputPath}}{{OutputDir}}{{OutputBase}} プレースホルダーをサポート。
outputFormat
"mp3" | "opus" | "wav"
想定される CLI 出力形式。音声添付ファイルのデフォルトは mp3
timeoutMs
number
コマンドタイムアウト (ミリ秒)。デフォルトは 120000
cwd
string
任意のコマンド作業ディレクトリ。
env
Record<string, string>
コマンド用の任意の環境上書き。
enabled
boolean
デフォルト:"true"
Microsoft 音声の使用を許可します。
voice
string
Microsoft ニューラル音声名 (例: en-US-MichelleNeural)。
lang
string
言語コード (例: en-US)。
outputFormat
string
Microsoft 出力形式。デフォルトは audio-24khz-48kbitrate-mono-mp3。バンドルされた Edge ベースのトランスポートでは、すべての形式がサポートされるわけではありません。
rate / pitch / volume
string
パーセント文字列 (例: +10%-5%)。
saveSubtitles
boolean
音声ファイルと並べて JSON 字幕を書き込みます。
proxy
string
Microsoft 音声リクエスト用のプロキシ URL。
timeoutMs
number
リクエストタイムアウトの上書き (ms)。
edge.*
object
非推奨
レガシーエイリアス。永続化された設定を providers.microsoft に書き換えるには openclaw doctor --fix を実行します。
apiKey
string
MINIMAX_API_KEY にフォールバックします。Token Plan 認証は MINIMAX_OAUTH_TOKENMINIMAX_CODE_PLAN_KEY、または MINIMAX_CODING_API_KEY 経由。
baseUrl
string
デフォルトは https://api.minimax.io。Env: MINIMAX_API_HOST
model
string
デフォルトは speech-2.8-hd。Env: MINIMAX_TTS_MODEL
voiceId
string
デフォルトは English_expressive_narrator。Env: MINIMAX_TTS_VOICE_ID
speed
number
0.5..2.0。デフォルトは 1.0
vol
number
(0, 10]。デフォルトは 1.0
pitch
number
整数 -12..12。デフォルトは 0。小数値はリクエスト前に切り捨てられます。
apiKey
string
OPENAI_API_KEY にフォールバックします。
model
string
OpenAI TTS モデル ID (例: gpt-4o-mini-tts)。
voice
string
音声名 (例: alloycedar)。
instructions
string
明示的な OpenAI instructions フィールド。設定すると、ペルソナプロンプトフィールドは自動マッピングされません
extraBody / extra_body
Record<string, unknown>
生成された OpenAI TTS フィールドの後に /audio/speech リクエスト本文へマージされる追加 JSON フィールド。Kokoro のように lang などのプロバイダー固有キーを必要とする OpenAI 互換エンドポイントで使用します。安全でないプロトタイプキーは無視されます。
baseUrl
string
OpenAI TTS エンドポイントを上書きします。解決順序: config → OPENAI_TTS_BASE_URLhttps://api.openai.com/v1。デフォルト以外の値は OpenAI 互換 TTS エンドポイントとして扱われるため、カスタムモデル名と音声名を使用できます。
apiKey
string
Env: OPENROUTER_API_KEYmodels.providers.openrouter.apiKey を再利用できます。
baseUrl
string
デフォルトは https://openrouter.ai/api/v1。レガシーの https://openrouter.ai/v1 は正規化されます。
model
string
デフォルトは hexgrad/kokoro-82m。エイリアス: modelId
voice
string
デフォルトは af_alloy。エイリアス: voiceId
responseFormat
"mp3" | "pcm"
デフォルトは mp3
speed
number
プロバイダーネイティブの速度上書き。
apiKey
string
Env: VOLCENGINE_TTS_API_KEY または BYTEPLUS_SEED_SPEECH_API_KEY
resourceId
string
デフォルトは seed-tts-1.0。Env: VOLCENGINE_TTS_RESOURCE_ID。プロジェクトに TTS 2.0 権限がある場合は seed-tts-2.0 を使用します。
appKey
string
アプリキー ヘッダー。デフォルトは aGjiRDfUWi。Env: VOLCENGINE_TTS_APP_KEY
baseUrl
string
Seed Speech TTS HTTP エンドポイントを上書きします。Env: VOLCENGINE_TTS_BASE_URL
voice
string
音声タイプ。デフォルトは en_female_anna_mars_bigtts。Env: VOLCENGINE_TTS_VOICE
speedRatio
number
プロバイダーネイティブの速度比。
emotion
string
プロバイダーネイティブの感情タグ。
appId / token / cluster
string
非推奨
レガシーの Volcengine Speech Console フィールド。Env: VOLCENGINE_TTS_APPIDVOLCENGINE_TTS_TOKENVOLCENGINE_TTS_CLUSTER (デフォルトは volcano_tts)。
apiKey
string
Env: XAI_API_KEY
baseUrl
string
デフォルトは https://api.x.ai/v1。Env: XAI_BASE_URL
voiceId
string
デフォルトは eve。ライブ音声: araeveleorexsaluna
language
string
BCP-47 言語コードまたは auto。デフォルトは en
responseFormat
"mp3" | "wav" | "pcm" | "mulaw" | "alaw"
デフォルトは mp3
speed
number
プロバイダーネイティブの速度上書き。
apiKey
string
Env: XIAOMI_API_KEY
baseUrl
string
デフォルトは https://api.xiaomimimo.com/v1。Env: XIAOMI_BASE_URL
model
string
デフォルトは mimo-v2.5-tts。Env: XIAOMI_TTS_MODELmimo-v2-tts もサポート。
voice
string
デフォルトは mimo_default。Env: XIAOMI_TTS_VOICE
format
"mp3" | "wav"
デフォルトは mp3。Env: XIAOMI_TTS_FORMAT
style
string
ユーザーメッセージとして送信される任意の自然言語スタイル指示。読み上げられません。

エージェントツール

tts ツールはテキストを音声に変換し、返信配信用の音声添付ファイルを返します。Feishu、Matrix、Telegram、WhatsApp では、音声はファイル添付ではなくボイスメッセージとして配信されます。Feishu と WhatsApp は、このパスで ffmpeg が利用可能な場合、非 Opus の TTS 出力をトランスコードできます。 WhatsApp は Baileys 経由で PTT ボイスノート (audioptt: true) として音声を送信し、表示テキストは PTT 音声とは別に送信します。これは、クライアントがボイスノートのキャプションを一貫して表示しないためです。 このツールは任意の channeltimeoutMs フィールドを受け入れます。timeoutMs は呼び出しごとのプロバイダーリクエストタイムアウト (ミリ秒) です。

Gateway RPC

メソッド目的
tts.status現在の TTS 状態と直近の試行を読み取ります。
tts.enableローカル自動設定を always に設定します。
tts.disableローカル自動設定を off に設定します。
tts.convert1 回限りのテキスト → 音声。
tts.setProviderローカルプロバイダー設定を設定します。
tts.setPersonaローカルペルソナ設定を設定します。
tts.providers設定済みプロバイダーとステータスを一覧表示します。

サービスリンク

関連