Plugin голосових викликів для OpenClaw. Підтримує вихідні сповіщення, багатоетапні розмови, повнодуплексний голос у реальному часі, потокову транскрипцію та вхідні виклики з політиками списку дозволених. Поточні провайдери:Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
twilio (Programmable Voice + Media Streams),
telnyx (Call Control v2), plivo (Voice API + XML transfer + GetInput
speech), mock (розробка/без мережі).
Plugin голосових викликів працює всередині процесу Gateway. Якщо ви використовуєте
віддалений Gateway, установіть і налаштуйте Plugin на машині, де працює
Gateway, а потім перезапустіть Gateway, щоб завантажити його.
Швидкий старт
Установіть Plugin
- З npm
- З локальної папки (розробка)
Налаштуйте провайдера й Webhook
Задайте конфігурацію в
plugins.entries.voice-call.config (повну структуру див.
у розділі Конфігурація нижче). Мінімально потрібні:
provider, облікові дані провайдера, fromNumber і публічно
доступна URL-адреса Webhook.Перевірте налаштування
streaming або realtime). Використовуйте
--json для скриптів.Конфігурація
Якщоenabled: true, але для вибраного провайдера бракує облікових даних,
під час запуску Gateway записує попередження про неповне налаштування з відсутніми ключами та
пропускає запуск runtime. Команди, RPC-виклики й інструменти агента все одно
повертають точну відсутню конфігурацію провайдера під час використання.
Облікові дані voice-call підтримують SecretRefs.
plugins.entries.voice-call.config.twilio.authToken, plugins.entries.voice-call.config.realtime.providers.*.apiKey, plugins.entries.voice-call.config.streaming.providers.*.apiKey і plugins.entries.voice-call.config.tts.providers.*.apiKey розв’язуються через стандартну поверхню SecretRef; див. поверхню облікових даних SecretRef.Нотатки щодо доступності провайдера й безпеки
Нотатки щодо доступності провайдера й безпеки
- Twilio, Telnyx і Plivo всі потребують публічно доступної URL-адреси Webhook.
mock— це локальний провайдер для розробки (без мережевих викликів).- Telnyx потребує
telnyx.publicKey(абоTELNYX_PUBLIC_KEY), якщоskipSignatureVerificationне дорівнює true. skipSignatureVerificationпризначено лише для локального тестування.- На безплатному рівні ngrok задайте
publicUrlяк точну URL-адресу ngrok; перевірка підпису завжди застосовується. tunnel.allowNgrokFreeTierLoopbackBypass: trueдозволяє Webhook Twilio з недійсними підписами лише колиtunnel.provider="ngrok"іserve.bindє loopback (локальний агент ngrok). Лише для локальної розробки.- URL-адреси безплатного рівня Ngrok можуть змінюватися або додавати проміжну сторінку; якщо
publicUrlзміщується, підписи Twilio не проходять перевірку. Для production віддавайте перевагу стабільному домену або funnel Tailscale.
Обмеження потокових підключень
Обмеження потокових підключень
streaming.preStartTimeoutMsзакриває сокети, які ніколи не надсилають дійсний кадрstart.streaming.maxPendingConnectionsобмежує загальну кількість неавтентифікованих сокетів перед стартом.streaming.maxPendingConnectionsPerIpобмежує неавтентифіковані сокети перед стартом для кожної IP-адреси джерела.streaming.maxConnectionsобмежує загальну кількість відкритих сокетів media stream (очікуваних + активних).
Міграції застарілої конфігурації
Міграції застарілої конфігурації
Старіші конфігурації, що використовують
provider: "log", twilio.from або застарілі
ключі OpenAI streaming.*, переписуються командою openclaw doctor --fix.
Резервний runtime поки що приймає старі ключі voice-call, але
шлях переписування — openclaw doctor --fix, а сумісний shim є
тимчасовим.Автоматично мігровані ключі streaming:streaming.sttProvider→streaming.providerstreaming.openaiApiKey→streaming.providers.openai.apiKeystreaming.sttModel→streaming.providers.openai.modelstreaming.silenceDurationMs→streaming.providers.openai.silenceDurationMsstreaming.vadThreshold→streaming.providers.openai.vadThreshold
Область сесії
Стандартно Plugin голосових викликів використовуєsessionScope: "per-phone", щоб повторні виклики від
того самого абонента зберігали пам’ять розмови. Задайте sessionScope: "per-call", коли
кожен виклик оператора має починатися зі свіжого контексту, наприклад для ресепшена,
бронювання, IVR або потоків мосту Google Meet, де той самий номер телефону може
представляти різні зустрічі.
Голосові розмови в реальному часі
realtime вибирає повнодуплексного голосового провайдера реального часу для живого аудіо
виклику. Це окремо від streaming, який лише пересилає аудіо до
провайдерів транскрипції в реальному часі.
Поточна поведінка runtime:
realtime.enabledпідтримується для Twilio Media Streams.realtime.providerнеобов’язковий. Якщо його не задано, Plugin голосових викликів використовує першого зареєстрованого голосового провайдера реального часу.- Вбудовані голосові провайдери реального часу: Google Gemini Live (
google) і OpenAI (openai), зареєстровані їхніми провайдерськими Plugin. - Сира конфігурація, що належить провайдеру, розміщується в
realtime.providers.<providerId>. - Plugin голосових викликів стандартно відкриває спільний інструмент реального часу
openclaw_agent_consult. Модель реального часу може викликати його, коли абонент просить глибшого міркування, актуальної інформації або звичайних інструментів OpenClaw. realtime.consultPolicyнеобов’язково додає вказівки щодо того, коли модель реального часу має викликатиopenclaw_agent_consult.realtime.agentContext.enabledстандартно вимкнено. Коли ввімкнено, Plugin голосових викликів додає обмежену ідентичність агента, перевизначення системного prompt і вибрану капсулу файлів робочої області до інструкцій провайдера реального часу під час налаштування сесії.realtime.fastContext.enabledстандартно вимкнено. Коли ввімкнено, Plugin голосових викликів спершу шукає питання консультації в індексованій пам’яті/контексті сесії та повертає ці фрагменти моделі реального часу в межахrealtime.fastContext.timeoutMs, перш ніж перейти до повного агента консультації лише якщоrealtime.fastContext.fallbackToConsultдорівнює true.- Якщо
realtime.providerвказує на незареєстрованого провайдера або якщо жоден голосовий провайдер реального часу не зареєстрований, Plugin голосових викликів записує попередження й пропускає медіа реального часу замість того, щоб завершити роботу всього Plugin помилкою. - Ключі сесії консультації повторно використовують збережену сесію виклику, коли вона доступна, а потім переходять до налаштованого
sessionScope(per-phoneстандартно абоper-callдля ізольованих викликів).
Політика інструментів
realtime.toolPolicy керує запуском консультації:
| Політика | Поведінка |
|---|---|
safe-read-only | Відкрити інструмент консультації та обмежити звичайного агента до read, web_search, web_fetch, x_search, memory_search і memory_get. |
owner | Відкрити інструмент консультації та дозволити звичайному агенту використовувати нормальну політику інструментів агента. |
none | Не відкривати інструмент консультації. Користувацькі realtime.tools все одно передаються провайдеру реального часу. |
realtime.consultPolicy керує лише інструкціями моделі реального часу:
| Політика | Настанова |
|---|---|
auto | Зберегти стандартний prompt і дозволити провайдеру вирішувати, коли викликати інструмент консультації. |
substantive | Відповідати на прості розмовні зв’язки напряму й консультуватися перед фактами, пам’яттю, інструментами або контекстом. |
always | Консультуватися перед кожною змістовною відповіддю. |
Голосовий контекст агента
Увімкнітьrealtime.agentContext, коли голосовий міст має звучати як
налаштований агент OpenClaw без повного циклу агентської консультації на
звичайних репліках. Капсула контексту додається один раз під час створення сесії реального часу,
тому не додає затримки на кожну репліку. Виклики
openclaw_agent_consult все одно запускають повного агента OpenClaw і мають використовуватися
для роботи з інструментами, актуальної інформації, пошуку в пам’яті або стану робочої області.
Приклади провайдерів реального часу
- Google Gemini Live
- OpenAI
Типові значення: API-ключ із
realtime.providers.google.apiKey,
GEMINI_API_KEY або GOOGLE_GENERATIVE_AI_API_KEY; модель
gemini-2.5-flash-native-audio-preview-12-2025; голос Kore.
sessionResumption і contextWindowCompression типово ввімкнені для довших
викликів із можливістю повторного підключення. Використовуйте silenceDurationMs, startSensitivity і
endSensitivity, щоб налаштувати швидше чергування реплік у телефонному аудіо.Потокова транскрипція
streaming вибирає провайдера транскрипції реального часу для аудіо живого виклику.
Поточна поведінка середовища виконання:
streaming.providerє необов’язковим. Якщо його не задано, Voice Call використовує першого зареєстрованого провайдера транскрипції реального часу.- Вбудовані провайдери транскрипції реального часу: Deepgram (
deepgram), ElevenLabs (elevenlabs), Mistral (mistral), OpenAI (openai) і xAI (xai), зареєстровані їхніми Plugin провайдерів. - Необроблена конфігурація, якою володіє провайдер, розміщується в
streaming.providers.<providerId>. - Після того як Twilio надішле прийняте повідомлення
startпотоку, Voice Call негайно реєструє потік, ставить вхідні медіадані в чергу через провайдера транскрипції, поки провайдер підключається, і запускає початкове привітання лише після готовності транскрипції реального часу. - Якщо
streaming.providerвказує на незареєстрованого провайдера або жоден провайдер не зареєстрований, Voice Call записує попередження в журнал і пропускає потокове передавання медіа замість того, щоб зупиняти весь Plugin з помилкою.
Приклади провайдерів потокового передавання
- OpenAI
- xAI
Типові значення: API-ключ
streaming.providers.openai.apiKey або
OPENAI_API_KEY; модель gpt-4o-transcribe; silenceDurationMs: 800;
vadThreshold: 0.5.TTS для викликів
Voice Call використовує основну конфігураціюmessages.tts для потокового
мовлення під час викликів. Ви можете перевизначити її в конфігурації Plugin з
такою самою формою — вона глибоко об’єднується з messages.tts.
- Застарілі ключі
tts.<provider>у конфігурації Plugin (openai,elevenlabs,microsoft,edge) виправляються командоюopenclaw doctor --fix; зафіксована в репозиторії конфігурація має використовуватиtts.providers.<provider>. - Core TTS використовується, коли ввімкнено потокове передавання медіа Twilio; інакше виклики повертаються до нативних голосів провайдера.
- Якщо медіапотік Twilio вже активний, Voice Call не повертається до TwiML
<Say>. Якщо телефонний TTS недоступний у цьому стані, запит відтворення завершується помилкою замість змішування двох шляхів відтворення. - Коли телефонний TTS повертається до вторинного провайдера, Voice Call записує попередження з ланцюжком провайдерів (
from,to,attempts) для налагодження. - Коли barge-in Twilio або демонтаж потоку очищує чергу очікуваного TTS, поставлені в чергу запити відтворення завершуються замість того, щоб залишати абонентів в очікуванні завершення відтворення.
Приклади TTS
- Core TTS only
- Override to ElevenLabs (calls only)
- OpenAI model override (deep-merge)
Вхідні виклики
Вхідна політика типово має значенняdisabled. Щоб увімкнути вхідні виклики, задайте:
responseModel,
responseSystemPrompt і responseTimeoutMs.
Маршрутизація за номером
Використовуйтеnumbers, коли один Plugin Voice Call приймає виклики для кількох телефонних
номерів і кожен номер має поводитися як окрема лінія. Наприклад, один
номер може використовувати невимушеного особистого асистента, а інший — бізнес-персону,
іншого агента відповіді та інший голос TTS.
Маршрути вибираються з наданого провайдером набраного номера To. Ключі мають бути
номерами E.164. Коли надходить виклик, Voice Call один раз визначає відповідний маршрут,
зберігає знайдений маршрут у записі виклику та повторно використовує цю ефективну конфігурацію
для привітання, класичного шляху автовідповіді, шляху консультації реального часу та
відтворення TTS. Якщо жоден маршрут не збігається, використовується глобальна конфігурація Voice Call.
Вихідні виклики не використовують numbers; передавайте вихідну ціль, повідомлення та
сеанс явно під час ініціювання виклику.
Перевизначення маршрутів наразі підтримують:
inboundGreetingttsagentIdresponseModelresponseSystemPromptresponseTimeoutMs
tts глибоко об’єднується з глобальною конфігурацією Voice Call tts, тому
зазвичай можна перевизначити лише голос провайдера:
Контракт мовленнєвого виводу
Для автовідповідей Voice Call додає суворий контракт мовленнєвого виводу до системного запиту:- Ігнорує корисні навантаження, позначені як вміст reasoning/error.
- Аналізує прямий JSON, JSON у fenced-блоці або вбудовані ключі
"spoken". - Повертається до звичайного тексту та видаляє ймовірні вступні абзаци планування/метаданих.
Поведінка запуску розмови
Для вихідних викликівconversation обробка першого повідомлення прив’язана до живого
стану відтворення:
- Очищення черги barge-in і автовідповідь пригнічуються лише тоді, коли початкове привітання активно промовляється.
- Якщо початкове відтворення зазнає невдачі, виклик повертається до
listening, а початкове повідомлення залишається в черзі для повторної спроби. - Початкове відтворення для потокового передавання Twilio починається під час підключення потоку без додаткової затримки.
- Barge-in перериває активне відтворення й очищує поставлені в чергу, але ще не відтворювані записи Twilio TTS. Очищені записи завершуються як пропущені, тому логіка подальшої відповіді може продовжуватися без очікування аудіо, яке ніколи не буде відтворене.
- Голосові розмови реального часу використовують власний початковий хід потоку реального часу. Voice Call не публікує застаріле оновлення TwiML
<Say>для цього початкового повідомлення, тож вихідні сеанси<Connect><Stream>залишаються приєднаними.
Пільговий період відключення потоку Twilio
Коли медіапотік Twilio відключається, Voice Call чекає 2000 ms перед автоматичним завершенням виклику:- Якщо потік повторно підключається протягом цього вікна, автоматичне завершення скасовується.
- Якщо після пільгового періоду жоден потік не зареєструється повторно, виклик завершується, щоб запобігти завислим активним викликам.
Очищувач застарілих викликів
ВикористовуйтеstaleCallReaperSeconds, щоб завершувати виклики, які ніколи не отримують термінальний
Webhook (наприклад, виклики в режимі сповіщення, які ніколи не завершуються). Типове значення
— 0 (вимкнено).
Рекомендовані діапазони:
- Продакшн:
120–300секунд для потоків типу сповіщень. - Тримайте це значення вищим за
maxDurationSeconds, щоб звичайні виклики могли завершитися. Хороша початкова точка —maxDurationSeconds + 30–60секунд.
Безпека Webhook
Коли перед Gateway стоїть проксі або тунель, plugin відтворює публічну URL-адресу для перевірки підпису. Ці параметри керують тим, яким пересланим заголовкам можна довіряти:Дозволений список хостів із заголовків пересилання.
Довіряти пересланим заголовкам без дозволеного списку.
Довіряти пересланим заголовкам лише тоді, коли віддалена IP-адреса запиту збігається зі списком.
- Webhook захист від повторного відтворення увімкнено для Twilio і Plivo. Повторно відтворені дійсні Webhook-запити підтверджуються, але пропускаються для побічних ефектів.
- Ходи розмови Twilio містять токен для кожного ходу в callback-викликах
<Gather>, тому застарілі або повторно відтворені callback-виклики мовлення не можуть задовольнити новіший очікуваний хід транскрипта. - Неавтентифіковані Webhook-запити відхиляються до читання тіла, якщо відсутні обов’язкові заголовки підпису провайдера.
- Webhook voice-call використовує спільний профіль тіла перед автентифікацією (64 КБ / 5 секунд) плюс обмеження одночасних запитів на IP перед перевіркою підпису.
CLI
voicecall делегують
виконання середовищу виконання voice-call, яким володіє Gateway, щоб CLI не прив’язував другий
Webhook-сервер. Якщо Gateway недоступний, команди повертаються до
автономного середовища виконання CLI.
latency читає calls.jsonl зі стандартного шляху сховища voice-call.
Використовуйте --file <path>, щоб вказати інший журнал, і --last <n>, щоб обмежити
аналіз останніми N записами (за замовчуванням 200). Вивід містить p50/p90/p99
для затримки ходу та часу очікування прослуховування.
Інструмент агента
Назва інструмента:voice_call.
| Дія | Аргументи |
|---|---|
initiate_call | message, to?, mode?, dtmfSequence? |
continue_call | callId, message |
speak_to_user | callId, message |
send_dtmf | callId, digits |
end_call | callId |
get_status | callId |
skills/voice-call/SKILL.md.
RPC Gateway
| Метод | Аргументи |
|---|---|
voicecall.initiate | to?, message, mode?, dtmfSequence? |
voicecall.continue | callId, message |
voicecall.speak | callId, message |
voicecall.dtmf | callId, digits |
voicecall.end | callId |
voicecall.status | callId |
dtmfSequence дійсний лише з mode: "conversation". Виклики в режимі сповіщення
мають використовувати voicecall.dtmf після створення виклику, якщо їм потрібні
цифри після з’єднання.
Усунення несправностей
Налаштування не вдається через доступність Webhook
Запустіть налаштування з того самого середовища, у якому працює Gateway:twilio, telnyx і plivo webhook-exposure має бути зеленим. Налаштований
publicUrl усе одно не спрацьовує, коли вказує на локальний або приватний мережевий
простір, оскільки оператор не може виконати callback на ці адреси. Не використовуйте
localhost, 127.0.0.1, 0.0.0.0, 10.x, 172.16.x-172.31.x,
192.168.x, 169.254.x, fc00::/7 або fd00::/8 як publicUrl.
Вихідні виклики Twilio в режимі сповіщення надсилають свій початковий TwiML <Say> безпосередньо в
запиті створення виклику, тому перше озвучене повідомлення не залежить від того, чи Twilio
отримає Webhook TwiML. Публічний Webhook усе одно потрібен для callback-викликів стану,
розмовних викликів, DTMF перед з’єднанням, потоків у реальному часі та керування викликом
після з’єднання.
Використовуйте один шлях публічного доступу:
voicecall smoke — це пробний запуск, якщо ви не передасте --yes.
Облікові дані провайдера не проходять
Перевірте вибраного провайдера та обов’язкові поля облікових даних:- Twilio:
twilio.accountSid,twilio.authTokenіfromNumber, абоTWILIO_ACCOUNT_SID,TWILIO_AUTH_TOKENіTWILIO_FROM_NUMBER. - Telnyx:
telnyx.apiKey,telnyx.connectionId,telnyx.publicKeyіfromNumber. - Plivo:
plivo.authId,plivo.authTokenіfromNumber.
Виклики починаються, але Webhook провайдера не надходять
Переконайтеся, що консоль провайдера вказує на точну публічну URL-адресу Webhook:publicUrlвказує на інший шлях, ніжserve.path.- URL тунелю змінився після запуску Gateway.
- Проксі пересилає запит, але видаляє або переписує заголовки host/proto.
- Firewall або DNS спрямовує публічне ім’я хоста кудись інде, а не до Gateway.
- Gateway було перезапущено без увімкненого plugin Voice Call.
webhookSecurity.allowedHosts на публічне ім’я хоста або використовуйте
webhookSecurity.trustedProxyIPs для відомої адреси проксі. Використовуйте
webhookSecurity.trustForwardingHeaders лише тоді, коли межа проксі перебуває під
вашим контролем.
Перевірка підпису не вдається
Підписи провайдера перевіряються за публічною URL-адресою, яку OpenClaw відтворює з вхідного запиту. Якщо підписи не проходять:- Переконайтеся, що URL Webhook провайдера точно збігається з
publicUrl, включно зі схемою, хостом і шляхом. - Для URL ngrok безкоштовного рівня оновіть
publicUrl, коли змінюється ім’я хоста тунелю. - Переконайтеся, що проксі зберігає оригінальні заголовки host і proto, або налаштуйте
webhookSecurity.allowedHosts. - Не вмикайте
skipSignatureVerificationпоза локальним тестуванням.
Збої приєднання Google Meet через Twilio
Google Meet використовує цей plugin для приєднань через dial-in Twilio. Спочатку перевірте Voice Call:--dtmf-sequence. Телефонний виклик може бути справним, тоді як
зустріч відхиляє або ігнорує неправильну послідовність DTMF.
Google Meet запускає телефонну лінію Twilio через voicecall.start із
послідовністю DTMF перед з’єднанням. Послідовності, отримані з PIN, містять
voiceCall.dtmfDelayMs plugin Google Meet як початкові цифри очікування Twilio. Типове значення — 12 секунд,
оскільки підказки dial-in Meet можуть надходити із запізненням. Потім Voice Call перенаправляє назад до
обробки в реальному часі до запиту вступного привітання.
Використовуйте openclaw logs --follow для живої трасировки фази. Справне приєднання Twilio Meet
записує в журнал такий порядок:
- Google Meet делегує приєднання Twilio до Voice Call.
- Voice Call зберігає TwiML DTMF перед з’єднанням.
- Початковий TwiML Twilio споживається й обслуговується перед обробкою в реальному часі.
- Voice Call обслуговує TwiML реального часу для виклику Twilio.
- Google Meet запитує вступне мовлення через
voicecall.speakпісля затримки після DTMF.
openclaw voicecall tail усе ще показує збережені записи викликів; він корисний для
стану викликів і транскриптів, але не кожен перехід Webhook/реального часу з’являється
там.
Виклик у реальному часі не має мовлення
Переконайтеся, що ввімкнено лише один аудіорежим.realtime.enabled і
streaming.enabled не можуть одночасно бути true.
Для викликів Twilio у реальному часі також перевірте:
- Plugin провайдера реального часу завантажено та зареєстровано.
realtime.providerне задано або називає зареєстрованого провайдера.- API-ключ провайдера доступний процесу Gateway.
openclaw logs --followпоказує, що TwiML реального часу обслуговується, міст реального часу запущено, а початкове привітання поставлено в чергу.