Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
Âm thanh / Ghi chú thoại (2026-01-17)
Những gì hoạt động
- Hiểu nội dung phương tiện (âm thanh): Nếu tính năng hiểu âm thanh được bật (hoặc được tự động phát hiện), OpenClaw:
- Định vị tệp đính kèm âm thanh đầu tiên (đường dẫn cục bộ hoặc URL) và tải xuống nếu cần.
- Áp dụng
maxBytestrước khi gửi tới từng mục mô hình. - Chạy mục mô hình đủ điều kiện đầu tiên theo thứ tự (nhà cung cấp hoặc CLI).
- Nếu thất bại hoặc bị bỏ qua (kích thước/hết thời gian), thử mục tiếp theo.
- Khi thành công, thay thế
Bodybằng khối[Audio]và đặt{{Transcript}}.
- Phân tích lệnh: Khi phiên âm thành công,
CommandBody/RawBodyđược đặt thành bản phiên âm để các lệnh gạch chéo vẫn hoạt động. - Ghi nhật ký chi tiết: Trong
--verbose, chúng tôi ghi nhật ký khi phiên âm chạy và khi nó thay thế phần thân.
Tự động phát hiện (mặc định)
Nếu bạn không cấu hình mô hình vàtools.media.audio.enabled không được đặt thành false,
OpenClaw tự động phát hiện theo thứ tự này và dừng ở tùy chọn đầu tiên hoạt động:
- Mô hình trả lời đang hoạt động khi nhà cung cấp của nó hỗ trợ hiểu âm thanh.
- CLI cục bộ (nếu đã cài đặt)
sherpa-onnx-offline(yêu cầuSHERPA_ONNX_MODEL_DIRvới encoder/decoder/joiner/tokens)whisper-cli(từwhisper-cpp; dùngWHISPER_CPP_MODELhoặc mô hình tiny đi kèm)whisper(Python CLI; tự động tải xuống mô hình)
- Gemini CLI (
gemini) dùngread_many_files - Xác thực nhà cung cấp
- Các mục
models.providers.*đã cấu hình có hỗ trợ âm thanh sẽ được thử trước - Thứ tự dự phòng đi kèm: OpenAI → Groq → xAI → Deepgram → Google → SenseAudio → ElevenLabs → Mistral
- Các mục
tools.media.audio.enabled: false.
Để tùy chỉnh, đặt tools.media.audio.models.
Lưu ý: Việc phát hiện tệp nhị phân là nỗ lực tốt nhất trên macOS/Linux/Windows; hãy bảo đảm CLI nằm trên PATH (chúng tôi mở rộng ~), hoặc đặt một mô hình CLI rõ ràng với đường dẫn lệnh đầy đủ.
Ví dụ cấu hình
Dự phòng nhà cung cấp + CLI (OpenAI + Whisper CLI)
Chỉ nhà cung cấp với kiểm soát phạm vi
Chỉ nhà cung cấp (Deepgram)
Chỉ nhà cung cấp (Mistral Voxtral)
Chỉ nhà cung cấp (SenseAudio)
Gửi lại bản phiên âm vào cuộc trò chuyện (chọn tham gia)
Ghi chú & giới hạn
- Xác thực nhà cung cấp tuân theo thứ tự xác thực mô hình tiêu chuẩn (hồ sơ xác thực, biến môi trường,
models.providers.*.apiKey). - Chi tiết thiết lập Groq: Groq.
- Deepgram nhận
DEEPGRAM_API_KEYkhi dùngprovider: "deepgram". - Chi tiết thiết lập Deepgram: Deepgram (phiên âm âm thanh).
- Chi tiết thiết lập Mistral: Mistral.
- SenseAudio nhận
SENSEAUDIO_API_KEYkhi dùngprovider: "senseaudio". - Chi tiết thiết lập SenseAudio: SenseAudio.
- Các nhà cung cấp âm thanh có thể ghi đè
baseUrl,headersvàproviderOptionsthông quatools.media.audio. - Giới hạn kích thước mặc định là 20MB (
tools.media.audio.maxBytes). Âm thanh quá kích thước sẽ bị bỏ qua cho mô hình đó và mục tiếp theo sẽ được thử. - Các tệp âm thanh nhỏ/trống dưới 1024 byte bị bỏ qua trước khi phiên âm bằng nhà cung cấp/CLI.
maxCharsmặc định cho âm thanh chưa được đặt (bản phiên âm đầy đủ). Đặttools.media.audio.maxCharshoặcmaxCharstheo từng mục để cắt ngắn đầu ra.- Mặc định tự động của OpenAI là
gpt-4o-mini-transcribe; đặtmodel: "gpt-4o-transcribe"để có độ chính xác cao hơn. - Dùng
tools.media.audio.attachmentsđể xử lý nhiều ghi chú thoại (mode: "all"+maxAttachments). - Bản phiên âm có sẵn cho mẫu dưới dạng
{{Transcript}}. tools.media.audio.echoTranscriptmặc định tắt; bật để gửi xác nhận bản phiên âm trở lại cuộc trò chuyện gốc trước khi agent xử lý.tools.media.audio.echoFormattùy chỉnh văn bản gửi lại (placeholder:{transcript}).- stdout của CLI bị giới hạn (5MB); hãy giữ đầu ra CLI ngắn gọn.
argscủa CLI nên dùng{{MediaPath}}cho đường dẫn tệp âm thanh cục bộ. Chạyopenclaw doctor --fixđể di chuyển các placeholder{input}không còn được khuyến nghị từ cấu hìnhaudio.transcription.commandcũ hơn.
Hỗ trợ môi trường proxy
Phiên âm âm thanh dựa trên nhà cung cấp tôn trọng các biến môi trường proxy đi ra tiêu chuẩn:HTTPS_PROXYHTTP_PROXYALL_PROXYhttps_proxyhttp_proxyall_proxy
Phát hiện lượt nhắc trong nhóm
KhirequireMention: true được đặt cho cuộc trò chuyện nhóm, OpenClaw giờ đây phiên âm âm thanh trước khi kiểm tra lượt nhắc. Điều này cho phép ghi chú thoại được xử lý ngay cả khi chúng chứa lượt nhắc.
Cách hoạt động:
- Nếu một tin nhắn thoại không có phần thân văn bản và nhóm yêu cầu lượt nhắc, OpenClaw thực hiện phiên âm “preflight”.
- Bản phiên âm được kiểm tra theo các mẫu lượt nhắc (ví dụ:
@BotName, trình kích hoạt emoji). - Nếu tìm thấy lượt nhắc, tin nhắn đi qua toàn bộ quy trình trả lời.
- Bản phiên âm được dùng để phát hiện lượt nhắc để ghi chú thoại có thể vượt qua cổng lượt nhắc.
- Nếu phiên âm thất bại trong preflight (hết thời gian, lỗi API, v.v.), tin nhắn được xử lý dựa trên phát hiện lượt nhắc chỉ bằng văn bản.
- Điều này bảo đảm rằng các tin nhắn hỗn hợp (văn bản + âm thanh) không bao giờ bị loại bỏ sai.
- Đặt
channels.telegram.groups.<chatId>.disableAudioPreflight: trueđể bỏ qua kiểm tra lượt nhắc bằng bản phiên âm preflight cho nhóm đó. - Đặt
channels.telegram.groups.<chatId>.topics.<threadId>.disableAudioPreflightđể ghi đè theo từng chủ đề (trueđể bỏ qua,falseđể buộc bật). - Mặc định là
false(preflight được bật khi điều kiện có cổng lượt nhắc khớp).
requireMention: true. Ghi chú thoại được phiên âm, lượt nhắc được phát hiện và agent trả lời.
Những điểm cần lưu ý
- Quy tắc phạm vi dùng lượt khớp đầu tiên thắng.
chatTypeđược chuẩn hóa thànhdirect,grouphoặcroom. - Bảo đảm CLI của bạn thoát với mã 0 và in văn bản thuần; JSON cần được xử lý qua
jq -r .text. - Với
parakeet-mlx, nếu bạn truyền--output-dir, OpenClaw đọc<output-dir>/<media-basename>.txtkhi--output-formatlàtxt(hoặc bị bỏ qua); các định dạng đầu ra không phảitxtquay về phân tích stdout. - Giữ thời gian chờ hợp lý (
timeoutSeconds, mặc định 60 giây) để tránh chặn hàng đợi trả lời. - Phiên âm preflight chỉ xử lý tệp đính kèm âm thanh đầu tiên để phát hiện lượt nhắc. Âm thanh bổ sung được xử lý trong giai đoạn hiểu phương tiện chính.