Chuyển đến nội dung chính

Documentation Index

Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw tạo hình ảnh, video và nhạc, hiểu phương tiện đến (hình ảnh, âm thanh, video), và đọc to câu trả lời bằng chuyển văn bản thành giọng nói. Tất cả năng lực phương tiện đều được điều khiển bằng công cụ: agent quyết định khi nào dùng chúng dựa trên cuộc trò chuyện, và mỗi công cụ chỉ xuất hiện khi có ít nhất một nhà cung cấp nền được cấu hình.

Năng lực

Image generation

Tạo và chỉnh sửa hình ảnh từ lời nhắc văn bản hoặc hình ảnh tham chiếu qua image_generate. Đồng bộ — hoàn tất nội tuyến cùng câu trả lời.

Video generation

Văn bản sang video, hình ảnh sang video và video sang video qua video_generate. Bất đồng bộ — chạy trong nền và đăng kết quả khi sẵn sàng.

Music generation

Tạo nhạc hoặc bản âm thanh qua music_generate. Bất đồng bộ trên các nhà cung cấp dùng chung; đường dẫn quy trình ComfyUI chạy đồng bộ.

Text-to-speech

Chuyển câu trả lời gửi đi thành âm thanh nói qua công cụ tts cộng với cấu hình messages.tts. Đồng bộ.

Media understanding

Tóm tắt hình ảnh, âm thanh và video đến bằng các nhà cung cấp mô hình có khả năng thị giác và các plugin hiểu phương tiện chuyên dụng.

Speech-to-text

Chép lời tin nhắn thoại đến thông qua các nhà cung cấp STT theo lô hoặc STT truyền phát Cuộc gọi thoại.

Ma trận năng lực của nhà cung cấp

Nhà cung cấpHình ảnhVideoNhạcTTSSTTGiọng nói thời gian thựcHiểu phương tiện
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo
Hiểu phương tiện dùng bất kỳ mô hình có khả năng thị giác hoặc âm thanh nào được đăng ký trong cấu hình nhà cung cấp của bạn. Ma trận trên liệt kê các nhà cung cấp có hỗ trợ hiểu phương tiện chuyên dụng; hầu hết nhà cung cấp LLM đa phương thức (Anthropic, Google, OpenAI, v.v.) cũng có thể hiểu phương tiện đến khi được cấu hình làm mô hình trả lời đang hoạt động.

Bất đồng bộ so với đồng bộ

Năng lựcChế độLý do
Hình ảnhĐồng bộPhản hồi của nhà cung cấp trả về trong vài giây; hoàn tất nội tuyến cùng câu trả lời.
Chuyển văn bản thành giọng nóiĐồng bộPhản hồi của nhà cung cấp trả về trong vài giây; được đính kèm vào âm thanh câu trả lời.
VideoBất đồng bộQuá trình xử lý của nhà cung cấp mất 30 giây đến vài phút.
Nhạc (dùng chung)Bất đồng bộCùng đặc tính xử lý phía nhà cung cấp như video.
Nhạc (ComfyUI)Đồng bộQuy trình cục bộ chạy nội tuyến với máy chủ ComfyUI đã cấu hình.
Đối với công cụ bất đồng bộ, OpenClaw gửi yêu cầu đến nhà cung cấp, trả về mã tác vụ ngay lập tức và theo dõi công việc trong sổ cái tác vụ. Agent tiếp tục phản hồi các tin nhắn khác trong khi công việc chạy. Khi nhà cung cấp hoàn tất, OpenClaw đánh thức agent để có thể đăng phương tiện đã hoàn thành trở lại kênh ban đầu.

Chuyển giọng nói thành văn bản và Cuộc gọi thoại

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio và xAI đều có thể chép lời âm thanh đến thông qua đường dẫn tools.media.audio theo lô khi được cấu hình. Các plugin kênh kiểm tra trước một ghi chú thoại để cổng nhắc đến hoặc phân tích lệnh sẽ đánh dấu tệp đính kèm đã chép lời trên ngữ cảnh đến, để lượt hiểu phương tiện dùng chung tái sử dụng bản chép lời đó thay vì thực hiện cuộc gọi STT thứ hai cho cùng âm thanh. Deepgram, ElevenLabs, Mistral, OpenAI và xAI cũng đăng ký các nhà cung cấp STT truyền phát Cuộc gọi thoại, để âm thanh điện thoại trực tiếp có thể được chuyển tiếp đến nhà cung cấp đã chọn mà không cần chờ bản ghi hoàn tất.

Ánh xạ nhà cung cấp (cách nhà cung cấp phân chia giữa các bề mặt)

Các bề mặt hình ảnh, video, nhạc, TTS theo lô, giọng nói thời gian thực phía backend và hiểu phương tiện.
Các bề mặt hình ảnh, video, TTS theo lô, STT theo lô, STT truyền phát Cuộc gọi thoại, giọng nói thời gian thực phía backend và nhúng bộ nhớ.
Các bề mặt định tuyến trò chuyện/mô hình, tạo/chỉnh sửa hình ảnh, văn bản sang video, TTS theo lô, STT theo lô, hiểu phương tiện hình ảnh và nhúng bộ nhớ. Các mô hình xếp hạng lại/phân loại/phát hiện đối tượng gốc DeepInfra không được đăng ký cho đến khi OpenClaw có hợp đồng nhà cung cấp chuyên dụng cho các danh mục đó.
Hình ảnh, video, tìm kiếm, thực thi mã, TTS theo lô, STT theo lô và STT truyền phát Cuộc gọi thoại. Giọng nói thời gian thực xAI là một năng lực phía upstream nhưng chưa được đăng ký trong OpenClaw cho đến khi hợp đồng giọng nói thời gian thực dùng chung có thể biểu diễn nó.

Liên quan