---
read_when:
    - กำลังมองหาภาพรวมของความสามารถด้านสื่อของ OpenClaw
    - การตัดสินใจว่าจะกำหนดค่าผู้ให้บริการสื่อใด
    - ทำความเข้าใจวิธีการทำงานของการสร้างสื่อแบบอะซิงโครนัส
sidebarTitle: Media overview
summary: ภาพรวมความสามารถด้านรูปภาพ วิดีโอ เพลง เสียงพูด และการทำความเข้าใจสื่อ
title: ภาพรวมสื่อ
x-i18n:
    generated_at: "2026-06-27T18:29:11Z"
    model: gpt-5.5
    postprocess_version: locale-links-v1
    provider: openai
    source_hash: c04beb60abbd06d1503302be144e633b526ae55435f061fbb94f6fef85ca9d66
    source_path: tools/media-overview.md
    workflow: 16
---

OpenClaw สร้างรูปภาพ วิดีโอ และเพลง เข้าใจสื่อขาเข้า
(รูปภาพ เสียง วิดีโอ) และพูดคำตอบออกเสียงด้วยข้อความเป็นเสียงพูด ความสามารถด้าน
สื่อทั้งหมดขับเคลื่อนด้วยเครื่องมือ: agent จะตัดสินใจว่าจะใช้เมื่อใดตาม
บทสนทนา และแต่ละเครื่องมือจะปรากฏเฉพาะเมื่อมีการกำหนดค่า provider
ที่รองรับอย่างน้อยหนึ่งราย

เสียงพูดสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว
Talk มีสามโหมด: `realtime` แบบเนทีฟของ provider, `stt-tts` แบบ local หรือสตรีมมิง
และ `transcription` สำหรับการจับเสียงพูดแบบสังเกตอย่างเดียว โหมดเหล่านี้
ใช้แค็ตตาล็อก provider, envelope เหตุการณ์ และความหมายของการยกเลิกร่วมกับ
โทรศัพท์ การประชุม browser realtime และไคลเอนต์กดเพื่อพูดแบบเนทีฟ

## ความสามารถ

<CardGroup cols={2}>
  <Card title="การสร้างรูปภาพ" href="/th/tools/image-generation" icon="image">
    สร้างและแก้ไขรูปภาพจากพรอมป์ข้อความหรือรูปภาพอ้างอิงผ่าน
    `image_generate` อะซิงโครนัสในเซสชันแชต — ทำงานอยู่เบื้องหลังและ
    โพสต์ผลลัพธ์เมื่อพร้อม
  </Card>
  <Card title="การสร้างวิดีโอ" href="/th/tools/video-generation" icon="video">
    ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน `video_generate`
    อะซิงโครนัส — ทำงานอยู่เบื้องหลังและโพสต์ผลลัพธ์เมื่อพร้อม
  </Card>
  <Card title="การสร้างเพลง" href="/th/tools/music-generation" icon="music">
    สร้างเพลงหรือแทร็กเสียงผ่าน `music_generate` อะซิงโครนัสในเซสชันแชต
    บนวงจรชีวิตงานสร้างสื่อที่ใช้ร่วมกัน
  </Card>
  <Card title="ข้อความเป็นเสียงพูด" href="/th/tools/tts" icon="microphone">
    แปลงคำตอบขาออกเป็นเสียงพูดผ่านเครื่องมือ `tts` พร้อมการกำหนดค่า
    `messages.tts` ซิงโครนัส
  </Card>
  <Card title="การทำความเข้าใจสื่อ" href="/th/nodes/media-understanding" icon="eye">
    สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ provider โมเดลที่รองรับ vision
    และ Plugin เฉพาะสำหรับการทำความเข้าใจสื่อ
  </Card>
  <Card title="เสียงพูดเป็นข้อความ" href="/th/nodes/audio" icon="ear-listen">
    ถอดเสียงข้อความเสียงขาเข้าผ่าน STT แบบแบตช์หรือ provider STT แบบสตรีมมิง
    ของ Voice Call
  </Card>
</CardGroup>

## เมทริกซ์ความสามารถของ provider

| Provider          | รูปภาพ | วิดีโอ | เพลง | TTS | STT | เสียง realtime | การทำความเข้าใจสื่อ |
| ----------------- | :---: | :---: | :---: | :-: | :-: | :------------: | :-----------------: |
| Alibaba           |       |   ✓   |       |     |     |                |                     |
| BytePlus          |       |   ✓   |       |     |     |                |                     |
| ComfyUI           |   ✓   |   ✓   |   ✓   |     |     |                |                     |
| DeepInfra         |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Deepgram          |       |       |       |     |  ✓  |       ✓        |                     |
| ElevenLabs        |       |       |       |  ✓  |  ✓  |                |                     |
| fal               |   ✓   |   ✓   |   ✓   |     |     |                |                     |
| Google            |   ✓   |   ✓   |   ✓   |  ✓  |     |       ✓        |          ✓          |
| Gradium           |       |       |       |  ✓  |     |                |                     |
| Local CLI         |       |       |       |  ✓  |     |                |                     |
| Microsoft         |       |       |       |  ✓  |     |                |                     |
| Microsoft Foundry |   ✓   |       |       |     |     |                |                     |
| MiniMax           |   ✓   |   ✓   |   ✓   |  ✓  |     |                |                     |
| Mistral           |       |       |       |     |  ✓  |                |                     |
| OpenAI            |   ✓   |   ✓   |       |  ✓  |  ✓  |       ✓        |          ✓          |
| OpenRouter        |   ✓   |   ✓   |   ✓   |  ✓  |  ✓  |                |          ✓          |
| Qwen              |       |   ✓   |       |     |     |                |                     |
| Runway            |       |   ✓   |       |     |     |                |                     |
| SenseAudio        |       |       |       |     |  ✓  |                |                     |
| Together          |       |   ✓   |       |     |     |                |                     |
| Vydra             |   ✓   |   ✓   |       |  ✓  |     |                |                     |
| xAI               |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Xiaomi MiMo       |   ✓   |       |       |  ✓  |     |                |          ✓          |

<Note>
การทำความเข้าใจสื่อใช้โมเดลที่รองรับ vision หรือรองรับเสียงใดก็ได้ที่ลงทะเบียน
ไว้ในการกำหนดค่า provider ของคุณ เมทริกซ์ด้านบนแสดงรายชื่อ provider ที่มีการรองรับ
การทำความเข้าใจสื่อโดยเฉพาะ; provider LLM หลายโมดัลส่วนใหญ่ (Anthropic, Google,
OpenAI ฯลฯ) ยังสามารถเข้าใจสื่อขาเข้าได้เมื่อกำหนดค่าเป็นโมเดลตอบกลับที่ใช้งานอยู่
</Note>

## อะซิงโครนัสเทียบกับซิงโครนัส

| ความสามารถ     | โหมด         | เหตุผล                                                                                                  |
| -------------- | ------------ | ---------------------------------------------------------------------------------------------------- |
| รูปภาพ          | อะซิงโครนัส | การประมวลผลของ provider อาจยาวเกินรอบแชตหนึ่งครั้ง; ไฟล์แนบที่สร้างขึ้นใช้เส้นทางเสร็จสมบูรณ์ที่ใช้ร่วมกัน   |
| ข้อความเป็นเสียงพูด | ซิงโครนัส  | คำตอบของ provider ส่งกลับภายในไม่กี่วินาที; แนบเข้ากับเสียงตอบกลับ                                   |
| วิดีโอ          | อะซิงโครนัส | การประมวลผลของ provider ใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้จนถึง timeout ที่กำหนดค่าไว้ |
| เพลง          | อะซิงโครนัส | มีลักษณะการประมวลผลของ provider เหมือนกับวิดีโอ                                                    |

สำหรับเครื่องมืออะซิงโครนัส OpenClaw จะส่งคำขอไปยัง provider, ส่งคืน id ของงาน
ทันที และติดตามงานในบัญชีแยกประเภทงาน agent จะตอบกลับข้อความอื่นต่อไป
ระหว่างที่งานทำงาน เมื่อ provider ทำเสร็จ OpenClaw จะปลุก agent พร้อม path
สื่อที่สร้างขึ้น เพื่อให้ agent บอกผู้ใช้ผ่านโหมดการตอบกลับที่มองเห็นได้ตามปกติของเซสชัน:
การส่งคำตอบสุดท้ายอัตโนมัติเมื่อกำหนดค่าไว้ หรือ `message(action="send")` เมื่อเซสชันต้องใช้
เครื่องมือข้อความ หากเซสชันผู้ขอไม่ทำงานหรือการปลุกที่ใช้งานอยู่ล้มเหลว
และสื่อที่สร้างขึ้นบางส่วนยังหายไปจากคำตอบเสร็จสมบูรณ์ OpenClaw จะส่ง fallback
โดยตรงแบบ idempotent ที่มีเฉพาะสื่อที่หายไป สื่อที่ส่งไปแล้วโดยคำตอบเสร็จสมบูรณ์
จะไม่ถูกโพสต์ซ้ำ

## เสียงพูดเป็นข้อความและ Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio และ xAI สามารถถอดเสียง
เสียงขาเข้าผ่านเส้นทาง `tools.media.audio` แบบแบตช์ได้เมื่อกำหนดค่าไว้
Plugin ช่องทางที่ตรวจล่วงหน้า voice note เพื่อการคัดกรองการกล่าวถึงหรือการแยกวิเคราะห์
คำสั่งจะทำเครื่องหมายไฟล์แนบที่ถอดเสียงไว้บน context ขาเข้า ดังนั้น pass
การทำความเข้าใจสื่อที่ใช้ร่วมกันจะนำ transcript นั้นกลับมาใช้แทนการเรียก
STT ครั้งที่สองสำหรับเสียงเดียวกัน

Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียน provider STT แบบสตรีมมิง
ของ Voice Call ด้วย ดังนั้นเสียงโทรศัพท์สดจึงสามารถส่งต่อไปยังผู้ให้บริการที่เลือก
โดยไม่ต้องรอการบันทึกที่เสร็จสมบูรณ์

สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ [โหมด Talk](/th/nodes/talk) เป็นหลัก ไฟล์แนบเสียงแบบแบตช์
ยังคงอยู่บนเส้นทางสื่อ; browser realtime, กดเพื่อพูดแบบเนทีฟ,
โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแค็ตตาล็อกที่จำกัดตามเซสชัน
ซึ่ง Gateway ส่งกลับมา

## การแมป provider (วิธีที่ผู้ให้บริการแยกไปตามพื้นผิวต่าง ๆ)

<AccordionGroup>
  <Accordion title="Google">
    พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบแบตช์ เสียง realtime ฝั่ง backend และ
    การทำความเข้าใจสื่อ
  </Accordion>
  <Accordion title="OpenAI">
    พื้นผิวรูปภาพ วิดีโอ TTS แบบแบตช์ STT แบบแบตช์ STT แบบสตรีมมิงของ Voice Call
    เสียง realtime ฝั่ง backend และ memory-embedding
  </Accordion>
  <Accordion title="DeepInfra">
    พื้นผิวการกำหนดเส้นทางแชต/โมเดล การสร้าง/แก้ไขรูปภาพ ข้อความเป็นวิดีโอ TTS แบบแบตช์
    STT แบบแบตช์ การทำความเข้าใจสื่อรูปภาพ และ memory-embedding
    โมเดล rerank/classification/object-detection แบบเนทีฟของ DeepInfra จะยังไม่
    ถูกลงทะเบียนจนกว่า OpenClaw จะมีสัญญา provider เฉพาะสำหรับหมวดหมู่เหล่านั้น
  </Accordion>
  <Accordion title="xAI">
    รูปภาพ วิดีโอ การค้นหา code-execution TTS แบบแบตช์ STT แบบแบตช์ และ STT แบบสตรีมมิงของ Voice
    Call เสียง xAI Realtime เป็นความสามารถจาก upstream แต่ยังไม่ได้
    ลงทะเบียนใน OpenClaw จนกว่าสัญญา realtime-voice ที่ใช้ร่วมกันจะสามารถ
    แสดงแทนได้
  </Accordion>
</AccordionGroup>

## ที่เกี่ยวข้อง

- [การสร้างรูปภาพ](/th/tools/image-generation)
- [การสร้างวิดีโอ](/th/tools/video-generation)
- [การสร้างเพลง](/th/tools/music-generation)
- [ข้อความเป็นเสียงพูด](/th/tools/tts)
- [การทำความเข้าใจสื่อ](/th/nodes/media-understanding)
- [โหนดเสียง](/th/nodes/audio)
- [โหมด Talk](/th/nodes/talk)