Medienverständnis - eingehend (2026-01-17)
OpenClaw kann eingehende Medien zusammenfassen (Bild/Audio/Video), bevor die Antwortpipeline läuft. Es erkennt automatisch, wenn lokale Tools oder Provider-Schlüssel verfügbar sind, und kann deaktiviert oder angepasst werden. Wenn das Verständnis deaktiviert ist, erhalten Modelle wie gewohnt weiterhin die ursprünglichen Dateien/URLs. Anbieterspezifisches Medienverhalten wird von Anbieter-Plugins registriert, während der OpenClaw-Core die gemeinsame Konfigurationtools.media, die Fallback-Reihenfolge und die Integration in die Antwortpipeline besitzt.
Ziele
- Optional: eingehende Medien in kurzen Text vorverdauen, um schnelleres Routing und bessere Befehlsauswertung zu ermöglichen.
- Ursprüngliche Medienzustellung an das Modell immer beibehalten.
- Provider-APIs und CLI-Fallbacks unterstützen.
- Mehrere Modelle mit geordnetem Fallback zulassen (Fehler/Größe/Timeout).
Verhalten auf hoher Ebene
- Eingehende Anhänge sammeln (
MediaPaths,MediaUrls,MediaTypes). - Für jede aktivierte Fähigkeit (Bild/Audio/Video) Anhänge gemäß Richtlinie auswählen (Standard: erstes).
- Den ersten zulässigen Modelleintrag auswählen (Größe + Fähigkeit + Auth).
- Wenn ein Modell fehlschlägt oder die Medien zu groß sind, auf den nächsten Eintrag zurückfallen.
- Bei Erfolg:
Bodywird zu einem[Image]-,[Audio]- oder[Video]-Block.- Audio setzt
{{Transcript}}; die Befehlsauswertung verwendet, wenn vorhanden, den Bildunterschriftstext, andernfalls das Transkript. - Bildunterschriften bleiben als
User text:innerhalb des Blocks erhalten.
Konfigurationsüberblick
tools.media unterstützt gemeinsame Modelle sowie Überschreibungen pro Fähigkeit:
tools.media.models: gemeinsame Modellliste (verwenden Siecapabilitieszur Begrenzung).tools.media.image/tools.media.audio/tools.media.video:- Standardwerte (
prompt,maxChars,maxBytes,timeoutSeconds,language) - Provider-Überschreibungen (
baseUrl,headers,providerOptions) - Deepgram-Audiooptionen über
tools.media.audio.providerOptions.deepgram - Echo-Steuerung für Audiotranskripte (
echoTranscript, Standardfalse;echoFormat) - optionale Modellliste pro Fähigkeit
models(wird vor gemeinsamen Modellen bevorzugt) - Richtlinie für
attachments(mode,maxAttachments,prefer) scope(optionale Begrenzung nach Kanal/Chat-Typ/Sitzungsschlüssel)
- Standardwerte (
tools.media.concurrency: maximale Anzahl gleichzeitiger Fähigkeitsläufe (Standard 2).
Modelleinträge
Jeder Eintrag inmodels[] kann provider oder cli sein:
{{MediaDir}}(Verzeichnis, das die Mediendatei enthält){{OutputDir}}(temporäres Verzeichnis, das für diesen Lauf erstellt wird){{OutputBase}}(Basispfad der temporären Datei, ohne Erweiterung)
Standardwerte und Limits
Empfohlene Standardwerte:maxChars: 500 für Bild/Video (kurz, befehlsfreundlich)maxChars: nicht gesetzt für Audio (volles Transkript, sofern Sie kein Limit setzen)maxBytes:- Bild: 10MB
- Audio: 20MB
- Video: 50MB
- Wenn Medien
maxBytesüberschreiten, wird dieses Modell übersprungen und das nächste Modell versucht. - Audiodateien kleiner als 1024 Bytes werden als leer/beschädigt behandelt und vor der Provider-/CLI-Transkription übersprungen.
- Wenn das Modell mehr als
maxCharszurückgibt, wird die Ausgabe gekürzt. promptverwendet standardmäßig ein einfaches „Describe the .“ plus diemaxChars-Anweisung (nur Bild/Video).- Wenn das aktive primäre Bildmodell bereits nativ Vision unterstützt, überspringt OpenClaw
den Zusammenfassungsblock
[Image]und übergibt stattdessen das Originalbild an das Modell. - Wenn
<capability>.enabled: truegesetzt ist, aber keine Modelle konfiguriert sind, versucht OpenClaw das aktive Antwortmodell, wenn dessen Provider die Fähigkeit unterstützt.
Medienverständnis automatisch erkennen (Standard)
Wenntools.media.<capability>.enabled nicht auf false gesetzt ist und Sie keine
Modelle konfiguriert haben, erkennt OpenClaw automatisch in dieser Reihenfolge und stoppt bei der ersten
funktionierenden Option:
- Aktives Antwortmodell, wenn dessen Provider die Fähigkeit unterstützt.
agents.defaults.imageModelPrimär-/Fallback-Referenzen (nur Bild).- Lokale CLIs (nur Audio; wenn installiert)
sherpa-onnx-offline(erfordertSHERPA_ONNX_MODEL_DIRmit encoder/decoder/joiner/tokens)whisper-cli(whisper-cpp; verwendetWHISPER_CPP_MODELoder das gebündelte tiny-Modell)whisper(Python CLI; lädt Modelle automatisch herunter)
- Gemini CLI (
gemini) mitread_many_files - Provider-Auth
- Konfigurierte Einträge
models.providers.*, die die Fähigkeit unterstützen, werden vor der gebündelten Fallback-Reihenfolge versucht. - Nur-Bild-Konfigurationsprovider mit einem bildfähigen Modell werden automatisch für Medienverständnis registriert, selbst wenn sie kein gebündeltes Anbieter-Plugin sind.
- Gebündelte Fallback-Reihenfolge:
- Audio: OpenAI → Groq → Deepgram → Google → Mistral
- Bild: OpenAI → Anthropic → Google → MiniMax → MiniMax Portal → Z.AI
- Video: Google → Qwen → Moonshot
- Konfigurierte Einträge
PATH befindet (wir erweitern ~), oder setzen Sie ein explizites CLI-Modell mit vollständigem Befehlspfad.
Proxy-Unterstützung per Umgebungsvariablen (Provider-Modelle)
Wenn providerbasiertes Medienverständnis für Audio und Video aktiviert ist, berücksichtigt OpenClaw Standard-Umgebungsvariablen für ausgehende Proxys bei HTTP-Aufrufen an Provider:HTTPS_PROXYHTTP_PROXYhttps_proxyhttp_proxy
Fähigkeiten (optional)
Wenn Siecapabilities setzen, läuft der Eintrag nur für diese Medientypen. Für gemeinsame
Listen kann OpenClaw Standardwerte ableiten:
openai,anthropic,minimax: imageminimax-portal: imagemoonshot: image + videoopenrouter: imagegoogle(Gemini API): image + audio + videoqwen: image + videomistral: audiozai: imagegroq: audiodeepgram: audio- Jeder Katalog
models.providers.<id>.models[]mit einem bildfähigen Modell: image
capabilities explizit setzen, um überraschende Treffer zu vermeiden.
Wenn Sie capabilities weglassen, ist der Eintrag für die Liste zulässig, in der er erscheint.
Matrix der Provider-Unterstützung (OpenClaw-Integrationen)
| Fähigkeit | Provider-Integration | Hinweise |
|---|---|---|
| Bild | OpenAI, OpenRouter, Anthropic, Google, MiniMax, Moonshot, Qwen, Z.AI, Konfigurationsprovider | Anbieter-Plugins registrieren Bildunterstützung; MiniMax und MiniMax OAuth verwenden beide MiniMax-VL-01; bildfähige Konfigurationsprovider werden automatisch registriert. |
| Audio | OpenAI, Groq, Deepgram, Google, Mistral | Provider-Transkription (Whisper/Deepgram/Gemini/Voxtral). |
| Video | Google, Qwen, Moonshot | Videoverständnis über Provider per Anbieter-Plugins; das Qwen-Videoverständnis verwendet die Standard-DashScope-Endpunkte. |
- Das Bildverständnis von
minimaxundminimax-portalstammt vom plugin-eigenen MedienproviderMiniMax-VL-01. - Der gebündelte MiniMax-Textkatalog beginnt weiterhin nur mit Text; explizite
Einträge
models.providers.minimaxmaterialisieren bildfähige M2.7-Chat-Referenzen.
Hinweise zur Modellauswahl
- Bevorzugen Sie das stärkste Modell der neuesten Generation, das für die jeweilige Medienfähigkeit verfügbar ist, wenn Qualität und Sicherheit wichtig sind.
- Vermeiden Sie bei tool-fähigen Agents, die mit nicht vertrauenswürdigen Eingaben arbeiten, ältere/schwächere Medienmodelle.
- Halten Sie pro Fähigkeit mindestens einen Fallback für Verfügbarkeit bereit (Qualitätsmodell + schnelleres/günstigeres Modell).
- CLI-Fallbacks (
whisper-cli,whisper,gemini) sind nützlich, wenn Provider-APIs nicht verfügbar sind. - Hinweis zu
parakeet-mlx: Mit--output-dirliest OpenClaw<output-dir>/<media-basename>.txt, wenn das Ausgabeformattxtist (oder nicht angegeben wird); Nicht-txt-Formate fallen auf stdout zurück.
Richtlinie für Anhänge
attachments pro Fähigkeit steuert, welche Anhänge verarbeitet werden:
mode:first(Standard) oderallmaxAttachments: begrenzt die Anzahl der verarbeiteten Anhänge (Standard 1)prefer:first,last,path,url
mode: "all" gesetzt ist, werden Ausgaben mit [Image 1/2], [Audio 2/2] usw. beschriftet.
Verhalten bei der Extraktion von Dateianhängen:
- Extrahierter Dateitext wird als nicht vertrauenswürdiger externer Inhalt umschlossen, bevor er an den Medien-Prompt angehängt wird.
- Der injizierte Block verwendet explizite Begrenzungsmarker wie
<<<EXTERNAL_UNTRUSTED_CONTENT id="...">>>/<<<END_EXTERNAL_UNTRUSTED_CONTENT id="...">>>und enthält eine MetadatenzeileSource: External. - Dieser Pfad zur Extraktion von Anhängen lässt das lange Banner
SECURITY NOTICE:absichtlich weg, um den Medien-Prompt nicht aufzublähen; die Begrenzungsmarker und Metadaten bleiben jedoch erhalten. - Wenn eine Datei keinen extrahierbaren Text hat, injiziert OpenClaw
[No extractable text]. - Wenn ein PDF in diesem Pfad auf gerenderte Seitenbilder zurückfällt, behält der Medien-Prompt
den Platzhalter
[PDF content rendered to images; images not forwarded to model]bei, weil dieser Schritt der Anhangsextraktion Textblöcke weiterleitet, nicht die gerenderten PDF-Bilder.
Konfigurationsbeispiele
1) Gemeinsame Modellliste + Überschreibungen
2) Nur Audio + Video (Bild aus)
3) Optionales Bildverständnis
4) Ein einzelner multimodaler Eintrag (explizite Fähigkeiten)
Statusausgabe
Wenn Medienverständnis läuft, enthält/status eine kurze Zusammenfassungszeile:
Hinweise
- Das Verständnis ist best-effort. Fehler blockieren Antworten nicht.
- Anhänge werden weiterhin an Modelle übergeben, selbst wenn das Verständnis deaktiviert ist.
- Verwenden Sie
scope, um zu begrenzen, wo das Verständnis läuft (z. B. nur DMs).