OpenClaw kann eingehende Medien zusammenfassen (Bild/Audio/Video), bevor die Antwort-Pipeline ausgeführt wird. Es erkennt automatisch, wann lokale Tools oder Provider-Schlüssel verfügbar sind, und kann deaktiviert oder angepasst werden. Wenn das Verstehen deaktiviert ist, erhalten Modelle die ursprünglichen Dateien/URLs weiterhin wie gewohnt. Anbieterspezifisches Medienverhalten wird von Anbieter-Plugins registriert, während der OpenClaw-Kern die gemeinsameDocumentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
tools.media-Konfiguration, die Fallback-Reihenfolge und die Integration in die Antwort-Pipeline verwaltet.
Ziele
- Optional: Eingehende Medien zu kurzem Text vorverarbeiten, um schnelleres Routing und bessere Befehlsanalyse zu ermöglichen.
- Ursprüngliche Medienübermittlung an das Modell beibehalten (immer).
- Provider-APIs und CLI-Fallbacks unterstützen.
- Mehrere Modelle mit geordnetem Fallback erlauben (Fehler/Größe/Timeout).
Verhalten auf hoher Ebene
Select per-capability
Für jede aktivierte Fähigkeit (Bild/Audio/Video) Anhänge gemäß Richtlinie auswählen (Standard: erste).
Fallback on failure
Wenn ein Modell fehlschlägt oder die Medien zu groß sind, auf den nächsten Eintrag zurückfallen.
Konfigurationsübersicht
tools.media unterstützt gemeinsame Modelle sowie fähigkeitsspezifische Überschreibungen:
Top-level keys
Top-level keys
tools.media.models: gemeinsame Modellliste (capabilitieszum Einschränken verwenden).tools.media.image/tools.media.audio/tools.media.video:- Standardwerte (
prompt,maxChars,maxBytes,timeoutSeconds,language) - Provider-Überschreibungen (
baseUrl,headers,providerOptions) - Deepgram-Audiooptionen über
tools.media.audio.providerOptions.deepgram - Steuerung der Audio-Transkript-Wiedergabe (
echoTranscript, Standardfalse;echoFormat) - optionale fähigkeitsspezifische
models-Liste (vor gemeinsamen Modellen bevorzugt) attachments-Richtlinie (mode,maxAttachments,prefer)scope(optionale Einschränkung nach Kanal/chatType/Sitzungsschlüssel)
- Standardwerte (
tools.media.concurrency: maximale parallele Fähigkeitsausführungen (Standard 2).
Modelleinträge
Jedermodels[]-Eintrag kann Provider oder CLI sein:
- Provider entry
- CLI entry
Standardwerte und Grenzen
Empfohlene Standardwerte:maxChars: 500 für Bild/Video (kurz, befehlsfreundlich)maxChars: nicht gesetzt für Audio (vollständiges Transkript, sofern Sie kein Limit setzen)maxBytes:- Bild: 10MB
- Audio: 20MB
- Video: 50MB
Rules
Rules
- Wenn Medien
maxBytesüberschreiten, wird dieses Modell übersprungen und das nächste Modell versucht. - Audiodateien kleiner als 1024 Bytes werden als leer/beschädigt behandelt und vor Provider-/CLI-Transkription übersprungen; der eingehende Antwortkontext erhält ein deterministisches Platzhaltertranskript, damit der Agent weiß, dass die Notiz zu klein war.
- Wenn das Modell mehr als
maxCharszurückgibt, wird die Ausgabe gekürzt. promptist standardmäßig ein einfaches “Describe the .” plusmaxChars-Hinweis (nur Bild/Video).- Wenn das aktive primäre Bildmodell Vision bereits nativ unterstützt, überspringt OpenClaw den
[Image]-Zusammenfassungsblock und übergibt stattdessen das ursprüngliche Bild an das Modell. - Wenn ein primäres Gateway-/WebChat-Modell nur Text unterstützt, werden Bildanhänge als ausgelagerte
media://inbound/*-Referenzen beibehalten, sodass die Bild-/PDF-Tools oder das konfigurierte Bildmodell sie weiterhin prüfen können, statt den Anhang zu verlieren. - Explizite
openclaw infer image describe --model <provider/model>-Anfragen sind anders: Sie führen dieses bildfähige Provider-/Modell direkt aus, einschließlich Ollama-Referenzen wieollama/qwen2.5vl:7b. - Wenn
<capability>.enabled: truegesetzt ist, aber keine Modelle konfiguriert sind, versucht OpenClaw das aktive Antwortmodell, wenn dessen Provider die Fähigkeit unterstützt.
Medienverstehen automatisch erkennen (Standard)
Wenntools.media.<capability>.enabled nicht auf false gesetzt ist und Sie keine Modelle konfiguriert haben, erkennt OpenClaw automatisch in dieser Reihenfolge und stoppt bei der ersten funktionierenden Option:
agents.defaults.imageModel
Primäre/Fallback-Referenzen von
agents.defaults.imageModel (nur Bild).
provider/model-Referenzen bevorzugen. Einfache Referenzen werden nur dann aus konfigurierten bildfähigen Provider-Modelleinträgen qualifiziert, wenn die Übereinstimmung eindeutig ist.Local CLIs (audio only)
Lokale CLIs (falls installiert):
sherpa-onnx-offline(erfordertSHERPA_ONNX_MODEL_DIRmit Encoder/Decoder/Joiner/Tokens)whisper-cli(whisper-cpp; verwendetWHISPER_CPP_MODELoder das gebündelte Tiny-Modell)whisper(Python-CLI; lädt Modelle automatisch herunter)
Provider auth
- Konfigurierte
models.providers.*-Einträge, die die Fähigkeit unterstützen, werden vor der gebündelten Fallback-Reihenfolge versucht. - Reine Bild-Konfigurations-Provider mit einem bildfähigen Modell werden automatisch für Medienverstehen registriert, selbst wenn sie kein gebündeltes Anbieter-Plugin sind.
- Ollama-Bildverstehen ist verfügbar, wenn es explizit ausgewählt wird, zum Beispiel über
agents.defaults.imageModeloderopenclaw infer image describe --model ollama/<vision-model>.
- Audio: OpenAI → Groq → xAI → Deepgram → OpenRouter → Google → SenseAudio → ElevenLabs → Mistral
- Bild: OpenAI → Anthropic → Google → MiniMax → MiniMax Portal → Z.AI
- Video: Google → Qwen → Moonshot
Binärerkennung ist unter macOS/Linux/Windows Best Effort; stellen Sie sicher, dass sich die CLI auf
PATH befindet (wir expandieren ~), oder setzen Sie ein explizites CLI-Modell mit vollständigem Befehlspfad.Unterstützung für Proxy-Umgebungen (Provider-Modelle)
Wenn Provider-basiertes Audio- und Video-Medienverstehen aktiviert ist, berücksichtigt OpenClaw standardmäßige ausgehende Proxy-Umgebungsvariablen für Provider-HTTP-Aufrufe:HTTPS_PROXYHTTP_PROXYALL_PROXYhttps_proxyhttp_proxyall_proxy
Fähigkeiten (optional)
Wenn Siecapabilities setzen, läuft der Eintrag nur für diese Medientypen. Für gemeinsame Listen kann OpenClaw Standardwerte ableiten:
openai,anthropic,minimax: Bildminimax-portal: Bildmoonshot: Bild + Videoopenrouter: Bild + Audiogoogle(Gemini API): Bild + Audio + Videoqwen: Bild + Videomistral: Audiozai: Bildgroq: Audioxai: Audiodeepgram: Audio- Beliebiger
models.providers.<id>.models[]-Katalog mit einem bildfähigen Modell: Bild
capabilities explizit, um überraschende Zuordnungen zu vermeiden. Wenn Sie capabilities weglassen, ist der Eintrag für die Liste geeignet, in der er erscheint.
Provider-Unterstützungsmatrix (OpenClaw-Integrationen)
| Fähigkeit | Provider-Integration | Hinweise |
|---|---|---|
| Bild | OpenAI, OpenAI Codex OAuth, Codex app-server, OpenRouter, Anthropic, Google, MiniMax, Moonshot, Qwen, Z.AI, Konfigurations-Provider | Anbieter-Plugins registrieren Bildunterstützung; openai-codex/* nutzt OAuth-Provider-Verkabelung; codex/* nutzt einen begrenzten Codex app-server-Turn; MiniMax und MiniMax OAuth verwenden beide MiniMax-VL-01; bildfähige Konfigurations-Provider registrieren sich automatisch. |
| Audio | OpenAI, Groq, xAI, Deepgram, OpenRouter, Google, SenseAudio, ElevenLabs, Mistral | Provider-Transkription (Whisper/Groq/xAI/Deepgram/OpenRouter STT/Gemini/SenseAudio/Scribe/Voxtral). |
| Video | Google, Qwen, Moonshot | Provider-Videoverstehen über Anbieter-Plugins; Qwen-Videoverstehen verwendet die Standard-DashScope-Endpunkte. |
MiniMax-Hinweis
minimax- undminimax-portal-Bildverstehen stammt vom Plugin-eigenenMiniMax-VL-01-Medien-Provider.- Der gebündelte MiniMax-Textkatalog beginnt weiterhin nur mit Text; explizite
models.providers.minimax-Einträge materialisieren bildfähige M2.7-Chat-Referenzen.
Anleitung zur Modellauswahl
- Bevorzugen Sie für jede Medienfähigkeit das stärkste verfügbare Modell der neuesten Generation, wenn Qualität und Sicherheit wichtig sind.
- Für toolfähige Agenten, die nicht vertrauenswürdige Eingaben verarbeiten, vermeiden Sie ältere/schwächere Medienmodelle.
- Behalten Sie mindestens einen Fallback pro Fähigkeit für Verfügbarkeit bei (Qualitätsmodell + schnelleres/günstigeres Modell).
- CLI-Fallbacks (
whisper-cli,whisper,gemini) sind nützlich, wenn Provider-APIs nicht verfügbar sind. - Hinweis zu
parakeet-mlx: Mit--output-dirliest OpenClaw<output-dir>/<media-basename>.txt, wenn das Ausgabeformattxtist (oder nicht angegeben wurde); andere Formate alstxtfallen auf stdout zurück.
Anhangsrichtlinie
Fähigkeitsspezifischesattachments steuert, welche Anhänge verarbeitet werden:
Ob der erste ausgewählte Anhang oder alle ausgewählten Anhänge verarbeitet werden.
Begrenzen Sie die Anzahl der verarbeiteten Anhänge.
Auswahlpräferenz unter den infrage kommenden Anhängen.
mode: "all" werden Ausgaben als [Image 1/2], [Audio 2/2] usw. beschriftet.
File-attachment extraction behavior
File-attachment extraction behavior
- Extrahierter Dateitext wird als nicht vertrauenswürdiger externer Inhalt umschlossen, bevor er an den Medien-Prompt angehängt wird.
- Der eingefügte Block verwendet explizite Begrenzungsmarker wie
<<<EXTERNAL_UNTRUSTED_CONTENT id="...">>>/<<<END_EXTERNAL_UNTRUSTED_CONTENT id="...">>>und enthält eine MetadatenzeileSource: External. - Dieser Pfad zur Anhangsextraktion lässt das lange Banner
SECURITY NOTICE:absichtlich weg, damit der Medien-Prompt nicht unnötig aufgebläht wird; die Begrenzungsmarker und Metadaten bleiben dennoch erhalten. - Wenn eine Datei keinen extrahierbaren Text enthält, fügt OpenClaw
[No extractable text]ein. - Wenn ein PDF in diesem Pfad auf gerenderte Seitenbilder zurückfällt, behält der Medien-Prompt den Platzhalter
[PDF content rendered to images; images not forwarded to model]bei, weil dieser Anhangsextraktionsschritt Textblöcke weiterleitet, nicht die gerenderten PDF-Bilder.
Konfigurationsbeispiele
Statusausgabe
Wenn Medienverständnis ausgeführt wird, enthält/status eine kurze Zusammenfassungszeile:
Hinweise
- Verständnis erfolgt nach dem Best-Effort-Prinzip. Fehler blockieren Antworten nicht.
- Anhänge werden weiterhin an Modelle übergeben, auch wenn Verständnis deaktiviert ist.
- Verwenden Sie
scope, um einzuschränken, wo Verständnis ausgeführt wird, z. B. nur in DMs.