Compréhension des médias - Entrants (2026-01-17)
OpenClaw peut résumer les médias entrants (image/audio/vidéo) avant l’exécution du pipeline de réponse. Il détecte automatiquement lorsque des outils locaux ou des clés de fournisseur sont disponibles, et peut être désactivé ou personnalisé. Si la compréhension est désactivée, les modèles reçoivent quand même les fichiers/URL d’origine comme d’habitude. Le comportement média spécifique à chaque fournisseur est enregistré par des plugins de fournisseur, tandis qu’OpenClaw core gère la configuration partagéetools.media, l’ordre de repli et l’intégration au pipeline de réponse.
Objectifs
- Facultatif : prétraiter les médias entrants en texte court pour un routage plus rapide et une meilleure analyse des commandes.
- Préserver la livraison du média d’origine au modèle (toujours).
- Prendre en charge les API de fournisseur et les replis CLI.
- Autoriser plusieurs modèles avec un ordre de repli (erreur/taille/timeout).
Comportement général
- Collecter les pièces jointes entrantes (
MediaPaths,MediaUrls,MediaTypes). - Pour chaque capacité activée (image/audio/vidéo), sélectionner les pièces jointes selon la politique (par défaut : la première).
- Choisir la première entrée de modèle éligible (taille + capacité + authentification).
- Si un modèle échoue ou si le média est trop volumineux, passer à l’entrée suivante.
- En cas de succès :
Bodydevient un bloc[Image],[Audio]ou[Video].- L’audio définit
{{Transcript}}; l’analyse des commandes utilise le texte de légende lorsqu’il est présent, sinon la transcription. - Les légendes sont préservées comme
User text:dans le bloc.
Vue d’ensemble de la configuration
tools.media prend en charge des modèles partagés plus des remplacements par capacité :
tools.media.models: liste de modèles partagés (utilisezcapabilitiespour les limiter).tools.media.image/tools.media.audio/tools.media.video:- valeurs par défaut (
prompt,maxChars,maxBytes,timeoutSeconds,language) - remplacements de fournisseur (
baseUrl,headers,providerOptions) - options audio Deepgram via
tools.media.audio.providerOptions.deepgram - contrôles d’écho de transcription audio (
echoTranscript, valeur par défautfalse;echoFormat) - liste
modelspar capacité facultative (prioritaire sur les modèles partagés) - politique
attachments(mode,maxAttachments,prefer) scope(limitation facultative par canal/chatType/clé de session)
- valeurs par défaut (
tools.media.concurrency: nombre maximal d’exécutions de capacités concurrentes (par défaut 2).
Entrées de modèle
Chaque entréemodels[] peut être de type provider ou CLI :
{{MediaDir}}(répertoire contenant le fichier média){{OutputDir}}(répertoire temporaire créé pour cette exécution){{OutputBase}}(chemin de base du fichier temporaire, sans extension)
Valeurs par défaut et limites
Valeurs par défaut recommandées :maxChars: 500 pour image/vidéo (court, adapté aux commandes)maxChars: non défini pour l’audio (transcription complète sauf si vous définissez une limite)maxBytes:- image : 10MB
- audio : 20MB
- vidéo : 50MB
- Si le média dépasse
maxBytes, ce modèle est ignoré et le modèle suivant est essayé. - Les fichiers audio inférieurs à 1024 bytes sont traités comme vides/corrompus et ignorés avant la transcription via fournisseur/CLI.
- Si le modèle renvoie plus de
maxChars, la sortie est tronquée. promptutilise par défaut un simple « Describe the . » plus la consignemaxChars(image/vidéo uniquement).- Si le modèle d’image principal actif prend déjà en charge nativement la vision, OpenClaw
ignore le bloc de résumé
[Image]et transmet l’image d’origine au modèle à la place. - Si
<capability>.enabled: truemais qu’aucun modèle n’est configuré, OpenClaw essaie le modèle de réponse actif lorsque son fournisseur prend en charge cette capacité.
Détection automatique de la compréhension des médias (par défaut)
Sitools.media.<capability>.enabled n’est pas défini à false et que vous n’avez
pas configuré de modèles, OpenClaw détecte automatiquement dans cet ordre et s’arrête à la première
option fonctionnelle :
- Modèle de réponse actif lorsque son fournisseur prend en charge la capacité.
agents.defaults.imageModelrefs primary/fallback (image uniquement).- CLIs locales (audio uniquement ; si installées)
sherpa-onnx-offline(nécessiteSHERPA_ONNX_MODEL_DIRavec encoder/decoder/joiner/tokens)whisper-cli(whisper-cpp; utiliseWHISPER_CPP_MODELou le petit modèle groupé)whisper(CLI Python ; télécharge automatiquement les modèles)
- Gemini CLI (
gemini) en utilisantread_many_files - Authentification fournisseur
- Les entrées configurées
models.providers.*qui prennent en charge la capacité sont essayées avant l’ordre de repli groupé. - Les fournisseurs configurés image uniquement avec un modèle compatible image s’enregistrent automatiquement pour la compréhension des médias même lorsqu’ils ne sont pas un plugin fournisseur groupé.
- Ordre de repli groupé :
- Audio : OpenAI → Groq → Deepgram → Google → Mistral
- Image : OpenAI → Anthropic → Google → MiniMax → MiniMax Portal → Z.AI
- Vidéo : Google → Qwen → Moonshot
- Les entrées configurées
PATH (nous développons ~), ou définissez un modèle CLI explicite avec un chemin de commande complet.
Prise en charge de l’environnement proxy (modèles fournisseur)
Lorsque la compréhension des médias audio et vidéo basée sur un fournisseur est activée, OpenClaw respecte les variables d’environnement proxy sortantes standard pour les appels HTTP au fournisseur :HTTPS_PROXYHTTP_PROXYhttps_proxyhttp_proxy
Capacités (facultatif)
Si vous définissezcapabilities, l’entrée ne s’exécute que pour ces types de médias. Pour les listes
partagées, OpenClaw peut déduire des valeurs par défaut :
openai,anthropic,minimax: imageminimax-portal: imagemoonshot: image + vidéoopenrouter: imagegoogle(API Gemini) : image + audio + vidéoqwen: image + vidéomistral: audiozai: imagegroq: audiodeepgram: audio- Tout catalogue
models.providers.<id>.models[]avec un modèle compatible image : image
capabilities explicitement afin d’éviter les correspondances surprenantes.
Si vous omettez capabilities, l’entrée est éligible pour la liste dans laquelle elle apparaît.
Matrice de prise en charge des fournisseurs (intégrations OpenClaw)
| Capacité | Intégration fournisseur | Remarques |
|---|---|---|
| Image | OpenAI, OpenRouter, Anthropic, Google, MiniMax, Moonshot, Qwen, Z.AI, fournisseurs configurés | Les plugins fournisseur enregistrent la prise en charge image ; MiniMax et MiniMax OAuth utilisent tous deux MiniMax-VL-01 ; les fournisseurs configurés compatibles image s’enregistrent automatiquement. |
| Audio | OpenAI, Groq, Deepgram, Google, Mistral | Transcription via fournisseur (Whisper/Deepgram/Gemini/Voxtral). |
| Vidéo | Google, Qwen, Moonshot | Compréhension vidéo via fournisseur à travers des plugins fournisseur ; la compréhension vidéo Qwen utilise les points de terminaison DashScope Standard. |
- La compréhension d’image
minimaxetminimax-portalprovient du fournisseur médiaMiniMax-VL-01appartenant au plugin. - Le catalogue texte MiniMax groupé reste initialement limité au texte ;
des entrées explicites
models.providers.minimaxmatérialisent des refs de chat M2.7 compatibles image.
Conseils de sélection de modèle
- Préférez le modèle le plus puissant et de dernière génération disponible pour chaque capacité média lorsque la qualité et la sécurité comptent.
- Pour les agents avec outils gérant des entrées non fiables, évitez les anciens/modèles média plus faibles.
- Conservez au moins un repli par capacité pour la disponibilité (modèle de qualité + modèle plus rapide/moins coûteux).
- Les replis CLI (
whisper-cli,whisper,gemini) sont utiles lorsque les API de fournisseur ne sont pas disponibles. - Remarque
parakeet-mlx: avec--output-dir, OpenClaw lit<output-dir>/<media-basename>.txtlorsque le format de sortie esttxt(ou non spécifié) ; les formats autres quetxtreviennent à stdout.
Politique des pièces jointes
Le paramètreattachments par capacité contrôle quelles pièces jointes sont traitées :
mode:first(par défaut) ouallmaxAttachments: limite du nombre traité (par défaut 1)prefer:first,last,path,url
mode: "all" est utilisé, les sorties sont étiquetées [Image 1/2], [Audio 2/2], etc.
Comportement d’extraction des pièces jointes de fichier :
- Le texte extrait du fichier est encapsulé comme contenu externe non fiable avant d’être ajouté à l’invite média.
- Le bloc injecté utilise des marqueurs de frontière explicites tels que
<<<EXTERNAL_UNTRUSTED_CONTENT id="...">>>/<<<END_EXTERNAL_UNTRUSTED_CONTENT id="...">>>et inclut une ligne de métadonnéesSource: External. - Ce chemin d’extraction de pièce jointe omet volontairement la longue
bannière
SECURITY NOTICE:pour éviter de gonfler l’invite média ; les marqueurs de frontière et les métadonnées restent toutefois présents. - Si un fichier ne contient aucun texte extractible, OpenClaw injecte
[No extractable text]. - Si un PDF revient à des images de pages rendues dans ce chemin, l’invite média conserve
l’espace réservé
[PDF content rendered to images; images not forwarded to model]parce que cette étape d’extraction de pièce jointe transmet des blocs de texte, pas les images PDF rendues.
Exemples de configuration
1) Liste de modèles partagés + remplacements
2) Audio + vidéo uniquement (image désactivée)
3) Compréhension d’image facultative
4) Entrée multimodale unique (capacités explicites)
Sortie de statut
Lorsque la compréhension des médias s’exécute,/status inclut une courte ligne récapitulative :
Remarques
- La compréhension est fournie en meilleur effort. Les erreurs ne bloquent pas les réponses.
- Les pièces jointes sont toujours transmises aux modèles même lorsque la compréhension est désactivée.
- Utilisez
scopepour limiter les endroits où la compréhension s’exécute (par ex. uniquement les DMs).