OpenClaw, barındırılan bulut modelleri ve yerel/kendi barındırdığınız Ollama sunucuları için Ollama’nın yerel API’siyle (Documentation Index
Fetch the complete documentation index at: https://docs.openclaw.ai/llms.txt
Use this file to discover all available pages before exploring further.
/api/chat) entegre olur. Ollama’yı üç modda kullanabilirsiniz: erişilebilir bir Ollama ana makinesi üzerinden Cloud + Local, https://ollama.com üzerinden Cloud only veya erişilebilir bir Ollama ana makinesi üzerinden Local only.
Ollama sağlayıcı yapılandırması, kanonik anahtar olarak baseUrl kullanır. OpenClaw, OpenAI SDK tarzı örneklerle uyumluluk için baseURL değerini de kabul eder, ancak yeni yapılandırmalar baseUrl değerini tercih etmelidir.
Kimlik doğrulama kuralları
Yerel ve LAN ana makineleri
Yerel ve LAN ana makineleri
ollama-local işaretçisini yalnızca loopback, özel ağ, .local ve yalın ana makine adlı Ollama temel URL’leri için kullanır.Uzak ve Ollama Cloud ana makineleri
Uzak ve Ollama Cloud ana makineleri
https://ollama.com), OLLAMA_API_KEY, bir kimlik doğrulama profili veya sağlayıcının apiKey değeri üzerinden gerçek bir kimlik bilgisi gerektirir.Özel sağlayıcı kimlikleri
Özel sağlayıcı kimlikleri
api: "ollama" ayarlayan özel sağlayıcı kimlikleri aynı kuralları izler. Örneğin, özel bir LAN Ollama ana makinesini işaret eden bir ollama-remote sağlayıcısı apiKey: "ollama-local" kullanabilir ve alt ajanlar, bunu eksik bir kimlik bilgisi olarak ele almak yerine Ollama sağlayıcı kancası üzerinden çözer. Bellek araması da agents.defaults.memorySearch.provider değerini bu özel sağlayıcı kimliğine ayarlayabilir; böylece embedding’ler eşleşen Ollama uç noktasını kullanır.Kimlik doğrulama profilleri
Kimlik doğrulama profilleri
auth-profiles.json, bir sağlayıcı kimliği için kimlik bilgisini depolar. Uç nokta ayarlarını (baseUrl, api, model kimlikleri, üstbilgiler, zaman aşımları) models.providers.<id> içine koyun. { "ollama-windows": { "apiKey": "ollama-local" } } gibi eski düz kimlik doğrulama profili dosyaları bir çalışma zamanı biçimi değildir; bunları yedekle birlikte kanonik ollama-windows:default API anahtarı profiline yeniden yazmak için openclaw doctor --fix çalıştırın. Bu dosyadaki baseUrl uyumluluk gürültüsüdür ve sağlayıcı yapılandırmasına taşınmalıdır.Bellek embedding kapsamı
Bellek embedding kapsamı
- Sağlayıcı düzeyindeki anahtar yalnızca o sağlayıcının Ollama ana makinesine gönderilir.
agents.*.memorySearch.remote.apiKeyyalnızca kendi uzak embedding ana makinesine gönderilir.- Saf bir
OLLAMA_API_KEYortam değeri, Ollama Cloud kuralı olarak ele alınır; varsayılan olarak yerel veya kendi barındırdığınız ana makinelere gönderilmez.
Başlarken
Tercih ettiğiniz kurulum yöntemini ve modu seçin.- Başlatma (önerilir)
- Elle kurulum
Modunuzu seçin
- Cloud + Local — yerel Ollama ana makinesi ve bu ana makine üzerinden yönlendirilen bulut modelleri
- Cloud only —
https://ollama.comüzerinden barındırılan Ollama modelleri - Local only — yalnızca yerel modeller
Bir model seçin
Cloud only, OLLAMA_API_KEY ister ve barındırılan bulut varsayılanlarını önerir. Cloud + Local ve Local only, bir Ollama temel URL’si ister, kullanılabilir modelleri keşfeder ve seçilen yerel modeli henüz mevcut değilse otomatik olarak çeker. Ollama, gemma4:latest gibi yüklü bir :latest etiketi bildirdiğinde kurulum, hem gemma4 hem de gemma4:latest göstermenin veya yalın takma adı yeniden çekmenin yerine bu yüklü modeli bir kez gösterir. Cloud + Local, ilgili Ollama ana makinesinin bulut erişimi için oturum açmış olup olmadığını da denetler.Etkileşimsiz mod
Bulut modelleri
- Cloud + Local
- Cloud only
- Local only
Cloud + Local, hem yerel hem de bulut modelleri için denetim noktası olarak erişilebilir bir Ollama ana makinesi kullanır. Bu, Ollama’nın tercih ettiği hibrit akıştır.Kurulum sırasında Cloud + Local kullanın. OpenClaw, Ollama temel URL’sini ister, bu ana makineden yerel modelleri keşfeder ve ollama signin ile ana makinenin bulut erişimi için oturum açmış olup olmadığını denetler. Ana makine oturum açmışsa OpenClaw ayrıca kimi-k2.5:cloud, minimax-m2.7:cloud ve glm-5.1:cloud gibi barındırılan bulut varsayılanlarını önerir.Ana makine henüz oturum açmamışsa OpenClaw, siz ollama signin çalıştırana kadar kurulumu yalnızca yerel tutar.Model keşfi (örtük sağlayıcı)
OLLAMA_API_KEY (veya bir kimlik doğrulama profili) ayarladığınızda ve models.providers.ollama ya da api: "ollama" içeren başka bir özel uzak sağlayıcı tanımlamadığınızda OpenClaw, http://127.0.0.1:11434 adresindeki yerel Ollama örneğinden modelleri keşfeder.
| Davranış | Ayrıntı |
|---|---|
| Katalog sorgusu | /api/tags sorgular |
| Yetenek algılama | contextWindow, genişletilmiş num_ctx Modelfile parametreleri ve görme/araçlar dahil yetenekleri okumak için en iyi çaba /api/show aramalarını kullanır |
| Görme modelleri | /api/show tarafından bildirilen vision yeteneğine sahip modeller görüntü yetenekli (input: ["text", "image"]) olarak işaretlenir; böylece OpenClaw görüntüleri prompt’a otomatik olarak enjekte eder |
| Akıl yürütme algılama | Kullanılabilir olduğunda thinking dahil /api/show yeteneklerini kullanır; Ollama yetenekleri atladığında model adı sezgisel kuralına (r1, reasoning, think) geri döner |
| Token sınırları | maxTokens değerini OpenClaw tarafından kullanılan varsayılan Ollama maksimum token sınırına ayarlar |
| Maliyetler | Tüm maliyetleri 0 olarak ayarlar |
infer model run içinde ollama/<pulled-model>:latest gibi tam bir ref kullanabilirsiniz; OpenClaw bu yüklü modeli, elle yazılmış bir models.json girdisi gerektirmeden Ollama’nın canlı kataloğundan çözer.
Oturum açılmış Ollama ana makinelerinde, bazı :cloud modeller /api/tags içinde görünmeden önce /api/chat
ve /api/show üzerinden kullanılabilir olabilir. Tam bir ollama/<model>:cloud ref’ini açıkça seçtiğinizde,
OpenClaw eksik olan bu modeli /api/show ile doğrular ve yalnızca Ollama model
metadatasını doğrularsa çalışma zamanı kataloğuna ekler. Yazım hataları yine otomatik oluşturulmak yerine bilinmeyen model olarak başarısız olur.
infer model run kullanın:
infer model run komutuna bir veya daha fazla
görüntü dosyası ekleyin. Bu, prompt’u ve görüntüyü sohbet araçlarını, belleği veya önceki
oturum bağlamını yüklemeden doğrudan seçilen Ollama görme modeline gönderir:
model run --file, yaygın PNG,
JPEG ve WebP girdileri dahil image/* olarak algılanan dosyaları kabul eder. Görüntü olmayan dosyalar, Ollama çağrılmadan önce reddedilir.
Konuşma tanıma için bunun yerine openclaw infer audio transcribe kullanın.
Bir konuşmayı /model ollama/<model> ile değiştirdiğinizde OpenClaw bunu
tam bir kullanıcı seçimi olarak ele alır. Yapılandırılan Ollama baseUrl değeri
erişilemez durumdaysa, sonraki yanıt başka bir yapılandırılmış yedek modelden sessizce
yanıt vermek yerine sağlayıcı hatasıyla başarısız olur.
İzole cron işleri, agent dönüşünü başlatmadan önce fazladan bir yerel güvenlik denetimi yapar. Seçilen model yerel, özel ağ veya .local Ollama sağlayıcısına çözümlenirse ve /api/tags erişilemez durumdaysa OpenClaw, bu cron çalıştırmasını hata metninde seçilen ollama/<model> ile skipped olarak kaydeder. Uç nokta ön denetimi 5 dakika boyunca önbelleğe alınır; bu nedenle aynı durdurulmuş Ollama daemon’una yönlendirilmiş birden fazla cron işi, hepsi birden başarısız model istekleri başlatmaz.
Yerel metin yolunu, yerel akış yolunu ve embeddings’i yerel Ollama’ya karşı canlı doğrulamak için:
models.providers.ollama değerini açıkça ayarlarsanız veya api: "ollama" ile models.providers.ollama-cloud gibi özel bir uzak sağlayıcı yapılandırırsanız otomatik keşif atlanır ve modelleri elle tanımlamanız gerekir. http://127.0.0.2:11434 gibi loopback özel sağlayıcılar yine de yerel olarak değerlendirilir. Aşağıdaki açık yapılandırma bölümüne bakın.Görü ve görüntü açıklaması
Paketle gelen Ollama Plugin’i, Ollama’yı görüntü yetenekli bir medya anlama sağlayıcısı olarak kaydeder. Bu, OpenClaw’ın açık görüntü açıklama isteklerini ve yapılandırılmış görüntü modeli varsayılanlarını yerel veya barındırılan Ollama görü modelleri üzerinden yönlendirmesini sağlar. Yerel görü için görüntüleri destekleyen bir model çekin:--model tam bir <provider/model> başvurusu olmalıdır. Ayarlandığında openclaw infer image describe, model yerel görüyü desteklediği için açıklamayı atlamak yerine bu modeli doğrudan çalıştırır.
OpenClaw’ın görüntü anlama sağlayıcı akışını, yapılandırılmış agents.defaults.imageModel değerini ve görüntü açıklama çıktı biçimini istediğinizde infer image describe kullanın. Özel bir prompt ve bir veya daha fazla görüntüyle ham multimodal model yoklaması istediğinizde infer model run --file kullanın.
Ollama’yı gelen medya için varsayılan görüntü anlama modeli yapmak üzere agents.defaults.imageModel yapılandırın:
ollama/<model> başvurusunu tercih edin. Aynı model models.providers.ollama.models altında input: ["text", "image"] ile listelenmişse ve yapılandırılmış başka hiçbir görüntü sağlayıcı bu yalın model kimliğini açığa çıkarmıyorsa OpenClaw, qwen2.5vl:7b gibi yalın bir imageModel başvurusunu da ollama/qwen2.5vl:7b olarak normalleştirir. Aynı yalın kimliğe birden fazla yapılandırılmış görüntü sağlayıcı sahipse sağlayıcı önekini açıkça kullanın.
Yavaş yerel görü modelleri, bulut modellerinden daha uzun bir görüntü anlama zaman aşımına ihtiyaç duyabilir. Ayrıca Ollama kısıtlı donanımda duyurulan tam görü bağlamını ayırmaya çalıştığında çökebilir veya durabilirler. Bir yetenek zaman aşımı ayarlayın ve yalnızca normal bir görüntü açıklama dönüşüne ihtiyacınız olduğunda model girdisinde num_ctx değerini sınırlayın:
image aracına uygulanır. Sağlayıcı düzeyindeki models.providers.ollama.timeoutSeconds, normal model çağrıları için alttaki Ollama HTTP isteği korumasını kontrol etmeye devam eder.
Açık görüntü aracını yerel Ollama’ya karşı canlı doğrulamak için:
models.providers.ollama.models değerini elle tanımlarsanız görü modellerini görüntü girişi desteğiyle işaretleyin:
/api/show bir görü yeteneği bildirdiğinde bunu Ollama’dan okur.
Yapılandırma
- Basic (implicit discovery)
- Explicit (manual models)
- Custom base URL
Yaygın tarifler
Bunları başlangıç noktası olarak kullanın ve model kimlikleriniollama list veya openclaw models list --provider ollama çıktısındaki tam adlarla değiştirin.
Local model with auto-discovery
Local model with auto-discovery
models.providers.ollama bloğu eklemeyin.LAN Ollama host with manual models
LAN Ollama host with manual models
/v1 eklemeyin.contextWindow, OpenClaw tarafındaki bağlam bütçesidir. params.num_ctx, istek için Ollama’ya gönderilir. Donanımınız modelin duyurulan tam bağlamını çalıştıramadığında bunları uyumlu tutun.Ollama Cloud only
Ollama Cloud only
Cloud plus local through a signed-in daemon
Cloud plus local through a signed-in daemon
ollama signin ile oturum açmışsa ve hem yerel modelleri hem de :cloud modellerini sunması gerekiyorsa bunu kullanın.Multiple Ollama hosts
Multiple Ollama hosts
ollama-large/qwen3.5:27b, Ollama’ya qwen3.5:27b olarak ulaşır.Lean local model profile
Lean local model profile
compat.supportsTools: false yalnızca model veya sunucu araç şemalarında güvenilir biçimde başarısız olduğunda kullanın. Bu, kararlılık karşılığında ajan yeteneğinden ödün verir.
localModelLean, tarayıcı, cron ve mesaj araçlarını ajan yüzeyinden kaldırır, ancak Ollama’nın çalışma zamanı bağlamını veya düşünme modunu değiştirmez. Döngüye giren ya da yanıt bütçesini gizli akıl yürütmeye harcayan küçük Qwen tarzı düşünme modelleri için bunu açık params.num_ctx ve params.thinking: false ile eşleştirin.Model seçimi
Yapılandırıldıktan sonra tüm Ollama modelleriniz kullanılabilir:ollama-spark/qwen3:32b, OpenClaw
Ollama’yı çağırmadan önce yalnızca bu öneki kaldırır, böylece sunucu
qwen3:32b alır.
Yavaş yerel modeller için, tüm ajan çalışma zamanı zaman aşımını yükseltmeden
önce sağlayıcı kapsamlı istek ayarlamasını tercih edin:
timeoutSeconds, bağlantı kurulumu, başlıklar, gövde akışı ve toplam korumalı getirme iptali dahil olmak üzere model HTTP isteğine uygulanır. params.keep_alive, yerel /api/chat isteklerinde üst düzey keep_alive olarak Ollama’ya iletilir; ilk tur yükleme süresi darboğaz olduğunda bunu model başına ayarlayın.
Hızlı doğrulama
127.0.0.1 değerini baseUrl içinde kullanılan ana makineyle değiştirin. curl çalışıyor ancak OpenClaw çalışmıyorsa Gateway’in farklı bir makinede, kapsayıcıda veya hizmet hesabında çalışıp çalışmadığını kontrol edin.
Ollama Web Search
OpenClaw, paketlenmiş birweb_search sağlayıcısı olarak Ollama Web Search desteği sunar.
| Özellik | Ayrıntı |
|---|---|
| Ana makine | Yapılandırılmış Ollama ana makinenizi kullanır (models.providers.ollama.baseUrl ayarlanmışsa o, aksi halde http://127.0.0.1:11434); https://ollama.com barındırılan API’yi doğrudan kullanır |
| Kimlik doğrulama | Oturum açılmış yerel Ollama ana makineleri için anahtarsızdır; doğrudan https://ollama.com araması veya kimlik doğrulaması korumalı ana makineler için OLLAMA_API_KEY ya da yapılandırılmış sağlayıcı kimlik doğrulaması |
| Gereksinim | Yerel/kendi barındırdığınız ana makineler çalışıyor ve ollama signin ile oturum açılmış olmalıdır; doğrudan barındırılan arama, baseUrl: "https://ollama.com" ve gerçek bir Ollama API anahtarı gerektirir |
openclaw onboard veya openclaw configure --section web sırasında Ollama Web Search seçin ya da şunu ayarlayın:
/api/experimental/web_search proxy’sini kullanır. https://ollama.com için barındırılan /api/web_search uç noktasını doğrudan çağırır.
Gelişmiş yapılandırma
Eski OpenAI uyumlu mod
Eski OpenAI uyumlu mod
api: "openai-completions" değerini açıkça ayarlayın:params: { streaming: false } ile akışı devre dışı bırakmanız gerekebilir.Ollama ile api: "openai-completions" kullanıldığında OpenClaw varsayılan olarak options.num_ctx enjekte eder, böylece Ollama sessizce 4096 bağlam penceresine geri dönmez. Proxy’niz/yukarı akışınız bilinmeyen options alanlarını reddediyorsa bu davranışı devre dışı bırakın:Bağlam pencereleri
Bağlam pencereleri
PARAMETER num_ctx değerleri dahil olmak üzere Ollama tarafından bildirilen bağlam penceresini kullanır. Aksi halde OpenClaw tarafından kullanılan varsayılan Ollama bağlam penceresine geri döner.O Ollama sağlayıcısı altındaki her model için sağlayıcı düzeyinde contextWindow, contextTokens ve maxTokens varsayılanlarını ayarlayabilir, ardından gerektiğinde model başına bunları geçersiz kılabilirsiniz. contextWindow, OpenClaw’ın istem ve Compaction bütçesidir. Yerel Ollama istekleri, params.num_ctx değerini açıkça yapılandırmadığınız sürece options.num_ctx alanını ayarlamaz; böylece Ollama kendi modelini, OLLAMA_CONTEXT_LENGTH değerini veya VRAM tabanlı varsayılanını uygulayabilir. Bir Modelfile’ı yeniden oluşturmadan Ollama’nın istek başına çalışma zamanı bağlamını sınırlamak veya zorlamak için params.num_ctx ayarlayın; geçersiz, sıfır, negatif ve sonlu olmayan değerler yok sayılır. OpenAI uyumlu Ollama bağdaştırıcısı, varsayılan olarak yapılandırılmış params.num_ctx veya contextWindow değerinden options.num_ctx enjekte etmeye devam eder; yukarı akışınız options değerini reddediyorsa bunu injectNumCtxForOpenAICompat: false ile devre dışı bırakın.Yerel Ollama model girdileri ayrıca params altında temperature, top_p, top_k, min_p, num_predict, stop, repeat_penalty, num_batch, num_thread ve use_mmap dahil ortak Ollama çalışma zamanı seçeneklerini kabul eder. OpenClaw yalnızca Ollama istek anahtarlarını iletir, bu nedenle streaming gibi OpenClaw çalışma zamanı parametreleri Ollama’ya sızdırılmaz. Üst düzey Ollama think göndermek için params.think veya params.thinking kullanın; false, Qwen tarzı düşünme modelleri için API düzeyinde düşünmeyi devre dışı bırakır.agents.defaults.models["ollama/<model>"].params.num_ctx da çalışır. İkisi de yapılandırılmışsa, açık sağlayıcı model girdisi ajan varsayılanına göre önceliklidir.Düşünme denetimi
Düşünme denetimi
options.think değil, üst düzey think. /api/show yanıtı thinking yeteneğini içeren otomatik keşfedilen modeller /think low, /think medium, /think high ve /think max sunar; düşünmeyen modeller yalnızca /think off sunar.params.think veya params.thinking, belirli bir yapılandırılmış model için Ollama API düşünmesini devre dışı bırakabilir ya da zorlayabilir. Etkin çalıştırmada yalnızca örtük varsayılan off olduğunda OpenClaw bu açık model parametrelerini korur; /think medium gibi off dışı çalışma zamanı komutları yine de etkin çalıştırmayı geçersiz kılar.Akıl yürütme modelleri
Akıl yürütme modelleri
deepseek-r1, reasoning veya think gibi adlara sahip modelleri varsayılan olarak akıl yürütme yetenekli kabul eder.Model maliyetleri
Model maliyetleri
Bellek gömmeleri
Bellek gömmeleri
/api/embed uç noktasını çağırır ve mümkün olduğunda birden fazla bellek parçasını tek bir input isteğinde toplu işler.| Özellik | Değer |
|---|---|
| Varsayılan model | nomic-embed-text |
| Otomatik çekme | Evet — gömme modeli yerelde yoksa otomatik olarak çekilir |
nomic-embed-text, qwen3-embedding ve mxbai-embed-large dahil bunları gerektiren veya öneren modeller için alma öneklerini kullanır. Mevcut dizinlerin biçim geçişine ihtiyaç duymaması için bellek belge toplu işlemleri ham kalır.Bellek araması gömme sağlayıcısı olarak Ollama’yı seçmek için:Akış yapılandırması
Akış yapılandırması
/api/chat) kullanır; bu API akışı ve araç çağırmayı aynı anda tam olarak destekler. Özel yapılandırma gerekmez.Yerel /api/chat istekleri için OpenClaw düşünme denetimini de doğrudan Ollama’ya iletir: /think off ve openclaw agent --thinking off, açık bir model params.think/params.thinking değeri yapılandırılmadığı sürece üst düzey think: false gönderir; /think low|medium|high ise eşleşen üst düzey think çaba dizesini gönderir. /think max, Ollama’nın en yüksek yerel çabasına, yani think: "high" değerine eşlenir.Sorun Giderme
WSL2 çökme döngüsü (tekrarlanan yeniden başlatmalar)
WSL2 çökme döngüsü (tekrarlanan yeniden başlatmalar)
Restart=always içeren bir ollama.service systemd birimi oluşturur. Bu hizmet otomatik başlar ve WSL2 önyüklemesi sırasında GPU destekli bir model yüklerse, Ollama model yüklenirken ana makine belleğini sabitleyebilir. Hyper-V bellek geri kazanımı bu sabitlenmiş sayfaları her zaman geri alamaz; bu nedenle Windows WSL2 VM’ini sonlandırabilir, systemd Ollama’yı yeniden başlatır ve döngü tekrarlanır.Yaygın kanıtlar:- Windows tarafından tekrarlanan WSL2 yeniden başlatmaları veya sonlandırmaları
- WSL2 başlangıcından kısa süre sonra
app.sliceveyaollama.serviceiçinde yüksek CPU kullanımı - Linux OOM-killer olayı yerine systemd kaynaklı SIGTERM
Restart=always ile etkinleştirilmiş ollama.service birimini ve görünür CUDA işaretçilerini algıladığında başlangıçta bir uyarı günlüğe yazar.Azaltma:%USERPROFILE%\.wslconfig dosyasına ekleyin, ardından wsl --shutdown çalıştırın:Ollama algılanmadı
Ollama algılanmadı
OLLAMA_API_KEY değerini (veya bir kimlik doğrulama profili) ayarladığınızdan ve açık bir models.providers.ollama girdisi tanımlamadığınızdan emin olun:Kullanılabilir model yok
Kullanılabilir model yok
models.providers.ollama içinde açıkça tanımlayın.Bağlantı reddedildi
Bağlantı reddedildi
Uzak ana makine curl ile çalışıyor ama OpenClaw ile çalışmıyor
Uzak ana makine curl ile çalışıyor ama OpenClaw ile çalışmıyor
baseUrl,localhostdeğerini gösterir, ancak Gateway Docker içinde veya başka bir ana makinede çalışır.- URL
/v1kullanır; bu da yerel Ollama yerine OpenAI uyumlu davranışı seçer. - Uzak ana makinede Ollama tarafında güvenlik duvarı veya LAN bağlama değişiklikleri gerekir.
- Model dizüstü bilgisayarınızdaki daemon’da vardır ancak uzak daemon’da yoktur.
Model araç JSON'unu metin olarak çıkarıyor
Model araç JSON'unu metin olarak çıkarıyor
compat.supportsTools: false ayarlayın ve yeniden test edin.Kimi veya GLM bozuk semboller döndürüyor
Kimi veya GLM bozuk semboller döndürüyor
Cloud + Local mı yoksa Cloud only mi kullandığını yakalayın; ardından yeni bir oturum ve bir fallback model deneyin:Soğuk yerel model zaman aşımına uğruyor
Soğuk yerel model zaman aşımına uğruyor
timeoutSeconds bu sağlayıcı için korumalı Undici bağlantı zaman aşımını da uzatır.Büyük bağlamlı model çok yavaş veya belleği tükeniyor
Büyük bağlamlı model çok yavaş veya belleği tükeniyor
params.num_ctx ayarlamadığınız sürece Ollama’nın kendi çalışma zamanı bağlamı varsayılanını kullanır. Öngörülebilir ilk belirteç gecikmesi istediğinizde hem OpenClaw’ın bütçesini hem de Ollama’nın istek bağlamını sınırlayın:contextWindow değerini düşürün. Ollama makine için çok büyük bir çalışma zamanı bağlamı yüklüyorsa params.num_ctx değerini düşürün. Üretim çok uzun sürüyorsa maxTokens değerini düşürün.