Qwen 2.5 Kullanım Kılavuzu: Hızlı Başlangıç, Dağıtım ve Gerçek Hayattan Kullanım Senaryoları
Güncellenme Tarihi: 2025-09-05 12:32:56
Yapay zeka hızla yalnızca metin odaklı modellerin ötesine geçiyor ve kelimeleri, görselleri hatta videoları anlayabilen çok modlu bir döneme giriyor. Bu değişim, belge otomasyonundan akıllı eğitim ve multimedya analizine kadar, daha doğal ve güçlü uygulamaların kapısını aralıyor.
Alibaba Cloud tarafından geliştirilen Qwen 2.5, günümüzde mevcut olan en gelişmiş açık kaynaklı çok modlu modellerden biridir. Dil anlama, yüksek çözünürlüklü görüntü işleme ve video çıkarımını tek bir sistemde birleştirir. Birçok kapalı platformun aksine, Qwen 2.5 araştırma ve ticari amaçlarla serbestçe kullanılabilir, bu da onu pratik yapay zeka çözümleri geliştirmek isteyen geliştiriciler, girişimler ve şirketler için cazip bir seçenek haline getirir.
Bu rehber, Qwen 2.5 ile nasıl başlayacağınızı açıklar. Kurulum, hızlı başlangıç örnekleri, dağıtım yöntemleri ve gerçek kullanım senaryolarını kapsayarak, modeli kendi projeleriniz için nasıl hayata geçirebileceğinizi gösterir.
Qwen 2.5-VL Nedir
Qwen 2.5-VL, Tongyi Qianwen projesi altında geliştirilen en yeni nesil görsel-dil modelleridir. Geniş dil işleme kapasitesini yüksek çözünürlüklü görüntü analizi ve video anlama yeteneğiyle birleştirir. 3B, 7B, 32B ve 72B parametreli modellerden oluşur. Küçük modeller yerel denemeler için uygundur, büyük modeller ise kurumsal ölçekteki görevlerde son teknoloji performans sunar. 128.000 tokene kadar bağlam uzunluğuna sahip olan Qwen 2.5, tüm kitapları veya uzun konuşmaları işleyebilir. GPT-4V veya Gemini’den farklı olarak Qwen tamamen açık kaynaklıdır ve esnek kullanım sunar.
Kurulum ve Ayarlar
Ortam ve Lisans
Qwen 2.5-VL, Apache 2.0 lisansı ile sunulmaktadır. Bu, modelin tamamen açık kaynak olduğu ve büyük kısıtlamalar olmadan hem araştırma hem de ticari projelerde kullanılabileceği anlamına gelir.
Model Boyutları ve Bağlam Desteği
Model ailesinde 3B, 7B, 32B ve 72B gibi farklı parametre boyutları bulunur. Daha küçük modelleri yerelde çalıştırmak daha kolayken, en büyük model en yüksek performansı sunar fakat sunucu sınıfı GPU’lara ihtiyaç duyar. 72B modeli dışındaki tüm modeller açık lisans kapsamındadır. Qwen 2.5-VL, 128.000 tokene kadar uzun bağlam girdilerini de destekler; bu uzun belgeler ve konuşmaların analizinde avantaj sağlar.
Kurulum Adımları
Modeli Hugging Face Transformers ile kurmak için gerekli paketleri yükleyin:
pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]==0.0.8
Kurulum sonrası, model ve işlemci birkaç satır Python kodu ile yüklenebilir:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
Donanım ve Kuantizasyon
- 3B ve 7B modeller, özellikle kuantize edilmiş sürümlerle modern tek bir GPU’da çalıştırılabilir.
- 32B ve 72B modeller ise daha güçlü, çoklu GPU sistemlerine ihtiyaç duyar.
- INT8 veya INT4 gibi kuantizasyon seçenekleri, bellek kullanımını düşürerek yerel dağıtımı daha pratik hale getirirken kabul edilebilir doğruluk sağlar.
Transformers ile Hızlı Başlangıç
Ortamı kurduktan sonra, Qwen 2.5-VL’yi birkaç satır kodla kullanmaya başlayabilirsiniz. Hugging Face Transformers kütüphanesi, metin, görsel ve video girdileri için kolay bir arayüz sunar.
Model ve İşlemciyi Yükleme
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorimport torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct",
torch_dtype=torch.float16,
device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
Görsel Soru Cevaplama
Örneğin; bir fatura görselindeki bilgileri almak istiyorsanız:
from PIL import Image
image = Image.open("invoice_sample.png")
question = "Bu faturadaki toplam tutar nedir?"inputs = processor(text=question, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)print(processor.batch_decode(outputs, skip_special_tokens=True))
Video Anlama
Qwen 2.5-VL, video girdisini de destekler; böylece klipleri özetlemek veya analiz etmek mümkündür:
video_path = "meeting_clip.mp4"question = "Bu videodaki ana tartışma başlıklarını özetle."inputs = processor(text=question, videos=video_path, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(outputs, skip_special_tokens=True))
Çoklu Modlu Girdi
Daha karmaşık çıkarımlar için tek bir istekte birden fazla görsel ya da görsel ve video kombinasyonu verebilirsiniz.
Yerel Dağıtım | Web Demo ve Ollama
Qwen 2.5-VL, yalnızca API çağrıları veya Python betikleriyle sınırlı değildir. Modeli yerelde kullanıcı dostu arayüzlerle ve hafif çalışma ortamlarında da çalıştırabilirsiniz.
Yerel Test için Web Demo
Resmi depo, basit bir web tabanlı arayüz başlatan web_demo_mm adlı bir betik içerir. Bu demo sayesinde görsel veya video dosyalarını yükleyerek modeli sohbet benzeri bir şekilde test edebilirsiniz. Kendi kodunuzu yazmanıza gerek kalmadan çok modlu yetenekleri denemek için hızlı bir yöntemdir.
Demo’yu başlatmak için proje dizini içinde şu komutu çalıştırın:
python web_demo_mm.py
Başlatıldığında arayüze tarayıcınızdan ulaşabilir, istemler girip medya yükleyebilirsiniz. Bu yapı hızlı keşif ve prototipleme için idealdir.
Anlık Video Sohbet Demosu
Geliştiricilerin sunduğu diğer bir örnek ise gerçek zamanlı video sohbet demosudur. Bu sürümde bir webcam ya da video kaynağından gelen görüntüleri canlı olarak modele sorabilir; içerikle ilgili anlık yanıtlar alabilirsiniz. Qwen 2.5-VL’nin izleme veya etkileşimli eğitim gibi dinamik senaryolardaki gücünü gösterir.
Ollama ile Qwen Çalıştırmak
Daha hafif bir deneyim isteyenler için, Qwen 2.5 Ollama’da da desteklenmektedir. Ollama, büyük modelleri yerelde çalıştırmak için kolay bir çalışma ortamı sunar. Kurulumdan sonra, tek bir komutla Qwen 2.5 modelini çekip ayrıntılı kurulumlarla uğraşmadan anında kullanmaya başlayabilirsiniz.
Bu yöntem, Python ortamları hakkında derin bilgiye gerek duymadan veya fazla ayar yapmadan Qwen’i dizüstü ya da masaüstü bilgisayarında denemek isteyenler için idealdir.
Yaygın Kullanım: Sıfır Atışlı Nesne Tespiti
Qwen 2.5-VL’yi kullanmanın en pratik yollarından biri sıfır atışlı nesne tespiti yapmaktır. Geleneksel bilgisayarlı görü sistemlerinin etiketli eğitim verisine ihtiyacı varken, Qwen yalnızca doğal dilde ne arandığını belirterek nesneleri tespit edebilir.
Bu sayede herhangi bir özel veri seti hazırlamadan “masadaki tüm kupaları” veya “bu fotoğraftaki tüm trafik ışıklarını” bulmak mümkündür. Model, sınır kutusu koordinatlarını JSON gibi yapılandırılmış formatta da çıktılar; böylece sonraki otomasyon adımlarında kullanılabilir.
Örnek Çalışma Akışı
- Bir görseli girdi olarak verin.
- Qwen'den metinle istenen nesneleri tespit etmesini isteyin.
- Model koordinat ve etiketleri JSON formatında döndürür.
- Sonuçlar görselleştirilebilir ya da uygulamalara entegre edilebilir.
Örnek Kod
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom PIL import Imageimport torch, json
# Model ve işlemciyi yükle
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype=torch.float16, device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# Girdi görseli
image = Image.open("street_scene.jpg")
prompt = "Bu görseldeki tüm arabaları ve trafik ışıklarını tespit et ve sonucu JSON olarak döndür."
# Ön işleme ve çıktı
inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
result = processor.batch_decode(outputs, skip_special_tokens=True)
# Çıktıyı çöz (JSON ise)
try:
parsed = json.loads(result[0])print(parsed)except:print(result)
Neden Önemli?
Bu yaklaşım, pahalı etiketleme projelerine olan ihtiyacı azaltır. Geliştiriciler Qwen 2.5-VL’yi az ön hazırlıkla perakende analitiği, trafik izlemesi, robotik ve akıllı şehir uygulamaları gibi alanlarda rahatlıkla kullanabilir.
Performans ve İnce Ayar
Kıyaslama Sonuçları
Qwen 2.5-VL çok çeşitli çok modlu görevlerde test edilmiştir. Belgede soru yanıtlama (DocVQA), optik karakter tanıma ve uzun bağlamlı akıl yürütmede güçlü sonuçlar vermektedir. Birçok açık kaynak alternatife göre, karmaşık belgeleri ve video girdilerini yönetmede özellikle öne çıkar.
Model, 128K tokene kadar girdileri destekler; bu da kitapların, raporların ya da uzun konuşmaların geniş kapsamlı analizini bağlam kaybı olmadan mümkün kılar. Böylece uzun bağlam gerektiren akıl yürütmeler için en yetenekli açık kaynak modellerden biri olur.
İnce Ayar Seçenekleri
Temel modeller oldukça güçlü olsa da çoğu geliştirici Qwen 2.5-VL’yi kendi alanı için uyarlamak isteyecektir. İnce ayar seçenekleri şunlardır:
- Tam ince ayar: Tüm model parametrelerinin güncellenmesiyle en yüksek düzeyde özelleştirme uygulanır, büyük donanım kaynaklarına sahip kurumlar için en uygunudur.
- Parametre verimli ince ayar: Modeli çok daha az parametreyle uyarlamak için LoRA ya da QLoRA gibi teknikler kullanılır. Bu seçenek maliyet açısından avantajlıdır ve yaygın olarak üretimde tercih edilir.
- Alan uyarlaması: Modeli tıbbi görüntüler, finansal raporlar veya hukuki sözleşmeler gibi özel veri setleriyle eğitmek; böylece spesifik alanlarda doğruluğu artırmak mümkündür.
Kantizasyon ve Optimizasyon
Dağıtımı daha pratik hale getirmek için geliştiriciler, modelin INT8 veya INT4 hassasiyetli kantize edilmiş sürümlerini kullanabilir. Bu, GPU belleği ihtiyacını azaltır ve çıkarım hızını artırır; aynı zamanda kabul edilebilir doğruluk seviyesini korur. Bu tür optimizasyonlar, Qwen 2.5'i yerelde veya sınırlı kaynaklara sahip bulut ortamlarında çalıştırırken özellikle önemli hale gelir.
Sorun Giderme ve İpuçları
Çözümleme Döngülerinden Kaçınmak
Bazı durumlarda model tekrar eden veya tamamlanmamış çıktılar üretebilir. Bunu önlemek için temperature, top_p veya max_new_tokens gibi çözümleme parametrelerini değiştirin. Dengeli bir ayar genellikle daha istikrarlı yanıtlar verir.
Donanım Sınırlamaları
32B veya 72B gibi büyük modelleri çalıştırmak ciddi GPU belleği gerektirir. Yetersiz bellek hatalarıyla karşılaşırsanız, daha küçük bir versiyon (3B veya 7B) tercih edin ya da kantizasyon uygulayın (INT8 veya INT4). Bu seçenekler VRAM ihtiyacını azaltırken performansı kullanılabilir seviyede tutar.
Çözücü Seçimi
Video girdisi ile çalışırken bazı kullanıcılar belirli çözücülerde sorun yaşayabilir. decord yerine torchcodec veya başka optimize edilmiş kütüphanelere geçmek, istikrarı ve hızı artırabilir. Gerekli paketlerin en güncel sürümünü kurduğunuzdan emin olun.
Prompt Mühendisliği
Nesne algılama veya belge ayrıştırma gibi görevler için talimatlarınızı açık şekilde belirtin. Örneğin, modele "sonuçları JSON formatında döndür" ya da "madde madde özetle" diyebilirsiniz. Açık istemler, belirsizliği azaltır ve çıktıları daha faydalı hale getirir.
Toplu İşleme
Birden fazla görsel veya video işliyorsanız, girdileri toplu şekilde göndermek zaman ve kaynak tasarrufu sağlar. Her dosyayı ayrı çalıştırmak yerine işlemcinin gömülü toplu işlem fonksiyonlarını kullanın. Bu yöntem, modelin ilgili girdiler arasında bağlamı korumasını da kolaylaştırır.
Sonuç
Qwen 2.5-VL, açık kaynaklı modellerin multimodal yapay zekâda kapalı sistemlere nasıl rakip olabileceğini gösteriyor. Güçlü OCR, video mantık yürütme ve uzun bağlam yetenekleriyle hem geliştiriciler hem de işletmeler için pratik bir araç. Apache 2.0 lisansı sayesinde esnek kullanıma imkan tanır ve ölçeklenebilen model boyutları pek çok kullanım senaryosuna uygundur. Gelecekteki versiyonlarda ses ve 3D desteğiyle daha da gelişerek, ileri seviye multimodal yapay zekâ uygulamaları için güçlü bir seçenek olmaya devam edecek.
Sıkça Sorulan Sorular ve Ek Konular
Qwen 2.5-VL API üzerinden kullanılabilir mi?
Evet. Yerel dağıtımın yanında, Qwen 2.5-VL bulut API’leri ile erişilebilir; böylece web veya mobil uygulamalara entegre etmek kolaylaşır.
Qwen 2.5’i hangi platformlar destekliyor?
Modeli yerel makinelerde, kurumsal sunucularda veya büyük bulut platformlarında dağıtabilirsiniz. Ayrıca, basit kurulum için Docker imajları da mevcuttur.
Doğru model boyutunu nasıl seçerim?
Deneme veya hafif uygulamalar için 3B veya 7B sürümler önerilir. Daha güçlü donanıma sahip kurumlar, en yüksek performans için 32B veya 72B modellerden faydalanabilir.
Qwen 2.5 yapılandırılmış çıktıları destekliyor mu?
Evet. Model, JSON, tablo veya anahtar-değer formatında çıktılar üretebilir; bu özellik veri çıkarımı veya otomatik raporlama için oldukça faydalıdır.