دليل Qwen 2.5: البدء السريع، النشر، وحالات الاستخدام الواقعية

تاريخ التحديث: 2025-09-05 12:32:56

تتطور الذكاء الاصطناعي بسرعة من الاعتماد فقط على النماذج النصية إلى عصر متعدد الوسائط حيث يمكن للأنظمة فهم الكلمات والصور وحتى الفيديو. هذا التحول يمهد الطريق لتطبيقات أكثر طبيعية وقوة، بدءًا من أتمتة المستندات وصولاً إلى التعليم الذكي وتحليل الوسائط المتعددة.

يعتبر Qwen 2.5، المطور من قبل Alibaba Cloud، واحداً من أكثر النماذج مفتوحة المصدر تقدماً في مجال النماذج متعددة الوسائط اليوم. يجمع هذا النموذج بين فهم اللغة، معالجة الصور عالية الدقة، والاستدلال على مقاطع الفيديو في نظام واحد. وعلى عكس العديد من المنصات المغلقة، يمكن استخدام Qwen 2.5 بحرية للأبحاث والأغراض التجارية، مما يجعله خياراً جذاباً للمطورين والشركات الناشئة والمؤسسات التي ترغب في بناء حلول ذكاء اصطناعي عملية.

يشرح هذا الدليل كيفية البدء مع Qwen 2.5، ويغطي التثبيت، وأمثلة البدء السريع، وطرق النشر، وحالات الاستخدام الواقعية حتى تتمكن من تطبيق النموذج في مشاريعك الخاصة.

ما هو Qwen 2.5-VL

Qwen 2.5-VL هو الجيل الأحدث من نماذج الرؤية واللغة ضمن مشروع Tongyi Qianwen. يجمع بين معالجة اللغة واسعة النطاق وتحليل الصور عالية الدقة وفهم الفيديو. تضم العائلة نماذج بالأحجام 3B و7B و32B و72B من حيث عدد المعاملات. النماذج الصغيرة مناسبة للتجارب على الأجهزة المحلية، بينما النماذج الأكبر توفر أداءً من الطراز الأول لمهام المؤسسات الكبرى. ومع دعم سياق يصل إلى 128,000 رمز، يمكن لـ Qwen 2.5 معالجة كتب كاملة أو محادثات طويلة. وعلى عكس GPT-4V أو Gemini، فإن Qwen مفتوح المصدر بالكامل، مما يجعل اعتماده أكثر مرونة.

التثبيت والإعداد

البيئة والترخيص

يتم إصدار Qwen 2.5-VL تحت رخصة Apache 2.0. هذا يعني أنه مفتوح المصدر بالكامل ويمكن استخدامه في المشاريع البحثية والتجارية بدون قيود كبيرة.

أحجام النماذج ودعم السياق

تتضمن العائلة عدة أحجام للمعاملات مثل 3B و7B و32B و72B. النماذج الصغيرة أسهل في التشغيل على الأجهزة المحلية، بينما النموذج الأكبر يقدم أعلى أداء لكنه يحتاج إلى وحدات معالجة رسومات قوية. جميع النماذج باستثناء نسخة 72B مشمولة بالرخصة المفتوحة. كما يدعم Qwen 2.5-VL إدخال سياق طويل حتى 128,000 رمز، مما يجعله مناسبًا لتحليل المستندات والمحادثات الطويلة.

خطوات التثبيت

لإعداد النموذج باستخدام Hugging Face Transformers، قم بتثبيت الحزم المطلوبة:

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]==0.0.8

بعد التثبيت، يمكن تحميل النموذج والمعالج بعدة أسطر بسيطة من بايثون:

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

المعدات والتحويل الكمي

  • يمكن تشغيل نسختي 3B و7B على بطاقة رسوميات واحدة حديثة، خاصة مع استخدام النسخ المحوّلة كمياً.
  • نماذج 32B و72B تتطلب أجهزة متعددة ووحدات معالجة رسومات ذات أداء عالٍ.
  • خيارات التحويل الكمي مثل INT8 أو INT4 تساعد في تقليل استهلاك الذاكرة، مما يجعل النشر المحلي أكثر عملية مع الحفاظ على دقة جيدة.

البدء السريع مع Transformers

بعد تجهيز البيئة، يمكنك البدء باستخدام Qwen 2.5-VL ببضع أسطر من الشيفرة فقط. مكتبة Hugging Face Transformers توفر واجهة سهلة لاستخدام النص والصورة والفيديو.

تحميل النموذج والمعالج

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorimport torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct",
   torch_dtype=torch.float16,
   device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

الأسئلة والإجابات على الصور

على سبيل المثال، إذا كان لديك صورة فاتورة وتريد استخراج معلومات منها:

from PIL import Image
image = Image.open("invoice_sample.png")
question = "ما هو المبلغ الإجمالي في هذه الفاتورة؟"inputs = processor(text=question, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)print(processor.batch_decode(outputs, skip_special_tokens=True))

فهم الفيديو

يدعم Qwen 2.5-VL أيضاً إدخال الفيديو، مما يتيح تلخيص أو تحليل مقاطع الفيديو:

video_path = "meeting_clip.mp4"question = "لخص النقاط الرئيسية في النقاش بهذا الفيديو."inputs = processor(text=question, videos=video_path, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(outputs, skip_special_tokens=True))

المدخلات متعددة الوسائط

يمكنك أيضاً إدخال عدة صور أو مزيج من الصور والفيديو في طلب واحد للحصول على استنتاجات أكثر تعقيداً.

النشر المحلي مع العرض التجريبي على الويب وOllama

Qwen 2.5-VL ليس محدوداً باستدعاءات API أو سكريبتات بايثون فقط. يمكنك أيضاً تشغيل النموذج محلياً باستخدام واجهات سهلة وخيارات تشغيل خفيفة.

عرض تجريبي على الويب للاختبار المحلي

يتضمن المستودع الرسمي سكريبت web_demo_mm الذي يطلق واجهة ويب مبسطة. مع هذا العرض التجريبي، يمكنك رفع الصور أو ملفات الفيديو والتفاعل مع النموذج بطريقة محادثة، وهو أسرع طريقة لاختبار قدرات النموذج متعددة الوسائط دون الحاجة إلى كتابة شيفرة مخصصة.

للبدء في العرض التجريبي، نفذ الأمر التالي داخل مجلد المشروع:

python web_demo_mm.py

بعد التشغيل، يمكنك الوصول إلى الواجهة من المتصفح، حيث يمكنك إدخال التعليمات ورفع الوسائط. هذا الإعداد مثالي للاستكشاف السريع والاختبار الأولي.

عرض تجريبي لمحادثة الفيديو في الوقت الحقيقي

مثال آخر يقدمه المطورون هو عرض تجريبي لمحادثة فيديو مباشرة، يتيح لك هذا الإصدار بث مدخلات من كاميرا ويب أو مصدر فيديو وسؤال النموذج عن محتوى الفيديو مباشرة أثناء المشاهدة. هذا العرض يظهر قوة Qwen 2.5-VL في السيناريوهات الديناميكية مثل المراقبة أو التعليم التفاعلي.

تشغيل Qwen مع Ollama

للمستخدمين الذين يفضلون تجربة مبسطة، يدعم Qwen 2.5 أيضاً منصة Ollama، والتي توفر بيئة تشغيل سهلة للنماذج الضخمة على الأجهزة المحلية. بعد التثبيت، يمكنك تحميل نموذج Qwen 2.5 بأمر واحد والبدء بالاستخدام دون الحاجة إلى إعدادات معقدة.

هذه الطريقة مفيدة بشكل خاص لمن يفضلون الحد الأدنى من الإعدادات ويرغبون في تجربة Qwen على أجهزتهم الشخصية دون الحاجة لخبرة بايثون متقدمة.

حالة استخدام شائعة: اكتشاف الأجسام بدون تدريب مسبق

واحدة من أكثر التطبيقات العملية لـ Qwen 2.5-VL هي اكتشاف الأجسام بدون تدريب مسبق. على عكس أنظمة الرؤية الحاسوبية التقليدية التي تتطلب بيانات تدريب معنونة، يمكن لـ Qwen اكتشاف الأجسام فقط عبر تلقي وصف طبيعي للأشياء المطلوبة.

هذا يجعل من الممكن تنفيذ مهام مثل تحديد "كل الأكواب على الطاولة" أو "جميع إشارات المرور في هذه الصورة" دون الحاجة لبناء بيانات مخصصة. كما يستطيع النموذج إعطاء إحداثيات الصناديق المحيطة بالأجسام بتنسيق منظم مثل JSON، مما يجعله مفيداً لخطوط الأتمتة المختلفة.

سير العمل كمثال

  • وفّر صورة كمدخل.
  • اطلب من Qwen تحديد الأجسام المطلوبة باستخدام نص بسيط.
  • يعيد النموذج الإحداثيات والتسميات بتنسيق JSON.
  • يمكن عرض النتائج أو دمجها في تطبيقات أخرى.

مثال شيفرة

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom PIL import Imageimport torch, json
# تحميل النموذج والمعالجmodel = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype=torch.float16, device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# إدخال الصورةimage = Image.open("street_scene.jpg")
prompt = "اكتشف جميع السيارات وإشارات المرور في هذه الصورة وأعد النتائج بتنسيق JSON."
# المعالجة والتوليدinputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
result = processor.batch_decode(outputs, skip_special_tokens=True)
# تحويل النتائج (إذا كانت بصيغة JSON)
try:
   parsed = json.loads(result[0])print(parsed)except:print(result)

لماذا هذا مهم

هذه الطريقة تقلل الحاجة لمشاريع عنونة البيانات المكلفة. يمكن للمطورين تطبيق Qwen 2.5-VL في مجالات مثل تحليلات البيع بالتجزئة، مراقبة المرور، الروبوتات، وتطبيقات المدن الذكية بسهولة ودون تعقيدات كبيرة.

الأداء وتحسين النموذج

أداء المقاييس القياسية

تم تقييم Qwen 2.5-VL على مجموعة واسعة من المهام متعددة الوسائط، وحقق نتائج قوية في إجابة الأسئلة حول الوثائق (DocVQA)، التعرف البصري على الحروف، والاستدلال على النصوص الطويلة. وبالمقارنة مع العديد من البدائل مفتوحة المصدر، فإن أداؤه استثنائي في التعامل مع الوثائق المعقدة ومدخلات الفيديو.

كما يدعم النموذج إدخال حتى 128 ألف رمز، مما يتيح تحليل الكتب والتقارير والمحادثات الطويلة دون فقدان السياق، ليكون بذلك واحداً من أقوى نماذج المصدر المفتوح من ناحية الاستدلال على السياقات الواسعة.

خيارات تحسين النموذج

رغم أن النماذج الأساسية قوية جداً، إلا أن كثيراً من المطورين قد يرغبون في تكييف Qwen 2.5-VL لمجالات معينة. وتشمل خيارات تحسين النموذج ما يلي:

  • التوليف الكامل: تحديث جميع معلمات النموذج لتحقيق أقصى تخصيص، وهو الخيار الأنسب للمؤسسات التي تمتلك موارد حسابية كبيرة.
  • التوليف الفعّال للمعلمات: استخدام تقنيات مثل LoRA أو QLoRA لتعديل النموذج بعدد أقل بكثير من المعلمات. هذا خيار فعال من حيث التكلفة ويُستخدم على نطاق واسع في التطبيقات الإنتاجية.
  • تكييف النموذج للمجال: التدريب باستخدام مجموعات بيانات متخصصة، مثل الصور الطبية أو التقارير المالية أو العقود القانونية، لتحسين الدقة في المجالات الضيقة.

التكميم والتحسين

لجعل النشر أكثر عملية، يمكن للمطورين استخدام نسخ مكممة من النموذج بدقة INT8 أو INT4. هذا يقلل من متطلبات ذاكرة GPU ويزيد من سرعة الاستدلال، مع الحفاظ على دقة مقبولة. تعتبر هذه التحسينات ضرورية عند تشغيل Qwen 2.5 محليًا أو في بيئات سحابية ذات موارد محدودة.

استكشاف المشكلات والنصائح

تجنّب حلقات فك الترميز

في بعض الأحيان، قد ينتج النموذج مخرجات متكررة أو غير مكتملة. لمنع ذلك، يمكنك تعديل معلمات فك الترميز مثل temperature أو top_p أو max_new_tokens. غالبًا ما يؤدي الضبط المتوازن إلى ردود أكثر استقرارًا.

قيود الأجهزة

تشغيل نماذج كبيرة مثل إصدارات 32B أو 72B يتطلب ذاكرة GPU كبيرة. إذا واجهت أخطاء نفاد الذاكرة، جرب استخدام إصدار أصغر (3B أو 7B)، أو طبّق التكميم (INT8 أو INT4). هذه الخيارات تقلل متطلبات VRAM مع الحفاظ على الأداء في مستوى عملي.

اختيار فك الترميز

عند العمل بمدخلات فيديو، أبلغ بعض المستخدمين عن مشاكل مع بعض فك الشيفرة المحددة. التحويل من decord إلى torchcodec أو مكتبات محسّنة أخرى قد يحسن الاستقرار والسرعة. تأكد من تثبيت أحدث إصدار من الحزم المطلوبة.

هندسة التعليمات

للمهام مثل اكتشاف الأجسام أو تحليل الوثائق، كن واضحًا في توجيهاتك. مثلاً، اطلب من النموذج "إرجاع النتائج بصيغة JSON" أو "تلخيص على شكل نقاط". التعليمات الواضحة تقلل الغموض وتزيد فائدة المخرجات.

المعالجة الدُفعية

إذا كنت تعالج عدة صور أو فيديوهات، فإن تجميع المدخلات في دفعات يوفر الوقت والموارد. استخدم وظائف الدُفعات المدمجة في المعالج بدلاً من معالجة كل ملف منفصلًا. هذا يساعد النموذج أيضًا في الحفاظ على سياق موحّد عبر المدخلات المتعلقة.

الخلاصة

يُظهر Qwen 2.5-VL كيف يمكن للنماذج مفتوحة المصدر أن تنافس الأنظمة المغلقة في الذكاء الصناعي متعدد الوسائط. مع قدراته القوية في التعرف البصري على النصوص وتحليل الفيديو والسياق الطويل، فإنه أداة عملية للمطورين والشركات على حد سواء. توفر رخصة Apache 2.0 المرونة، وأحجام النموذج المتنوعة تناسب حالات استخدام متعددة. مع توسع الإصدارات القادمة لدعم الصوت والرسومات ثلاثية الأبعاد، سيبقى Qwen خيارًا قويًا لكل من يريد بناء حلول ذكاء صناعي متقدمة متعددة الوسائط.

الأسئلة الشائعة ومواضيع الإضافة

هل يمكن استخدام Qwen 2.5-VL عبر واجهة برمجة التطبيقات (API)؟
نعم. بالإضافة للنشر المحلي، يمكن الوصول إلى Qwen 2.5-VL عبر واجهات برمجة التطبيقات السحابية، مما يسهل دمجه مع تطبيقات الويب أو الجوال.

ما هي المنصات التي تدعم Qwen 2.5؟
يمكن نشر النموذج على أجهزة محلية، أو خوادم مؤسسية، أو منصات سحابية رئيسية. تتوفر أيضًا صور Docker لتسهيل الإعداد.

كيف أختار حجم النموذج المناسب؟
للتجربة أو التطبيقات الخفيفة يُنصح باستخدام إصدارات 3B أو 7B. أما المؤسسات التي تملك عتادًا قويًا، يمكنها الاستفادة من إصدارات 32B أو 72B لأعلى أداء.

هل يدعم Qwen 2.5 مخرجات منظمة؟
نعم. يمكن للنموذج توليد نتائج بصيغ JSON أو جداول أو بصيغة مفتاح-قيمة عند الطلب، وهذا مفيد لاستخراج البيانات أو التقارير الآلية.