Qwen 2.5 — учебник: быстрый старт, развёртывание и практические сценарии применения

Обновлено: 2025-09-05 12:32:56

Искусственный интеллект быстро выходит за рамки моделей, работающих только с текстом, и вступает в многомодальную эру, где системы способны понимать слова, изображения и даже видео. Этот переход открывает двери к более естественным и мощным приложениям — от автоматизации документов до интеллектуального обучения и мультимедийного анализа.

Qwen 2.5, разработанная Alibaba Cloud, — одна из самых продвинутых открытых многомодальных моделей на сегодняшний день. Она сочетает в себе языковое понимание, обработку изображений с высоким разрешением и видеоанализ в одной системе. В отличие от многих закрытых платформ, Qwen 2.5 можно свободно использовать как в исследовательских, так и в коммерческих целях, что делает её привлекательной для разработчиков, стартапов и компаний, стремящихся внедрять практические решения на базе искусственного интеллекта.

В этом руководстве объясняется, как начать работу с Qwen 2.5. Оно охватывает установку, примеры быстрого запуска, способы развёртывания и реальные сценарии применения, чтобы вы могли начать использовать модель в своих проектах.

Что такое Qwen 2.5-VL

Qwen 2.5-VL — новое поколение моделей «зрение-язык» в рамках проекта Tongyi Qianwen. Она объединяет расширенные языковые возможности с анализом изображений высокого разрешения и пониманием видео. Линейка включает модели с 3B, 7B, 32B и 72B параметрами. Меньшие варианты подходят для локальных экспериментов, а крупные модели обеспечивают передовую производительность для задач на уровне предприятий. Благодаря длине контекста до 128 000 токенов Qwen 2.5 способна обрабатывать целые книги или длинные диалоги. В отличие от GPT-4V или Gemini, Qwen — полностью открытая модель, что обеспечивает гибкие варианты использования.

Установка и настройка

Окружение и лицензия

Qwen 2.5-VL распространяется под лицензией Apache 2.0. Это полностью открытая лицензия, позволяющая использовать модель как в исследованиях, так и в коммерческих проектах без существенных ограничений.

Размеры моделей и поддержка контекста

В линейке представлены варианты на 3B, 7B, 32B и 72B параметров. Меньшие модели проще запустить на обычном компьютере, а самая крупная обеспечивает максимальную производительность, но требует видеокарт серверного уровня. Все модели, кроме версии на 72B, доступны под открытой лицензией. Qwen 2.5-VL также поддерживает длинные входные данные до 128 000 токенов, что удобно для анализа объёмных документов и диалогов.

Шаги по установке

Для использования модели с Hugging Face Transformers установите необходимые пакеты:

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]==0.0.8

После установки модель и процессор загружаются всего несколькими строками на Python:

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

Оборудование и квантизация

Версии 3B и 7B можно запускать на одной современной видеокарте, особенно при использовании квантизированных моделей.
Модели 32B и 72B требуют более мощных мульти-GPU систем.
Варианты квантизации, такие как INT8 или INT4, позволяют снизить потребление памяти и делают локальное развёртывание более удобным без серьёзной потери точности.

Быстрый старт с Transformers

После настройки окружения вы можете начать использовать Qwen 2.5-VL всего с несколькими строками кода. Библиотека Hugging Face Transformers предоставляет простой интерфейс для работы с текстом, изображениями и видео.

Загрузка модели и процессора

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorimport torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct",
torch_dtype=torch.float16,
device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

Вопросы к изображению

Например, если у вас есть изображение счета и нужно извлечь из него данные:

from PIL import Image
image = Image.open("invoice_sample.png")
question = "What is the total amount on this invoice?"inputs = processor(text=question, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)print(processor.batch_decode(outputs, skip_special_tokens=True))

Понимание видео

Qwen 2.5-VL поддерживает и видео-входы, что позволяет делать краткое описание или анализировать видеофайлы:

video_path = "meeting_clip.mp4"question = "Summarize the main discussion points in this video."inputs = processor(text=question, videos=video_path, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(outputs, skip_special_tokens=True))

Мультимодальный ввод

Вы также можете передавать несколько изображений или сочетать изображения и видео в одном запросе для более сложных задач.

Локальное развёртывание: веб-демо и Ollama

Qwen 2.5-VL не ограничивается вызовами API или Python-скриптами. Модель можно запускать локально с помощью удобных интерфейсов и лёгких вариантов запуска.

Веб-демо для локального теста

В официальном репозитории есть скрипт web_demo_mm, который запускает простой веб-интерфейс для взаимодействия. С этим демо вы можете загружать изображения или видеофайлы и общаться с моделью в формате чата. Это быстрый способ проверить многомодальные возможности без необходимости писать свой код.

Чтобы запустить демо, выполните команду внутри папки проекта:

python web_demo_mm.py

После запуска доступ к интерфейсу осуществляется через браузер, где вы можете вводить запросы и загружать мультимедиа. Такой подход подходит для быстрого изучения функционала и создания прототипов.

Демо видеочата в реальном времени

Ещё один пример от разработчиков — демонстрация видеочата в реальном времени. В этой версии вы можете передавать поток с веб-камеры или видеоисточника и задавать модели вопросы о содержимом прямо во время записи. Это показывает возможности Qwen 2.5-VL для мониторинга или интерактивного обучения.

Запуск Qwen в Ollama

Для тех, кто ищет максимально простой запуск, Qwen 2.5 поддерживается на платформе Ollama. Ollama предоставляет простой для пользователя сервер для локального запуска крупных моделей. После установки достаточно одной команды, чтобы загрузить модель Qwen 2.5 и приступить к работе без сложных этапов настройки.

Этот способ особенно удобен для пользователей, которые не хотят заниматься настройкой среды Python и хотят попробовать Qwen прямо на своём ноутбуке или ПК.

Частый сценарий: Zero-Shot обнаружение объектов

Один из самых практичных способов применения Qwen 2.5-VL — это обнаружение объектов без обучения (zero-shot). В отличие от традиционных систем компьютерного зрения, которые требуют размеченных данных для обучения, Qwen может распознавать объекты по простому языковому описанию того, что нужно найти.

Это позволяет решать задачи вроде «найти все чашки на столе» или «отметить все светофоры на этом фото» без подготовки собственного датасета. Модель может даже возвращать координаты ограничивающих рамок в структурированном виде, например JSON, что удобно для дальнейшей автоматизации.

Пример рабочего процесса

Передайте изображение на вход.
Сформулируйте текстовый запрос для Qwen: какие объекты нужно определить.
Модель вернёт координаты и метки в формате JSON.
Результаты можно визуализировать или интегрировать в другие приложения.

Пример кода

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom PIL import Imageimport torch, json
# Загрузка модели и процессораmodel = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype=torch.float16, device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# Входное изображениеimage = Image.open("street_scene.jpg")
prompt = "Detect all cars and traffic lights in this image and return results as JSON."
# Предобработка и генерацияinputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
result = processor.batch_decode(outputs, skip_special_tokens=True)
# Разбор вывода (если похож на JSON)
try:
parsed = json.loads(result[0])print(parsed)except:print(result)

Почему это важно

Этот подход сокращает затраты на дорогостоящую разметку данных. Разработчики могут применять Qwen 2.5-VL для задач в ритейле, мониторинге трафика, робототехнике и умных городах с минимальной настройкой.

Производительность и дообучение

Бенчмарки

Qwen 2.5-VL протестирована на широком спектре многомодальных задач. Она показывает отличные результаты в вопросах по документации (DocVQA), оптическом распознавании символов и рассуждениях с длинным контекстом. По сравнению со многими другими открытыми решениями, модель особенно хорошо справляется со сложными документами и видео.

Модель поддерживает ввод объёмом до 128 тысяч токенов, что позволяет анализировать книги, отчёты или длительные беседы без потери контекста. Благодаря этому Qwen 2.5-VL — одна из самых продвинутых моделей открытого исходного кода для задач с длинным контекстом.

Возможности дообучения

Хотя базовые модели уже весьма мощные, многие разработчики захотят адаптировать Qwen 2.5-VL под свои задачи и отрасли. Доступные опции дообучения включают в себя:

Полное дообучение: обновление всех параметров модели для максимальной настройки, лучше всего подходит организациям с большими вычислительными ресурсами.
Эффективное дообучение по параметрам: использование таких методов, как LoRA или QLoRA, чтобы адаптировать модель с помощью гораздо меньшего числа параметров. Это экономично и широко применяется на практике.
Адаптация под домен: обучение на специализированных датасетах, например, медицинских изображениях, финансовых отчетах или юридических контрактах, чтобы повысить точность в узких областях.

Квантование и оптимизация

Чтобы упростить развертывание, разработчики могут использовать квантованные версии модели с точностью INT8 или INT4. Это снижает требования к памяти GPU и ускоряет вывод, при этом точность остается на приемлемом уровне. Такие оптимизации особенно важны при использовании Qwen 2.5 локально или в облаке с ограниченными ресурсами.

Устранение проблем и советы

Избежание зацикливания при декодировании

Иногда модель может выдавать повторяющиеся или незавершенные ответы. Чтобы этого избежать, настройте параметры декодирования, такие как temperature, top_p или max_new_tokens. Сбалансированная конфигурация обычно приводит к более стабильным результатам.

Ограничения оборудования

Для запуска крупных моделей, например, версий 32B или 72B, требуется значительный объем памяти GPU. Если появилась ошибка нехватки памяти, попробуйте использовать меньшую версию (3B или 7B) или применить квантование (INT8 или INT4). Эти варианты снижают требования к VRAM, сохраняя производительность на рабочем уровне.

Выбор декодера

При работе с видео некоторые пользователи замечали проблемы с определёнными декодерами. Переключение с decord на torchcodec или другие оптимизированные библиотеки может повысить стабильность и скорость. Убедитесь, что у вас установлены последние версии необходимых пакетов.

Промпт-инжиниринг

Для задач, таких как обнаружение объектов или парсинг документов, давайте максимально четкие инструкции. Например, попросите модель "выдать результат в формате JSON" или "подвести итоги в виде списка". Четкие промпты снижают неопределенность и делают ответы полезнее.

Пакетная обработка

Если вы обрабатываете несколько изображений или видео, пакетная подача входных данных экономит время и ресурсы. Лучше использовать встроенные функции пакетной обработки вместо того, чтобы запускать каждый файл отдельно. Это также помогает модели учитывать связь между связанными входами.

Заключение

Qwen 2.5-VL показывает, что open-source модели могут конкурировать с закрытыми системами в мультимодальном ИИ. Благодаря мощному OCR, видеоанализу и умению работать с длинным контекстом, это удобный инструмент как для разработчиков, так и для бизнеса. Лицензия Apache 2.0 обеспечивает гибкость, а масштабируемые размеры моделей подходят для разных задач. По мере появления аудио- и 3D-возможностей, Qwen остается отличным выбором для тех, кто создает современные мультимодальные AI-решения.

Часто задаваемые вопросы и дополнительные темы

Можно ли использовать Qwen 2.5-VL через API?
Да. Помимо локального развертывания, Qwen 2.5-VL доступна через облачные API, что упрощает интеграцию в веб- и мобильные приложения.

Какие платформы поддерживают Qwen 2.5?
Модель можно запускать на локальных компьютерах, серверных системах компаний или крупнейших облачных платформах. Для удобства также доступны образы Docker.

Как выбрать подходящий размер модели?
Для экспериментов или легких задач рекомендуются версии 3B или 7B. Организации с мощным оборудованием могут выбрать 32B или 72B для максимальной производительности.

Поддерживает ли Qwen 2.5 структурированные результаты?
Да. Модель может выдавать результаты в формате JSON, таблиц или пар ключ-значение по запросу — это удобно для извлечения данных и автоматических отчетов.