Tutorial de Qwen 2.5: Introducción rápida, despliegue y casos de uso en el mundo real

Actualizado el: 2025-09-05 12:32:56

La inteligencia artificial está avanzando rápidamente más allá de los modelos solo de texto hacia una era multimodal, donde los sistemas pueden comprender palabras, imágenes y hasta video. Este cambio está abriendo la puerta a aplicaciones más naturales y potentes, que van desde automatización de documentos hasta tutoría inteligente y análisis multimedia.

Qwen 2.5, desarrollado por Alibaba Cloud, es uno de los modelos multimodales de código abierto más avanzados disponibles hoy en día. Integra comprensión de lenguaje, procesamiento de imágenes en alta resolución y razonamiento con videos en un solo sistema. A diferencia de muchas plataformas cerradas, Qwen 2.5 puede usarse libremente tanto para investigación como en proyectos comerciales, lo que lo convierte en una opción atractiva para desarrolladores, startups y empresas que desean crear soluciones de IA prácticas.

Esta guía explica cómo comenzar a usar Qwen 2.5. Incluye información sobre la instalación, ejemplos rápidos, métodos de despliegue y casos de uso reales, para que puedas aplicar el modelo en tus propios proyectos.

¿Qué es Qwen 2.5-VL?

Qwen 2.5-VL es la generación más reciente de modelos de visión y lenguaje dentro del proyecto Tongyi Qianwen. Combina procesamiento de lenguaje a gran escala con análisis de imágenes en alta resolución y comprensión de video. La familia incluye modelos de 3B, 7B, 32B y 72B parámetros. Las variantes más pequeñas son ideales para experimentos locales, mientras que los modelos grandes ofrecen el mejor rendimiento en tareas de nivel empresarial. Con una longitud de contexto de hasta 128,000 tokens, Qwen 2.5 puede manejar libros completos o conversaciones extensas. A diferencia de GPT-4V o Gemini, Qwen es totalmente de código abierto, lo que permite una adopción flexible.

Instalación y configuración

Entorno y licencia

Qwen 2.5-VL se distribuye bajo la licencia Apache 2.0. Esto significa que es completamente de código abierto y puede utilizarse tanto en proyectos de investigación como comerciales sin restricciones importantes.

Tamaños de modelo y soporte de contexto

La familia incluye varios tamaños de parámetros como 3B, 7B, 32B y 72B. Los modelos más pequeños se pueden ejecutar fácilmente en equipos locales, mientras que el modelo más grande ofrece el mayor desempeño pero requiere GPUs de nivel servidor. Todos los modelos, excepto la versión 72B, están cubiertos por la licencia abierta. Qwen 2.5-VL también admite entradas de contexto largas de hasta 128,000 tokens, lo que lo hace ideal para analizar documentos extensos y conversaciones largas.

Pasos de instalación

Para configurar el modelo con Hugging Face Transformers, instala los paquetes requeridos:

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]==0.0.8

Una vez instalados, el modelo y el procesador pueden cargarse con solo unas líneas de Python:

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

Hardware y cuantización

Las versiones 3B y 7B pueden ejecutarse en una sola GPU moderna, especialmente usando versiones cuantizadas.
Los modelos de 32B y 72B necesitan configuraciones potentes con múltiples GPUs.
Las opciones de cuantización como INT8 o INT4 pueden reducir el uso de memoria, facilitando el despliegue local mientras se mantiene una precisión aceptable.

Comenzar rápido con Transformers

Una vez que el entorno está configurado, puedes empezar a usar Qwen 2.5-VL con solo unas líneas de código. La biblioteca Hugging Face Transformers ofrece una interfaz sencilla para entradas de texto, imágenes y video.

Cargar el modelo y el procesador

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorimport torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct",
torch_dtype=torch.float16,
device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

Preguntas sobre imágenes

Por ejemplo, si tienes una imagen de una factura y quieres extraer información:

from PIL import Image
image = Image.open("invoice_sample.png")
question = "¿Cuál es el monto total en esta factura?"inputs = processor(text=question, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)print(processor.batch_decode(outputs, skip_special_tokens=True))

Comprensión de video

Qwen 2.5-VL también admite entrada de video, lo que permite resumir o analizar fragmentos:

video_path = "meeting_clip.mp4"question = "Resume los puntos principales de discusión en este video."inputs = processor(text=question, videos=video_path, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(outputs, skip_special_tokens=True))

Entrada multimodal

También puedes enviar varias imágenes o combinar imágenes y videos en una solicitud para razonamientos más complejos.

Despliegue local con demo web y Ollama

Qwen 2.5-VL no está limitado a llamadas por API o scripts en Python. También puedes ejecutar el modelo localmente con interfaces amigables y opciones ligeras de ejecución.

Demo web para pruebas locales

El repositorio oficial incluye un script web_demo_mm que lanza una interfaz web sencilla. Con este demo, puedes subir imágenes o videos y conversar con el modelo en un formato tipo chat. Es una forma rápida de probar las capacidades multimodales sin tener que escribir código personalizado.

Para iniciar el demo, ejecuta el siguiente comando dentro del directorio del proyecto:

python web_demo_mm.py

Una vez iniciado, puedes acceder a la interfaz desde tu navegador, lo que te permite ingresar mensajes y subir archivos multimedia. Esta configuración es ideal para explorar y hacer prototipos de manera rápida.

Demo de chat de video en tiempo real

Otro ejemplo proporcionado por los desarrolladores es un demo de chat de video en tiempo real. Esta versión te permite transmitir desde una cámara web o fuente de video y hacerle preguntas al modelo sobre el contenido en tiempo real. Demuestra el potencial de Qwen 2.5-VL en escenarios dinámicos como monitoreo o tutoría interactiva.

Ejecutar Qwen con Ollama

Para quienes buscan una experiencia ligera, Qwen 2.5 también está disponible en Ollama. Ollama ofrece un entorno fácil de usar para ejecutar grandes modelos localmente. Una vez instalado, puedes descargar el modelo Qwen 2.5 con un solo comando y empezar a interactuar sin pasos de configuración complicados.

Este método es especialmente útil para quienes prefieren el mínimo esfuerzo en la configuración y quieren probar Qwen en su portátil o computadora de escritorio sin conocimientos profundos de entornos Python.

Casos de uso común: Detección de objetos zero-shot

Una de las formas más prácticas de usar Qwen 2.5-VL es para detección de objetos zero-shot. A diferencia de los sistemas tradicionales de visión por computadora que necesitan datos de entrenamiento etiquetados, Qwen puede detectar objetos simplemente recibiendo una descripción en lenguaje natural de lo que debe buscar.

Esto permite realizar tareas como localizar “todas las tazas en la mesa” o “todos los semáforos en esta foto” sin necesidad de preparar conjuntos de datos personalizados. El modelo incluso puede devolver las coordenadas de las cajas delimitadoras en un formato estructurado como JSON, haciendo útil su resultado para flujos de trabajo automatizados.

Flujo de trabajo de ejemplo

Proporciona una imagen de entrada.
Pídele a Qwen que identifique los objetos de interés usando texto simple.
El modelo devuelve las coordenadas y etiquetas en formato JSON.
Los resultados pueden visualizarse o integrarse en otras aplicaciones.

Código de ejemplo

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom PIL import Imageimport torch, json
# Cargar modelo y procesadormodel = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype=torch.float16, device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# Imagen de entradaimage = Image.open("street_scene.jpg")
prompt = "Detecta todos los coches y semáforos en esta imagen y devuelve los resultados en formato JSON."
# Preprocesar y generarinputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
result = processor.batch_decode(outputs, skip_special_tokens=True)
# Analizar salida (si es tipo JSON)
try:
parsed = json.loads(result[0])print(parsed)except:print(result)

¿Por qué es importante?

Este enfoque reduce la necesidad de costosos proyectos de anotación. Los desarrolladores pueden aplicar Qwen 2.5-VL en áreas como análisis de comercios minoristas, monitoreo de tráfico, robótica y aplicaciones de ciudades inteligentes con una configuración mínima.

Rendimiento y ajuste fino

Rendimiento comparativo

Qwen 2.5-VL ha sido evaluado en una amplia variedad de tareas multimodales. Ofrece resultados sólidos en preguntas sobre documentos (DocVQA), reconocimiento óptico de caracteres y razonamiento en contexto largo. En comparación con muchas alternativas de código abierto, destaca especialmente en el manejo de documentos complejos y entradas de video.

El modelo también admite entradas de hasta 128K tokens, lo que habilita el análisis a gran escala de libros, informes o conversaciones extensas sin perder contexto. Esto lo convierte en uno de los modelos open-source más capaces para razonamiento de largo alcance.

Opciones de ajuste fino

Si bien los modelos base ya son muy potentes, muchos desarrolladores querrán adaptar Qwen 2.5-VL a dominios específicos. Entre las opciones de ajuste fino se incluyen:

Ajuste completo: Actualización de todos los parámetros del modelo para personalización máxima, ideal para organizaciones con recursos computacionales grandes.
Ajuste eficiente de parámetros: Uso de técnicas como LoRA o QLoRA para adaptar el modelo con muchos menos parámetros. Es rentable y se utiliza ampliamente en producción.
Adaptación al dominio: Entrenamiento con conjuntos de datos especializados, como imágenes médicas, informes financieros o contratos legales, para mejorar la precisión en campos específicos.

Cuantización y Optimización

Para facilitar el despliegue, los desarrolladores pueden usar versiones cuantizadas del modelo en precisión INT8 o INT4. Esto reduce el uso de memoria GPU y acelera la inferencia, manteniendo una precisión aceptable. Estas optimizaciones son clave al ejecutar Qwen 2.5 localmente o en la nube con recursos limitados.

Solución de Problemas y Consejos

Evitar bucles de decodificación

En algunos casos, el modelo puede generar resultados repetitivos o incompletos. Para evitarlo, ajusta los parámetros de decodificación como temperature, top_p o max_new_tokens. Una configuración equilibrada generalmente logra respuestas más estables.

Limitaciones de hardware

Ejecutar modelos grandes como las versiones 32B o 72B requiere bastante memoria GPU. Si recibes errores por falta de memoria, prueba con una versión más pequeña (3B o 7B), o aplica cuantización (INT8 o INT4). Estas opciones reducen la necesidad de VRAM y mantienen un buen rendimiento.

Selector de decodificador

Al trabajar con entrada de video, algunos usuarios han reportado problemas con ciertos decodificadores. Cambiar de decord a torchcodec, o usar otras librerías optimizadas, puede mejorar la estabilidad y velocidad. Asegúrate de instalar la última versión de los paquetes necesarios.

Ingeniería de instrucciones

Para tareas como detección de objetos o análisis de documentos, sé claro en tus instrucciones. Por ejemplo, pide al modelo que "devuelva resultados en formato JSON" o "resuma en viñetas". Indicaciones precisas reducen la ambigüedad y mejoran la utilidad de las respuestas.

Procesamiento por lotes

Si procesas varias imágenes o videos, agrupar los datos puede ahorrar tiempo y recursos. Usa funciones de procesamiento por lotes en lugar de ejecutar cada archivo por separado. Esto también ayuda al modelo a mantener el contexto entre entradas relacionadas.

Conclusión

Qwen 2.5-VL demuestra cómo los modelos open-source pueden igualar a sistemas cerrados en IA multimodal. Con una potente OCR, razonamiento de video y capacidades de contexto largo, es una herramienta práctica tanto para desarrolladores como empresas. Su licencia Apache 2.0 brinda flexibilidad, y los tamaños escalables se adaptan a muchos casos de uso. En futuras versiones, con expansión hacia audio y 3D, Qwen continuará siendo una opción fuerte para quienes construyen con IA multimodal avanzada.

Preguntas frecuentes y temas adicionales

¿Se puede usar Qwen 2.5-VL mediante una API?
Sí. Además de la implementación local, Qwen 2.5-VL está disponible a través de APIs en la nube, lo que facilita su integración en aplicaciones web o móviles.

¿Qué plataformas son compatibles con Qwen 2.5?
El modelo puede instalarse en equipos locales, servidores empresariales o las principales plataformas en la nube. También hay imágenes Docker disponibles para una configuración sencilla.

¿Cómo elijo el tamaño de modelo adecuado?
Para pruebas o aplicaciones ligeras, se recomiendan las versiones 3B o 7B. Las empresas con más recursos de hardware pueden aprovechar los modelos 32B o 72B para máximo rendimiento.

¿Qwen 2.5 ofrece salidas estructuradas?
Sí. El modelo puede generar resultados en JSON, tablas o formatos clave-valor cuando se le indica, lo cual es útil para extraer datos o crear reportes automatizados.