Tutorial Qwen 2.5: Introdução Rápida, Implantação e Casos de Uso no Mundo Real

Atualizado em: 2025-09-05 12:32:56

A inteligência artificial está avançando rapidamente além de modelos apenas de texto para uma era multimodal, onde sistemas podem entender palavras, imagens e até vídeo. Essa mudança está abrindo espaço para aplicações mais naturais e poderosas, como automação de documentos, tutoria inteligente e análise multimídia.

Qwen 2.5, desenvolvido pela Alibaba Cloud, é um dos modelos multimodais de código aberto mais avançados disponíveis atualmente. Ele reúne compreensão de linguagem, processamento de imagens em alta resolução e raciocínio com vídeo em um único sistema. Diferente de muitas plataformas fechadas, Qwen 2.5 pode ser usado livremente para pesquisa e uso comercial, tornando-se uma escolha atraente para desenvolvedores, startups e empresas que querem criar soluções práticas de IA.

Este guia mostra como começar a usar o Qwen 2.5. Ele explica desde a instalação, exemplos práticos, métodos de implantação, até casos de uso reais, para que você possa colocar o modelo em ação em seus próprios projetos.

O que é Qwen 2.5-VL

Qwen 2.5-VL é a geração mais recente de modelos de visão e linguagem do projeto Tongyi Qianwen. Ele combina processamento de linguagem em larga escala com análise de imagens em alta resolução e entendimento de vídeo. A família inclui modelos com 3B, 7B, 32B e 72B parâmetros. As variantes menores são indicadas para testes locais, enquanto os modelos maiores entregam desempenho de ponta para tarefas em escala empresarial. Com até 128.000 tokens de contexto, Qwen 2.5 consegue lidar com livros inteiros ou conversas longas. Diferente do GPT-4V ou Gemini, o Qwen é totalmente open source, permitindo uma adoção flexível.

Instalação e Configuração

Ambiente e Licença

Qwen 2.5-VL é lançado sob a licença Apache 2.0. Isso significa que é totalmente open source e pode ser usado tanto em projetos de pesquisa quanto comerciais sem grandes restrições.

Tamanhos do Modelo e Suporte ao Contexto

A família inclui vários tamanhos de parâmetro como 3B, 7B, 32B e 72B. Os modelos menores são mais fáceis de rodar localmente, enquanto o maior oferece o melhor desempenho, mas exige GPUs de nível servidor. Todos os modelos, com exceção da versão de 72B, estão cobertos pela licença aberta. Qwen 2.5-VL também suporta entradas de contexto longas até 128.000 tokens, o que o torna adequado para análise de documentos extensos e conversas.

Passos para Instalação

Para configurar o modelo com Hugging Face Transformers, instale os pacotes necessários:

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]==0.0.8

Depois de instalar, o modelo e o processador podem ser carregados com apenas algumas linhas de Python:

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

Hardware e Quantização

As versões de 3B e 7B podem rodar em uma GPU moderna, principalmente usando versões quantizadas.
Os modelos de 32B e 72B precisam de configurações com múltiplas GPUs mais potentes.
Opções de quantização como INT8 ou INT4 podem reduzir o uso de memória, tornando a implantação local mais viável sem perder precisão significativa.

Introdução Rápida com Transformers

Uma vez com o ambiente configurado, você pode começar a usar o Qwen 2.5-VL com apenas algumas linhas de código. A biblioteca Hugging Face Transformers oferece uma interface simples para entrada de texto, imagem e vídeo.

Carregando o Modelo e o Processador

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorimport torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct",
torch_dtype=torch.float16,
device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

Resposta a Perguntas sobre Imagens

Por exemplo, se você tem uma imagem de uma fatura e quer extrair informações:

from PIL import Image
image = Image.open("invoice_sample.png")
question = "Qual é o valor total desta fatura?"inputs = processor(text=question, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)print(processor.batch_decode(outputs, skip_special_tokens=True))

Entendimento de Vídeo

Qwen 2.5-VL também aceita entrada de vídeo, permitindo resumir ou analisar trechos:

video_path = "meeting_clip.mp4"question = "Resuma os principais pontos discutidos neste vídeo."inputs = processor(text=question, videos=video_path, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(outputs, skip_special_tokens=True))

Entrada Multimodal

Você também pode enviar múltiplas imagens ou combinar imagens e vídeo em uma única solicitação para análises mais complexas.

Implantação Local com Demo Web e Ollama

Qwen 2.5-VL não se limita a chamadas de API ou scripts Python. Você pode rodar o modelo localmente usando interfaces amigáveis e opções de execução leves.

Demo Web para Testes Locais

O repositório oficial inclui um script web_demo_mm que inicia uma interface simples baseada na web. Com essa demo, é possível enviar imagens ou vídeos e interagir com o modelo em formato de chat. É uma maneira rápida de testar os recursos multimodais sem precisar de código personalizado.

Para iniciar a demo, execute o seguinte comando dentro do diretório do projeto:

python web_demo_mm.py

Após iniciar, a interface pode ser acessada pelo navegador, permitindo inserir perguntas e enviar mídias. Esse setup é ótimo para exploração rápida e prototipagem.

Demo de Chat de Vídeo em Tempo Real

Outro exemplo dos desenvolvedores é uma demo de chat de vídeo em tempo real. Essa versão permite transmitir imagens de uma webcam ou fonte de vídeo e perguntar ao modelo sobre o conteúdo ao vivo. Mostra o potencial do Qwen 2.5-VL em cenários dinâmicos, como monitoramento ou tutoria interativa.

Rodando Qwen com Ollama

Quem prefere uma experiência mais leve também pode usar o Qwen 2.5 no Ollama. Ollama oferece um ambiente fácil de usar para rodar grandes modelos localmente. Uma vez instalado, basta puxar o modelo Qwen 2.5 com um único comando e começar a usar, sem complicações de configuração.

Esse método é especialmente útil para quem busca configuração mínima e quer experimentar o Qwen em um notebook ou desktop, sem conhecimento avançado de ambientes Python.

Caso de Uso Comum: Detecção de Objetos Zero-Shot

Uma das formas mais práticas de utilizar o Qwen 2.5-VL é para detecção de objetos zero-shot. Ao contrário dos sistemas tradicionais de visão computacional que exigem dados rotulados, o Qwen detecta objetos apenas recebendo uma descrição em linguagem natural do que procurar.

Isso permite realizar tarefas como encontrar “todas as xícaras na mesa” ou “todos os semáforos nesta foto” sem necessidade de preparar datasets. O modelo ainda pode retornar coordenadas das caixas delimitadoras em formato estruturado, como JSON, sendo útil para automações feitas em etapas posteriores.

Exemplo de Fluxo de Trabalho

Envie uma imagem como entrada.
Peça ao Qwen para identificar os objetos de interesse usando texto simples.
O modelo retorna coordenadas e rótulos em formato JSON.
Os resultados podem ser visualizados ou integrados em outros aplicativos.

Exemplo de Código

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom PIL import Imageimport torch, json
# Carregar modelo e processadormodel = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype=torch.float16, device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# Imagem de entradaimage = Image.open("street_scene.jpg")
prompt = "Detecte todos os carros e semáforos nesta imagem e retorne os resultados em formato JSON."
# Pré-processar e gerarinputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
result = processor.batch_decode(outputs, skip_special_tokens=True)
# Analisar saída (caso seja JSON)
try:
parsed = json.loads(result[0])print(parsed)except:print(result)

Por Que Isso é Importante

Essa abordagem reduz a necessidade de projetos caros de anotação. Desenvolvedores podem aplicar o Qwen 2.5-VL em áreas como análise de varejo, monitoramento de tráfego, robótica e aplicações de cidades inteligentes com configuração mínima.

Desempenho e Ajuste Fino

Desempenho em Benchmarks

Qwen 2.5-VL foi avaliado em uma grande variedade de tarefas multimodais. Apresenta ótimos resultados em respostas a perguntas de documentos (DocVQA), reconhecimento ótico de caracteres e raciocínio de longo contexto. Comparado a muitas alternativas de código aberto, se destaca especialmente em documentos complexos e entradas de vídeo.

O modelo também aceita entradas de até 128K tokens, o que permite análises de larga escala de livros, relatórios ou conversas longas sem perder o contexto. Isso o torna um dos modelos open source mais capazes para raciocínio de longo contexto.

Opções de Ajuste Fino

Embora os modelos base já sejam bastante robustos, muitos desenvolvedores querem adaptar o Qwen 2.5-VL para domínios específicos. As possibilidades de ajuste fino incluem:

Ajuste fino completo: Atualiza todos os parâmetros do modelo para máxima personalização, ideal para organizações com grandes recursos computacionais.
Ajuste fino eficiente em parâmetros: Usa técnicas como LoRA ou QLoRA para adaptar o modelo com muito menos parâmetros. É econômico e amplamente adotado em ambientes de produção.
Adaptação de domínio: Treina com conjuntos de dados especializados, como imagens médicas, relatórios financeiros ou contratos jurídicos, para melhorar a precisão em áreas específicas.

Quantização e Otimização

Para tornar a implementação mais prática, desenvolvedores podem usar versões quantizadas do modelo em precisão INT8 ou INT4. Isso reduz o uso de memória da GPU e acelera a inferência, mantendo uma precisão aceitável. Essas otimizações são essenciais ao rodar o Qwen 2.5 localmente ou em ambientes de nuvem com recursos limitados.

Soluções de Problemas e Dicas

Evitando Loops de Decodificação

Em algumas situações, o modelo pode gerar saídas repetitivas ou incompletas. Para evitar isso, ajuste os parâmetros de decodificação como temperature, top_p ou max_new_tokens. Uma configuração equilibrada geralmente resulta em respostas mais estáveis.

Restrições de Hardware

Executar modelos grandes, como as variantes 32B ou 72B, exige uma quantidade significativa de memória de GPU. Se encontrar erros de memória insuficiente, considere usar uma variante menor (3B ou 7B), ou aplique quantização (INT8 ou INT4). Essas opções reduzem os requisitos de VRAM mantendo o desempenho em níveis práticos.

Escolha do Decoder

Ao trabalhar com entrada de vídeo, alguns usuários relataram problemas com decoders específicos. Mudar de decord para torchcodec ou outras bibliotecas otimizadas pode melhorar a estabilidade e a velocidade. Certifique-se de instalar a versão mais recente dos pacotes necessários.

Engenharia de Prompt

Para tarefas como detecção de objetos ou análise de documentos, seja claro nas instruções. Por exemplo, peça ao modelo para "retornar resultados em formato JSON" ou "resumir em tópicos." Prompts claros reduzem ambiguidades e aumentam a utilidade das respostas.

Processamento em Lote

Se estiver processando várias imagens ou vídeos, agrupar as entradas pode economizar tempo e recursos. Use as funções de batch integradas do processador em vez de processar cada arquivo separadamente. Isso também ajuda o modelo a manter o contexto entre entradas relacionadas.

Conclusão

O Qwen 2.5-VL mostra como modelos open-source podem competir com sistemas fechados em IA multimodal. Com OCR avançado, raciocínio em vídeo e habilidade de lidar com contextos longos, é uma ferramenta prática tanto para desenvolvedores como empresas. Sua licença Apache 2.0 garante flexibilidade, e seus tamanhos escaláveis se adaptam a diversas necessidades. À medida que versões futuras evoluem para áudio e 3D, o Qwen continuará sendo uma ótima escolha para quem deseja trabalhar com IA multimodal de ponta.

FAQs e Temas Avançados

Qwen 2.5-VL pode ser usado via API?
Sim. Além da execução local, o Qwen 2.5-VL pode ser acessado por APIs em nuvem, facilitando a integração com aplicações web ou mobile.

Quais plataformas suportam o Qwen 2.5?
O modelo pode ser implementado em computadores locais, servidores corporativos ou grandes plataformas de nuvem. Imagens Docker também estão disponíveis para instalação simplificada.

Como escolher o tamanho ideal do modelo?
Para testes ou aplicações leves, recomenda-se as versões 3B ou 7B. Empresas com hardware robusto podem aproveitar as variantes 32B ou 72B para desempenho máximo.

O Qwen 2.5 suporta saídas estruturadas?
Sim. O modelo gera resultados em formato JSON, tabelas ou key-value quando solicitado, o que é útil para extração de dados ou relatórios automáticos.