Qwen 2.5 教學指南：快速上手、部署與真實場景應用

更新時間: 2025-09-05 12:32:56

人工智慧正快速從只支援文字的模型，邁入能理解文字、圖片甚至影片的多模態時代。這個轉變讓技術能更自然、更強大地應用於各種場景，像是文件自動化、智慧教學、與多媒體分析。

Qwen 2.5 由阿里雲開發，是目前最先進的開源多模態模型之一，整合了語言理解、高解析度影像處理與影片推理於同一系統。和許多封閉平台不一樣，Qwen 2.5 可自由用於研究和商業用途，讓開發者、新創與企業能以更彈性的方式打造實用的 AI 解決方案。

本指南介紹如何快速開始使用 Qwen 2.5，涵蓋安裝、快速範例、部署方式及真實世界用例，幫助你將模型應用在自己的專案上。

什麼是 Qwen 2.5-VL

Qwen 2.5-VL 是同義千問專案下新一代的視覺-語言模型，結合了大規模語言處理技術、高解析度影像分析，以及影片理解能力。此系列包含 3B、7B、32B 和 72B 參數的模型。較小型的模型適合本地測試，較大型則可用於企業級任務，呈現目前最頂尖的效能。Qwen 2.5-VL 上下文支援最長達 128,000 個 token，可處理整本書或長對話。與 GPT-4V 或 Gemini 不同，Qwen 全面開源，方便靈活採用。

安裝與設定

環境與授權

Qwen 2.5-VL 採用 Apache 2.0 授權，代表它完全開源、可在研究或商業專案自由使用，不受重要限制。

模型大小和支援長上下文

系列提供多種參數大小，像是 3B、7B、32B、72B。較小型的模型可輕鬆在本地運行，最大型則有最強效能但需伺服器等級 GPU。除了 72B 版外，其他模型都採開放授權。Qwen 2.5-VL 也支援長上下文最多 128,000 個 token，非常適合分析文件或長時間對話。

安裝步驟

要透過 Hugging Face Transformers 套件安裝模型，請先安裝必要套件：

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]==0.0.8

安裝完成後，只需幾行 Python 程式碼即可載入模型與處理器：

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

硬體與量化

3B 與 7B 版本可在一張現代 GPU 上運行，使用量化版本時更省資源。
32B 和 72B 模型則需要多張高效能 GPU。
量化選項如 INT8 或 INT4 能減少記憶體使用，讓本地部署更容易，同時維持合理準確度。

用 Transformers 快速上手

環境設定好後，只需幾行程式碼就能開始用 Qwen 2.5-VL。Hugging Face Transformers 提供簡單介面，可處理文字、圖片和影片輸入。

載入模型與處理器

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorimport torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct",
torch_dtype=torch.float16,
device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")

圖片問答推理

例如有張發票圖片，想抽取金額資訊時：

from PIL import Image
image = Image.open("invoice_sample.png")
question = "這張發票的總金額是多少？"inputs = processor(text=question, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)print(processor.batch_decode(outputs, skip_special_tokens=True))

影片理解

Qwen 2.5-VL 也支援影片輸入，可用於摘要或分析片段內容：

video_path = "meeting_clip.mp4"question = "請總結這段影片的主要討論要點。"inputs = processor(text=question, videos=video_path, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)print(processor.batch_decode(outputs, skip_special_tokens=True))

多模態輸入

你也可以一次提交多張圖片，或搭配影片，進行更複雜的推理任務。

本地部署：網頁 Demo 與 Ollama

Qwen 2.5-VL 不只能用 API 或 Python 腳本執行，也支援本地介面和輕量化部署。

本地測試網頁 Demo

官方倉庫有 web_demo_mm 腳本，可啟動簡易網頁介面。你能上傳圖片或影片，並用聊天方式與模型互動，是不需寫程式就能快速測試多模態功能的方法。

啟動 Demo，於專案目錄下輸入：

python web_demo_mm.py

執行後，可在瀏覽器訪問介面，輸入指令、上傳媒體，非常適合快速探索和原型開發。

即時影片聊天 Demo

開發團隊也提供了即時影片聊天範例，可從攝影機或影片來源串流畫面，即時詢問模型畫面內容。這展示了 Qwen 2.5-VL 在動態監控或互動教學等場景的實用性。

用 Ollama 運行 Qwen

像 Ollama 這類輕量級環境也支援 Qwen 2.5。Ollama 提供易用的本地運行環境，可直接用一行指令下載 Qwen 2.5 模型並開始互動，無需繁複設定。

這種方法特別適合想最簡單體驗 Qwen，不用深入 Python 環境設定，只需在自己的筆電或桌機上就能運行。

常見應用場景：零樣本物件偵測

Qwen 2.5-VL 最實用的功能之一就是 零樣本物件偵測，不需標註資料，只用自然語言描述就能找出目標。

例如你可用「找出桌上的所有杯子」或「標註此照片中所有紅綠燈」等語句進行任務，完全不用自建資料集。模型還能回傳 JSON 格式的框座標，有助於接下來的自動化流程。

範例流程

提供圖片作為輸入。
用文字詢問 Qwen 要找的物件。
模型輸出 JSON 格式的座標和標籤。
你可視覺化結果或整合到其他應用。

範例程式碼

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom PIL import Imageimport torch, json
# 載入模型與處理器model = Qwen2_5_VLForConditionalGeneration.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="torch.float16", device_map="auto")
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct")
# 輸入圖片image = Image.open("street_scene.jpg")
prompt = "偵測這張圖片中的所有汽車與紅綠燈，並以 JSON 格式回傳結果。"
# 前處理與生成inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
result = processor.batch_decode(outputs, skip_special_tokens=True)
# 輸出解析（如果為 JSON 格式）
try:
parsed = json.loads(result[0])print(parsed)except:print(result)

重要意義

這種做法可省下昂貴的標註成本，開發者能將 Qwen 2.5-VL 用於零售分析、交通監控、機器人與智慧城市等領域，設定簡單、快速上手。

效能與微調

基準測試表現

Qwen 2.5-VL 已在多種多模態任務驗證過，包括文件問答（DocVQA）、文字辨識、和長上下文推理。它在處理複雜文件與影片輸入上表現特別出色，優於多數開源替代方案。

模型可支援長達 128K token 的輸入，能大規模分析書籍、報告或長對話，不會失去上下文資訊，是目前少數能長上下文推理的開源模型。

微調選擇

雖然基礎模型已有強大能力，許多開發者仍會針對特定領域進行微調，常見微調方式包括：

完整微調：更新所有模型參數以達到最高的自訂化，最適合擁有大量運算資源的組織。
參數高效微調：運用如 LoRA 或 QLoRA 等技術，只需極少的參數就能調整模型。這種方式成本較低，並廣泛應用在實際生產中。
領域適應：使用專業數據集（如醫學影像、財務報告或法律合約）進行訓練，提升模型在特定領域的準確度。

量化與最佳化

為了讓部署更實用，開發者可以使用 INT8 或 INT4 精度的量化模型版本。這樣可減少 GPU 記憶體需求並加快推理速度，同時保持合理的準確率。這類最佳化在本機或雲端環境（資源有限時運行 Qwen 2.5）尤其重要。

故障排除與技巧

避免解碼循環

在某些情況下，模型可能會產生重複或未完成的輸出。為避免這種狀況，可以調整解碼參數，例如 temperature、top_p 或 max_new_tokens。均衡的設定通常能帶來更穩定的回應。

硬體限制

運行像 32B 或 72B 這樣的大型模型需要大量 GPU 記憶體。如果遇到記憶體不足錯誤，可以考慮改用較小的版本（3B 或 7B），或採用量化方法（INT8 或 INT4）。這些做法能降低 VRAM 需求，同時保持實用的效能。

解碼器選擇

在處理視訊輸入時，有些用戶反映個別解碼器出現問題。將解碼器從 decord 換成 torchcodec 或其他優化過的函式庫，可能提升穩定性與速度。請確保已安裝所需套件的最新版本。

提示工程

像是物件偵測、文件解析這類任務，請在指令中明確說明需求。例如：「請以 JSON 格式返回結果」或「請用條列式摘要」等。明確的提示可降低誤解並提升輸出的實用性。

批次處理

若需處理多張圖片或影片時，將輸入一起批次處理可以節省時間與資源。使用處理器內建的批次功能，而非逐一處理每個檔案，也有助於模型保持對相關輸入的上下文理解。

結論

Qwen 2.5-VL 展現了開源模型在多模態 AI 領域能夠媲美封閉系統。憑藉強大的 OCR、視訊推理和長上下文能力，不論是開發者還是企業都能靈活運用。Apache 2.0 授權帶來彈性，並且支援多種模型規模，適合各種應用需求。隨著未來版本擴展到音訊和 3D，Qwen 將繼續成為多模態 AI 領域的強大選擇。

常見問題與進階主題

Qwen 2.5-VL 能透過 API 使用嗎？
可以。除了本機部署外，也可透過雲端 API 存取 Qwen 2.5-VL，便於與網頁或行動應用程式整合。

哪些平台支援 Qwen 2.5？
模型可部署於本機主機、企業伺服器或各大雲端平台。官方也提供 Docker 映像檔讓部署更簡便。

我要如何選擇合適的模型規模？
若是做實驗或輕量應用，建議選用 3B 或 7B 版本。若硬體資源充足，企業則可利用 32B 或 72B 版本以獲得最佳效能。

Qwen 2.5 支援結構化輸出嗎？
支援。模型能根據提示輸出 JSON、表格或 key-value 格式，適用於資料擷取或自動化報告。