Gemma 4 VLM Benchmark — WikiDump TW 399

模型: E4B / 26B-A4B / 31B / G3-27B | 推論參數: temperature=1.0, top_p=0.95, top_k=64 | Judge: gemma-4-31B-it | OCR CER: Twinkle Eval

資料來源:Wikimedia Commons / Wikipedia 台灣相關條目 — 399 筆台灣地標、景點、建築圖片(從 Wikidata P18 取得正確圖片),含維基百科標題與描述。
評測方法
5 項任務
地標辨識: 辨識台灣地標名稱 → Accuracy (比對 Wikipedia 標題,無需 judge) VQA 問答: 結構化問題 → LLM judge (correct/partial/wrong) 圖片描述: 一句話描述 → LLM judge (1-5分) 文字辨識 OCR: 抄錄可見文字 → CER (Twinkle Eval) 場景分類: 15類分類 → Accuracy (exact match)
推論參數
temperature: 1.0 | top_p: 0.95 | top_k: 64 | max_tokens: 30~500
Judge
gemma-4-31B-it (temperature: 0)
Vision budget (E4B / 31B): 切換 E4B + 31B 的 max_soft_tokens;26B-A4B 固定 1120,G3-27B 不受此設定影響。
#圖片正確答案 E4B 26B-A4B 31B G3-27B 審閱