模型: E4B / 26B-A4B / 31B / G3-27B | 推論參數: temperature=1.0, top_p=0.95, top_k=64 | Judge: gemma-4-31B-it | OCR CER: Twinkle Eval
地標辨識: 辨識台灣地標名稱 → Accuracy (比對 Wikipedia 標題,無需 judge)
VQA 問答: 結構化問題 → LLM judge (correct/partial/wrong)
圖片描述: 一句話描述 → LLM judge (1-5分)
文字辨識 OCR: 抄錄可見文字 → CER (Twinkle Eval)
場景分類: 15類分類 → Accuracy (exact match)
temperature: 1.0 | top_p: 0.95 | top_k: 64 | max_tokens: 30~500
gemma-4-31B-it (temperature: 0)
| # | 圖片 | 正確答案 | E4B | 26B-A4B | 31B | G3-27B | 審閱 |
|---|