模型評估與選擇 — Generative AI Leader 考試準備筆記

Q: 為什麼我不能像傳統機器學習模型一樣衡量生成式模型的準確率？

生成式任務 沒有單一正確答案 。當模型撰寫摘要或草擬回覆時，許多輸出都是可接受的，沒有任何東西可以完全比對，因此準確率百分比毫無意義。生成式品質是 多維的 ——有根據性、有用性、安全性、語氣、格式——而且輸出是 非確定性的 ，每次執行可能不同。因此評估依賴黃金測試集、人工審閱、自動化基於模型的指標和以 LLM 評分，而非單一數字。

Q: 我應該總是選擇最大、最有能力的模型嗎？

不應該。最大的模型是最貴的，而且通常也是最慢的。對於分類、擷取、路由或短篇摘要這類窄域、高量的任務， Gemini Flash 或 Flash-Lite 這類小型快速變體以零頭的成本和延遲就能交付同等品質。把前沿版本的 Gemini Pro 留給真正複雜的推理或長脈絡工作。使用成本-延遲-品質三角讓模型契合任務。

Q: 什麼是黃金測試集，為什麼它很重要？

黃金測試集 是一個固定、精心策劃的代表性輸入集合，搭配你認為良好的答案或品質預期，取材自真實業務資料。每個候選模型——以及你選定模型的每個未來版本——都在相同的黃金測試集上接受評估，因此比較是公平且可重複的。它把「這個模型感覺比較好」這種模糊印象轉化成可衡量、有憑據的證據，是健全模型評估與選擇的骨幹。

Q: 什麼是以 LLM 評分，它能取代人工審閱嗎？

以 LLM 評分 使用一個有能力的模型，依據書面評分標準為其他模型的輸出評分——例如對有根據性從 1 到 5 評分。它能以低廉的成本將判斷擴展到數千個範例，這是人工審閱做不到的。但它本身有偏見，並非完美的替代品，因此它是對人工審閱和黃金測試集的 補充 ，而非取代。對於受管制或面向客戶的內容，仍需讓人類參與抽樣審閱。

Q: 公開基準測試在選擇模型時有多可靠？

基準測試只在作為 初步篩選工具 建立候選名單時才有用。它們衡量的是通用公開任務而非你的業務資料，可能被刷榜或受訓練資料洩漏污染，隨著模型進步而老化，而且對你的流量規模下的成本或延遲隻字未提。一個在排行榜名列前茅的模型，在你的客服票券或文件格式上仍可能表現不佳。最終決策必須來自在 Vertex AI Gen AI 評估服務中，對候選名單上的模型以你自己的黃金測試集進行評估。

Q: 我在 Google Cloud 上實際在哪裡選擇模型，而且模型選擇是一次性的決定嗎？

你在 Vertex AI 內的 Model Garden 中瀏覽和選擇模型，它匯集了 Gemini 等 Google 第一方模型、合作夥伴模型和開放模型，每個都有模型卡和定價。模型選擇 不是 一次性的決定。更新、更便宜、更快速、更有能力的變體定期推出，流量成長，新的使用案例出現，因此上季選定的模型今天可能已經不正確。把模型評估與選擇視為持續進行的流程，搭配維護中的黃金測試集和定期重新評估。

為什麼模型評估與選擇如此重要

在 Google Cloud Generative AI Leader 考試中，模型評估與選擇是一門針對業務問題選擇正確模型，並證明其實際有效的學科。身為 Generative AI Leader，你不是調整權重或撰寫評估程式碼的工程師。你的工作是做出有憑據的業務決策：選哪個模型、成本多少、品質保證如何，以及如何確認它已達到足夠水準可面向客戶上線。

這個章節位於技術與經濟學的交叉點。一個輸出精美但成本高出預算十倍的模型是錯誤的選擇。一個便宜快速但在受管制內容上出現幻覺的模型同樣是錯誤的選擇。模型評估與選擇是在這兩種張力之間理性導航的結構化方法。考試測驗的是你能否針對取捨進行推論，而非反射性地選擇最強大的選項。

這個章節最重要的思維轉變是：模型選擇是一個持續性的取捨，而非一次性的決定。今天勝出的模型可能在下季就輸給更便宜、更快速的新版本，或在流量成長或新使用案例出現時落後。將模型評估與選擇視為一個持續運作的流程——搭配黃金測試集、可重複的評估機制及定期複審——才能讓成熟的 GenAI 計畫與脆弱的計畫區分開來。本筆記中的每個概念都紮根於 Model Garden 和 Vertex AI 評估工具，讓你能將業務框架與具體的 Google Cloud 產品連結起來。

白話文解釋

模型評估與選擇聽起來抽象，但它完全對應到人們在業務和日常生活中每天都在做的決策。以下三個類比各自從不同面向說明這門學科，而且每個類比都紮根於 Model Garden 和 Vertex AI 評估的實際運作方式。

類比一 — 依職缺描述招募，而非聘用最有名的候選人

想像一家台灣公司正在填補一個職缺。一位只憑最亮眼履歷來篩選的招募主管——選了一位頂尖大學博士畢業生——卻把他放到一個只需接聽電話、轉接來電的職位，結果不僅付出超出所需的薪資，很可能還留不住一位很快就感到厭倦的員工。優秀的招募主管會從職缺描述出發：需要哪些任務、多大的工作量、多快的回應時間、多少預算。只有在那之後，才會列出候選名單並依這些標準面試。從 Model Garden 選擇模型的道理完全相同。Model Garden 是型錄——它列出了 Google 的第一方模型（如 Gemini）、合作夥伴模型和開放模型，每個模型都附有說明其優勢、脈絡視窗大小、多模態支援能力和定價。「最有名的候選人」是最大、最有能力的模型，而下意識選擇它是最常見的錯誤。對於像把客服票券分類成五個類別這樣的任務，Gemini Flash 或 Flash-Lite 這類小型快速模型的回應時間和成本只是大型模型的零頭，而在這種窄域任務上的品質卻毫無差別。Generative AI Leader 會先寫下「職缺描述」——定義任務、工作量、延遲目標、預算和品質標準——然後再從 Model Garden 中評估候選模型。沒有那份描述就選模型，就像找明星外科醫生來站便利商店收銀台一樣。

類比二 — 上架之前先試吃

夜市攤位老闆在決定是否更換新的醬料供應商時，不會憑著一本精美型錄就簽下一年長約。他們會先要求試用樣品，親自試吃，最好還讓熟客一起品嚐，把新醬料和現在用的那款並排比較。只有在這場並排試吃之後，才會做出決定。這正是生成式 AI 評估的意義。你永遠不應該純粹憑行銷基準測試分數來選擇模型。你應該建立一個黃金測試集——一組固定、具代表性的輸入，搭配你認為良好的對應答案——然後讓每個候選模型跑過這個黃金測試集。Vertex AI 的 Gen AI 評估服務讓你能系統化地做到這一點：它可以針對有用性、有根據性（groundedness）、安全性和遵循指令能力等品質對模型輸出評分，並支援成對比較（pairwise comparison），讓兩個模型在相同提示下並排接受評判。「讓熟客試吃」的步驟對應的是人工審閱，由領域專家閱讀樣本輸出並評分。「自動化試吃」對應的是以 LLM 評分，由一個有能力的模型依據評分標準大規模為輸出評分。上架前先試吃，就是整件事的核心：它把「這個模型感覺不錯」這種模糊印象，轉化成可以拿給主管看的證據。

類比三 — 依旅程長短選擇交通方式

在台灣移動時，你不會每次都搭高鐵。去轉角便利商店你用走的。跨越城市你搭捷運或騎機車。台北到高雄才值得付高鐵的票價。你本能地依據旅程的距離和急迫性選擇交通方式，在成本、速度和舒適度之間取得平衡。模型評估與選擇遵循完全相同的邏輯，而這就是考試核心概念——成本-延遲-品質三角——的精髓。頂尖版本的 Gemini Pro 就像高鐵：最高品質的推理能力、每個 token 最高的成本、通常也有較高的延遲。Gemini Flash-Lite 這樣的小型模型就像走路或騎機車：便宜、快速，完美適合短程、簡單、高量的旅途。你無法同時最大化三角的每個頂點——把品質推高，通常也會同時推高成本和延遲。關鍵在於讓模型契合「旅途」：一個必須在一秒內回應的面向客戶聊天助理，偏好快速模型；一個每天只跑一次的法律合約摘要任務，可以接受較慢、較貴、品質較高的模型，因為延遲不重要但準確度至關重要。Generative AI Leader 就像一個理性的旅人，選擇能輕鬆達到需求的最便宜選項——並在路線改變時重新評估。

成本、延遲與品質三角

每一個模型選擇決策都是三股力量之間的協商，考試要求你明確地針對這三者進行推論。

成本

Vertex AI 上的生成式 AI 通常按輸入 token 和輸出 token 計費——而且不同模型大小之間的價格差距懸殊。大型前沿模型每個 token 的費用可能比小型快速模型高出一個數量級。成本不只是標價：在大規模應用下，一個每天處理數百萬次請求的使用案例，即使每個 token 只差一點點，累積下來就是六位數的年度支出差異。Generative AI Leader 思考的是預期流量下的總成本，而非單次呼叫的成本。

延遲

延遲是使用者等待回應的時間。模型越大、輸出越長，所需時間越長。對於互動式聊天機器人，延遲是產品的一部分——回應緩慢感覺像是壞掉了。對於每晚執行一次的批次任務，延遲毫無影響。延遲需求應在模型選擇開始前就寫下來，因為這往往會立即排除最大的模型。

品質

品質是指輸出是否對特定任務而言正確、相關、安全、有根據且格式良好。和成本與延遲不同，品質無法從價目表上讀取——它必須依據你自己的資料進行衡量。這正是為什麼評估與選擇密不可分，而評估本身將在本筆記後段詳細說明。

成本-延遲-品質三角是一個框架，說明模型選擇決策必須在三個相互競爭的因素之間取得平衡——在預期流量下每個 token 的費用、回應速度，以及針對特定任務的輸出品質——而且改善其中一個頂點通常會拖累另一個。Generative AI Leader 的工作是選擇能夠達到所需品質標準的最便宜、最快速的模型，而不是最大化任何單一頂點。參見 https://cloud.google.com/vertex-ai/generative-ai/pricing。

模型大小與任務契合度

最大的模型不自動等於正確的模型。Generative AI Leader 考試反覆強調符合品質標準的最小模型才是首選——對於分類、擷取或短篇摘要等任務，Gemini Flash 這類快速低成本的變體往往勝過較大的模型，因為它每次呼叫更便宜且延遲更低。把最大的模型留給真正困難的推理或長脈絡任務。讓模型契合任務，不要預設「最強大就是最好」。

模型評估與選擇的一個基礎課題是：更大的模型不自動等於更好的選擇。模型能力隨著大小而提升，但成本和延遲也是如此，而許多真實業務任務並不需要前沿等級的推理能力。

小型模型何時勝出

對於定義明確的窄域任務——將文字分類到固定類別集、從文件中擷取幾個欄位、路由查詢、產生短小的標準化回覆、簡單摘要——Gemini Flash 或 Flash-Lite 這類小型快速模型所交付的品質往往與前沿模型無從區分，成本和延遲卻只有一小部分。在高請求量下，這種節省是決定性的。

大型模型何時值回票價

對於需要多步驟推理、細緻判斷、跨多份文件的長脈絡整合、複雜程式碼產生，或處理模糊指令的任務，前沿版本的 Gemini Pro 值得其較高的價格。硬把小型模型套用在這些任務上會產生膚淺或錯誤的結果，而一旦計入糟糕輸出的代價，原本便宜的模型反而變得昂貴。

路由與分層策略

成熟的 GenAI 計畫通常不會選定單一模型。它們採用路由機制：簡單的請求交給小型模型，困難的請求升級到較大的模型。這種做法把模型選擇視為一個投資組合而非單一選擇，並直接服務於成本-延遲-品質三角。各變體之間的能力差異在 Gemini 模型與能力中有深入的介紹。

最大的模型不一定是正確的模型。考試最常見的誤讀——以及現實世界最常見的預算錯誤——是假設最有能力、最昂貴的前沿模型是安全的預設選項。對於像分類客服票券或擷取發票金額這樣簡單、高量的任務，Gemini Flash-Lite 這類小型模型以零頭的成本和延遲就能交付同等品質，選擇前沿模型只是在無謂地燃燒預算並拖慢產品。讓模型契合任務，而不是跟著行銷走。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/models。

為什麼評估生成式 AI 與傳統機器學習不同

傳統機器學習有一個令人安心的特性：一個數字就能告訴你模型有多好。詐欺偵測分類器有準確率、精確率和召回率，全都從帶標籤的測試集計算而來。生成式 AI 打破了這種安心感。

沒有單一正確答案

當 GenAI 模型摘要一份報告或草擬一封電子郵件時，並沒有唯一「正確」的輸出。許多摘要都是好的；許多是可接受的；有些是錯誤的。你無法計算準確率，因為沒有任何東西可以完全比對。品質變成了跨越多個維度的程度問題——有用性、有根據性、連貫性、安全性、語氣、格式——而不是單一的通過或失敗分數。

品質是多維且往往主觀的

一個回應可以在事實上正確但語氣粗魯，或表達流暢但帶有細微幻覺，或準確但格式不符需求。評估 GenAI 意味著同時對多個品質打分，並接受其中部分需要人類判斷。這就是為什麼 GenAI 評估借鑑了評論審稿等領域的技術（如評分標準和並排比較），而不是來自傳統統計學。

輸出是非確定性的

相同的提示在不同執行中可能產生不同的措辭。因此，評估必須檢視跨大量輸入的行為分佈，而非單一樣本。非確定性、事實錯誤與信任之間的關聯，在幻覺與模型侷限性中有詳細探討。

在 Generative AI Leader 考試中，預期會有題目詢問為何傳統準確率分數對生成式使用案例不夠用。正確的推論是：生成式輸出沒有單一正確答案，品質是多維的（有根據性、有用性、安全性、格式、語氣），而且輸出是非確定性的。評估因此依賴黃金測試集、人工審閱和以 LLM 評分，而非單一準確率數字。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gen-ai-evaluation-overview。

如何評估生成式 AI 的輸出

評估是模型選擇的證據層。考試涵蓋四種互補的方法，而一個強健的計畫會同時運用多種方法。

人工審閱

領域專家閱讀一組模型輸出樣本，並依據標準評分——是否準確、是否安全、是否符合品牌形象。人工審閱是需要深度判斷的任務之黃金標準，對受管制或面向客戶的內容而言不可或缺。其弱點是速度慢且成本高，因此無法在大規模下涵蓋每一個輸出。

黃金測試集

黃金測試集是一個固定、精心策劃的代表性輸入集合，搭配參考答案或品質預期。每個候選模型——以及後續每一個選定模型的新版本——都在相同的黃金測試集上執行，因此比較是公平且可重複的。黃金測試集是模型評估與選擇的骨幹，因為它把「這個感覺比較好」轉化成可衡量、可重複執行的測試。

自動化評估

自動化指標在大規模下為輸出評分，無需人工逐一閱讀。有些指標衡量與參考文字的重疊程度；對 GenAI 更有用的是基於模型的指標，用來評分有根據性或遵循指令能力等品質。Vertex AI 的 Gen AI 評估服務正是提供這些自動化、可重複的分數。

以 LLM 評分

以 LLM 評分使用一個有能力的模型，依據書面評分標準來為其他模型的輸出評分——例如「請為這個答案在所提供文件中的有根據性評 1 到 5 分」。在概念上，它以低廉的成本將人類式的判斷擴展到數千個範例。它並不完美——評判模型本身也有偏見——因此它是對人工審閱和黃金測試集的補充，而非替代。

成對比較

相較於單獨對一個模型評分，成對比較讓評判者（人工或模型）看到兩個候選模型針對相同提示的答案，並詢問哪個更好。人和模型在比較時往往比指派絕對分數更可靠，這讓成對比較成為在兩個決選模型之間做出選擇的實用方法。

基準測試及其侷限

公開基準測試是在共享任務上為模型評分的標準化測試，在比較 Model Garden 中的候選模型時，它們對於快速建立初步名單很有幫助。

基準測試的用途

基準測試提供了跨多個模型的一般能力粗略可比訊號——推理、程式碼、多語言能力。它們幫助你在投入真正評估之前，先排除明顯不適合的候選者。

為什麼基準測試還不夠

基準測試是在通用公開任務上衡量的，而非你的業務問題。一個在推理排行榜名列前茅的模型，在你特定的客服票券、你的產業術語或你的文件格式上，仍可能表現不佳。基準測試也可能被刷榜，而且它們對你的流量規模下的成本或延遲隻字未提。考試要求你把基準測試視為初步篩選工具，絕非最終決策——最終決策來自在你自己的黃金測試集上評估入選的候選模型。

基準測試污染與過時問題

基準測試資料有時會洩漏到模型的訓練資料中，導致分數虛高。隨著模型不斷進步，基準測試也會老化。這是另一個說明為何一個隨時間更新的私人黃金測試集，才是針對你特定使用案例的可信賴衡量標準的理由。

記住考試的評估鏈：基準測試→建立候選名單；黃金測試集→公平可重複的比較；人工審閱→判斷黃金標準；以 LLM 評分和自動化指標→大規模擴展；成對比較→在決選模型間做出選擇。基準測試只是初步篩選工具，永遠不是最終答案，因為它們衡量的是通用公開任務而非你的業務資料。Vertex AI 的 Gen AI 評估服務將黃金測試集、自動化評估和以 LLM 評分等步驟具體落地。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gen-ai-evaluation-overview。

從 Model Garden 選擇模型

Model Garden 是 Vertex AI 內的模型型錄。它是在 Google Cloud 上實際進行模型選擇的地方，考試要求你了解它包含什麼以及如何在其中導航。

Model Garden 包含什麼

Model Garden 列出三大類模型：Gemini 家族、Imagen（影像）、語音和嵌入模型等 Google 第一方模型；透過 Vertex AI 提供的合作夥伴模型；以及可以在 Vertex AI 中部署和管理的開放模型。每個項目都有一張模型卡，描述其能力、支援的模態、脈絡視窗大小和定價。

如何在 Model Garden 建立候選名單

選擇流程遵循職缺描述的類比。首先，寫下需求：任務類型、模態、脈絡長度需求、延遲目標、預算，以及資料駐留或合規限制。然後篩選 Model Garden，找出滿足硬性限制的候選模型。接著讓候選名單在你的黃金測試集上接受評估。以最低成本和可接受延遲達到品質標準的模型就是贏家。

第一方 vs 合作夥伴 vs 開放模型

第一方 Gemini 模型提供最緊密的整合、多模態能力和受管理的擴展性。合作夥伴和開放模型在特定授權、透明度、自訂化或可移植性需求上可能更重要。Generative AI Leader 應該知道這三類都存在於 Model Garden 中，而在它們之間做出選擇本身也是模型評估與選擇的一部分。

應該選擇哪個 Gemini 變體

一個常見的實際決策是在 Gemini 變體之間做出選擇，而非在不同廠商之間選擇。這個模式呼應了交通方式的類比。

Flash 與 Flash-Lite：速度與量能

Gemini Flash 和 Flash-Lite 這類輕量變體針對低延遲和低成本進行了最佳化。對於高量、對延遲敏感且相對簡單的工作負載——聊天前端、分類、擷取、路由、短篇摘要——它們是正確的選擇。

Pro：複雜推理

前沿版本的 Gemini Pro 為更困難的推理、長脈絡整合、複雜程式碼以及細緻的遵循指令能力而生。它成本較高，回應也可能較慢，但對於複雜或高風險的任務，它值得這個溢價。

決策因使用案例而異

整個組織幾乎不會只用一個 Gemini 變體。每個使用案例都有自己的評估，而且許多計畫使用小型變體作為預設，對困難案例升級到較大的模型。這些變體背後的能力矩陣在 Gemini 模型與能力中有詳細說明。

當考試情境描述高量、對延遲敏感的任務——面向客戶的聊天助理、即時票券分類、大量文件標記——偏向 Gemini Flash 或 Flash-Lite 這類小型快速變體，並以成本-延遲-品質三角來支持你的選擇。把前沿版本的 Gemini Pro 留給真正複雜的推理或長脈絡整合，並考慮只把困難請求路由到較大模型的路由策略。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/models。

自建 vs 採購：使用基礎模型還是自行訓練

在模型評估與選擇中，一個反覆出現的領導層決策是自建 vs 採購。

「採購」路徑：使用受管理的基礎模型

對於幾乎所有的業務使用案例，正確答案是採購——透過 Vertex AI 使用像 Gemini 這樣的受管理基礎模型。你立即獲得最先進的能力，不需要管理基礎架構，不需要組建訓練資料，而且 Google 負責維護和改進模型。這是考試預期你推薦的預設選項。

「自建」路徑：從頭訓練或大幅自訂模型

從頭訓練一個基礎模型的成本極其高昂，對於專屬 AI 實驗室以外的企業而言幾乎永遠不是正確答案。較輕量的自訂化——在你的資料上對基礎模型進行微調（fine-tuning），或透過檢索將其接地（grounding）到你的文件上——遠比從頭建立更常見也更便宜，它位於純粹採購和純粹自建之間。

如何框架這個決策

把自建 vs 採購視為成本、速度和差異化的問題。採購能以最低風險最快獲得價值。在純粹提示無法達到品質標準時才考慮自訂化。從頭自建幾乎永遠沒有正當理由。將模型選擇與可衡量的成果連結的方式，在衡量 GenAI 業務價值中有詳細說明。

模型選擇作為持續性的取捨

考試要求你內化這一點：模型選擇永遠沒有完成的一天。更新、更便宜、更快速、更有能力的模型變體定期推出。你的流量成長，改變了成本計算。新的使用案例出現，帶來不同的延遲和品質需求。法規也在演變。上季信心十足選定的模型，今天可能已經是錯誤的選擇。

一個成熟的計畫因此把模型評估與選擇視為持續進行的運營流程：維護一個黃金測試集、在 Vertex AI 中建立可重複的評估管線、定期對 Model Garden 的新項目進行重新基準測試，以及在證據支持時願意切換模型。Generative AI Leader 的交付物不是單一的模型選擇——而是一個組織可以一再執行的可重複選擇流程。

模型選擇中的治理、風險與合規

模型選擇不純粹關乎品質和成本。領導者還必須權衡治理與風險。

安全性與負責任 AI

評估必須包含安全性評分——模型是否會產生有害、偏頗或不安全的內容。Vertex AI 提供安全性篩選器，Gen AI 評估服務可以對安全性相關維度評分。一個在有用性上得分高但在安全性上不及格的模型，就無法通過面向客戶使用的標準。

資料駐留與合規

部分產業和地區要求資料必須保存在特定邊界內。這些硬性限制在任何品質評估之前就先篩選 Model Garden 的候選名單，而且它們可以推翻原本在成本和品質上都占優勢的模型。

可解釋性與文件記錄

Model Garden 中的模型卡記錄了每個模型的預期用途和侷限性。對於受審計或受管制的部署，領導者必須確保所選模型的文件、評估結果和黃金測試集表現都有記錄，讓決策在日後能夠自我辯護。

實用的模型評估與選擇工作流程

將所有要素整合起來，Generative AI Leader 應該能夠描述的工作流程如下：

步驟一 — 定義需求

寫下職缺描述：任務類型、模態、脈絡長度需求、延遲目標、流量、預算、品質標準和合規限制。

步驟二 — 在 Model Garden 建立候選名單

篩選 Model Garden，找出滿足硬性限制的候選模型，可選擇性地以公開基準測試作為粗略的初步篩選。

步驟三 — 建立黃金測試集

從真實業務資料中策劃代表性的輸入和參考預期。

步驟四 — 評估候選名單

讓候選模型通過 Vertex AI Gen AI 評估服務，結合自動化指標、以 LLM 評分、成對比較和針對性的人工審閱。

步驟五 — 依據三角做決策

選擇以最低成本和可接受延遲達到品質標準的模型——而不是最強大的那個。

步驟六 — 監控並重新評估

讓黃金測試集保持最新，在新模型推出或流量改變時重新測試，並在證據支持時切換模型。

常見考題情境與正確推論方式

Generative AI Leader 考試偏愛情境題。以下幾個模式反覆出現：

一個團隊想為高量簡單分類任務部署「最強大的模型」——正確答案是先在黃金測試集上評估小型快速變體，因為成本和延遲很重要，而任務本身是簡單的。
一位主管問「我們怎麼知道聊天機器人夠好？」——正確答案引用黃金測試集、人工審閱，以及自動化或以 LLM 評分，而非單一準確率數字。
一家廠商展示令人印象深刻的基準測試分數——正確答案是基準測試只是建立候選名單的訊號，決策需要在公司自己的資料上進行評估。
一個團隊提議從頭訓練基礎模型——正確答案是採購受管理的基礎模型，並考慮微調或接地。

常見問題

為什麼我不能像傳統機器學習模型一樣衡量生成式模型的準確率？

生成式任務沒有單一正確答案。當模型撰寫摘要或草擬回覆時，許多輸出都是可接受的，沒有任何東西可以完全比對，因此準確率百分比毫無意義。生成式品質是多維的——有根據性、有用性、安全性、語氣、格式——而且輸出是非確定性的，每次執行可能不同。因此評估依賴黃金測試集、人工審閱、自動化基於模型的指標和以 LLM 評分，而非單一數字。

我應該總是選擇最大、最有能力的模型嗎？

不應該。最大的模型是最貴的，而且通常也是最慢的。對於分類、擷取、路由或短篇摘要這類窄域、高量的任務，Gemini Flash 或 Flash-Lite 這類小型快速變體以零頭的成本和延遲就能交付同等品質。把前沿版本的 Gemini Pro 留給真正複雜的推理或長脈絡工作。使用成本-延遲-品質三角讓模型契合任務。

什麼是黃金測試集，為什麼它很重要？

黃金測試集是一個固定、精心策劃的代表性輸入集合，搭配你認為良好的答案或品質預期，取材自真實業務資料。每個候選模型——以及你選定模型的每個未來版本——都在相同的黃金測試集上接受評估，因此比較是公平且可重複的。它把「這個模型感覺比較好」這種模糊印象轉化成可衡量、有憑據的證據，是健全模型評估與選擇的骨幹。

什麼是以 LLM 評分，它能取代人工審閱嗎？

以 LLM 評分使用一個有能力的模型，依據書面評分標準為其他模型的輸出評分——例如對有根據性從 1 到 5 評分。它能以低廉的成本將判斷擴展到數千個範例，這是人工審閱做不到的。但它本身有偏見，並非完美的替代品，因此它是對人工審閱和黃金測試集的補充，而非取代。對於受管制或面向客戶的內容，仍需讓人類參與抽樣審閱。

公開基準測試在選擇模型時有多可靠？

基準測試只在作為初步篩選工具建立候選名單時才有用。它們衡量的是通用公開任務而非你的業務資料，可能被刷榜或受訓練資料洩漏污染，隨著模型進步而老化，而且對你的流量規模下的成本或延遲隻字未提。一個在排行榜名列前茅的模型，在你的客服票券或文件格式上仍可能表現不佳。最終決策必須來自在 Vertex AI Gen AI 評估服務中，對候選名單上的模型以你自己的黃金測試集進行評估。

我在 Google Cloud 上實際在哪裡選擇模型，而且模型選擇是一次性的決定嗎？

你在 Vertex AI 內的 Model Garden 中瀏覽和選擇模型，它匯集了 Gemini 等 Google 第一方模型、合作夥伴模型和開放模型，每個都有模型卡和定價。模型選擇不是一次性的決定。更新、更便宜、更快速、更有能力的變體定期推出，流量成長，新的使用案例出現，因此上季選定的模型今天可能已經不正確。把模型評估與選擇視為持續進行的流程，搭配維護中的黃金測試集和定期重新評估。

摘要：Generative AI Leader 的模型評估與選擇

對於 Generative AI Leader 考試，模型評估與選擇是選擇正確模型並證明其有效性的紀律性實踐。掌握成本-延遲-品質三角，理解更大的模型不自動等於更好，而且小型快速變體往往在簡單高量任務中勝出；了解為什麼生成式評估有別於傳統機器學習——沒有單一正確答案、多維品質、非確定性輸出。以黃金測試集、人工審閱、自動化指標、以 LLM 評分和成對比較為基礎建立評估機制，把基準測試只視為初步篩選工具，搭配清晰的職缺描述導航 Model Garden，預設採購受管理的基礎模型而非自建，並記住模型選擇是持續性的取捨，而非一次性的決定。有了這個框架，你可以有信心地為 GenAI 模型策略提出建議——並回答考試上任何模型評估與選擇的問題。

為什麼模型評估與選擇如此重要

白話文解釋

類比一 — 依職缺描述招募，而非聘用最有名的候選人

類比二 — 上架之前先試吃

類比三 — 依旅程長短選擇交通方式

成本、延遲與品質三角

成本

延遲

品質

模型大小與任務契合度

小型模型何時勝出

大型模型何時值回票價

路由與分層策略

為什麼評估生成式 AI 與傳統機器學習不同

沒有單一正確答案

品質是多維且往往主觀的

輸出是非確定性的

如何評估生成式 AI 的輸出

人工審閱

黃金測試集

自動化評估

以 LLM 評分

成對比較

基準測試及其侷限

基準測試的用途

為什麼基準測試還不夠

基準測試污染與過時問題

從 Model Garden 選擇模型

Model Garden 包含什麼

如何在 Model Garden 建立候選名單

第一方 vs 合作夥伴 vs 開放模型

應該選擇哪個 Gemini 變體

Flash 與 Flash-Lite：速度與量能

Pro：複雜推理

決策因使用案例而異

自建 vs 採購：使用基礎模型還是自行訓練

「採購」路徑：使用受管理的基礎模型

「自建」路徑：從頭訓練或大幅自訂模型

如何框架這個決策

模型選擇作為持續性的取捨

模型選擇中的治理、風險與合規

安全性與負責任 AI

資料駐留與合規

可解釋性與文件記錄

實用的模型評估與選擇工作流程

步驟一 — 定義需求

步驟二 — 在 Model Garden 建立候選名單

步驟三 — 建立黃金測試集

步驟四 — 評估候選名單

步驟五 — 依據三角做決策

步驟六 — 監控並重新評估

常見考題情境與正確推論方式

常見問題

為什麼我不能像傳統機器學習模型一樣衡量生成式模型的準確率？

我應該總是選擇最大、最有能力的模型嗎？

什麼是黃金測試集，為什麼它很重要？

什麼是以 LLM 評分，它能取代人工審閱嗎？

公開基準測試在選擇模型時有多可靠？

我在 Google Cloud 上實際在哪裡選擇模型，而且模型選擇是一次性的決定嗎？

摘要：Generative AI Leader 的模型評估與選擇

官方資料來源

更多 GENAI-LEADER 主題