examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 22 分鐘

模型評估與選擇

4,280 字 · 約 22 分鐘閱讀 ·

掌握 Google Cloud Generative AI Leader 考試的模型評估與選擇:成本-延遲-品質三角、任務契合度、黃金測試集、以 LLM 評分、基準測試的侷限、從 Model Garden 選擇模型,以及自建 vs 採購決策的完整框架。

立即做 20 題練習 → 免費 · 不用註冊 · GENAI-LEADER

為什麼模型評估與選擇如此重要

在 Google Cloud Generative AI Leader 考試中,模型評估與選擇是一門針對業務問題選擇正確模型,並證明其實際有效的學科。身為 Generative AI Leader,你不是調整權重或撰寫評估程式碼的工程師。你的工作是做出有憑據的業務決策:選哪個模型、成本多少、品質保證如何,以及如何確認它已達到足夠水準可面向客戶上線。

這個章節位於技術與經濟學的交叉點。一個輸出精美但成本高出預算十倍的模型是錯誤的選擇。一個便宜快速但在受管制內容上出現幻覺的模型同樣是錯誤的選擇。模型評估與選擇是在這兩種張力之間理性導航的結構化方法。考試測驗的是你能否針對取捨進行推論,而非反射性地選擇最強大的選項。

這個章節最重要的思維轉變是:模型選擇是一個持續性的取捨,而非一次性的決定。今天勝出的模型可能在下季就輸給更便宜、更快速的新版本,或在流量成長或新使用案例出現時落後。將模型評估與選擇視為一個持續運作的流程——搭配黃金測試集、可重複的評估機制及定期複審——才能讓成熟的 GenAI 計畫與脆弱的計畫區分開來。本筆記中的每個概念都紮根於 Model GardenVertex AI 評估工具,讓你能將業務框架與具體的 Google Cloud 產品連結起來。

白話文解釋

模型評估與選擇聽起來抽象,但它完全對應到人們在業務和日常生活中每天都在做的決策。以下三個類比各自從不同面向說明這門學科,而且每個類比都紮根於 Model GardenVertex AI 評估的實際運作方式。

類比一 — 依職缺描述招募,而非聘用最有名的候選人

想像一家台灣公司正在填補一個職缺。一位只憑最亮眼履歷來篩選的招募主管——選了一位頂尖大學博士畢業生——卻把他放到一個只需接聽電話、轉接來電的職位,結果不僅付出超出所需的薪資,很可能還留不住一位很快就感到厭倦的員工。優秀的招募主管會從職缺描述出發:需要哪些任務、多大的工作量、多快的回應時間、多少預算。只有在那之後,才會列出候選名單並依這些標準面試。從 Model Garden 選擇模型的道理完全相同。Model Garden 是型錄——它列出了 Google 的第一方模型(如 Gemini)、合作夥伴模型和開放模型,每個模型都附有說明其優勢、脈絡視窗大小、多模態支援能力和定價。「最有名的候選人」是最大、最有能力的模型,而下意識選擇它是最常見的錯誤。對於像把客服票券分類成五個類別這樣的任務,Gemini FlashFlash-Lite 這類小型快速模型的回應時間和成本只是大型模型的零頭,而在這種窄域任務上的品質卻毫無差別。Generative AI Leader 會先寫下「職缺描述」——定義任務、工作量、延遲目標、預算和品質標準——然後再從 Model Garden 中評估候選模型。沒有那份描述就選模型,就像找明星外科醫生來站便利商店收銀台一樣。

類比二 — 上架之前先試吃

夜市攤位老闆在決定是否更換新的醬料供應商時,不會憑著一本精美型錄就簽下一年長約。他們會先要求試用樣品,親自試吃,最好還讓熟客一起品嚐,把新醬料和現在用的那款並排比較。只有在這場並排試吃之後,才會做出決定。這正是生成式 AI 評估的意義。你永遠不應該純粹憑行銷基準測試分數來選擇模型。你應該建立一個黃金測試集——一組固定、具代表性的輸入,搭配你認為良好的對應答案——然後讓每個候選模型跑過這個黃金測試集。Vertex AI 的 Gen AI 評估服務讓你能系統化地做到這一點:它可以針對有用性、有根據性(groundedness)、安全性和遵循指令能力等品質對模型輸出評分,並支援成對比較(pairwise comparison),讓兩個模型在相同提示下並排接受評判。「讓熟客試吃」的步驟對應的是人工審閱,由領域專家閱讀樣本輸出並評分。「自動化試吃」對應的是以 LLM 評分,由一個有能力的模型依據評分標準大規模為輸出評分。上架前先試吃,就是整件事的核心:它把「這個模型感覺不錯」這種模糊印象,轉化成可以拿給主管看的證據。

類比三 — 依旅程長短選擇交通方式

在台灣移動時,你不會每次都搭高鐵。去轉角便利商店你用走的。跨越城市你搭捷運或騎機車。台北到高雄才值得付高鐵的票價。你本能地依據旅程的距離和急迫性選擇交通方式,在成本、速度和舒適度之間取得平衡。模型評估與選擇遵循完全相同的邏輯,而這就是考試核心概念——成本-延遲-品質三角——的精髓。頂尖版本的 Gemini Pro 就像高鐵:最高品質的推理能力、每個 token 最高的成本、通常也有較高的延遲。Gemini Flash-Lite 這樣的小型模型就像走路或騎機車:便宜、快速,完美適合短程、簡單、高量的旅途。你無法同時最大化三角的每個頂點——把品質推高,通常也會同時推高成本和延遲。關鍵在於讓模型契合「旅途」:一個必須在一秒內回應的面向客戶聊天助理,偏好快速模型;一個每天只跑一次的法律合約摘要任務,可以接受較慢、較貴、品質較高的模型,因為延遲不重要但準確度至關重要。Generative AI Leader 就像一個理性的旅人,選擇能輕鬆達到需求的最便宜選項——並在路線改變時重新評估。

成本、延遲與品質三角

每一個模型選擇決策都是三股力量之間的協商,考試要求你明確地針對這三者進行推論。

成本

Vertex AI 上的生成式 AI 通常按輸入 token輸出 token 計費——而且不同模型大小之間的價格差距懸殊。大型前沿模型每個 token 的費用可能比小型快速模型高出一個數量級。成本不只是標價:在大規模應用下,一個每天處理數百萬次請求的使用案例,即使每個 token 只差一點點,累積下來就是六位數的年度支出差異。Generative AI Leader 思考的是預期流量下的總成本,而非單次呼叫的成本。

延遲

延遲是使用者等待回應的時間。模型越大、輸出越長,所需時間越長。對於互動式聊天機器人,延遲是產品的一部分——回應緩慢感覺像是壞掉了。對於每晚執行一次的批次任務,延遲毫無影響。延遲需求應在模型選擇開始前就寫下來,因為這往往會立即排除最大的模型。

品質

品質是指輸出是否對特定任務而言正確、相關、安全、有根據且格式良好。和成本與延遲不同,品質無法從價目表上讀取——它必須依據你自己的資料進行衡量。這正是為什麼評估與選擇密不可分,而評估本身將在本筆記後段詳細說明。

成本-延遲-品質三角是一個框架,說明模型選擇決策必須在三個相互競爭的因素之間取得平衡——在預期流量下每個 token 的費用、回應速度,以及針對特定任務的輸出品質——而且改善其中一個頂點通常會拖累另一個。Generative AI Leader 的工作是選擇能夠達到所需品質標準的最便宜、最快速的模型,而不是最大化任何單一頂點。參見 https://cloud.google.com/vertex-ai/generative-ai/pricing

模型大小與任務契合度

最大的模型不自動等於正確的模型。Generative AI Leader 考試反覆強調符合品質標準的最小模型才是首選——對於分類、擷取或短篇摘要等任務,Gemini Flash 這類快速低成本的變體往往勝過較大的模型,因為它每次呼叫更便宜且延遲更低。把最大的模型留給真正困難的推理或長脈絡任務。讓模型契合任務,不要預設「最強大就是最好」。

模型評估與選擇的一個基礎課題是:更大的模型不自動等於更好的選擇。模型能力隨著大小而提升,但成本和延遲也是如此,而許多真實業務任務並不需要前沿等級的推理能力。

小型模型何時勝出

對於定義明確的窄域任務——將文字分類到固定類別集、從文件中擷取幾個欄位、路由查詢、產生短小的標準化回覆、簡單摘要——Gemini FlashFlash-Lite 這類小型快速模型所交付的品質往往與前沿模型無從區分,成本和延遲卻只有一小部分。在高請求量下,這種節省是決定性的。

大型模型何時值回票價

對於需要多步驟推理、細緻判斷、跨多份文件的長脈絡整合、複雜程式碼產生,或處理模糊指令的任務,前沿版本的 Gemini Pro 值得其較高的價格。硬把小型模型套用在這些任務上會產生膚淺或錯誤的結果,而一旦計入糟糕輸出的代價,原本便宜的模型反而變得昂貴。

路由與分層策略

成熟的 GenAI 計畫通常不會選定單一模型。它們採用路由機制:簡單的請求交給小型模型,困難的請求升級到較大的模型。這種做法把模型選擇視為一個投資組合而非單一選擇,並直接服務於成本-延遲-品質三角。各變體之間的能力差異在 Gemini 模型與能力 中有深入的介紹。

最大的模型不一定是正確的模型。考試最常見的誤讀——以及現實世界最常見的預算錯誤——是假設最有能力、最昂貴的前沿模型是安全的預設選項。對於像分類客服票券或擷取發票金額這樣簡單、高量的任務,Gemini Flash-Lite 這類小型模型以零頭的成本和延遲就能交付同等品質,選擇前沿模型只是在無謂地燃燒預算並拖慢產品。讓模型契合任務,而不是跟著行銷走。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/models

為什麼評估生成式 AI 與傳統機器學習不同

傳統機器學習有一個令人安心的特性:一個數字就能告訴你模型有多好。詐欺偵測分類器有準確率、精確率和召回率,全都從帶標籤的測試集計算而來。生成式 AI 打破了這種安心感。

沒有單一正確答案

當 GenAI 模型摘要一份報告或草擬一封電子郵件時,並沒有唯一「正確」的輸出。許多摘要都是好的;許多是可接受的;有些是錯誤的。你無法計算準確率,因為沒有任何東西可以完全比對。品質變成了跨越多個維度的程度問題——有用性、有根據性、連貫性、安全性、語氣、格式——而不是單一的通過或失敗分數。

品質是多維且往往主觀的

一個回應可以在事實上正確但語氣粗魯,或表達流暢但帶有細微幻覺,或準確但格式不符需求。評估 GenAI 意味著同時對多個品質打分,並接受其中部分需要人類判斷。這就是為什麼 GenAI 評估借鑑了評論審稿等領域的技術(如評分標準和並排比較),而不是來自傳統統計學。

輸出是非確定性的

相同的提示在不同執行中可能產生不同的措辭。因此,評估必須檢視跨大量輸入的行為分佈,而非單一樣本。非確定性、事實錯誤與信任之間的關聯,在 幻覺與模型侷限性 中有詳細探討。

在 Generative AI Leader 考試中,預期會有題目詢問為何傳統準確率分數對生成式使用案例不夠用。正確的推論是:生成式輸出沒有單一正確答案,品質是多維的(有根據性、有用性、安全性、格式、語氣),而且輸出是非確定性的。評估因此依賴黃金測試集、人工審閱和以 LLM 評分,而非單一準確率數字。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gen-ai-evaluation-overview

如何評估生成式 AI 的輸出

評估是模型選擇的證據層。考試涵蓋四種互補的方法,而一個強健的計畫會同時運用多種方法。

人工審閱

領域專家閱讀一組模型輸出樣本,並依據標準評分——是否準確、是否安全、是否符合品牌形象。人工審閱是需要深度判斷的任務之黃金標準,對受管制或面向客戶的內容而言不可或缺。其弱點是速度慢且成本高,因此無法在大規模下涵蓋每一個輸出。

黃金測試集

黃金測試集是一個固定、精心策劃的代表性輸入集合,搭配參考答案或品質預期。每個候選模型——以及後續每一個選定模型的新版本——都在相同的黃金測試集上執行,因此比較是公平且可重複的。黃金測試集是模型評估與選擇的骨幹,因為它把「這個感覺比較好」轉化成可衡量、可重複執行的測試。

自動化評估

自動化指標在大規模下為輸出評分,無需人工逐一閱讀。有些指標衡量與參考文字的重疊程度;對 GenAI 更有用的是基於模型的指標,用來評分有根據性或遵循指令能力等品質。Vertex AI 的 Gen AI 評估服務正是提供這些自動化、可重複的分數。

以 LLM 評分

以 LLM 評分使用一個有能力的模型,依據書面評分標準來為其他模型的輸出評分——例如「請為這個答案在所提供文件中的有根據性評 1 到 5 分」。在概念上,它以低廉的成本將人類式的判斷擴展到數千個範例。它並不完美——評判模型本身也有偏見——因此它是對人工審閱和黃金測試集的補充,而非替代。

成對比較

相較於單獨對一個模型評分,成對比較讓評判者(人工或模型)看到兩個候選模型針對相同提示的答案,並詢問哪個更好。人和模型在比較時往往比指派絕對分數更可靠,這讓成對比較成為在兩個決選模型之間做出選擇的實用方法。

基準測試及其侷限

公開基準測試是在共享任務上為模型評分的標準化測試,在比較 Model Garden 中的候選模型時,它們對於快速建立初步名單很有幫助。

基準測試的用途

基準測試提供了跨多個模型的一般能力粗略可比訊號——推理、程式碼、多語言能力。它們幫助你在投入真正評估之前,先排除明顯不適合的候選者。

為什麼基準測試還不夠

基準測試是在通用公開任務上衡量的,而非你的業務問題。一個在推理排行榜名列前茅的模型,在你特定的客服票券、你的產業術語或你的文件格式上,仍可能表現不佳。基準測試也可能被刷榜,而且它們對你的流量規模下的成本或延遲隻字未提。考試要求你把基準測試視為初步篩選工具,絕非最終決策——最終決策來自在你自己的黃金測試集上評估入選的候選模型。

基準測試污染與過時問題

基準測試資料有時會洩漏到模型的訓練資料中,導致分數虛高。隨著模型不斷進步,基準測試也會老化。這是另一個說明為何一個隨時間更新的私人黃金測試集,才是針對你特定使用案例的可信賴衡量標準的理由。

記住考試的評估鏈:基準測試→建立候選名單;黃金測試集→公平可重複的比較;人工審閱→判斷黃金標準;以 LLM 評分和自動化指標→大規模擴展;成對比較→在決選模型間做出選擇。 基準測試只是初步篩選工具,永遠不是最終答案,因為它們衡量的是通用公開任務而非你的業務資料。Vertex AI 的 Gen AI 評估服務將黃金測試集、自動化評估和以 LLM 評分等步驟具體落地。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gen-ai-evaluation-overview

從 Model Garden 選擇模型

Model Garden 是 Vertex AI 內的模型型錄。它是在 Google Cloud 上實際進行模型選擇的地方,考試要求你了解它包含什麼以及如何在其中導航。

Model Garden 包含什麼

Model Garden 列出三大類模型:Gemini 家族、Imagen(影像)、語音和嵌入模型等 Google 第一方模型;透過 Vertex AI 提供的合作夥伴模型;以及可以在 Vertex AI 中部署和管理的開放模型。每個項目都有一張模型卡,描述其能力、支援的模態、脈絡視窗大小和定價。

如何在 Model Garden 建立候選名單

選擇流程遵循職缺描述的類比。首先,寫下需求:任務類型、模態、脈絡長度需求、延遲目標、預算,以及資料駐留或合規限制。然後篩選 Model Garden,找出滿足硬性限制的候選模型。接著讓候選名單在你的黃金測試集上接受評估。以最低成本和可接受延遲達到品質標準的模型就是贏家。

第一方 vs 合作夥伴 vs 開放模型

第一方 Gemini 模型提供最緊密的整合、多模態能力和受管理的擴展性。合作夥伴和開放模型在特定授權、透明度、自訂化或可移植性需求上可能更重要。Generative AI Leader 應該知道這三類都存在於 Model Garden 中,而在它們之間做出選擇本身也是模型評估與選擇的一部分。

應該選擇哪個 Gemini 變體

一個常見的實際決策是在 Gemini 變體之間做出選擇,而非在不同廠商之間選擇。這個模式呼應了交通方式的類比。

Flash 與 Flash-Lite:速度與量能

Gemini FlashFlash-Lite 這類輕量變體針對低延遲和低成本進行了最佳化。對於高量、對延遲敏感且相對簡單的工作負載——聊天前端、分類、擷取、路由、短篇摘要——它們是正確的選擇。

Pro:複雜推理

前沿版本的 Gemini Pro 為更困難的推理、長脈絡整合、複雜程式碼以及細緻的遵循指令能力而生。它成本較高,回應也可能較慢,但對於複雜或高風險的任務,它值得這個溢價。

決策因使用案例而異

整個組織幾乎不會只用一個 Gemini 變體。每個使用案例都有自己的評估,而且許多計畫使用小型變體作為預設,對困難案例升級到較大的模型。這些變體背後的能力矩陣在 Gemini 模型與能力 中有詳細說明。

當考試情境描述高量、對延遲敏感的任務——面向客戶的聊天助理、即時票券分類、大量文件標記——偏向 Gemini FlashFlash-Lite 這類小型快速變體,並以成本-延遲-品質三角來支持你的選擇。把前沿版本的 Gemini Pro 留給真正複雜的推理或長脈絡整合,並考慮只把困難請求路由到較大模型的路由策略。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/models

自建 vs 採購:使用基礎模型還是自行訓練

在模型評估與選擇中,一個反覆出現的領導層決策是自建 vs 採購

「採購」路徑:使用受管理的基礎模型

對於幾乎所有的業務使用案例,正確答案是採購——透過 Vertex AI 使用像 Gemini 這樣的受管理基礎模型。你立即獲得最先進的能力,不需要管理基礎架構,不需要組建訓練資料,而且 Google 負責維護和改進模型。這是考試預期你推薦的預設選項。

「自建」路徑:從頭訓練或大幅自訂模型

從頭訓練一個基礎模型的成本極其高昂,對於專屬 AI 實驗室以外的企業而言幾乎永遠不是正確答案。較輕量的自訂化——在你的資料上對基礎模型進行微調(fine-tuning),或透過檢索將其接地(grounding)到你的文件上——遠比從頭建立更常見也更便宜,它位於純粹採購和純粹自建之間。

如何框架這個決策

把自建 vs 採購視為成本、速度和差異化的問題。採購能以最低風險最快獲得價值。在純粹提示無法達到品質標準時才考慮自訂化。從頭自建幾乎永遠沒有正當理由。將模型選擇與可衡量的成果連結的方式,在 衡量 GenAI 業務價值 中有詳細說明。

模型選擇作為持續性的取捨

考試要求你內化這一點:模型選擇永遠沒有完成的一天。更新、更便宜、更快速、更有能力的模型變體定期推出。你的流量成長,改變了成本計算。新的使用案例出現,帶來不同的延遲和品質需求。法規也在演變。上季信心十足選定的模型,今天可能已經是錯誤的選擇。

一個成熟的計畫因此把模型評估與選擇視為持續進行的運營流程:維護一個黃金測試集、在 Vertex AI 中建立可重複的評估管線、定期對 Model Garden 的新項目進行重新基準測試,以及在證據支持時願意切換模型。Generative AI Leader 的交付物不是單一的模型選擇——而是一個組織可以一再執行的可重複選擇流程

模型選擇中的治理、風險與合規

模型選擇不純粹關乎品質和成本。領導者還必須權衡治理與風險

安全性與負責任 AI

評估必須包含安全性評分——模型是否會產生有害、偏頗或不安全的內容。Vertex AI 提供安全性篩選器,Gen AI 評估服務可以對安全性相關維度評分。一個在有用性上得分高但在安全性上不及格的模型,就無法通過面向客戶使用的標準。

資料駐留與合規

部分產業和地區要求資料必須保存在特定邊界內。這些硬性限制在任何品質評估之前就先篩選 Model Garden 的候選名單,而且它們可以推翻原本在成本和品質上都占優勢的模型。

可解釋性與文件記錄

Model Garden 中的模型卡記錄了每個模型的預期用途和侷限性。對於受審計或受管制的部署,領導者必須確保所選模型的文件、評估結果和黃金測試集表現都有記錄,讓決策在日後能夠自我辯護。

實用的模型評估與選擇工作流程

將所有要素整合起來,Generative AI Leader 應該能夠描述的工作流程如下:

步驟一 — 定義需求

寫下職缺描述:任務類型、模態、脈絡長度需求、延遲目標、流量、預算、品質標準和合規限制。

步驟二 — 在 Model Garden 建立候選名單

篩選 Model Garden,找出滿足硬性限制的候選模型,可選擇性地以公開基準測試作為粗略的初步篩選。

步驟三 — 建立黃金測試集

從真實業務資料中策劃代表性的輸入和參考預期。

步驟四 — 評估候選名單

讓候選模型通過 Vertex AI Gen AI 評估服務,結合自動化指標、以 LLM 評分、成對比較和針對性的人工審閱。

步驟五 — 依據三角做決策

選擇以最低成本和可接受延遲達到品質標準的模型——而不是最強大的那個。

步驟六 — 監控並重新評估

讓黃金測試集保持最新,在新模型推出或流量改變時重新測試,並在證據支持時切換模型。

常見考題情境與正確推論方式

Generative AI Leader 考試偏愛情境題。以下幾個模式反覆出現:

  • 一個團隊想為高量簡單分類任務部署「最強大的模型」——正確答案是先在黃金測試集上評估小型快速變體,因為成本和延遲很重要,而任務本身是簡單的。
  • 一位主管問「我們怎麼知道聊天機器人夠好?」——正確答案引用黃金測試集、人工審閱,以及自動化或以 LLM 評分,而非單一準確率數字。
  • 一家廠商展示令人印象深刻的基準測試分數——正確答案是基準測試只是建立候選名單的訊號,決策需要在公司自己的資料上進行評估。
  • 一個團隊提議從頭訓練基礎模型——正確答案是採購受管理的基礎模型,並考慮微調或接地。

常見問題

為什麼我不能像傳統機器學習模型一樣衡量生成式模型的準確率?

生成式任務沒有單一正確答案。當模型撰寫摘要或草擬回覆時,許多輸出都是可接受的,沒有任何東西可以完全比對,因此準確率百分比毫無意義。生成式品質是多維的——有根據性、有用性、安全性、語氣、格式——而且輸出是非確定性的,每次執行可能不同。因此評估依賴黃金測試集、人工審閱、自動化基於模型的指標和以 LLM 評分,而非單一數字。

我應該總是選擇最大、最有能力的模型嗎?

不應該。最大的模型是最貴的,而且通常也是最慢的。對於分類、擷取、路由或短篇摘要這類窄域、高量的任務,Gemini FlashFlash-Lite 這類小型快速變體以零頭的成本和延遲就能交付同等品質。把前沿版本的 Gemini Pro 留給真正複雜的推理或長脈絡工作。使用成本-延遲-品質三角讓模型契合任務。

什麼是黃金測試集,為什麼它很重要?

黃金測試集是一個固定、精心策劃的代表性輸入集合,搭配你認為良好的答案或品質預期,取材自真實業務資料。每個候選模型——以及你選定模型的每個未來版本——都在相同的黃金測試集上接受評估,因此比較是公平且可重複的。它把「這個模型感覺比較好」這種模糊印象轉化成可衡量、有憑據的證據,是健全模型評估與選擇的骨幹。

什麼是以 LLM 評分,它能取代人工審閱嗎?

以 LLM 評分使用一個有能力的模型,依據書面評分標準為其他模型的輸出評分——例如對有根據性從 1 到 5 評分。它能以低廉的成本將判斷擴展到數千個範例,這是人工審閱做不到的。但它本身有偏見,並非完美的替代品,因此它是對人工審閱和黃金測試集的補充,而非取代。對於受管制或面向客戶的內容,仍需讓人類參與抽樣審閱。

公開基準測試在選擇模型時有多可靠?

基準測試只在作為初步篩選工具建立候選名單時才有用。它們衡量的是通用公開任務而非你的業務資料,可能被刷榜或受訓練資料洩漏污染,隨著模型進步而老化,而且對你的流量規模下的成本或延遲隻字未提。一個在排行榜名列前茅的模型,在你的客服票券或文件格式上仍可能表現不佳。最終決策必須來自在 Vertex AI Gen AI 評估服務中,對候選名單上的模型以你自己的黃金測試集進行評估。

我在 Google Cloud 上實際在哪裡選擇模型,而且模型選擇是一次性的決定嗎?

你在 Vertex AI 內的 Model Garden 中瀏覽和選擇模型,它匯集了 Gemini 等 Google 第一方模型、合作夥伴模型和開放模型,每個都有模型卡和定價。模型選擇不是一次性的決定。更新、更便宜、更快速、更有能力的變體定期推出,流量成長,新的使用案例出現,因此上季選定的模型今天可能已經不正確。把模型評估與選擇視為持續進行的流程,搭配維護中的黃金測試集和定期重新評估。

摘要:Generative AI Leader 的模型評估與選擇

對於 Generative AI Leader 考試,模型評估與選擇是選擇正確模型並證明其有效性的紀律性實踐。掌握成本-延遲-品質三角,理解更大的模型不自動等於更好,而且小型快速變體往往在簡單高量任務中勝出;了解為什麼生成式評估有別於傳統機器學習——沒有單一正確答案、多維品質、非確定性輸出。以黃金測試集、人工審閱、自動化指標、以 LLM 評分和成對比較為基礎建立評估機制,把基準測試只視為初步篩選工具,搭配清晰的職缺描述導航 Model Garden,預設採購受管理的基礎模型而非自建,並記住模型選擇是持續性的取捨,而非一次性的決定。有了這個框架,你可以有信心地為 GenAI 模型策略提出建議——並回答考試上任何模型評估與選擇的問題。

官方資料來源

更多 GENAI-LEADER 主題