基礎模型評估(Foundation model evaluation)是一套有紀律的流程,目的是在把大型語言模型或其他基礎模型推送給真實使用者之前(或之後),嚴格衡量它在特定任務上的表現。在 AWS Certified AI Practitioner 考試(AIF-C01)中,Domain 3(基礎模型的應用)與 Domain 5(AI 解決方案的安全、合規與治理)都預設考生能夠:在 ROUGE、BLEU、BERTScore、perplexity 等自動化指標之間做出正確選擇;挑選適合的公開基準測試,如 MMLU、HellaSwag 或 HumanEval;設定 Amazon Bedrock Model Evaluation 任務(自動化或人工);將偏差檢測導入 Amazon SageMaker Clarify;以及透過 Amazon SageMaker Shadow testing 或 Amazon Bedrock Provisioned Throughput 在生產環境進行 A/B 測試。基礎模型評估是 AIF-C01 考試藍圖中最容易被誤解的主題,原因在於各指標的名稱聽起來可以互換,但實際上截然不同。
本篇 AIF-C01 基礎模型評估學習指南,將逐一說明每個自動化指標、每個基準測試、每個 AWS 原生的基礎模型評估工作流程,以及每種生產 A/B 測試模式。讀完這頁,你將確切知道:哪個基礎模型評估指標適合摘要、翻譯、問答或程式碼生成;Amazon Bedrock Model Evaluation 與 Amazon SageMaker Clarify 基礎模型評估有何差異;以及如何精算成本、排定時程、解讀評估結果,而不至於把數千美元浪費在錯誤的指標上。
什麼是基礎模型評估?
基礎模型評估是對基礎模型的輸出品質、安全性、偏差、延遲及成本進行結構化量測,評估的對象是針對特定任務的標準答案(ground truth)或參考資料。基礎模型評估分為三大類別。
第一類是自動化基礎模型評估:ROUGE(召回導向摘要評估,Recall-Oriented Understudy for Gisting Evaluation)、BLEU(雙語評估替代指標,Bilingual Evaluation Understudy)、BERTScore(語意相似度評分)、perplexity(困惑度)、精確比對(Exact Match)及 F1(F1 分數,精確率與召回率的調和平均)等確定性指標,皆可透過程式自動計算,無須人工介入。
第二類是基準測試導向的基礎模型評估:精心整理的多選題或程式碼補全資料集,例如 MMLU、HellaSwag、HumanEval、TruthfulQA 與 BIG-bench,用於在公開排行榜上對各模型排名。
第三類是人工基礎模型評估:由人工評審針對有用性、無害性、誠實度、語氣、事實準確性或品牌聲調為模型輸出評分,常見工具包括 Amazon SageMaker Ground Truth、Amazon SageMaker Ground Truth Plus 或 Amazon Mechanical Turk。
AWS 將上述三大評估類別整合為兩項 AIF-C01 高頻考點的託管服務。Amazon Bedrock Model Evaluation 支援自動化基礎模型評估任務(以內建指標對內建或自訂提示資料集進行評估)及人工基礎模型評估任務(使用你自己的工作人力或 AWS 管理的工作人力)。Amazon SageMaker Clarify 則將基礎模型評估的範疇延伸至偏差、毒性、刻板印象及事實性知識的檢查,適用於 Amazon Bedrock 及 Amazon SageMaker JumpStart 上的模型。基礎模型評估不是一次性的門檻檢查;它是一個循環流程,在微調(fine-tuning)前、微調後、部署前、透過 Amazon SageMaker Shadow 進行 A/B 測試期間,以及生產環境中定期執行,用以偵測模型漂移(drift)。
為什麼基礎模型評估對 AIF-C01 至關重要
AIF-C01 將基礎模型評估列於 Task Statement 3.2(評估基礎模型效能)與 Task Statement 5.2(識別工具的偏差與公平性功能)。對 AIF-C01 題庫的考題分佈分析顯示,基礎模型評估出現在大約六分之一的題目中,題型通常為情境題:描述一項任務(摘要客服工單、翻譯產品說明、生成 Python 單元測試),再詢問哪個基礎模型評估指標或哪項 AWS 基礎模型評估服務最合適。忽略這個主題,是成績跌破 700 分及格線最直接的原因。
白話文解釋 基礎模型評估
基礎模型評估聽起來像是博士班課題,但以下三個類比可以讓它變得一目了然。
類比一 — 學測模擬考(指考備考)
把基礎模型評估想像成一場學測模擬考的閱卷過程,有個信心滿滿的考生剛剛交卷。
- ROUGE 像是國文老師用螢光筆畫重點,數一數學生的答案與參考解答之間有多少詞組重疊。適合評估「摘要」類型的題目:「學生是否涵蓋了課文摘要中的重點?」
- BLEU 像是英文老師在批改翻譯作文,逐一檢查學生的英文翻譯是否使用了與參考譯文相同的詞彙片段。因為翻譯評分講究流暢度與忠實度,詞組的精確程度至關重要。
- BERTScore 像是資深評審委員,不在乎用詞是否一模一樣,只問:「學生的答案和標準答案意思相同嗎?」她利用語意詞典(BERT embeddings)評分,近義改寫同樣可以得分。
- Perplexity(困惑度) 代表模型讀到新文本時有多「吃驚」。困惑度低代表模型對該語言覺得流暢自然;困惑度高代表模型在每一頁都看得一頭霧水。
- MMLU/HellaSwag/HumanEval 相當於指定科目考試、常識隨堂測驗與程式能力鑑定。全世界所有模型接受同一份考卷,讓你可以跨模型公平比較。
- LLM-as-judge 像是讓高三學長替高一學弟的作文打分數。比請正式老師便宜快速,但學長有自己的偏好(傾向給長篇答案較高分,也偏愛自己熟悉的寫作風格)。
- 人工評估(Ground Truth Plus、Mechanical Turk) 是班導師親自看每一篇作文。緩慢、昂貴,但這才是黃金標準。
在 AIF-C01 考試中,若題目說「摘要客戶評論」,答案選 ROUGE;說「翻譯成日文」,選 BLEU;說「無論措辭如何,要衡量語意相似度」,選 BERTScore。這就是全部的訣竅。
類比二 — 餐廳的外場驗菜流程(品管出餐)
把基礎模型評估想像成一間 AI 餐廳的品管流程,每道菜都是模型生成的料理。
- 自動化指標(ROUGE、BLEU、BERTScore、perplexity) 是溫度計、料理秤與計時器。便宜、即時、客觀,但無法告訴你菜好不好吃。
- 基準測試(MMLU、HellaSwag、HumanEval) 相當於米其林指南評審手持的標準化查核表。每間餐廳接受同一份測試,讓你的廚房在全球排名中找到自己的定位。
- LLM-as-judge 像是主廚試吃副主廚端出的盤子。比聘請美食評論家快,但主廚難免有個人偏好。
- 人工評估(Ground Truth Plus、Mechanical Turk) 是真正的客人填寫意見卡。最終唯一重要的標準是顧客滿意度,而顧客滿意度來自真人,而非指標數字。
- Amazon Bedrock Model Evaluation 是廚房裡的內建檢測台,按下一個按鈕,測試台就能跑溫度計、核查清單,或安排試吃。
- Amazon SageMaker Clarify 像是食品安全稽查員,專門檢查過敏原與交叉汙染,對應到 AI 場景就是偏差、毒性與刻板印象。
- Amazon SageMaker Shadow testing 相當於把新食譜同步備一份試菜盤,但這盤菜永遠不會送到桌上。在換菜單之前,你悄悄對比兩份食譜的差異。
類比三 — 大學分科測驗的志願填寫策略(報考選系)
把基礎模型評估想像成一位大學招生輔導老師,在建議考生填寫志願之前,必須先掌握這位考生的完整能力輪廓。
- Perplexity(困惑度) 像是老師評估一位考生的基礎語文程度:「他讀課本時理解得如何?」困惑度低代表考生讀起來輕鬆流暢,正如一個語言能力紮實的學生。
- ROUGE、BLEU、BERTScore 是老師分別送考生去做的三種測驗:ROUGE 測「重點涵蓋率(摘要)」、BLEU 測「用字精確度(翻譯)」、BERTScore 測「語意理解深度(問答)」。每種測驗評估不同能力,選錯測驗等於浪費資源。
- 基準測試(MMLU、HellaSwag、HumanEval) 像是學測或指考的分科成績,這是業界已有共識的標準化成績單,讓家長(利害關係人)一眼看懂。
- 偏差評估(Amazon SageMaker Clarify) 像是入學審查中的「多元入學公平性審核」,確保評選機制不會對特定群體產生系統性的不公平。
- A/B 測試(Amazon SageMaker Shadow、Amazon Bedrock Provisioned Throughput) 像是備審資料先送幾個試審委員看,確認評分穩定後,再提交正式審查程序,將風險降到最低。
- 人工評估(Ground Truth Plus、Mechanical Turk) 像是招生委員面試,這才是最後拍板的關鍵關卡。費時費工,卻是最具法律效力的佐證。
把這三個圖像——模擬考閱卷、餐廳品管出餐、大學志願填寫策略——放在腦海裡,AIF-C01 的每一道基礎模型評估題目都會變成對號入座的配對練習。
基礎模型評估的核心原則
基礎模型評估遵循四項原則。第一,指標必須與任務相符;把翻譯指標套用在摘要任務上,比完全不評估更糟糕。第二,評估資料集必須是獨立保留的(held-out)且具代表性;在訓練資料分布上進行評估會高估品質。第三,評估必須可重現;相同的提示、相同的解碼參數、相同的隨機種子,才能得到相同的分數。第四,評估必須在品質指標之外同時涵蓋安全性、偏差與毒性檢查——AIF-C01 Domain 5 明確針對此點出題。
你必須熟背的任務對指標對照表
- 摘要(新聞、工單、會議記錄) → ROUGE(主要),BERTScore(次要)。
- 翻譯(語言 A 翻譯成語言 B) → BLEU(主要),chrF 或 BERTScore(次要)。
- 語意相似度/近義改寫品質/開放式問答 → BERTScore(主要),embedding cosine 相似度(次要)。
- 語言模型流暢度/基礎模型健康狀態 → Perplexity(困惑度)。
- 一般知識/推理/多學科 → MMLU。
- 常識推理/句子接龍 → HellaSwag。
- 程式碼生成/Python 函式合成 → HumanEval、MBPP、CodeXGLUE。
- 開放式對話品質/有用性 → LLM-as-judge(MT-Bench 風格)加上人工評估。
- 偏差、毒性、刻板印象 → Amazon SageMaker Clarify 基礎模型評估、BBQ、CrowS-Pairs、RealToxicityPrompts。
基礎模型評估是對基礎模型輸出的品質、安全性與公平性,相對於任務專屬的標準答案或參考資料,進行系統化量測的流程,使用工具包括自動化指標、公開基準測試、LLM-as-judge 或人工評審。在 AWS 上,基礎模型評估主要透過 Amazon Bedrock Model Evaluation 任務與 Amazon SageMaker Clarify 基礎模型評估來實現。 Source ↗
自動化指標 — ROUGE vs BLEU vs BERTScore vs Perplexity
自動化基礎模型評估指標是第一道防線。它們成本低廉、速度快、可重現且可程式化,非常適合每晚執行的基礎模型評估流水線,以及 Amazon Bedrock Model Evaluation 自動化任務。AIF-C01 的陷阱在於:四個主要指標——ROUGE、BLEU、BERTScore 與 perplexity——聽起來可以互換,但實際上並不能。
ROUGE — 召回導向摘要評估(Recall-Oriented Understudy for Gisting Evaluation)
ROUGE 由 Chin-Yew Lin 於 2004 年提出,專為評估自動化摘要而設計。ROUGE 計算候選摘要(基礎模型的輸出)與一份或多份人工參考摘要之間,在 n-gram(字組)、詞序列或詞對上的重疊程度。基礎模型評估中常用的 ROUGE 變體有:ROUGE-N(n-gram 重疊,通常取 ROUGE-1 和 ROUGE-2)、ROUGE-L(最長公共子序列)及 ROUGE-Lsum(多句摘要的句子層級 LCS)。ROUGE 以召回率(recall)為導向:它問的是「候選摘要是否涵蓋了參考摘要的主要詞語?」
當任務是摘要時,請在基礎模型評估中使用 ROUGE——新聞摘要、客服工單摘要、會議記錄、或法律文件濃縮。ROUGE 是 Amazon Bedrock Model Evaluation 自動化任務在文字摘要任務類型中的預設摘要指標。
ROUGE 的限制在 AIF-C01 中同樣重要:ROUGE 獎勵的是用詞重疊,而非語意。一個正確近義改寫的模型,可能比照抄參考詞語的模型分數更低。當近義改寫品質很重要時,應搭配 BERTScore 一起使用。
BLEU — 雙語評估替代指標(Bilingual Evaluation Understudy)
BLEU 由 IBM 的 Papineni 等人於 2002 年提出,用於評估機器翻譯。BLEU 以精確率(precision)為導向:它問的是「候選譯文的 n-gram 中,有多少出現在參考譯文裡?」BLEU 計算 1-gram 至 4-gram 的精確率,並加上簡短懲罰(brevity penalty)以避免輸出過短,最終輸出一個介於 0 到 1 之間的分數(通常以 0 到 100 的百分比報告)。
當任務是翻譯時,請在基礎模型評估中使用 BLEU——將產品說明翻譯成西班牙文、日文使用手冊、多語言聊天機器人輸出等。BLEU 是 Amazon Bedrock Model Evaluation 自動化任務在文字生成任務類型(當參考資料為目標語言譯文)中的預設翻譯指標。
BLEU 的限制同樣重要:BLEU 會懲罰合理的近義改寫和同義詞替換;BLEU 無法評判語意是否充分傳達;人工翻譯者在具有創意但客觀正確的翻譯上,BLEU 分數往往低於 50。當風格或創意很重要時,應搭配 BERTScore 或人工評估。
BERTScore — 透過 BERT Embeddings 評估語意相似度
BERTScore 由 Zhang 等人於 2020 年提出,以上下文 embedding 相似度取代 n-gram 重疊。BERTScore 將候選文字與參考文字分別 tokenize,透過 BERT 系列編碼器處理每個 token,並計算每個候選 token 與每個參考 token 之間的 cosine 相似度。BERTScore 同樣報告精確率、召回率與 F1(F1 分數),但這些數值是建立在語意意涵上,而非表面字形。
當近義改寫品質、語意相似度或開放式問答很重要時,請在基礎模型評估中使用 BERTScore——聊天機器人回應、RAG 生成的答案、近義改寫生成,或抽象式摘要(模型改寫而非複製原文)。BERTScore 是 Amazon Bedrock Model Evaluation 自動化任務在問答任務類型中的預設語意穩健性指標。
BERTScore 的限制:BERTScore 依賴編碼器的訓練分布(除非選用多語言編碼器,否則以英文為主);計算成本比 ROUGE 或 BLEU 高;而且無法偵測事實性錯誤——兩個句子可以語意相似,但同時都是錯的。
ROUGE vs BLEU vs BERTScore 速查表
- 摘要 → ROUGE 優先,BERTScore 其次。
- 翻譯 → BLEU 優先,BERTScore 其次。
- 語意相似度/近義改寫/開放式問答 → BERTScore 優先。
- 任何需要事實性依據的任務 → 自動化指標加上人工評估或 LLM-as-judge。
AIF-C01 很喜歡出情境題:列出一項任務和四個指標選項。請熟背對應關係:摘要對應 ROUGE,翻譯對應 BLEU,語意相似度對應 BERTScore。如果情境題又補充「團隊希望同時偵測近義改寫品質」,則在 ROUGE 或 BLEU 之上疊加 BERTScore。絕對不要對摘要題選 BLEU;也絕對不要對翻譯題選 ROUGE。 Source ↗
Perplexity — 語言模型的內在品質指標(困惑度)
Perplexity(困惑度)是以基礎模型的機率分布,對保留文本(held-out text)計算指數化平均負對數似然值。用白話說,perplexity 衡量的是基礎模型在看到自然文本時有多「驚訝」。困惑度越低代表語言建模越好;困惑度為 10,意味著模型平均在 10 個等可能的下一個 token 之間做選擇。
基礎模型評估中的 perplexity 是內在指標(intrinsic)——不需要參考答案,只需要保留文本。這讓 perplexity 非常適合監控基礎模型流暢度、比較預訓練檢查點(pretraining checkpoints),或偵測資料分布漂移。Perplexity 不適合用於排名特定任務的微調模型,因為一個模型可以語言非常流暢但毫無幫助。
Perplexity 是你回報給預訓練團隊的評估指標,而不是給產品經理的。對於任務專屬的基礎模型評估,請改用 ROUGE、BLEU、BERTScore 或基準測試。AIF-C01 題目中提到「在保留文本上測量語言模型流暢度」時,答案就是 perplexity。 Source ↗
其他你應該認識的自動化指標
- Exact Match(精確比對,EM) — 輸出與參考完全相同的百分比。用於抽取式問答(extractive QA)。
- F1 over tokens(Token 層級 F1) — token 層級的精確率與召回率。用於抽取式問答與命名實體識別(NER)。
- chrF/chrF++ — 字元層級 F 分數。針對形態複雜語言(如捷克文、土耳其文)的現代 BLEU 替代方案。
- METEOR — 含同義詞與詞幹對齊的詞語比對指標。經典翻譯指標。
- Accuracy(準確率)/Robustness(穩健性)/Toxicity(毒性) — Amazon Bedrock Model Evaluation 自動化任務中的一等公民指標。
任務專屬基準測試 — MMLU、HellaSwag、HumanEval
基準測試是公開的模型排行榜。Amazon Bedrock、Anthropic、Meta 和 OpenAI 都會公布基準測試分數,而 AIF-C01 期望你能按名稱認出前三名。
MMLU — 大規模多任務語言理解(Massive Multitask Language Understanding)
MMLU 由 Hendrycks 等人於 2021 年提出,是一份涵蓋 57 個學科的多選題基準測試,範圍橫跨 STEM、人文、社會科學、醫學、法律及專業考試。MMLU 測試的是高中到專家等級的一般知識與推理能力。分數從 25%(隨機猜測)到 100%,現代前沿基礎模型的分數在 80 多至 90 初頭之間。
當你需要一個能概括廣泛推理能力的單一數字時,請在基礎模型評估中使用 MMLU。MMLU 是每次基礎模型發布(包括 Amazon Bedrock 託管的模型)的頭條基準測試。
HellaSwag — 常識句子接龍
HellaSwag 由 Zellers 等人於 2019 年提出,是一個常識推理基準測試,要求基礎模型從四個選項中,挑出一段短情境最合理的接續句子。HellaSwag 經過對抗性過濾(adversarial filtering),使得前一代語言模型的得分近乎隨機猜測,而人類得分高於 95%。現代基礎模型在 HellaSwag 上已趨於飽和,但它仍是一個有用的回歸測試。
HumanEval — 程式碼生成
HumanEval 由 OpenAI 的 Chen 等人於 2021 年提出,是一個包含 164 道 Python 函式合成題目的基準測試。每道題提供函式簽章(function signature)和文件字串(docstring)給基礎模型,模型必須寫出函式本體;模型的輸出會對單元測試(unit tests)執行驗證。HumanEval 報告 pass@1、pass@10 或 pass@100。HumanEval 是每次基礎模型發布的預設程式碼生成基準測試。
當任務是程式碼生成時,請在基礎模型評估中使用 HumanEval——GitHub Copilot 風格的助手、Amazon Q Developer,或建立在 Amazon Bedrock 上的自訂程式設計聊天機器人。
AIF-C01 可能提到的其他基準測試
- TruthfulQA — 衡量基礎模型是否重複常見錯誤觀念。
- BIG-bench — 超過 200 個多元任務,用於廣泛壓力測試。
- ARC/ARC-Challenge — 國小科學題目。
- GSM8K/MATH — 國小到競賽等級的數學應用題。
- MBPP — Mostly Basic Python Problems,HumanEval 的簡化版。
- BBQ/CrowS-Pairs/RealToxicityPrompts — Amazon SageMaker Clarify 基礎模型評估使用的偏差與毒性基準測試。
MMLU 對應一般知識與推理。HellaSwag 對應常識句子接龍。HumanEval 對應 Python 程式碼生成。每一道 AIF-C01 基準測試題目,都可以化簡為將這三個名稱之一與情境中的任務配對。 Source ↗
LLM-as-Judge — 用更強的模型評分較弱的模型
LLM-as-judge 是一種基礎模型評估模式,由一個大型高品質的基礎模型為另一個基礎模型的輸出打分。Zheng 等人於 2023 年透過 MT-Bench 和 Chatbot Arena 將這個模式正式化。LLM-as-judge 的擴展性遠優於人工評估——一個評審模型每小時可以審查數萬份輸出,成本只是人工的一小部分——同時在許多任務上與專家人工評分的相關性達 80% 或以上。
常見的 LLM-as-judge 模式
- 單答評分(Single-answer grading) — 評審對一個候選輸出以 1 到 10 的評分標準打分。
- 配對比較(Pairwise comparison) — 評審從兩個候選輸出(A vs B)中選出較好的,常用於 Chatbot Arena 風格的 Elo 排名。
- 基於參考答案的評分(Reference-based grading) — 評審將候選答案與黃金答案相比較,並返回相似度或正確性分數。
- 基於評分標準的評分(Rubric-based grading) — 評審評估多個維度(有用性、無害性、事實性、語氣),並返回結構化的 JSON 分數。
Amazon Bedrock 原生支援 LLM-as-judge 基礎模型評估。你可以啟動一個 Amazon Bedrock Model Evaluation 任務,使用 Claude 或其他 Bedrock 託管的基礎模型作為評審,指向你的候選模型輸出,並在 Amazon S3 中收到結構化分數。
LLM-as-judge 的陷阱
- 位置偏差(Position bias) — 評審偏好配對比較中排列在前的選項。透過隨機化順序來緩解。
- 長度偏差(Length bias) — 評審偏好較長的答案。透過指示評審忽略長度來緩解。
- 自我偏好偏差(Self-preference bias) — 來自同一模型家族的評審偏好同家族的輸出。透過使用不同家族的模型作為評審來緩解。
- 評分標準漂移(Rubric drift) — 評審在不同執行之間重新詮釋評分標準。透過提供少樣本示例(few-shot examples)來緩解。
AIF-C01 有時會用 LLM-as-judge 等同於人工評估來誤導你。LLM-as-judge 是自動化的——快速、便宜、可擴展,但繼承了評審模型的偏差。當監管機構、品牌安全或高風險領域涉及其中時,透過 Amazon SageMaker Ground Truth Plus 或 Amazon Mechanical Turk 進行的人工評估仍然是黃金標準。如果情境題提到「受監管產業」、「醫療建議」或「法律文件」,請選人工評估,而非 LLM-as-judge。 Source ↗
人工評估 — Ground Truth、Ground Truth Plus、Mechanical Turk
人工基礎模型評估是唯一能捕捉細微差異、品牌聲調、文化適切性、法規合規性及隱性事實錯誤的評估類別。AWS 提供三種人工標注工作人力,可直接整合進基礎模型評估工作流程。
Amazon SageMaker Ground Truth — 自帶工作人力
Amazon SageMaker Ground Truth 是 AWS 的資料標注與人工基礎模型評估服務,可使用你自己的私有工作人力、AWS Marketplace 廠商,或 Amazon Mechanical Turk。你設計標注介面、定義評分標準、按任務付費。當基礎模型評估工作人力需要領域專業知識時——醫療審閱者、法律審閱者、流利的日語母語者——而通用眾包池無法滿足需求時,Ground Truth 是理想選擇。
Amazon SageMaker Ground Truth Plus — AWS 管理的工作人力
Amazon SageMaker Ground Truth Plus 是完全託管的變體,由 AWS 專業服務處理工作人力、品質管控與專案管理。當客戶沒有內部標注團隊,且希望獲得一份有 SLA 保障的單一交付物時,Ground Truth Plus 是正確選擇。Ground Truth Plus 開箱即支援生成式 AI 基礎模型評估——評審可以對模型輸出排名、填寫評分標準,或提供參考答案。
Amazon Mechanical Turk — 隨需眾包
Amazon Mechanical Turk 是原始的隨需人工工作人力平台,用於微任務(micro-tasks)。Mechanical Turk 便宜且快速,但沒有領域保證,因此最適合大量、低風險的基礎模型評估任務,例如「這個輸出有禮貌嗎?」或「哪篇摘要更容易閱讀?」
Amazon Bedrock 人工模型評估任務
Amazon Bedrock Model Evaluation 人工任務讓你選擇工作人力(透過 Amazon SageMaker Ground Truth 自帶,或使用 AWS 管理的工作人力)、定義評分量表或比較評分標準、上傳提示資料集,並在 Amazon S3 中收到彙總的基礎模型評估分數。每當情境題提到「人工評審」、「品牌聲調」、「主觀品質」或「受監管的內容」時,Amazon Bedrock 中的人工基礎模型評估任務就是 AIF-C01 的正確答案。
每當 AIF-C01 在基礎模型評估情境題中出現「品牌聲調」、「語氣」、「文化適切性」、「對終端使用者的有用性」,或「醫療/法律/財務審閱」等字眼時,正確答案就是人工基礎模型評估任務——搭配 Ground Truth Plus 的 Amazon Bedrock Model Evaluation 人工任務,或搭配私有工作人力的 Amazon SageMaker Ground Truth。自動化指標無法衡量主觀品質。 Source ↗
Amazon Bedrock Model Evaluation — 自動化 vs 人工任務
Amazon Bedrock Model Evaluation 是 AWS 原生的基礎模型評估服務,以兩種模式運行:自動化基礎模型評估任務與人工基礎模型評估任務。
Bedrock Model Evaluation 自動化任務
一個自動化的 Amazon Bedrock Model Evaluation 任務會選擇基礎模型、任務類型(文字摘要、問答、文字分類、開放式文字生成)、內建或自訂提示資料集,以及一個或多個內建指標(準確率、穩健性、毒性,以及任務專屬指標,例如摘要用 ROUGE,問答用 BERTScore)。任務以無人值守方式執行,透過隨需或 Provisioned Throughput 呼叫基礎模型,將結果寫入 Amazon S3,並在 Amazon Bedrock 主控台呈現評分卡。
自動化 Amazon Bedrock Model Evaluation 任務是 90% 的基礎模型評估工作最佳的起點。它們成本低廉(你只需支付模型推論費用加上少量協調費用)、快速(以小時計,而非以天計)且可重現。
Bedrock Model Evaluation 人工任務
人工 Amazon Bedrock Model Evaluation 任務在自動化任務之上加入了人工評審。你最多選擇兩個基礎模型進行正面對決,定義評分指引,選擇工作人力(透過 Amazon SageMaker Ground Truth 自帶,或使用 AWS 管理的工作人力),並將提示分配給評審。評審依評分標準為輸出打分——按讚/不按讚、李克特量表(Likert scale),或配對偏好——任務最終彙總為每個模型每項指標的平均分數。
Amazon Bedrock Model Evaluation 內建指標
- Accuracy(準確率) — 任務專屬的正確性(依任務類型可能為精確比對、F1 或 BERTScore)。
- Robustness(穩健性) — 提示被擾動(錯字、大小寫、同義詞)時的輸出穩定性。
- Toxicity(毒性) — 有害、粗穢或冒犯性內容的出現率。
- 任務專屬摘要/問答/生成指標 — ROUGE、BERTScore 及其他。
成本最優的基礎模型評估模式是:先執行自動化 Amazon Bedrock Model Evaluation 任務,篩除明顯較差的候選模型;再僅針對前兩到三名候選模型執行人工 Amazon Bedrock Model Evaluation 任務。這樣可以將人工評審成本控制在 5,000 美元以下,同時仍能獲得符合監管標準的基礎模型評估結果。 Source ↗
Amazon SageMaker Clarify 基礎模型評估 — 偏差與公平性
Amazon SageMaker Clarify 將傳統 ML 公平性檢查延伸至基礎模型評估領域。SageMaker Clarify 基礎模型評估可量測 Amazon Bedrock 基礎模型、Amazon SageMaker JumpStart 基礎模型及自訂端點上的偏差、刻板印象、毒性與事實性知識。
Clarify 基礎模型評估的量測項目
- 偏差(Bias) — 跨人口群體的差異化表現(BBQ 風格提示、CrowS-Pairs)。
- 刻板印象(Stereotyping) — 基礎模型是否對職業、性別、種族或國籍產生刻板印象的接續內容?
- 毒性(Toxicity) — 由毒性分類器對 RealToxicityPrompts 風格的補全結果評分。
- 事實性知識(Factual knowledge) — TriviaQA 及類似的事實性基準測試。
- 語意穩健性(Semantic robustness) — 在錯字、大小寫和近義改寫擾動下的輸出穩定性。
何時選擇 Clarify 基礎模型評估而非 Bedrock Model Evaluation
當情境強調偏差、公平性、法規合規性或負責任 AI 時,Amazon SageMaker Clarify 基礎模型評估是正確選擇。當情境強調任務品質(摘要、翻譯、問答)時,Amazon Bedrock Model Evaluation 是正確選擇。兩項服務在毒性和準確率上有所重疊;請依情境題中哪個服務被明確點名來做區分。
在 AIF-C01 Domain 5 關於偏差、公平性、毒性或刻板印象的題目上,基礎模型評估的正確答案是 Amazon SageMaker Clarify。在 Domain 3 關於任務品質(摘要、翻譯、程式碼生成)的題目上,正確答案是 Amazon Bedrock Model Evaluation。當兩者同時出現為選項時,請在情境題中尋找「偏差(bias)」或「公平性(fairness)」等字眼來做區分。 Source ↗
基礎模型評估執行的成本
基礎模型評估並非免費。了解成本結構是 AIF-C01 真實考題,也是真實生產環境中的實際顧慮。
Bedrock Model Evaluation 自動化任務的成本驅動因素
- 基礎模型推論費用 — 輸入 token 加輸出 token,以每 1,000 個 token 的費率計算,依模型與區域而異。在 Claude Sonnet 上執行包含 1,000 個提示的自動化 Amazon Bedrock Model Evaluation 任務,費用通常為個位數到低兩位數美元。
- 協調費用 — 少量的每個任務費用加上 Amazon S3 儲存費用。
- 評審模型推論費用 — 若使用 LLM-as-judge,你需要為評審模型支付第二筆推論費用。
Bedrock Model Evaluation 人工任務的成本驅動因素
- 評審時薪 — Amazon SageMaker Ground Truth Plus 依每個物件每位評審計費;若每個提示有三位評審,一個包含 1,000 個提示的人工基礎模型評估任務,依任務複雜度,費用可達 1,000 至 10,000 美元。
- Mechanical Turk — 每個任務費用較低(0.01 至 1.00 美元),但無領域保證。
- 私有工作人力 — 你支付員工工時加上 SageMaker Ground Truth 的每個物件費用。
成本最佳化模式
- 瀑布式評估(Cascade evaluation) — 先用便宜的自動化指標篩選,僅對存活下來的候選模型進行昂貴的人工評估。
- 樣本數量調整 — 自動化基礎模型評估通常用 200 到 500 個提示就足以取得統計穩定的結果;人工評估可以使用較小的樣本(50 到 200),但每個提示提供更高的信號量。
- 隨需 vs Provisioned Throughput — 對於一次性的基礎模型評估執行,隨需 Amazon Bedrock 定價較便宜;對於生產環境中的持續基礎模型評估,Provisioned Throughput 的分攤成本更合算。
務必為 Amazon Bedrock Model Evaluation 設置預算上限。一個粗心的自動化基礎模型評估任務,若針對 5 個頂級基礎模型迭代 10,000 個提示,一個下午就可能燒掉 1,000 美元。請使用 Amazon CloudWatch 警示加上 AWS Budgets 來防止失控的基礎模型評估成本。 Source ↗
生產環境 A/B 測試基礎模型 — Shadow、Canary、Provisioned Throughput
離線基礎模型評估告訴你哪個基礎模型在保留資料上表現更好。生產 A/B 測試告訴你哪個基礎模型在真實使用者身上表現更好。AWS 提供三種生產等級的 A/B 測試機制。
Amazon SageMaker Shadow testing
Amazon SageMaker Shadow testing 讓你部署一個候選基礎模型端點,靜默地接收一份生產流量的副本,但不向終端使用者回傳結果。Shadow 端點的輸出和延遲會被記錄下來,與生產端點進行比較。SageMaker Shadow testing 是生產環境中最安全的基礎模型評估機制,因為它完全不會對客戶體驗造成任何風險。
Shadow testing 最適合在 Amazon SageMaker 上託管的候選模型(JumpStart 基礎模型、微調後的 Titan、自行部署的 Llama、自訂模型)。Shadow testing 不直接適用於 Amazon Bedrock 隨需端點,但你可以透過將提示複製傳送給兩個 Amazon Bedrock 基礎模型並記錄兩份回應來模擬。
Amazon Bedrock Provisioned Throughput 的 A/B 測試
Amazon Bedrock Provisioned Throughput 為基礎模型保留專用推論容量,以固定時費計費。對於 A/B 測試,你可以為當前生產基礎模型和候選模型各自建立一個 Provisioned Throughput 配置,並透過應用程式邏輯將一定比例的流量路由至每一個。Provisioned Throughput 在 A/B 視窗期間提供可預測的延遲和成本,這對基礎模型評估結果對延遲敏感的情況至關重要。
透過 SageMaker 端點進行 Canary 和線性部署
Amazon SageMaker 端點支援藍綠部署(blue/green)、canary 及線性流量切換策略。你將新基礎模型變體與當前變體並排部署,將 10% 的流量切換至新變體,監控基礎模型評估指標(延遲、錯誤率、業務 KPI),若指標維持穩定則逐步擴展至 100%。
哪種 A/B 策略適合哪種 AIF-C01 情境
- 「對客戶端零風險」 → Amazon SageMaker Shadow testing。
- 「逐步切換流量並可回滾」 → SageMaker canary 或線性部署。
- 「基礎模型 A/B 測試期間可預測的成本和延遲」 → Amazon Bedrock Provisioned Throughput。
- 「上線前離線比較兩個 Amazon Bedrock 基礎模型」 → Amazon Bedrock Model Evaluation 人工任務(選擇兩個候選模型)。
Amazon SageMaker Shadow 將一份流量副本傳送至候選模型,使用者完全無感。Canary 將一小部分真實使用者切換至候選模型。Amazon Bedrock Provisioned Throughput 保留容量,使 A/B 測試的延遲和成本保持可預測。這是三種不同的生產基礎模型評估旋鈕,對應三種不同的風險偏好。 Source ↗
AWS 上的端對端基礎模型評估工作流程
AWS 上的生產等級基礎模型評估工作流程將所有環節串連在一起。
- 定義任務 — 摘要、翻譯、問答、程式碼生成、對話。
- 組建保留提示資料集 — 200 到 2,000 個提示,在適用的情況下附上參考答案。儲存於 Amazon S3。
- 選擇自動化指標 — 摘要用 ROUGE,翻譯用 BLEU,語意相似度用 BERTScore,基礎模型健康狀態用 perplexity。
- 選擇基準測試 — 推理用 MMLU,常識用 HellaSwag,程式碼用 HumanEval。
- 執行自動化 Amazon Bedrock Model Evaluation 任務 — 跨候選基礎模型進行迭代。
- 執行 Amazon SageMaker Clarify 基礎模型評估 — 偏差、毒性、刻板印象、事實性知識。
- 執行人工 Amazon Bedrock Model Evaluation 任務 — 僅針對前兩到三名候選模型,透過 Amazon SageMaker Ground Truth Plus 或私有工作人力。
- 挑選勝者,部署在 Amazon SageMaker Shadow testing 或 Amazon Bedrock Provisioned Throughput 之後 — 在全面推出前,先在真實流量上驗證。
- 持續監控 — 定期執行基礎模型評估任務、偵測模型漂移、建立使用者回饋迴路。
基礎模型評估的常見考試陷阱
AIF-C01 很喜歡出基礎模型評估的陷阱題。請留意以下這些:
- 「摘要客戶回饋」 且選項包含 BLEU — 陷阱。正確答案是 ROUGE。
- 「翻譯成西班牙文」 且選項包含 ROUGE — 陷阱。正確答案是 BLEU。
- 「衡量改寫答案的語意相似度」 且選項包含 ROUGE — 陷阱。正確答案是 BERTScore。
- 「受監管的醫療內容審閱」 且選項包含 LLM-as-judge — 陷阱。正確答案是透過 Amazon SageMaker Ground Truth Plus 進行的人工評估。
- 「偵測跨人口群體的偏差」 且選項包含 Amazon Bedrock Model Evaluation — 部分陷阱。正確答案是 Amazon SageMaker Clarify 基礎模型評估(Bedrock Model Evaluation 涵蓋毒性,但 Clarify 才是偏差優先的答案)。
- 「在生產環境測試新基礎模型且對客戶零風險」 → Amazon SageMaker Shadow testing。不是 canary。
- 「Amazon Bedrock 上時間限定 A/B 視窗的可預測成本」 → Amazon Bedrock Provisioned Throughput。
Amazon Bedrock Model Evaluation 自動化摘要任務提供 ROUGE、BERTScore 及幾項穩健性指標,但 BLEU 從來不是主要選項。如果一道關於摘要的基礎模型評估題目把 BLEU 列為第一個選項,那就是干擾項。請堅持選 ROUGE。 Source ↗
基礎模型評估常見問題
Q1. 基礎模型評估時,我應該在什麼情況下選 ROUGE、BLEU 還是 BERTScore?
任務是摘要時選 ROUGE;ROUGE 衡量與參考摘要的重疊程度,以召回率為導向。任務是翻譯時選 BLEU;BLEU 以簡短懲罰計算與參考譯文的 n-gram 精確率。當語意相似度或近義改寫品質很重要時選 BERTScore,例如開放式問答或抽象式摘要;BERTScore 使用上下文 embeddings,獎勵語意意涵而非表面字形。常見的生產評估模式是將一個表面形式指標(ROUGE 或 BLEU)與 BERTScore 配對,同時捕捉字面重疊和語意充分性。
Q2. Amazon Bedrock Model Evaluation 和 Amazon SageMaker Clarify 基礎模型評估有什麼差異?
Amazon Bedrock Model Evaluation 專注於 Amazon Bedrock 託管基礎模型的任務品質——準確率、穩健性、毒性、ROUGE、BERTScore——並支援自動化和人工基礎模型評估任務。Amazon SageMaker Clarify 基礎模型評估則聚焦於負責任 AI 的面向——偏差、刻板印象、事實性知識、語意穩健性——適用範圍涵蓋 Amazon Bedrock、Amazon SageMaker JumpStart 及自訂端點。以 Amazon Bedrock Model Evaluation 作為預設選擇;每當偏差、公平性或法規合規性是評估需求的一部分時,在其上疊加 Amazon SageMaker Clarify。
Q3. 一個典型的 Amazon Bedrock Model Evaluation 自動化任務要花多少錢?
費用取決於基礎模型、提示數量和 token 長度。一個具代表性的自動化 Amazon Bedrock Model Evaluation 任務——500 個提示、平均 1,000 個輸入 token 和 500 個輸出 token、使用 Claude Sonnet——費用在個位數美元範圍內。擴展至 5,000 個提示、跨 3 個基礎模型、並疊加評審模型,費用可達 200 至 500 美元。透過 Amazon SageMaker Ground Truth Plus 進行的人工基礎模型評估,依評分標準複雜度,每個評審過的提示通常需額外支付 1 至 10 美元。
Q4. LLM-as-judge 適合用於受監管產業的基礎模型評估嗎?
LLM-as-judge 在受監管產業中作為第一道過濾機制是可接受的,但對於影響健康、財務、法律結果或安全的決策,它不足以作為最終的基礎模型評估信號。監管機構期望人工基礎模型評估,並需要有文件記錄的評分標準、評審者間一致性(inter-rater agreement)及稽核軌跡。在 AIF-C01 中,考題將 LLM-as-judge 與人工評估視為不同層級——每當情境題提到受監管產業、高風險內容或品牌關鍵輸出時,請選擇透過 Amazon SageMaker Ground Truth Plus 或 Amazon Bedrock 人工模型評估任務進行的人工評估。
Q5. MMLU、HellaSwag 和 HumanEval 有何不同?我應該向利害關係人報告哪個?
MMLU 透過多選題衡量橫跨 57 個學科的廣泛知識與推理能力;向關心一般智能的利害關係人報告 MMLU。HellaSwag 衡量常識句子接龍能力;當紮實的日常推理能力很重要時報告 HellaSwag。HumanEval 以可執行的單元測試衡量 Python 程式碼生成能力;向開發者體驗相關的利害關係人報告 HumanEval。企業基礎模型推出的平衡評估計分卡,通常會同時呈現 MMLU、HumanEval,以及至少一個安全基準測試,例如 TruthfulQA 或 Clarify 偏差分數。
Q6. 我可以不使用 Amazon SageMaker 端點來 A/B 測試兩個 Amazon Bedrock 基礎模型嗎?
可以。對於離線基礎模型評估,請執行選擇兩個基礎模型的 Amazon Bedrock Model Evaluation 人工任務——Bedrock 原生地彙總配對偏好。對於線上生產 A/B 測試,請從應用程式程式碼或 Amazon API Gateway 層,將一定比例的應用程式流量路由至兩個 Amazon Bedrock Provisioned Throughput 配置,記錄回應,並計算提升指標(lift metrics)。當兩個候選模型都是 Amazon Bedrock 託管時,Amazon SageMaker Shadow testing 並非必要;SageMaker Shadow 是針對 SageMaker 託管的基礎模型端點設計的。
Q7. 可靠的基礎模型評估需要多大的樣本量?
對於同質任務的自動化基礎模型評估指標,通常 200 到 500 個提示就能給出統計上穩定的 ROUGE、BLEU 或 BERTScore 數值。對於基準測試導向的基礎模型評估,請使用完整的基準測試集——MMLU 有 14,042 道題目、HellaSwag 有 10,042 道、HumanEval 有 164 道——因為基準測試按慣例以全量報告。對於人工基礎模型評估,每個提示有三位評審的情況下,50 到 200 個提示通常就足夠;評審者間一致性(Krippendorff alpha 或 Cohen kappa)可以告訴你是否需要擴大樣本。
AIF-C01 基礎模型評估總結
基礎模型評估是一門分層學科。從自動化指標開始——摘要用 ROUGE,翻譯用 BLEU,語意相似度用 BERTScore,基礎模型流暢度用 perplexity。疊加基準測試——一般推理用 MMLU,常識用 HellaSwag,程式碼用 HumanEval。當規模很重要時加入 LLM-as-judge,當風險很高時加入人工評估。在 AWS 上透過以下服務操作基礎模型評估:Amazon Bedrock Model Evaluation 自動化和人工任務、用於偏差和公平性的 Amazon SageMaker Clarify 基礎模型評估,以及用於人工工作人力的 Amazon SageMaker Ground Truth Plus 或 Amazon Mechanical Turk。謹慎地為評估執行編列預算——自動化任務成本低廉,人工任務則不然。在全面推出之前,透過 Amazon SageMaker Shadow testing 或 Amazon Bedrock Provisioned Throughput 將基礎模型評估的勝者推進至生產環境驗證。
為 AIF-C01 熟背三組核心配對:摘要對應 ROUGE,翻譯對應 BLEU,語意相似度對應 BERTScore。熟背三個核心基準測試:MMLU、HellaSwag、HumanEval。熟背三項核心 AWS 基礎模型評估服務:Amazon Bedrock Model Evaluation、Amazon SageMaker Clarify、Amazon SageMaker Ground Truth Plus。有了這九個名詞打下基礎,AIF-C01 的每一道基礎模型評估題目都將變成對號入座的配對練習。