微調 vs 情境學習是你在 AWS 挑定基礎模型之後,最關鍵的一道設計抉擇。在 AWS Certified AI Practitioner(AIF-C01)考試中,任務說明 3.3「描述 FM 的訓練與微調流程」把微調 vs 情境學習化為一組場景題:團隊應該透過 Retrieval Augmented Generation 注入知識、精雕提示、在 Amazon Bedrock 執行完整微調、透過 Amazon SageMaker JumpStart 掛上 LoRA adapter,還是對原始領域語料進行持續預訓練?初次應試者普遍在微調 vs 情境學習的分辨上失分,因為三條客製化路徑(提示工程、檢索增強、權重更新)在截圖上看起來相似,實際上的成本、風險與延遲卻差了好幾個數量級。
本學習指南涵蓋 AIF-C01 考試可能考到的所有微調 vs 情境學習判斷情境,包含持續預訓練、完整微調、參數高效微調(LoRA/PEFT)、指令調優、RLHF、微調 vs 情境學習 vs RAG 決策樹、Amazon Bedrock 自訂模型訓練、Amazon SageMaker JumpStart 微調任務、帶提示—補全配對的資料集準備、超參數選擇、成本與時間取捨,以及 AIF-C01(概念辨識)與 AIP-C01(實作深度)之間的範圍邊界。最後以五道詳細 FAQ 收尾。
什麼是微調 vs 情境學習?
微調 vs 情境學習是將基礎模型適配至特定任務的兩種相反策略的統稱。微調透過在你的資料集上訓練,永久更新模型權重。情境學習讓模型權重保持凍結,而是透過提示的內容來改變行為——包含指令、範例與檢索到的文件。所有 AIF-C01 客製化問題,最終都歸結為在這條微調 vs 情境學習的光譜上選定一個位置。
微調 vs 情境學習的光譜,由最便宜到最昂貴依序為:零樣本提示、少樣本提示、Retrieval Augmented Generation(RAG)、參數高效微調(LoRA/PEFT)、完整微調、持續預訓練、從頭完整預訓練。AIF-C01 考試幾乎不會考從頭預訓練,因為 Amazon 客戶幾乎不會這麼做——基礎模型存在的意義正是讓你不必如此。但這條微調 vs 情境學習階梯上的其他每一階都會被考到。
Amazon Bedrock 與 Amazon SageMaker JumpStart 是實作微調 vs 情境學習工作流程的兩個 AWS 受管服務。Amazon Bedrock 在無需暴露 GPU 的前提下,對特定基礎模型(Amazon Titan、Meta Llama、Cohere Command 等)提供全受管微調與持續預訓練。Amazon SageMaker JumpStart 則在更廣泛的模型目錄上提供更深入的微調控制,包含 PEFT adapter 與 RLHF 工作流程。了解哪個 AWS 服務實作哪種微調 vs 情境學習技術,是本主題第二常考的角度。
微調 vs 情境學習對 AIF-C01 的重要性
領域 3(基礎模型的應用)佔 AIF-C01 考試總分的 28%。任務說明 3.3 專門聚焦於 FM 的訓練與微調流程,而微調 vs 情境學習的判斷正是其核心。社群的考後回報一再標記三個微調 vs 情境學習的痛點:(a)把領域適應與遷移學習混為一談,(b)把微調與 RAG 混淆,(c)忽略完整微調與參數高效微調之間的成本差距。本指南針對這三點一一說明。
AIF-C01 要求你針對場景在微調與情境學習之間做出選擇,並描述每條路徑的作用。你不需要撰寫訓練腳本、在程式碼中調整學習率,或除錯 GPU OOM 錯誤。那些更深入的微調 vs 情境學習實作問題屬於 AWS Certified AI Engineer — Associate(AIP-C01)考試。閱讀每道 AIF-C01 題目時,心態是「哪種方法適合?」而非「我該如何精確實作?」 Source ↗
白話文解釋 微調 vs 情境學習
微調 vs 情境學習聽起來像兩條平行的技術管線,但用幾個日常類比,立刻一目瞭然。
類比一 — 便利商店打工 vs 正式職前培訓(台式職場)
把基礎模型想像成一位剛錄用的新人。
- 情境學習是便利商店的「今日交辦單」。 你每天早上在交班本上寫好今天要推銷的商品、特殊注意事項、臨時活動(這就是提示,加上幾個範例,再加上 RAG 撈來的即時資料)。新人照著交辦單工作,不需要事先受訓。靈活、即時,但交辦單本身有版面限制(情境視窗),而且每次換班都要重新交接。
- 微調是三個月的職前培訓班。 你把新人送去公司內部訓練中心,讓他把產品知識、品牌話術全部記進腦子裡。訓練一次成本高,但之後每次上班都不需要交辦單,反應更快、更一致。
- 持續預訓練是讓員工去考一張新的專業證照。 例如原本只會一般門市的員工,去補修「金融保險基礎知識」,才能在銀行門口的服務台應對客戶。改變的是底層的語言與領域直覺,不只是單一任務技能。
AIF-C01 場景說「銀行希望模型用本週最新利率表回答客戶問題」,這是今日交辦單(RAG——情境學習)。場景說「銀行希望模型永遠以 50 年合規手冊的語氣回覆」,這是職前培訓(微調)。
類比二 — 廚師與今日菜單(廚房)
基礎模型是一位已具備全套廚藝的世界級主廚。
- 情境學習是在出餐前遞給主廚一張今日菜單。 Anthropic Claude 或 Amazon Titan 讀取你的提示(菜單),照單烹調。換張菜單,換道菜。無需重新培訓。
- 微調是讓主廚花數個月學習一套新菜系。 你提供數千筆提示—補全配對(試菜紀錄)。此後主廚本能地端出你餐廳的招牌風格,不需要看菜單。
- RAG 是給主廚一間智慧備料室。 每次點餐,備料室(向量資料庫)立刻遞上今天的食材——昨日特餐紀錄、地區酒單、過敏原資料庫。主廚的廚藝(模型權重)不變;只有食材隨訂單而異。
微調 vs 情境學習的分野於此清晰:情境學習改變菜單或備料室,微調改變主廚本身。
類比三 — 瑞士刀的四把刀片(客製化工具箱)
把 AWS 客製化選項想像成一把有四片刀刃的瑞士刀。
- 刀刃一 — 提示工程。 精密小螺絲起子:快速、便宜、可逆。適用於基礎模型已具備足夠知識的情況。
- 刀刃二 — RAG(帶檢索的情境學習)。 鑷子:精準夾取當下需要的文件。解決知識新鮮度與幻覺問題。
- 刀刃三 — 微調(完整版或 PEFT/LoRA)。 主刀片。重塑行為。能乾淨切穿語調、風格與領域術語任務。
- 刀刃四 — 持續預訓練。 鋸子。厚重、緩慢,但當模型從未見過你的詞彙時不可或缺。
拿出能完成工作的最小刀片。AIF-C01 場景題獎勵這種思路:先從刀刃一開始,只在必要時升級。
類比四 — 找顧問 vs 培訓正職員工(工地)
把基礎模型想像成一支新進工班。
- 情境學習是每天早上現場聘請翻譯。 每次提示都帶著完整指令;翻譯負責傳達。彈性極高,但每次都要付翻譯費(情境 token 費用)。
- RAG 是貼在工地辦公室牆上的平面圖。 工人需要今天的樓層配置時抬頭一看(撈取的情境)。便宜、即時、無需重訓。
- 微調是讓工班去考職業技術證照。 一次性成本,此後他們憑肌肉記憶執行你的藍圖。
- 持續預訓練是讓工班轉換整個工種(混凝土班轉為結構鋼班)。投入最深,當領域轉移幅度夠大時,回報也最大。
AWS 上的四條客製化路徑
在深入每種技術之前,先整理 AIF-C01 可能考到的完整微調 vs 情境學習分類。共有四條路徑,位於成本—持久性座標軸上。
- 提示工程 — 純情境學習。零樣本、單樣本、少樣本、思維鏈、角色提示。完全存在於提示之中。透過 Amazon Bedrock InvokeModel 呼叫執行。
- Retrieval Augmented Generation(RAG) — 仍屬情境學習,但情境由向量庫自動檢索提供。透過 Amazon Bedrock Knowledge Bases 或 SageMaker 自架堆疊執行。
- 微調 — 在標記資料上更新權重。可以是完整微調或參數高效微調(LoRA/PEFT)。Amazon Bedrock(受管)與 Amazon SageMaker JumpStart(更深度控制)均支援。
- 持續預訓練 — 在原始、未標記的領域文字上更新權重。不需要提示—補全配對。Amazon Bedrock 針對特定基礎模型提供支援。
情境學習是在推論時,透過在提示中放入指令、範例或檢索文件來適配基礎模型行為的技術,不修改模型權重。少樣本提示與 RAG 都是情境學習的形式。 Source ↗
微調是繼續在較小的特定任務標記資料集上訓練預訓練基礎模型的流程,使模型權重適應特定風格、領域或任務。在 AWS 上,微調由 Amazon Bedrock 自訂模型與 Amazon SageMaker JumpStart 作為受管任務提供。 Source ↗
持續預訓練是在大量原始、未標記的領域文字語料上,延伸基礎模型原始預訓練階段的流程,使模型在進行任何任務微調之前,先學習新的詞彙與領域統計特性。Amazon Bedrock 針對支援的基礎模型(例如 Amazon Titan Text)提供受管持續預訓練。 Source ↗
情境學習 — 純提示適配
情境學習是微調 vs 情境學習光譜上最快速、最便宜、最可逆的客製化路徑。模型從不改變;只有提示改變。每一次 Amazon Bedrock InvokeModel 呼叫都是一次情境學習的機會。
零樣本、單樣本與少樣本提示
情境學習最初以少樣本提示的形式出現。少樣本意指在提示內插入 N 個已解決的範例,讓模型對你的任務進行模式比對。零樣本不給範例,單樣本給一個,少樣本通常給三到八個。少樣本提示是情境學習的一種形式,因為模型在單次前向傳遞中隱性「學習」了該模式——但其權重完全沒有改變。
少樣本情境學習的優勢在於:任務對模型而言雖然是新的,但模型已具備底層能力(摘要、分類、萃取)。當任務需要模型從未見過的專業詞彙,或需要數百個範例才能內化的風格時,少樣本提示便會力不從心。
指令提示與思維鏈
更進階的情境學習在範例外再包上一層系統提示(指令),並要求逐步推理(思維鏈)。在 Amazon Bedrock 上,Anthropic Claude 與 Amazon Titan 都支援帶有角色標記的結構化提示,這仍屬純情境學習。
情境學習的極限
情境學習有三道硬牆,會迫使你從情境學習升級至微調:
- 情境視窗成本。 每個情境範例都是你在每次呼叫時支付的 token 費用。規模一大,這筆費用將遠超一次性微調費用。
- 風格漂移。 若你需要在數百萬次呼叫中保持一致的語調,把風格指南放進每次提示不僅浪費 token,效果也仍會漂移。
- 領域詞彙。 若模型在預訓練期間從未見過你的術語,再多的情境學習範例也無法教會它;tokenizer 本身可能就會把你的術語切碎。
面對 AIF-C01 場景題,預設先考慮提示工程與 RAG,再考慮微調。考試獎勵能選出最小、最便宜的客製化方案來解決問題的考生。只有在提示無法滿足需求時,微調才是正確答案——最常見的情況是風格一致性、領域詞彙,或在極高呼叫量下的輸出格式要求。 Source ↗
Retrieval Augmented Generation — 帶向量庫的情境學習
Retrieval Augmented Generation(RAG)是將範例選取外包給檢索系統的情境學習。RAG 仍屬情境學習,因為模型權重是凍結的;只有每次查詢帶入的檢索情境會改變。
為什麼 RAG 屬於情境學習這一側
RAG 的檢索步驟從向量資料庫(Amazon OpenSearch Service、Amazon Aurora PostgreSQL with pgvector、Amazon Kendra,或 Amazon Bedrock Knowledge Bases 受管儲存)中取出 top-K 段落。這些段落被串接到提示中。模型隨後在讀取這些即時注入情境的同時給出回答。沒有任何權重移動。RAG 是一種特化的、自動化的情境學習——這正是為什麼 AIF-C01 常把 RAG 與微調並列為一道決策題。
Amazon Bedrock Knowledge Bases
Amazon Bedrock Knowledge Bases 是 RAG 的 AWS 受管實作。你將它指向 Amazon S3、Confluence、Salesforce 或 SharePoint;它會進行分塊、用 Amazon Titan Embeddings 或 Cohere Embed 嵌入、儲存向量,並在查詢時執行檢索。Amazon Bedrock Knowledge Bases 是純情境學習基礎設施——基礎模型保持凍結。
RAG vs 微調 — 決策分界線
AIF-C01 最清晰的微調 vs 情境學習邊界:
- RAG 勝在知識注入。 會變動的事實(定價、庫存、今日政策)屬於向量庫,不屬於模型權重。RAG 在你更新來源的當下即可更新。微調則需要重新執行訓練。
- 微調勝在行為塑造。 語調、風格、輸出格式、必須以零檢索延遲出現的領域詞彙——這些屬於權重。
- RAG 與微調可以結合。 你可以微調風格,同時仍使用 RAG 提供知識。AIF-C01 考試至少有一題的最佳答案是兩者並用。
一個非常常見的 AIF-C01 陷阱是把 RAG 與微調混淆:「團隊使用了 RAG,所以模型學到了新的產品目錄。」這是錯誤的。RAG 在查詢時把目錄放進提示。模型的權重在 RAG 前後完全相同。如果你需要模型本身在不經檢索的情況下知道某件事,你需要微調或持續預訓練。RAG 是情境學習,不是模型客製化。 Source ↗
微調 — 更新權重
微調是微調 vs 情境學習的另一側:你在自己的資料集上更新模型的權重。在 AWS 上,微調是一個受管訓練任務——你不需要自己跑 GPU。
完整微調
完整微調更新基礎模型的每一個參數。Llama-3 8B 的完整微調觸及全部 80 億個權重;70B 的完整微調觸及全部 700 億個。完整微調提供最強的表達能力,但承擔最高的運算成本、儲存成本與過擬合風險。AIF-C01 很少把完整微調列為「最佳」答案,因為對大多數商業場景而言,參數高效方法能以極低成本達到相近的品質。
參數高效微調(PEFT)與 LoRA
參數高效微調(PEFT)凍結基礎模型的絕大多數權重,只訓練一個微小的「adapter」——通常是插入關鍵注意力層的低秩適應(LoRA)矩陣。只有 adapter 的權重會更新。儲存空間從 GB 級(完整模型副本)降至 MB 級(只有 adapter)。訓練時間從數天縮短至數小時。對範圍明確的任務而言,品質通常與完整微調相差一到兩個百分點以內。
LoRA 是最常見的 PEFT 技術,也是 Amazon Bedrock 針對許多基礎模型進行自訂模型微調時的預設機制。在 Amazon SageMaker JumpStart 上,PEFT/LoRA 是啟動微調任務時的一個明確開關。
指令調優
指令調優是專門針對(指令、回應)配對進行的微調,讓模型更擅長遵循自然語言指令。Amazon Bedrock 上每個已指令調優的模型(Claude Instruct、Llama Instruct、Titan Instruct 變體)都已經過指令調優。當你用自己的指令—回應資料集在其上繼續微調時,你是在延續這個傳統。AIF-C01 將指令調優視為微調的一種特定變體,目標是提升遵循指令的能力,而非原始的領域知識。
RLHF — Reinforcement Learning from Human Feedback
RLHF 根據從人類偏好資料訓練而來的獎勵模型對基礎模型進行微調。流程分三個階段:(a)在示範資料上進行監督式微調,(b)根據人類對輸出的排名訓練獎勵模型,(c)以強化學習(通常是 PPO)讓基礎模型在獎勵模型上最佳化。RLHF 是 Claude、GPT 系列與 Llama-chat 模型學習做到有益、無害、誠實的方式。
在 AWS 上,Amazon SageMaker JumpStart 針對特定基礎模型提供 RLHF 風格的客製化功能。Amazon Bedrock 對大多數基礎模型並不提供原始 RLHF 的自助控制——Bedrock 的立場是 RLHF 已由模型提供商完成;你可以在其上疊加微調或持續預訓練。
完整微調更新所有權重:品質最高,成本最高。參數高效微調(PEFT/LoRA)訓練小型 adapter:以 5-20% 的成本達到 90%+ 的品質。指令調優是在指令—回應配對上進行的微調:提升模型遵循指令的能力。RLHF 在人類偏好排名上疊加獎勵模型:讓模型輸出與人類判斷對齊。持續預訓練「不是」微調——它使用原始未標記文字,且在任何微調之前執行。 Source ↗
Amazon Bedrock 上的持續預訓練
持續預訓練在微調 vs 情境學習的光譜上,位於從頭完整預訓練與任務微調之間。它使用原始、未標記的領域文字——不需要提示—補全配對。目標是在任何特定任務微調發生之前,先讓模型學習新領域的統計特性。
何時使用持續預訓練
當目標領域有基礎模型幾乎未見過的詞彙或語法時,持續預訓練勝出。典型的 AIF-C01 場景:
- 擁有數十年內部臨床試驗紀錄的藥廠。
- 擁有專有資料表格式的晶片製造商。
- 使用特定方言區域判例法語料的律師事務所。
用提示—補全配對進行完整微調將會舉步維艱,因為模型對詞彙本身的理解就有偏差。持續預訓練先修復這個基礎。常見的兩步驟流程是:在原始語料上進行持續預訓練 → 在提示—補全配對上針對特定任務進行微調。
Amazon Bedrock 持續預訓練的運作方式
在 Amazon Bedrock 上,持續預訓練是受管任務。你在 Amazon S3 提供原始文字檔案(JSONL)。每筆記錄是單一文字文件——沒有指令、沒有補全,只有領域文字。Bedrock 處理運算、儲存自訂模型成品,並透過 Provisioned Throughput 提供存取。歷史上支援的基礎模型包含 Amazon Titan Text 變體;請查閱最新 Bedrock 文件確認當前清單。
資料集規模 — 持續預訓練 vs 微調
持續預訓練通常需要數百萬個 token 的原始文字(數百 MB 到 GB 級)。微調通常需要數百到數萬筆提示—補全配對(數 MB 到數百 MB)。混淆這兩者是常見的 AIF-C01 陷阱——若場景說「我們有 500 筆範例問答對」,那是微調的規模,不是持續預訓練的規模。
Amazon Bedrock 自訂模型訓練
Amazon Bedrock 是 AWS 上客製化基礎模型的一鍵路徑。Bedrock 自訂模型透過統一的「自訂模型」任務概念,同時涵蓋微調與持續預訓練。
Bedrock 微調工作流程
Bedrock 微調是全受管任務:
- 準備資料集 — Amazon S3 中的 JSONL,每行一筆提示—補全配對。具體欄位名稱取決於基礎模型。Titan 使用
{"prompt": "...", "completion": "..."},Llama 使用帶有模型專屬提示模板的{"prompt": "...", "completion": "..."},Cohere 使用{"prompt": "...", "completion": "..."}——請務必查閱 Bedrock 文件確認當前 schema。 - 選擇基礎模型 — Bedrock 只列出支援客製化的基礎模型。並非每個模型都支援微調;並非每個模型都支援持續預訓練。
- 建立自訂模型任務 — 選擇任務類型(微調或持續預訓練)、指定 S3 訓練資料集(及可選的驗證資料集)、設定超參數。
- 設定超參數 — 通常包含 epoch 數量、batch size、learning rate 與 learning rate warmup 步數。有預設值;AIF-C01 不要求你調整具體數值。
- 等待訓練 — Amazon Bedrock 在受管 GPU 上執行任務,將指標寫入 Amazon CloudWatch,並儲存自訂模型成品。
- 購買 Provisioned Throughput — Amazon Bedrock 上的自訂模型只能透過 Provisioned Throughput 呼叫,而非隨需(On-Demand)。這是重大的 AIF-C01 陷阱:客製化 Bedrock 模型只要 throughput 還在佈建狀態,不論呼叫量多寡,每小時都會產生真實費用。
- 呼叫 — 用 Provisioned Throughput ARN 透過
InvokeModel呼叫自訂模型。
Bedrock 持續預訓練工作流程
工作流程相同,但資料集是原始文字文件,任務類型為「Continued Pre-training」。支援的基礎模型清單較短。輸出是可透過 Provisioned Throughput 使用的自訂模型成品。
由 Amazon Bedrock 微調或持續預訓練產生的自訂模型,無法透過隨需(On-Demand)定價使用。你必須購買 Provisioned Throughput 才能呼叫它們。這個成本門檻(每小時承諾費用)是微調 vs 情境學習取捨中最常被忽略的一環。對低呼叫量的使用場景而言,在隨需基礎模型上進行情境學習,純粹從經濟角度來看往往優於微調。 Source ↗
AIF-C01 範圍內的 Bedrock 超參數
AIF-C01 不要求記憶精確數值。它要求你知道名稱與方向:
- Epochs — epoch 越多,對訓練資料擬合越緊,但有過擬合與災難性遺忘的風險。
- Batch size — 較大的 batch 能平滑梯度,但需要更多記憶體。
- Learning rate — 控制每步更新權重的積極程度。太高會發散;太低會欠擬合。
- Learning rate warmup steps — 讓 learning rate 逐漸爬升,以穩定訓練初期。
Amazon SageMaker JumpStart 微調
Amazon SageMaker JumpStart 是 AWS 上更深入、更靈活的微調介面。Amazon Bedrock 微調是一鍵式且有既定立場,SageMaker JumpStart 微調則提供你:
- 更廣泛的開放權重模型目錄(Llama 系列、Mistral、Falcon、Stable Diffusion 等更多)。
- 明確的 PEFT/LoRA 開關。
- 完整的訓練執行個體類型控制(ml.g5、ml.p4d、ml.p5)。
- 需要覆寫預設值時可使用自訂訓練腳本。
- 支援模型的 RLHF 風格人類反饋微調。
JumpStart 優於 Bedrock 的時機
SageMaker JumpStart 是微調 vs 情境學習的答案,當:
- 你想要 Amazon Bedrock 未作為可客製化基礎模型託管的特定開源模型。
- 你需要自行儲存微調成品,並部署至 SageMaker 即時或無伺服器端點(無 Provisioned Throughput 承諾)。
- 你需要將微調與自訂訓練邏輯結合——例如混合 LoRA 與自訂損失函數或 RLHF。
AIF-C01 不會要求你撰寫 SageMaker 訓練腳本。它會要求你在 Bedrock 與 SageMaker JumpStart 之間做出微調選擇,而判斷原則是:Bedrock 適用於在託管基礎模型上追求受管簡便性;SageMaker JumpStart 適用於追求模型廣度與部署彈性。
JumpStart RLHF 與人類反饋
Amazon SageMaker JumpStart 針對特定基礎模型提供 RLHF 風格微調的引導式工作流程。該工作流程將監督式微調步驟與由 Amazon SageMaker Ground Truth 或類似人工標記流程支撐的獎勵模型訓練步驟配對。AIF-C01 將此視為概念認知層級的知識:知道 AWS 客戶可以在 SageMaker 上執行 RLHF,而不是要求你知道確切的 CLI 旗標。
資料準備 — 微調工作 80% 的靈魂
每位微調從業者都說同樣的話:資料準備才是大部分的工作。AIF-C01 考試以多道資料準備場景題反映了這一點。
微調用的提示—補全配對
微調的標準資料集形式是 JSONL 檔案,每行一筆提示—補全配對。提示帶有指令與任何情境;補全是預期的模型輸出。範例格式(Bedrock 風格):
{"prompt": "用兩句話摘要以下保固申請:……", "completion": "客戶回報……並要求更換。"}
{"prompt": "將以下工單分類為退款、換貨或投訴:……", "completion": "換貨"}
Amazon Bedrock 上每個基礎模型都有自己的提示模板慣例(特殊 token、角色標記)。使用錯誤的模板會悄悄降低微調品質,這就是為什麼查閱所選基礎模型的 Bedrock 微調文件是必要步驟。
指令資料集
指令資料集是提示—補全配對的推廣:每筆記錄是(指令、可選輸入情境、預期輸出)。高品質的公開指令資料集(如 Alpaca 風格語料)已存在,但當你的任務具有領域特定性時,AIF-C01 期望你帶入自己的指令資料集。數量參考:數百筆高品質範例能有意義地改變基礎模型的風格;嚴謹的正式微調通常需要數千筆。
持續預訓練用的原始語料
持續預訓練期望的是原始領域文字,而非配對。每份文件(或區塊)對應一筆 JSONL 記錄。沒有指令,沒有預期補全。資料集大小擴展至數百 MB 或以上。
訓練/驗證切分
Bedrock 與 SageMaker JumpStart 都接受保留的驗證資料集。驗證損失曲線是過擬合與災難性遺忘的早期預警。AIF-C01 陷阱包含「團隊用 1000 筆配對訓練,沒有驗證切分,並回報訓練損失極佳」——這是過擬合的設定,正確的 AIF-C01 答案是「新增驗證集並使用 early stopping」。
資料品質把關
微調會忠實記憶訓練資料中的任何偏誤、毒性或個人識別資訊(PII)。AIF-C01 期望你識別以下要點:
- 掃描資料集中的 PII(Amazon Macie、Amazon Comprehend PII 偵測)。
- 訓練前掃描毒性與偏誤。
- 微調分類任務時確保類別平衡。
- 去重複——重複的提示會放大記憶風險。
在未遮蔽姓名、電子郵件與帳號的客戶支援對話逐字稿上進行微調,意味著模型在推論時可能輸出那些 PII 字串——即使對沒有權限查看這些資料的使用者也是如此。這是微調 vs 情境學習最嚴重的陷阱之一。請務必在建立訓練資料集之前遮蔽或標記化 PII。對 RAG 而言,在檢索步驟的存取控制能處理這個問題;對微調而言,模型本身成為了那份副本,IAM 無法事後讓模型「忘記」這些資料。 Source ↗
微調 vs 情境學習決策框架
這是 AIF-C01 考試中最常考的一段內容。在每道場景題上使用這個決策樹。
步驟一 — 更好的提示能解決嗎?
從零樣本與少樣本情境學習開始。若任務是「摘要這段文字」、「分類這個」、「萃取這些欄位」,而模型本就具備能力,提示工程就是答案。
步驟二 — 缺少的是知識嗎?
若模型缺乏當前或專有事實,升級至 RAG——仍是情境學習,但帶有檢索。答案:Amazon Bedrock Knowledge Bases。
步驟三 — 缺少的是行為嗎?
若場景說「必須使用我們的品牌語調」、「必須永遠輸出這個精確的 JSON schema」、「絕不能用第一人稱道歉」、「必須在不解釋的情況下使用我們的內部縮寫」——升級至微調。行為是權重問題,在大規模場景下不是提示問題。
步驟四 — 缺少的是詞彙嗎?
若場景說「模型從未見過這些術語」或「目標語言是偏僻的方言或內部術語」,持續預訓練是答案。
步驟五 — 組合使用
在正式環境中,最佳的 AWS 答案往往是 RAG 提供知識加上微調塑造風格。AIF-C01 至少有一道場景題的正確答案是「兩者並用」。
決策速查表
- 品牌語調一致性 → 微調。
- 今日政策文件 → RAG(情境學習)。
- 帶有大量原始語料的醫療/法律專業詞彙 → 持續預訓練,再微調。
- 輸出必須符合內部 JSON schema → 微調(或低呼叫量時用提示工程)。
- 回答本週產品目錄問題的聊天機器人 → RAG。
- 以公司專有 SDK 訓練的程式碼助理 → 微調或持續預訓練。
- 300 筆已標記的工單情感分析;預算有限 → 在 Bedrock 或 SageMaker JumpStart 上進行 PEFT/LoRA 微調。
最可靠的 AIF-C01 訊號是什麼在變動、變動頻率多高。若事實每小時都在變,選 RAG。若風格永遠固定,選微調。若詞彙對基礎模型而言是陌生的,選持續預訓練。若任務對大型基礎模型而言本已熟悉,選情境學習。幾乎每道微調 vs 情境學習場景題都能用這個三向判讀法破解。 Source ↗
成本與時間取捨
微調 vs 情境學習說到底是一條成本曲線。AIF-C01 期望你能對選項排序。
成本:由低到高
- 零樣本提示 — 只有每次呼叫的每 token 推論成本。
- 少樣本提示 — 相同,但情境 token(範例)讓每次呼叫的輸入成本倍增。
- RAG — 推論成本 + 嵌入成本 + 向量庫成本;檢索增加少量延遲與儲存成本。
- 參數高效微調(PEFT/LoRA) — 一次性訓練成本(對中等模型與資料集而言,通常數百至數千美元)+ 持續託管成本(Bedrock 的 Provisioned Throughput、SageMaker 的端點時數)。
- 完整微調 — PEFT 訓練成本的數倍;託管成本結構相同。
- 持續預訓練 — 訓練成本最高,因為需要處理大量原始語料;同樣適用託管成本。
時間取捨
- 提示工程迭代週期:秒級。
- RAG 迭代週期:分鐘到數小時(分塊、重新嵌入、重新索引)。
- PEFT 微調:數小時。
- 完整微調:數小時到數天,取決於模型大小與資料集大小。
- 持續預訓練:大型語料需要數天到數週。
運維負擔
RAG 帶有持續的運維負擔:向量庫維護、內容異動時重新嵌入、檢索品質調優、分塊策略維護。微調帶有不同的負擔:訓練集異動時重新訓練、自訂模型成品的版本管理、微調變體之間的 A/B 推出。
由低到高:提示工程 → RAG → PEFT/LoRA 微調 → 完整微調 → 持續預訓練。永遠從最左邊開始,只有在商業需求無法被滿足時才升級。AIF-C01 場景題獎勵這個升級順序。 Source ↗
微調特有的風險
微調增加了情境學習不具備的風險。AIF-C01 全部都會考。
過擬合
資料集小而訓練 epoch 過多時,模型會逐字記憶訓練提示,失去泛化能力。診斷方式:訓練損失持續下降而驗證損失上升。補救措施:更多資料、更少 epoch、early stopping、正規化、PEFT(天然正規化,因為大部分權重是凍結的)。
災難性遺忘
在窄域資料集上進行微調,可能侵蝕基礎模型原本具備的通用能力。一個在產品支援對話逐字稿上大量微調的模型,可能在通用摘要任務上表現變差。緩解措施:將微調資料集與通用指令資料混合、偏好 PEFT 而非完整微調、凍結大部分層。
領域適應 vs 遷移學習 — 考試必考的區別
這是提綱中標記的 AIF-C01 痛點。這兩個術語在部落格文章中常被互換使用,但考試會測試其區別:
- 遷移學習是將預訓練模型適配至新任務的一般概念。微調是機制;遷移學習是典範。
- 領域適應是遷移學習的特定變體,專門針對輸入分布的轉移(從通用網路文字到法律合約),而非任務本身的轉移。持續預訓練是典型的領域適應技術。
AIF-C01 場景用詞:若轉移是「不同任務」(從分類到摘要),稱為遷移學習/微調。若轉移是「相同任務,不同資料分布」(通用文字的摘要到醫療記錄的摘要),稱為領域適應/持續預訓練。
評估漂移
微調後必須在保留集上重新評估。訓練損失本身不能作為品質的證明。Amazon Bedrock Model Evaluation 與 SageMaker Clarify 是 AWS 上進行此項檢查的介面。AIF-C01 會用這樣的題目測試:「團隊回報訓練損失 0.01 並上線——缺少什麼?」答案:保留集評估。
成本失控
Bedrock 自訂模型的 Provisioned Throughput 無論請求量多寡,都按小時計費。一個沒有流量的微調 Bedrock 模型仍然在燒錢。SageMaker 端點有相同的特性,除非你使用無伺服器推論。AIF-C01 會用成本最佳化場景來測試這一點。
AIF-C01 vs AIP-C01 — 微調 vs 情境學習的範圍邊界
這是提綱中標記的研究痛點,也是 AIF-C01 考生浪費最多備考時間的第一大陷阱。
AIF-C01 — 辨識範圍
AIF-C01 要求你:
- 針對場景識別正確的客製化路徑(微調、情境學習、RAG、持續預訓練)。
- 用平實的語言描述每條路徑的作用。
- 說出哪個 AWS 服務實作哪種技術(Bedrock、SageMaker JumpStart、Bedrock Knowledge Bases)。
- 列出超參數的廣義類別(epoch、learning rate、batch size)但不需要調整它們。
- 識別風險(過擬合、災難性遺忘、PII 洩漏、成本)。
AIP-C01 — 實作深度範圍
AIP-C01(AWS Certified AI Engineer — Associate)要求你:
- 用程式碼或主控台實作微調任務,並設定正確的超參數。
- 診斷訓練指標曲線並決定何時停止。
- 比較特定的 PEFT 策略(LoRA vs prefix-tuning vs QLoRA)。
- 設計將微調模型與 RAG 及 guardrails 結合的正式部署模式。
- 在規模上最佳化吞吐量、延遲與成本。
實務原則
備考 AIF-C01 時,當你能清楚說出哪條路徑適合哪種場景以及原因,就停下來。不要鑽進每個超參數的兔子洞。考試獎勵的是對微調 vs 情境學習的辨識層級掌握,而非實作深度。過度備考 AIP-C01 內容的考生回報白費了好幾個星期。
微調 vs 情境學習在 AIF-C01 上是辨識與決策技能,不是實作技能。你應該能讀一道場景題,並在提示工程、RAG、微調(完整版或 PEFT)與持續預訓練之間做出選擇。考試中你「不需要」手寫 JSONL,也不需要選擇特定的 learning rate。把那個深度留給 AIP-C01。 Source ↗
常見考試陷阱
AIF-C01 微調 vs 情境學習的陷阱集中在一個短而可預測的清單中。
陷阱一 — 把 RAG 稱為「微調」
每當場景說「團隊將產品文件上傳至 Amazon Bedrock Knowledge Bases」,答案是 RAG / 情境學習,不是微調。Knowledge Bases 從不改變模型權重。
陷阱二 — 在 PEFT/LoRA 才是正確答案時選擇完整微調
AIF-C01 場景題常同時提供完整微調與參數高效微調作為選項。若場景提及成本壓力或有限的 GPU 預算,正確答案通常是 PEFT/LoRA。
陷阱三 — 把持續預訓練用於任務轉換
持續預訓練是為了詞彙與分布轉移,而非從分類切換到摘要。若場景是「我們希望模型將工單分類為三個類別」,答案是在已標記配對上進行微調,而非持續預訓練。
陷阱四 — 忘記 Provisioned Throughput 的成本
Bedrock 自訂模型需要 Provisioned Throughput。若場景是「我們每天只有 100 個請求,希望成本最低」,正確答案不是微調後的 Bedrock 模型——而是在隨需基礎模型上進行情境學習(提示工程或 RAG)。
陷阱五 — 混淆領域適應與遷移學習
在風險一節中已說明。領域適應 = 相同任務,不同資料分布。遷移學習 = 更廣泛的典範。AIF-C01 據報曾直接測試這個區別。
陷阱六 — 忽略災難性遺忘
微調後的模型可能在無關任務上表現退步。若場景說「在支援對話逐字稿上微調後,模型的通用寫作品質下降」——診斷是災難性遺忘,而 PEFT 或混合資料集是補救措施。
陷阱七 — 把機密資料放進訓練集
微調會記憶。在未遮蔽原始客戶資料上進行訓練,可能導致模型在推論時輸出 PII。考試期望你能識別 Amazon Macie 與 Amazon Comprehend PII 偵測為緩解步驟。
實戰記憶錨點 — 任務說明 3.3
清楚對應微調 vs 情境學習選擇的場景模式:
- 「模型必須以我們的合規語調回覆」→ 微調。
- 「答案必須引用今日利率表」→ RAG。
- 「自訂 SDK 有基礎模型從未見過的詞彙;10 GB 原始文件」→ 持續預訓練。
- 「300 筆已分類工單;預算有限」→ PEFT/LoRA 微調。
- 「低呼叫量內部工具,每天 50 次查詢」→ 情境學習(提示工程),而非微調。
- 「微調結果在訓練資料上看起來完美,但使用者抱怨」→ 過擬合;在保留集上進行評估。
- 「團隊想在內部 wiki 上建立聊天機器人,無需重新訓練」→ 透過 Amazon Bedrock Knowledge Bases 使用 RAG。
- 「需要帶有人類排名的 RLHF 風格對齊」→ Amazon SageMaker JumpStart。
FAQ — 微調 vs 情境學習最常見的六個問題
Q1 — RAG 是微調還是情境學習?
RAG 是情境學習。基礎模型的權重在 RAG 過程中從不改變。檢索在查詢時將段落插入提示,模型在讀取這些即時情境的同時進行推理。這就是為什麼 Amazon Bedrock Knowledge Bases 可以在任何支援的基礎模型之上運作,而無需重新訓練。一個非常常見的 AIF-C01 陷阱把 RAG 視為微調的一種形式——它不是。若考試場景強調「事實的新鮮度」或「頻繁更新的文件」,正確選擇是 RAG(情境學習),而非微調。
Q2 — 何時應選擇微調而非情境學習?
當差距在於行為、風格、詞彙或輸出格式,而提示工程與 RAG 在規模上無法經濟地彌補這個差距時,選擇微調。微調典型的勝出場景:數百萬次呼叫中的品牌語調一致性、嚴格的 JSON 輸出 schema、若放在情境中每次提示都很臃腫的專業領域術語、長情境提示過慢的延遲敏感推論。當差距在於會變動的知識、低呼叫量使用場景,或基礎模型已具備能力只需輕推一把時,選擇情境學習(提示工程或 RAG)。AIF-C01 獎勵只在明確必要時才從情境學習升級至微調的判斷。
Q3 — 完整微調與 PEFT/LoRA 的差異是什麼?
完整微調更新基礎模型的每一個參數。一個 70 億參數的模型意味著 70 億個浮點數發生改變。產生的自訂模型的儲存空間與原始模型一樣大;訓練運算量高;災難性遺忘的風險高。參數高效微調(PEFT),最常見的是 LoRA(低秩適應),凍結基礎模型並訓練插入注意力層的小型 adapter 矩陣。Adapter 大小以 MB 衡量,訓練通常只需完整成本的 5-20%,而對範圍明確的任務,品質通常與完整微調相差一到兩個百分點以內。Amazon SageMaker JumpStart 將 PEFT/LoRA 公開為明確開關;Amazon Bedrock 的受管微調在底層對許多基礎模型使用參數高效技術。在 AIF-C01 任何對成本敏感的場景中,優先選擇 PEFT。
Q4 — 持續預訓練是什麼?與微調有何不同?
持續預訓練在大量原始、未標記的領域文字語料上延伸基礎模型的原始預訓練階段。你提供 JSONL 文件——沒有指令,沒有預期補全——模型學習你領域的詞彙與句子結構統計特性。微調相反,使用已標記的提示—補全配對來教導特定任務或風格。持續預訓練用於詞彙與分布轉移(法律、醫療、半導體);微調用於任務與風格轉移(分類工單、以品牌語調回答)。常見的正式環境流程將兩者結合:先持續預訓練,再在其上微調。Amazon Bedrock 針對支援的基礎模型(如 Amazon Titan Text)以受管任務的形式提供持續預訓練。
Q5 — AIF-C01 會考 RLHF 嗎?
AIF-C01 在概念辨識層級考 RLHF。你應該知道 RLHF(Reinforcement Learning from Human Feedback)是模型透過三步驟流程與人類偏好對齊的方式:監督式微調、從人類排名訓練獎勵模型,以及對抗該獎勵模型的強化學習。你應該知道 Amazon SageMaker JumpStart 針對特定基礎模型提供 RLHF 風格微調的工作流程。你不應期望在 AIF-C01 考試中調整 PPO 超參數或實作獎勵模型——那個深度屬於 AIP-C01 或實務工程。
Q6 — 如何在 Amazon Bedrock 微調與 Amazon SageMaker JumpStart 微調之間做選擇?
Amazon Bedrock 微調是受管、有既定立場的路徑:支援基礎模型的短清單、一鍵式 JSONL 上傳、透過 Provisioned Throughput 的內建託管、零基礎設施管理。當你的目標模型在支援清單上,且你希望最少的運維時,選擇 Bedrock。Amazon SageMaker JumpStart 微調是更深入的路徑:更廣泛的開放權重模型目錄、明確的 PEFT/LoRA 控制、訓練執行個體類型的選擇、需要時可使用自訂訓練腳本,以及部署彈性(SageMaker 即時端點、無伺服器或批次轉換)。當你想要的模型不在 Bedrock 清單上、需要 RLHF 風格的人類反饋微調,或需要 Provisioned Throughput 以外的部署選項時,選擇 SageMaker JumpStart。AIF-C01 不要求你選擇 learning rate——它要求你選擇服務。
總結 — AIF-C01 上的微調 vs 情境學習
微調 vs 情境學習是光譜,不是二元選擇。在 AWS 上,這條光譜依序為:提示工程 → RAG → PEFT/LoRA 微調 → 完整微調 → 持續預訓練。情境學習(提示工程與 RAG)讓權重保持凍結,透過提示適配行為;微調與持續預訓練則更新權重。Amazon Bedrock 為支援的基礎模型提供受管微調與持續預訓練,並要求透過 Provisioned Throughput 呼叫自訂模型。Amazon SageMaker JumpStart 提供更深入的微調控制、PEFT/LoRA 開關與 RLHF 風格工作流程。判斷方式是讀清什麼在變動、變動頻率多高:每小時都在變的事實屬於 RAG,永遠固定的風格屬於微調,模型從未見過的詞彙屬於持續預訓練,低呼叫量使用場景屬於純提示工程。記住成本排序(提示 → RAG → PEFT → 完整微調 → 持續預訓練)、風險(過擬合、災難性遺忘、PII 記憶、Provisioned Throughput 成本門檻),以及範圍邊界——AIF-C01 是辨識,AIP-C01 是實作。掌握這個微調 vs 情境學習框架,任務說明 3.3 在考試當天就成為穩定的得分來源。