自動模型調優 — Bayesian、Random、Grid 與 Hyperband 超參數最佳化

Q: Q3 — 什麼時候用 IDENTICAL_DATA_AND_ALGORITHM vs TRANSFER_LEARNING warm start？

IDENTICAL_DATA_AND_ALGORITHM 正確的情況是新調優工作使用與 parent 完全相同的訓練資料和相同演算法容器。AMT 繼承 parent 的試結果集，視為新工作的前幾次試並完全相信地繼續搜尋。使用場景：用更多預算延伸前一個調優工作。 TRANSFER_LEARNING 正確的情況是新調優工作使用相關但不完全相同的資料（特性相似的新資料集版本）或相關演算法變體（共享許多參數的不同超參數集）。AMT 把 parent 的結果視為參考先驗但允許新資料覆蓋。使用場景：在每月更新的資料上重訓相同架構。選錯模式浪費 warm start 效率：真正改變的資料選 IDENTICAL 太相信過時的先驗；確實相同時選 TRANSFER 不必要地折扣了 parent。MLA-C01 考試出題描述 parent-child 關係並問適用哪個模式。

Q: Q6 — 我可以在 AMT 調優工作裡用 Spot instances 嗎？

可以。在 HyperparameterTuner 包裹的 base Estimator 上設定 use_spot_instances=True 、 max_wait 和 checkpoint_s3_uri ；AMT 把這些設定傳播到每個試。每個試在 Spot capacity 上跑，節省執行個體成本 30 到 90%，並在中斷時從 checkpoint 繼續。結合 early stopping 或 Hyperband，Spot 啟用的 AMT 是最具成本效益的調優設定——生產團隊例行在 Spot 上跑 100 次試的 Bayesian 調優工作，執行個體成本不到 $30。注意事項是標準 Spot 注意事項：訓練腳本必須把 checkpoint 寫到 /opt/ml/checkpoints 、 max_wait 必須大於 max_run 、Spot 中斷為總調優持續時間增加變異。MLA-C01 考試可能出成本最佳化情境，AMT 內的 Spot 是正確答案，優於 On-Demand。

Q: Q7 — 我應該把調優工作包裝在 SageMaker Pipeline TuningStep 中嗎？為什麼？

生產調優工作流程是的。 TuningStep 讓調優工作成為可重現的 Pipeline 節點——每次 Pipeline 執行都以確定性設定建立新的調優工作，最佳模型 artifact 流入下游步驟，Pipeline 圖是稽核軌跡。 TuningStep 之後的 ConditionStep 對照閾值評估最佳模型的 objective metric，並有條件地在 Model Registry 中註冊模型；未達閾值則停止 Pipeline 或通知人工。Pipeline 步驟快取適用於 TuningStep——輸入不變時重新執行 Pipeline 會重用前一個調優工作的輸出而非重新跑。沒有 Pipeline 包裝，臨時調優工作缺乏可重現性，也與 MLOps 其他介面沒有整合。MLA-C01 考試在題幹描述生產工作流程時，一貫獎勵 Pipeline 整合答案，而非獨立調優呼叫。

Automatic Model Tuning（AMT）是 MLA-C01 Domain 2 中最能區分「通過」與「猜題」的考點。超參數調優聽起來是資料科學的事——選 learning rate、掃描正則化係數、最佳化 objective——但在 MLA-C01 考試裡，它是工程題。考題測試的是：你知道什麼時候 Bayesian 最適合、什麼時候 Random 或 Hyperband 才是對的選擇；為何 max_parallel_jobs 設太大會摧毀 Bayesian 效率；warm start 模式的差異；early stopping 何時有益、何時有害；以及如何正確發出 objective metric 讓調優工作確實收斂。社群訊號一致：Bayesian vs Random 情境區分是考試最高頻的 AMT 考點，只記得「ML 用 Bayesian」卻不理解平行度取捨的考生往往在此中招。

本指南是 ML Engineer 視角的 AMT 操作手冊，涵蓋四種搜尋策略、定義 Bayesian 調優的平行度與效率取捨、warm start 模式選擇、early stopping 機制，以及決定調優工作是否收斂的 metric 發送模式。全程聚焦工程決策——策略選擇、平行度設定、預算管理、Pipeline 整合——而非底層機率理論。

SageMaker Automatic Model Tuning 做什麼

SageMaker AMT 是一個受管服務，以不同超參數組合執行多個 SageMaker 訓練任務，找出能最大化（或最小化）指定 objective metric 的組合。你定義搜尋空間（哪些超參數要調、範圍與型別）、objective metric（訓練腳本發出的純量值，例如 validation:accuracy 或 validation:rmse）、搜尋策略（Bayesian、Random、Grid 或 Hyperband）、預算（max_jobs）和平行度（max_parallel_jobs）。AMT 產生訓練任務、讀取其 objective metric，依設定策略選擇後續超參數組合，直到預算耗盡。輸出是按 objective metric 排名的所有訓練任務排行榜，以及可直接部署的最佳模型 artifact。

為何 MLA-C01 大量考 AMT

AMT 觸及 ML Engineer 必須掌握的每個操作槓桿——Estimator 設定、metric 發送、訓練任務調度、Pipeline 整合、成本管理，以及 Experiments 追蹤。單一 AMT 設定錯誤（objective metric regex 錯誤、Bayesian 平行度太高、有預算限制卻忘記 warm start）就會浪費數百美元的算力。考題場景包括：調優工作跑完但排行榜是空的、調優工作收斂緩慢即便已設定預算、調優最佳模型比手動基線差——正確答案永遠指向某個特定 AMT 設定旋鈕。

AMT 設定三要素

三個頂層設定物件：包裹 base Estimator（訓練任務範本）的 HyperparameterTuner、描述搜尋空間的 hyperparameter_ranges 字典（continuous、integer 或 categorical 參數，含上下界），以及包含 regex pattern 從訓練腳本 stdout 擷取 objective metric 的 metric_definitions 清單。加上策略（strategy="Bayesian" | "Random" | "Grid" | "Hyperband"）、max_jobs（總預算）和 max_parallel_jobs（並行數）。

白話文解釋 Automatic Model Tuning

超參數調優很抽象——代理模型、acquisition function、explore-exploit 取捨。三個具體類比讓工程圖像更清晰。

類比 1 — 珍珠奶茶配方研發

想像一家新開的珍珠奶茶店，老闆想找出最受歡迎的配方：茶底濃度（0～5 倍）、糖量（0～100%）、冰塊量（0～100%）。預算是 50 杯試做（max_jobs=50）。

Grid search 是「我要系統性地在 5×5×5 格子上試每個組合」——125 杯，超出預算，規律、全面，但試之間沒有學習，也會浪費在明顯難喝的（5 倍茶底 + 0% 糖 + 0% 冰）。Random search 是「我隨機挑 50 個配方組合」——均勻涵蓋空間，不帶偏見，試之間沒有學習，但 50 杯隨機試通常能找到不錯的配方。Bayesian search 是「先隨機試 5 杯感覺風味，再根據前面所有試做結果，建立一個心智模型——哪種組合好喝、哪種難喝——然後選下一杯最可能好喝又還沒試過的組合」——Bayesian 從前幾次學習，所以 50 杯序列試做比 50 杯隨機試做找到更好的配方。Hyperband 是「先做 30 杯縮短萃取時間的快速版，挑出最有潛力的 10 杯，給它們完整萃取，再從中挑出 3 杯做最終版本」——提早停掉明顯失敗的配方節省成本。

平行度取捨在這個類比裡一目瞭然。如果老闆有 10 台茶飲機同時跑 10 杯，Bayesian 的「看前面結果」優勢就縮水——10 杯同時開做，每杯在還沒任何一杯完成前就啟動，Bayesian 引擎沒有新鮮結果可學。正確的 Bayesian 設定是 max_parallel_jobs 遠小於 max_jobs（通常 50 杯裡每次 1 到 4 杯並行），以換取更好的搜尋品質來換取時間。Random search 沒有這個懲罰——隨機並行和隨機序列一樣好。

類比 2 — 在地圖未知的山區找溫泉

想像一位地質探勘員要在一塊 10 平方公里的山區找最佳溫泉噴出點，預算是 50 個鑽孔。

Grid search 是在 10×10 均勻格子上鑽——全面但昂貴，會把預算浪費在明顯無水的乾燥地帶。Random search 是隨機選 50 個位置鑽——均勻涵蓋，不利用隨鑽孔累積的地質資訊。Bayesian search 是先隨機鑽 5 個試探孔，再用這 5 個孔的地質資料建立地層模型，然後每次後續鑽孔選預期噴出量最高的位置——每個孔告訴你下一個要鑽哪裡。Hyperband 是先淺鑽許多孔，找哪些區域在淺層就有熱源跡象，只在有潛力的地帶繼續深鑽——省掉在淺層就明顯無熱的地帶繼續投錢。

平行度取捨：10 個鑽孔同時進行表示地質模型只在每批 10 孔完成後更新，Bayesian 的逐孔學習大幅削弱。考試會出這個情境——「團隊設定 Bayesian，max_jobs=50，max_parallel_jobs=25，結果跟 random search 一樣差；怎麼修？」——修法是降低 max_parallel_jobs，讓 Bayesian 引擎在試之間有時間學習。Random search 和 Hyperband 不受這個懲罰，因為它們不依賴前面試的結果。

類比 3 — 育種競賽馬跨世代最佳化

想像一位育馬師要配出冠軍賽馬。每次交配需要一年並耗費真金白銀；穩定空間和飼料預算限制了同時進行的配對數量。

Grid search 是「嘗試 10 個種公 × 10 個種母的所有組合」——100 次，昂貴，無學習。Random search 是隨機挑 50 個配對——無偏見涵蓋空間。Bayesian 是先進行 5 次隨機配對，觀察幼馬的比賽表現，建立哪種血統組合會出冠軍的模型，然後每次後續配對選預期幼馬表現最好的組合——每匹幼馬告訴你下一次要怎麼配。Hyperband 是先配很多幼馬、在早期賽事淘汰最慢的 70%，只給勝出的繼續接受正式訓練。

warm start 模式在這裡完美對應。IDENTICAL_DATA_AND_ALGORITHM warm start 是「我們有去年用相同訓練資料、相同演算法的調優結果；從那裡繼承代理模型繼續搜尋」——考試重點：重用去年的代理模型節省預算。TRANSFER_LEARNING warm start 是「我們有去年的調優結果，但用的是略有不同的資料或略有不同的演算法；代理模型有可轉移的訊號但不能完全重用」——有用但效率較低。考試會出題測試應選哪個模式；選錯會浪費 warm start 的優勢。

四種 AMT 搜尋策略

Random Search

每個訓練任務從設定範圍內均勻隨機取樣超參數，不從前面的任務學習。優點：可無損地完全並行（並行不降低品質）、在高維搜尋空間表現良好、穩健的基準線。缺點：忽略前幾次試的資訊，需要比 Bayesian 更多總試次才能找到最佳值。

Random 是對的選擇：需要非常高的並行度（1 小時跑 100 次試）、搜尋空間高維（10 個以上超參數，Bayesian 代理模型開始昂貴）、預算很大（200 次以上試，exploit 不如 coverage 重要）。

Grid Search

在超參數範圍的規則格子上嘗試所有組合。優點：在網格解析度內完全窮舉、執行時間可預測、易理解。缺點：在更高維度組合爆炸（5 個超參數各 5 個值 = 3125 個任務）、在明顯差的組合上浪費預算、試之間沒有學習。

Grid 是對的選擇：超參數非常少（1 到 3 個）、團隊明確想在固定解析度下窮舉、預算允許跑完整個網格。Grid search 在 MLA-C01 很少是正確答案；它是當考生直覺反應「窮舉最好」時的陷阱選項。

Bayesian Optimization

使用機率代理模型（通常是 Gaussian Process）預測還沒試過的超參數組合的 objective metric。每次試完後，代理模型以新結果更新。下一次試的超參數透過最大化 acquisition function（常用 Expected Improvement）來選，平衡 explore（探索不確定區域）與 exploit（嘗試預測最佳的區域）。

優點：在低到中維（1 到 10 個超參數）比 random 效率高許多、以更少總試次達到更好的最佳值、大多數 ML 場景的預設和推薦策略。

缺點：代理模型假設 objective 是超參數的平滑函數（ML 大多成立）、在非常高維（15 個以上）代理模型變昂貴且不準確、並行度降低效率，因為每個試無法納入前一個試的結果。

Bayesian 是對的選擇：大多數 MLA-C01 調優情境的預設，除非明確約束排除它。

Hyperband

多保真度搜尋：以較少訓練預算（少數 epoch、小資料子集）啟動許多試、根據早停標準找出最有潛力的試、給有潛力的試配置更多預算、淘汰表現差的。跨多個資源層次重複這個淘汰錦標賽。

優點：對訓練中即可觀察 objective metric 的訓練任務（deep learning 每 epoch 驗證準確率是標準案例）遠快於 Bayesian 或 Random、提早終止明顯差的試節省算力。

缺點：需要訓練任務在訓練期間重複發出 objective metric（不只在結束時），在學習曲線合理單調時效果最好（第 5 epoch 看起來差的超參數確實是差的），不太適合訓練中間評估沒有意義的非 deep learning 訓練。

Hyperband 是對的選擇：多 epoch deep learning 訓練任務、早停節省大量算力的大型搜尋空間、總掛鐘時間很重要的時間敏感調優。

Bayesian optimization 是預設值，對大多數超參數調優幾乎永遠是 MLA-C01 的正確答案，除非題幹有具體理由用 Random 或 Hyperband。 Bayesian 的逐試學習在相同算力預算下比 Random 在大多數 ML 問題規模上達到更好的結果。Random 在需要高並行度且並行成本超過 Bayesian 逐試優勢時才是對的。Hyperband 特別適合 deep learning 訓練，其中訓練中 metric 發送讓早停未來差的試成為可能。Grid search 在 Associate 級別很少是正確答案——它是當考生預設「窮舉最好」時的陷阱選項。

平行度取捨 — AMT 最常考的概念

為何平行度傷害 Bayesian 效率

Bayesian optimization 根據代理模型（擬合所有前面完成試的結果）來選每個後續試的超參數。如果 10 個試並行，這 10 個每一個都在其中任何一個產生結果之前就被選出——代理模型無法從任何一個試學習。結果：10 個並行試所提供的代理模型改進大約等同於 1 個試序列執行，即使消耗了 10 倍的並行算力。因此，增加 max_parallel_jobs 是以搜尋品質換取掛鐘時間。

建議平行度範圍

Bayesian： max_parallel_jobs 1 到 4 最佳搜尋品質；時間敏感最多接受 10，代價是部分效率損失。
Random： max_parallel_jobs 可等於 max_jobs（完全並行）無品質損失。
Hyperband： 中等並行（5 到 10）在探索與淘汰錦標賽結構之間取得平衡。
Grid： 任何並行，因為順序無關。

平行度 vs 掛鐘時間的決策

50 個任務、每個跑 30 分鐘的調優預算：

Bayesian 序列（max_parallel_jobs=1）：25 小時掛鐘時間，最佳搜尋品質。
Bayesian 中等（max_parallel_jobs=4）：6.25 小時掛鐘時間，略有品質損失。
Random 並行（max_parallel_jobs=50）：30 分鐘掛鐘時間，基準線品質。

MLA-C01 考題會出現：正確答案是降低 Bayesian 的 max_parallel_jobs 以獲得更好結果，或在需要高並行時從 Bayesian 切換到 Random。

為何這是最常考的 AMT 機制

社群訊號一致：Bayesian vs Random 情境區分大量出題。考試會給出平行度數字和搜尋策略選擇，問「為何這個調優工作找不到好模型？」——診斷通常是 Bayesian 高並行殺死了效率。記住範圍建議和底層機制是必要的。

把 max_parallel_jobs 設成等於 max_jobs 用於 Bayesian 調優工作，功能上接近執行 random search。 Bayesian 的優勢來自試之間的學習；如果所有試同時執行，沒有任何一個受益於其他試的結果。考試會出「團隊設定 strategy=Bayesian, max_jobs=50, max_parallel_jobs=50，排行榜跟 random 一樣差」——修法是降低 max_parallel_jobs 到 1 到 4。反過來，如果掛鐘時間比搜尋品質重要（截止日前緊急重建模型），切換策略到 Random 保持高並行是正確答案。Bayesian 配高並行是最差的兩全其美設定。

超參數範圍定義

三種範圍型別

Continuous — 在 [lower, upper] 內的浮點值。例：learning rate 在 [1e-5, 1e-1]。Continuous 範圍透過 scaling_type="Logarithmic" 支援 log scale 取樣（對跨多個數量級的 learning rate 和正則化係數至關重要）。
Integer — 在 [lower, upper] 內的整數值。例：max_depth 在 [3, 10]。也支援 log scaling。
Categorical — 離散的枚舉選項。例：optimizer 在 ["adam", "sgd", "rmsprop"]。不假設排序。

Scaling Types 及其重要性

對於跨多個數量級的 continuous 和 integer 超參數（learning rate 從 1e-5 到 1e-1），線性尺度取樣是錯的——大部分樣本會集中在上界附近。Log scale 取樣在對數空間均勻分佈樣本，符合 objective metric 對這些超參數的典型敏感度。考試會出 log scaling 是 learning rate 和正則化參數的正確答案；預設用線性是陷阱。

選擇範圍界限

保守界限（靠近預期好值的窄範圍）當離群值存在時浪費預算探索次最佳區域。激進界限（非常寬的範圍）在明顯差的區域浪費預算。正確模式是由領域知識告知的適中範圍：learning rate 用 [1e-5, 1e-1] + log scaling；表格 boosting 的 max_depth 用 [3, 12]；L2 正則化用 [0.01, 1000] + log scaling。

Categorical 超參數與 Bayesian 的限制

Bayesian optimization 對 categorical 超參數的效率不如 continuous 和 integer——代理模型對類別間的排序資訊有限。對於有很多 categorical 超參數（架構選擇、optimizer 選擇、scheduler 選擇）的調優工作，Random 或 Hyperband 可能優於 Bayesian。

Objective Metric 設定

Objective Metric 如何到達 AMT

訓練腳本以 AMT 可透過 regex 解析的格式列印 metric 到標準輸出。Estimator 的 metric_definitions 清單和 AMT 的 objective_metric_name 一起告訴調優工作要最佳化哪個 metric。範例：

metric_definitions = [
    {"Name": "validation:accuracy", "Regex": "val_acc: ([0-9\\.]+)"},
    {"Name": "validation:loss", "Regex": "val_loss: ([0-9\\.]+)"}
]
objective_metric_name = "validation:accuracy"
objective_type = "Maximize"

訓練腳本每個 epoch 列印 val_acc: 0.87；AMT 的 regex 擷取 0.87；AMT 使用最終值作為該試的 objective。

內建演算法與預定義 Metric

SageMaker 內建演算法原生發出預定義 metric 名稱——XGBoost 有 validation:auc、validation:rmse、validation:error。這些不需要自訂 regex；metric 定義在各演算法文件中有記載。

最常見的 bug — Regex 不對齊

如果訓練腳本以 regex 不匹配的格式發出 metric，沒有 metric 被擷取，AMT 排行榜對每個試顯示空值，調優工作無論設定什麼策略實際上都跑 random search。考試會出「調優工作跑了 100 次試但最佳結果是零」的情境——診斷是 regex 不對齊。

Maximize vs Minimize

accuracy、AUC、F1、R² 用 objective_type="Maximize"。loss、RMSE、MAE、error rate 用 objective_type="Minimize"。設錯方向會讓調優工作收斂到最差的超參數組合。

Objective metric 設定是三件事組合：Estimator 上的 metric_definitions regex、HyperparameterTuner 上與定義的 metric 名稱對應的 objective_metric_name，以及 Maximize 或 Minimize 的 objective_type。三者必須與訓練腳本的實際 stdout 格式對齊。不對齊是最常見的 AMT bug——症狀是空白排行榜或收斂到明顯差的模型。啟動調優工作前，先用一個獨立訓練任務測試 regex（執行一個訓練任務、捕獲 log、對 log 執行 regex）。MLA-C01 考試反覆以 troubleshooting 情境出這個考點。

Warm Start — 從前一個調優工作繼續

Warm Start 存在的原因

調優很昂貴。典型的調優工作耗費數百美元和數小時掛鐘時間。用相似資料或相似演算法重新調優時，拋棄前一個調優工作的代理模型意味著從頭開始。Warm start 讓新調優工作繼承前一個工作的結果作為代理模型的起點，大幅減少達到好解所需的預算。

兩種 Warm Start 模式

IDENTICAL_DATA_AND_ALGORITHM — 新調優工作使用與 parent 相同的訓練資料和相同演算法。AMT 繼承 parent 的完整試結果集，視為新工作的前幾次試。新工作從 parent 停止的地方繼續搜尋。使用場景：用更大預算重新調優同一個模型以精煉最佳值。
TRANSFER_LEARNING — 新調優工作使用不同（但相關）的資料或不同的演算法變體。AMT 繼承 parent 的試結果作為參考先驗，但視為建議而非確定。代理模型以 parent 的結果作起點，但允許新資料的結果覆蓋。使用場景：在特性相似的新資料集版本上重訓；調優共享許多超參數的略有不同模型架構。

選錯模式的代價

當資料實際上已改變卻選 IDENTICAL_DATA_AND_ALGORITHM 會產生誤導性先驗——AMT 太相信 parent 的最佳值，浪費預算探索對舊資料有效但對新資料無效的空間。當資料和演算法確實相同卻選 TRANSFER_LEARNING 會損失部分 warm start 效率，因為 AMT 折扣了 parent 的結果。考試會出測試這個模式選擇邏輯的情境。

Parent 調優工作的要求

Warm start 最多繼承五個 parent 調優工作，所有 parent 必須在與新工作相同的 AWS 帳戶和區域中。新工作的超參數範圍必須包含所有 parent 調優過的超參數（可以新增新的，但不能移除 parent 調優過的）。

Early Stopping — 在差的試上節省算力

Early Stopping 做什麼

當 HyperparameterTuner 設定 early_stopping_type="Auto" 時，AMT 監控每個執行中訓練任務的 objective metric 隨時間變化。如果 metric 與其他已完成試相比停滯或朝錯誤方向趨勢，AMT 在訓練任務完成前就終止它，釋放執行個體給下一個試。

Early Stopping 何時有幫助

對於個別訓練跑很長（數十分鐘到數小時）且許多超參數組合在訓練早期明顯次佳的調優工作，early stopping 可以在不影響找到最佳模型的情況下削減總調優成本 30 到 70%。

Early Stopping 何時有害

某些超參數組合早期看起來差但後期表現優秀（罕見但確實存在，特別是帶有積極 learning rate schedule 的情況）。Early stopping 可能提早終止這些。對這些情況，明確的 early stopping 是錯誤選擇；改依賴策略本身的內部探索。

Early Stopping vs Hyperband

Hyperband 是帶有結構化淘汰錦標賽的更激進的多保真度搜尋。Auto early stopping（early_stopping_type="Auto"）是較輕度的試層級終止。Hyperband 涵蓋了 early stopping 的好處；把 Hyperband 和 early_stopping_type="Auto" 搭配使用是多餘的。

AMT 與內建演算法 vs 自訂容器

內建演算法 AMT

對內建演算法（XGBoost、Linear Learner、BlazingText），AMT 開箱即用。預定義 metric 名稱在各演算法文件中有記載；從中選一個作為 objective。設定演算法文件超參數的範圍。複雜度低。

自訂容器 AMT

對自訂訓練腳本（script mode 或 BYOC），AMT 需要：

訓練腳本必須以 regex 可解析的格式發出 objective metric 到 stdout。
Estimator 的 metric_definitions 必須定義 regex。
腳本必須從 /opt/ml/input/config/hyperparameters.json（內建容器處理）或作為命令列參數（script mode）接收超參數。

最常見的 bug 是腳本以 regex 不匹配的格式發出 metric——請見上方 metric 設定章節。啟動完整調優工作前，一定要對單一獨立訓練跑測試 regex。

CloudWatch 整合

AMT 將每個試的 objective metric 發布到 CloudWatch Metrics。在 CloudWatch 主控台視覺化搜尋進度；如果最佳 metric 連續多個試停止改善，對「調優工作停滯」設定警報。

AMT 的成本管理

成本公式

總調優成本大約是 max_jobs × 平均每試成本。max_jobs=100 在 ml.m5.4xlarge（約 $1.00/小時）每試 30 分鐘的調優工作 = 大約 $50。擴大到 max_jobs=500 在 ml.p3.8xlarge（約 $15/小時）每試 2 小時 = 大約 $15,000。主動管理預算。

降低成本的槓桿

Early stopping — 終止表現差的試；削減 30 到 70%。
Hyperband 策略 — 多保真度搜尋；deep learning 工作削減 50 到 80%。
Warm start — 繼承前一個工作；減少所需的 max_jobs。
AMT 內的 Managed Spot Training — 在 base Estimator 設定 use_spot_instances=True；AMT 將 Spot 傳播到每個試。
更小的 max_jobs — 對低風險調優，30 到 50 次試通常足夠；100 次以上用於生產模型選擇。

增加成本的錯誤

以非常高的並行度跑 Bayesian（在未受告知的試上浪費預算）。
忘記 objective_type（調優到最差的超參數；整個預算白費）。
寬闊的不現實範圍（大多數試落在明顯差的區域）。
重新調優相關模型時不 warm start。

AMT 在 SageMaker Pipelines 中

TuningStep

SageMaker Pipelines 提供包裹 HyperparameterTuner 的 TuningStep。Pipeline 調優步驟的輸出（最佳模型 artifact）流入下游的評估、註冊和部署步驟。TuningStep 是自動化含調優的重訓的生產答案。

基於調優結果的條件晉升

TuningStep 之後的 ConditionStep 對照閾值評估最佳模型的 objective metric（例如，只接受 validation AUC > 0.85）。符合時 Pipeline 在 Model Registry 中註冊模型；不符合時 Pipeline 失敗或通知人工審查。

調優工作快取

Pipelines 步驟快取適用於 TuningStep——如果輸入和設定未改變，Pipeline 重用前一個調優工作的輸出而非重新執行。啟用 cache_config 以獲得此行為；在迭代 Pipeline 開發中的預算節省相當可觀。

常見 AMT 考試陷阱

陷阱 1 — Bayesian 配高並行

最常考的錯誤。max_parallel_jobs=50 用在 Bayesian 消除了逐試學習優勢。修法：降低 max_parallel_jobs 到 1 到 4，或切換到 Random。

陷阱 2 — 錯誤的 `objective_type`

accuracy 設 Minimize 或 loss 設 Maximize 會收斂到最差的試。永遠讓 metric 和正確方向配對。

陷阱 3 — Regex 不對齊

腳本列印 Validation accuracy = 0.87，regex 期望 val_acc:。沒有 metric 被擷取，排行榜空白，調優工作實際上白費。

陷阱 4 — Learning Rate 用線性 Scaling

[1e-5, 1e-1] learning rate 範圍的線性取樣把大多數樣本放在上界附近。使用 scaling_type="Logarithmic"。

陷阱 5 — 選錯 Warm Start 模式

資料已改變時選 IDENTICAL_DATA_AND_ALGORITHM 產生誤導性先驗。確實相同時選 TRANSFER_LEARNING 損失 warm start 效率。讓模式符合實際的資料和演算法關係。

陷阱 6 — Hyperband 沒有多步驟 Metric 發送

Hyperband 需要訓練腳本在訓練期間重複發出 objective metric（每 epoch 或每 batch）。如果腳本只在結束時發出 metric，Hyperband 無法做早停，退化成 random search。

陷阱 7 — Associate 級別用 Grid Search

Grid 很少是 MLA-C01 的正確答案；它是當考生預設「窮舉涵蓋」時的陷阱選項。Bayesian、Random 或 Hyperband 幾乎總是勝出。

陷阱 8 — 忘記 Early Stopping

對個別試很長的調優工作不設定 early_stopping_type="Auto"。浪費 30 到 70% 的算力在明顯表現差的試上。

陷阱 9 — 重複調優不用 Warm Start

相同模型重新調優從頭開始，而前一個調優工作的結果本可繼承。浪費了 warm start 能節省的預算。

陷阱 10 — 調優沒有 Experiment Wrapper

不把調優工作關聯到 SageMaker Experiment，失去比較和 lineage。永遠設定 experiment_config，讓每個調優試以 TrialComponent 出現。

關鍵數字與必背 AMT 事實

策略快速選擇

預設：Bayesian（低到中維、ML 問題）
需要高並行：Random
帶 mid-training metric 的 deep learning：Hyperband
避免：Grid（Associate 級別很少是正確答案）

平行度範圍

Bayesian：1 到 4 並行最佳品質；最多接受 10
Random：任何並行，無品質損失
Hyperband：5 到 10 並行
Grid：任何

Objective Metric 三要素

Estimator 上的 metric_definitions regex
HyperparameterTuner 上的 objective_metric_name
objective_type Maximize 或 Minimize

超參數範圍型別

Continuous（float，支援 log scale）
Integer（int，支援 log scale）
Categorical（不假設排序）
對 learning rate、正則化使用 scaling_type="Logarithmic"

Warm Start 模式

IDENTICAL_DATA_AND_ALGORITHM — 相同資料、相同演算法
TRANSFER_LEARNING — 相關資料或演算法
最多 5 個 parent 調優工作

成本公式

大約 max_jobs × 每試成本
透過 early stopping、Hyperband、warm start、Spot、更小的 max_jobs 降低

對 MLA-C01 而言，低並行（1 到 4 並行）的 Bayesian optimization 是預設且最佳的 AMT 設定。 只在需要高並行（超過 10 個）且品質損失可接受時切換到 Random。只在帶多 epoch metric 發送的 deep learning 訓練（早停節省的算力很重要）時切換到 Hyperband。每個調優工作配搭 early_stopping_type="Auto"（除非用 Hyperband，它涵蓋了 early stopping）、在重調優相關模型時 warm start，以及 SageMaker Experiments 進行試追蹤。考試一貫獎勵這個完整設定模式，而非表面的「Bayesian 最好」答案。

MLA-C01 exam priority — 自動模型調優 — Bayesian、Random、Grid 與 Hyperband 超參數最佳化 — MLA-C01 ML Engineer 學習筆記. This topic carries weight on the MLA-C01 exam. Master the trade-offs, decision boundaries, and the cost/performance triggers each AWS service exposes — the exam will test scenarios that hinge on knowing which service is the wrong answer, not just which is right.

Exam-day tip. When a MLA-C01 scenario stem mentions cost, latency, or operational overhead constraints together, eliminate options that violate any one constraint before comparing trade-offs among the remaining ones. This filter alone resolves a high fraction of MLA-C01 multi-correct scenarios.

FAQ — 自動模型調優常見問題

Q1 — 在 MLA-C01 上什麼時候用 Bayesian optimization vs random search？

Bayesian 是預設值且幾乎永遠是正確答案。Bayesian 的代理模型從前面試的結果學習，以比隨機取樣更高效的方式選擇超參數，在低到中維搜尋空間（1 到 10 個超參數）以相同算力預算達到更好的最終模型。Random search 在兩個特定情況是正確答案：需要高並行且你無法承受 Bayesian 建議的低並行（1 到 4 並行）的掛鐘時間，或搜尋空間非常高維（15 個以上超參數）導致 Bayesian 代理模型昂貴且不準確。MLA-C01 考試一貫出考生直覺是「Bayesian 很進階，一定最好」但約束是「我們需要 30 分鐘內 50 個並行任務」的情境——這種情況正確答案是完全並行的 random。

Q2 — 為何我的 Bayesian 調優工作用 50 個並行任務跑出來的結果不比 random search 好？

Bayesian optimization 根據代理模型（擬合所有前面完成試的結果）選每個試的超參數。50 個並行任務時，前 50 個試全都在任何一個完成前就啟動；沒有任何一個受益於其他試的結果。實際上，50 個並行 Bayesian 試就是 50 個隨機試。修法：降低 max_parallel_jobs 到 1 到 4，讓 Bayesian 引擎在試之間有時間更新代理模型。取捨：較低並行意味著較長掛鐘時間。如果掛鐘時間比搜尋品質更重要，切換策略到 Random 並保持高並行——兩個選項在高並行下達到同樣的終態，但 Random 對此更誠實。MLA-C01 考試把這個確切機制作為其最常考的 AMT 題之一。

Q3 — 什麼時候用 `IDENTICAL_DATA_AND_ALGORITHM` vs `TRANSFER_LEARNING` warm start？

IDENTICAL_DATA_AND_ALGORITHM 正確的情況是新調優工作使用與 parent 完全相同的訓練資料和相同演算法容器。AMT 繼承 parent 的試結果集，視為新工作的前幾次試並完全相信地繼續搜尋。使用場景：用更多預算延伸前一個調優工作。TRANSFER_LEARNING 正確的情況是新調優工作使用相關但不完全相同的資料（特性相似的新資料集版本）或相關演算法變體（共享許多參數的不同超參數集）。AMT 把 parent 的結果視為參考先驗但允許新資料覆蓋。使用場景：在每月更新的資料上重訓相同架構。選錯模式浪費 warm start 效率：真正改變的資料選 IDENTICAL 太相信過時的先驗；確實相同時選 TRANSFER 不必要地折扣了 parent。MLA-C01 考試出題描述 parent-child 關係並問適用哪個模式。

Q4 — 我的調優工作跑了 100 次試，排行榜對每個試顯示零 objective 值。哪裡出錯了？

Objective metric regex 不匹配訓練腳本的實際 stdout。診斷方式：打開任一試的 CloudWatch log stream，找腳本列印驗證 metric 的那行，對照 metric_definitions 中的 regex。腳本可能列印 Validation accuracy = 0.87 而 regex 期望 val_acc: ([0-9\\.]+)。修法：讓 regex 對齊實際 stdout 格式，或修改腳本以 regex 期望的格式發出 metric。啟動調優工作前永遠對單一獨立訓練跑測試 regex——用壞掉的 regex 跑 100 次試燒掉數百美元，而工作實際上沒有任何訊號做 random search。MLA-C01 考試把這個 troubleshooting 模式作為需要 metric-regex 理解和 CloudWatch log 查看技能的 Domain 2 情境。

Q5 — 什麼時候 Hyperband 比 Bayesian 更有意義？

Hyperband 對 objective metric 在訓練期間重複發出（每 epoch 或 sub-epoch）的 deep learning 訓練任務有意義，個別訓練跑很長（數十分鐘到數小時），且搜尋空間包含許多早期就明顯差的組合。Hyperband 的淘汰錦標賽在第一個 checkpoint 終止表現差的試，把它們的算力預算分配給有潛力的試，與這些工作的 Bayesian 或 Random 相比可以削減總調優成本 50 到 80%。Hyperband 在以下情況不太適合：短訓練跑（啟動開銷佔主導）、訓練中評估沒有意義的非 deep learning 訓練、訓練進度非單調的 objective（早期看起來差的試可能後來變好）。MLA-C01 考試題幹提到「deep learning」、「長訓練跑」、「要探索許多超參數」或「算力預算限制」時，Hyperband 是正確答案。

Q6 — 我可以在 AMT 調優工作裡用 Spot instances 嗎？

可以。在 HyperparameterTuner 包裹的 base Estimator 上設定 use_spot_instances=True、max_wait 和 checkpoint_s3_uri；AMT 把這些設定傳播到每個試。每個試在 Spot capacity 上跑，節省執行個體成本 30 到 90%，並在中斷時從 checkpoint 繼續。結合 early stopping 或 Hyperband，Spot 啟用的 AMT 是最具成本效益的調優設定——生產團隊例行在 Spot 上跑 100 次試的 Bayesian 調優工作，執行個體成本不到 $30。注意事項是標準 Spot 注意事項：訓練腳本必須把 checkpoint 寫到 /opt/ml/checkpoints、max_wait 必須大於 max_run、Spot 中斷為總調優持續時間增加變異。MLA-C01 考試可能出成本最佳化情境，AMT 內的 Spot 是正確答案，優於 On-Demand。

Q7 — 我應該把調優工作包裝在 SageMaker Pipeline TuningStep 中嗎？為什麼？

生產調優工作流程是的。TuningStep 讓調優工作成為可重現的 Pipeline 節點——每次 Pipeline 執行都以確定性設定建立新的調優工作，最佳模型 artifact 流入下游步驟，Pipeline 圖是稽核軌跡。TuningStep 之後的 ConditionStep 對照閾值評估最佳模型的 objective metric，並有條件地在 Model Registry 中註冊模型；未達閾值則停止 Pipeline 或通知人工。Pipeline 步驟快取適用於 TuningStep——輸入不變時重新執行 Pipeline 會重用前一個調優工作的輸出而非重新跑。沒有 Pipeline 包裝，臨時調優工作缺乏可重現性，也與 MLOps 其他介面沒有整合。MLA-C01 考試在題幹描述生產工作流程時，一貫獎勵 Pipeline 整合答案，而非獨立調優呼叫。

進一步閱讀 — 自動模型調優的官方 AWS 文件

權威 AWS 資源包括：SageMaker Developer Guide AMT 章節（尤其是 How Hyperparameter Tuning Works、Best Practices、Define Hyperparameter Ranges、Define Metrics、Run a Warm Start Tuning Job、Stop Training Jobs Early 和 Hyperband Tuning Strategy 頁面），以及 SageMaker Python SDK 的 HyperparameterTuner 類別參考。AWS Machine Learning Blog 有多篇關於 Bayesian optimization 機制、warm start 模式和 deep learning Hyperband 的深度文章。AWS re:Invent 的 SageMaker Automatic Model Tuning 議題提供平行度取捨和策略比較的現場示範，與 MLA-C01 考試情境一致。SageMaker Examples GitHub 倉庫包含每種搜尋策略和 warm start 模式的可執行 notebook，Amazon Science 的 Bayesian optimization 發表為想超越考試範圍的工程師提供理論背景。

SageMaker Automatic Model Tuning 做什麼

為何 MLA-C01 大量考 AMT

AMT 設定三要素

白話文解釋 Automatic Model Tuning

類比 1 — 珍珠奶茶配方研發

類比 2 — 在地圖未知的山區找溫泉

類比 3 — 育種競賽馬跨世代最佳化

四種 AMT 搜尋策略

Random Search

Grid Search

Bayesian Optimization

Hyperband

平行度取捨 — AMT 最常考的概念

為何平行度傷害 Bayesian 效率

建議平行度範圍

平行度 vs 掛鐘時間的決策

為何這是最常考的 AMT 機制

超參數範圍定義

三種範圍型別

Scaling Types 及其重要性

選擇範圍界限

Categorical 超參數與 Bayesian 的限制

Objective Metric 設定

Objective Metric 如何到達 AMT

內建演算法與預定義 Metric

最常見的 bug — Regex 不對齊

Maximize vs Minimize

Warm Start — 從前一個調優工作繼續

Warm Start 存在的原因

兩種 Warm Start 模式

選錯模式的代價

Parent 調優工作的要求

Early Stopping — 在差的試上節省算力

Early Stopping 做什麼

Early Stopping 何時有幫助

Early Stopping 何時有害

Early Stopping vs Hyperband

AMT 與內建演算法 vs 自訂容器

內建演算法 AMT

自訂容器 AMT

CloudWatch 整合

AMT 的成本管理

成本公式

降低成本的槓桿

增加成本的錯誤

AMT 在 SageMaker Pipelines 中

TuningStep

基於調優結果的條件晉升

調優工作快取

常見 AMT 考試陷阱

陷阱 1 — Bayesian 配高並行

陷阱 2 — 錯誤的 objective_type

陷阱 3 — Regex 不對齊

陷阱 4 — Learning Rate 用線性 Scaling

陷阱 5 — 選錯 Warm Start 模式

陷阱 6 — Hyperband 沒有多步驟 Metric 發送

陷阱 7 — Associate 級別用 Grid Search

陷阱 8 — 忘記 Early Stopping

陷阱 9 — 重複調優不用 Warm Start

陷阱 10 — 調優沒有 Experiment Wrapper

關鍵數字與必背 AMT 事實

策略快速選擇

平行度範圍

Objective Metric 三要素

超參數範圍型別

Warm Start 模式

成本公式

FAQ — 自動模型調優常見問題

Q1 — 在 MLA-C01 上什麼時候用 Bayesian optimization vs random search？

Q2 — 為何我的 Bayesian 調優工作用 50 個並行任務跑出來的結果不比 random search 好？

Q3 — 什麼時候用 IDENTICAL_DATA_AND_ALGORITHM vs TRANSFER_LEARNING warm start？

Q4 — 我的調優工作跑了 100 次試，排行榜對每個試顯示零 objective 值。哪裡出錯了？

Q5 — 什麼時候 Hyperband 比 Bayesian 更有意義？

Q6 — 我可以在 AMT 調優工作裡用 Spot instances 嗎？

Q7 — 我應該把調優工作包裝在 SageMaker Pipeline TuningStep 中嗎？為什麼？

進一步閱讀 — 自動模型調優的官方 AWS 文件

官方資料來源

更多 MLA-C01 主題

陷阱 2 — 錯誤的 `objective_type`

Q3 — 什麼時候用 `IDENTICAL_DATA_AND_ALGORITHM` vs `TRANSFER_LEARNING` warm start？