Amazon SageMaker 平台是 AWS 端對端的機器學習服務,讓資料科學家能夠在單一托管環境中完成資料標注、特徵工程、自訂模型訓練、超參數調校、部署推論端點,以及監控模型漂移。在 AWS Certified AI Practitioner(AIF-C01)考試中,Task Statement 3.1 要求考生說明使用基礎模型的應用程式設計考量,而 Amazon SageMaker 平台正是當題目情境說「建構、訓練、部署自訂模型」或「以自有程式碼端對端微調模型」時的標準答案。2024 年,AWS 將不斷擴展的 Amazon SageMaker 家族統整至新品牌 Amazon SageMaker AI 之下,涵蓋本學習指南所有功能:Amazon SageMaker Studio、Amazon SageMaker Data Wrangler、Amazon SageMaker Ground Truth、Amazon SageMaker Feature Store、Amazon SageMaker Training Jobs、Amazon SageMaker JumpStart、Amazon SageMaker Canvas、Amazon SageMaker Autopilot、Amazon SageMaker Pipelines、Amazon SageMaker Model Registry、Amazon SageMaker 推論選項、Amazon SageMaker Shadow Testing、Amazon SageMaker Inference Recommender,以及 Amazon SageMaker Model Monitor。
本學習指南依照 ML 生命週期的實際順序逐步介紹整個 Amazon SageMaker 平台——準備、標注、特徵、訓練、調校、部署、監控——並以 SageMaker 對比 Bedrock 決策矩陣、十個標注區塊及七題 FAQ 作結。每個子章節都指出 AWS 在 AIF-C01 中設置干擾選項的確切陷阱所在。
Amazon SageMaker 平台是什麼?
Amazon SageMaker 平台是一套全托管的 Amazon SageMaker 服務集合,覆蓋完整的機器學習生命週期。它消除了自建 ML Pipeline 的基礎設施負擔:無需調整 EC2 叢集規格、無需強化 Kubernetes 叢集安全性、無需替 Notebook 伺服器套用修補程式。你只需在瀏覽器中開啟 Amazon SageMaker Studio,指向 Amazon S3 中的資料,選擇內建演算法或自帶容器,按下訓練、按下部署,剩下的一切由 Amazon SageMaker 平台處理。
在 AIF-C01 考試中,你不需要撰寫 SageMaker SDK 程式碼。你需要辨認 Amazon SageMaker 平台的哪個元件解決 ML 生命週期的哪個環節。題目採情境式設計:「一個團隊需要標注十萬張圖片」、「商業分析師想在試算表介面取得 ML 預測結果」、「模型服務流量不可預測且需能縮容至零」。每種情境對應一項特定的 Amazon SageMaker 子服務,而本主題正是讓這種對應變得直覺的工具目錄。
Amazon SageMaker 與 Amazon SageMaker AI — 2024 年品牌重塑
2024 年 11 月,AWS 將原有的 Amazon SageMaker 服務更名為 Amazon SageMaker AI,並推出更大的傘式品牌新世代 Amazon SageMaker,同時納入 Amazon SageMaker Lakehouse(統一資料層)、Amazon SageMaker Data and AI Governance,以及統一的 Amazon SageMaker Studio 體驗。對 AIF-C01 而言,將 Amazon SageMaker AI 視為你原本學習的 AI 與 ML 功能集即可——本指南中的所有功能(Studio、Training Jobs、端點、Model Monitor)均屬於 Amazon SageMaker AI。考試中「Amazon SageMaker」與「Amazon SageMaker AI」可互換使用。若題目同時出現兩個名稱,正確解讀仍是用於訓練和部署 ML 模型的 Amazon SageMaker 平台。
為何 Amazon SageMaker 平台對 AIF-C01 如此重要
AIF-C01 Domain 3 佔考試 28%。在 Domain 3 中,Task 3.1 明確將「平台選擇」列為考點,而社群的痛點分析顯示,Amazon SageMaker 平台對比 Amazon Bedrock 的判斷是 AIF-C01 中最容易混淆的一組比較。預期至少有兩題詢問哪個 Amazon SageMaker 子服務負責特定生命週期步驟,另有一至兩題涉及 Amazon SageMaker 推論選項(即時、無伺服器、非同步、批次轉換)。
白話文解釋 Amazon SageMaker 平台
Amazon SageMaker 平台乍看令人卻步,因為它大約有十五個具名子服務。以下三個類比能讓整個 Amazon SageMaker 平台的架構一目了然。
類比一 — 辦桌廚房(總舖師的備料流水線)
把 Amazon SageMaker 平台想像成一間辦桌總鋪師的大廚房,同時負責培訓廚師和上菜給客人。
- Amazon SageMaker Ground Truth 是食材驗收站。生鮮食材運到後,由驗收師逐一貼上標籤:「這是虱目魚、這是吳郭魚、這是鱸魚。」沒有標籤,就沒辦法照食譜訓練廚師。
- Amazon SageMaker Data Wrangler 是前處理台——洗滌、切割、正規化、去除重複。視覺化拖放操作,不需要寫程式。
- Amazon SageMaker Feature Store 是備料架。每樣處理好的食材(特徵)放進標好名稱的格子,訓練廚房和出餐線都可以直接取用——確保訓練與推論使用完全相同的備料。
- Amazon SageMaker Training Jobs 是試驗廚房。托管的爐火只在廚師(腳本)說「開始」時點燃,料理完畢立刻熄火。Managed Spot Training 是趁夜深電費便宜時才開的爐子。
- Amazon SageMaker JumpStart 是食譜庫——數百份已測試過的食譜(預訓練模型)任你微調,不必從頭備料。
- Amazon SageMaker Canvas 是給家庭主婦用的介面——不需要廚師刀,不需要懂火候。商業用戶拖入一張 CSV、按「預測」,Amazon SageMaker 平台在後台搞定一切。
- Amazon SageMaker Autopilot 是副廚,自動試做數十種配方後挑出最好的那道(AutoML)。
- Amazon SageMaker Studio 是整間廚房的開放式格局——每位廚師都能看到每一個工作站的統一 IDE。
- Amazon SageMaker 端點 是出餐口。即時端點是現點現做的單點出餐——一道菜 100 毫秒就上桌。Serverless 推論是假日早午餐的快閃攤位,客人一到就開門、沒客人就收攤。非同步推論是外燴訂單——下單後離開,等通知去取餐。Batch Transform 是辦桌包場——一次煮五千份。
- Amazon SageMaker Model Monitor 是品管師,隨機試吃出餐口的菜,一旦發現口味偏移就舉牌示警。
考試情境說「團隊在訓練前需標注圖片」,答案是 Amazon SageMaker Ground Truth。「沒有 Python 技能的商業分析師」,答案是 Amazon SageMaker Canvas。「流量不可預測、需縮容至零」,答案是 Amazon SageMaker Serverless Inference。記住這張廚房地圖,就掌握了全部訣竅。
類比二 — 瑞士刀(十五片刀刃)
Amazon SageMaker 平台是一把十五片刀刃的瑞士刀——一個工具,多種刀刃,每片刀刃解決一項任務。
- 主刀刃 是 Amazon SageMaker Studio——第一個打開的大刀刃。
- 剪刀 是 Amazon SageMaker Ground Truth——把原始資料剪成有標籤的訓練資料。
- 鋸子 是 Amazon SageMaker Data Wrangler——把粗糙資料重塑為可用的特徵。
- 開瓶器 是 Amazon SageMaker Feature Store——在訓練時和推論時精準取出所需的特徵。
- 大刀刃 是 Amazon SageMaker Training Jobs——負責繁重的切割工作。
- 銼刀 是 Amazon SageMaker Training Compiler——磨光訓練流程以提升速度。
- 錐子 是 Amazon SageMaker JumpStart——直接鑿穿到預建的洞口。
- 牙籤 是 Amazon SageMaker Canvas——小巧無害,非專業人士也能使用。
- 鑷子 是 Amazon SageMaker Autopilot——自動挑出最佳 AutoML 候選模型。
- 一字起子 是 Amazon SageMaker Pipelines——鎖緊 MLOps 的每顆螺絲。
- 十字起子 是 Amazon SageMaker Model Registry——版本化的模型成品。
- 放大鏡 是 Amazon SageMaker Model Monitor——監看模型漂移。
- 指甲銼 是 Amazon SageMaker Inference Recommender——幫你選出合適的執行個體規格。
- 開罐器 是 Amazon SageMaker Shadow Testing——安全地將新版本與正式環境比較。
- 量尺 是 Amazon SageMaker 端點——有度量、可預期的推論出口。
AIF-C01 不需要你實際建構任何東西。你只需要從這十五片刀刃中,為題目情境挑出正確的那一片。
類比三 — 工廠生產線(流水線作業)
把 Amazon SageMaker 平台想像成一座汽車工廠,資料從左到右流過各個工作站。
- 工站一 — 原料進廠:Amazon SageMaker Ground Truth 替進廠的鋼板(資料)貼標籤,讓機器手臂知道要焊哪裡。
- 工站二 — 零件加工:Amazon SageMaker Data Wrangler 對每個零件進行衝壓、鑽孔、正規化(特徵工程)。
- 工站三 — 零件倉庫:Amazon SageMaker Feature Store 把加工好的零件存入編號貨架,讓訓練線和出廠服務線都能從同一份目錄取件。
- 工站四 — 主組裝:Amazon SageMaker Training Jobs 在托管的 GPU 輸送帶上焊接出模型。Managed Spot 是趁夜班電費較低時才啟動的班次。
- 工站五 — 預組底盤區:Amazon SageMaker JumpStart 推出預組底盤(預訓練模型),讓你直接跳到最終組裝。
- 工站六 — 品質檢驗:Amazon SageMaker Autopilot 與 Amazon SageMaker Experiments 執行自動化測試,挑出最佳設定組合。
- 工站七 — 成車停放場:Amazon SageMaker Model Registry 是成品車場,每輛車都有 VIN(模型版本)和核准狀態。
- 工站八 — 生產排程:Amazon SageMaker Pipelines 是工廠控制系統,自動化整條生產線,並在有新資料時觸發重新訓練。
- 工站九 — 展示中心:Amazon SageMaker 端點是各地展示中心——即時展廳(全天開放)、無伺服器快閃店(按需開門)、非同步(等候通知取車)、批次轉換(車隊大宗採購)。
- 工站十 — 召回監控:Amazon SageMaker Model Monitor 與 Amazon SageMaker Inference Recommender 監看量產車輛的性能表現,一旦發現車體開始生鏽(漂移)立即警示。
- 工站十一 — 試駕測試:Amazon SageMaker Shadow Testing 將正式訂單同步複製到新原型車上比較品質,不影響任何客戶。
記住這張工廠藍圖,每一道 Amazon SageMaker 平台考題都會變成選工站的題目。
Amazon SageMaker Studio — 統一 IDE
Amazon SageMaker Studio 是位於 Amazon SageMaker 平台核心的單一瀏覽器式 IDE。它讓資料科學家在同一個地方開啟 Notebook、啟動訓練任務、追蹤實驗、登錄模型、部署端點並監控漂移——不需要 SSH、不需要本機 Jupyter、不需要 Conda。
Amazon SageMaker Studio 執行在以 Amazon Elastic File System 為後端的托管運算上,Notebook 狀態可跨工作階段持久保存。與 Amazon SageMaker AI 同步推出的新版 Amazon SageMaker Studio(次世代),在同一個 Web UI 背後新增了查詢 Amazon SageMaker Lakehouse、在 Amazon Redshift 執行 SQL,以及低程式碼 ML 的統一體驗。
AIF-C01 必知的 Amazon SageMaker Studio 功能:
- JupyterLab Notebook 與 Code Editor(基於 VS Code)。
- 從 UI 啟動 Amazon SageMaker Training Jobs 與 Amazon SageMaker Processing Jobs。
- 瀏覽 Amazon SageMaker JumpStart 預訓練模型。
- 檢視 Amazon SageMaker Experiments、Amazon SageMaker Pipelines 執行紀錄與 Amazon SageMaker Model Registry 項目。
- 開啟 Amazon SageMaker Data Wrangler 流程與 Amazon SageMaker Canvas 應用程式。
- 透過共享空間進行團隊協作。
Amazon SageMaker Studio 是專為撰寫程式碼的資料科學家設計的統一 IDE。Amazon SageMaker Canvas 是專為不撰寫程式碼的商業分析師設計的無程式碼 UI。兩者都在 Amazon SageMaker 平台內,但 Studio 預設使用者具備 Python 能力,而 Canvas 預設使用者具備試算表操作能力。在 AIF-C01 中,「以程式碼為核心的 ML IDE」指向 Amazon SageMaker Studio;「給 BI 使用者的無程式碼 ML」指向 Amazon SageMaker Canvas。 Source ↗
Amazon SageMaker Data Wrangler — 視覺化資料準備
Amazon SageMaker Data Wrangler 是 Amazon SageMaker 平台內的視覺化低程式碼資料準備工具。它可連接 Amazon S3、Amazon Athena、Amazon Redshift、Amazon EMR、AWS Lake Formation、Snowflake 及 Databricks,並透過拖放流程提供 300 種以上的內建轉換(填補缺失值、One-Hot 編碼、數值特徵縮放、使用 Amazon SageMaker Clarify 偵測偏差、解析日期等)。
Amazon SageMaker Data Wrangler 可將流程輸出為以下三種成品之一:
- 以排程方式大規模執行轉換的 Amazon SageMaker Processing Job。
- 可插入 Amazon SageMaker Pipeline 的 Python 腳本。
- 推送至 Amazon SageMaker Feature Store 的特徵定義。
AIF-C01 考試信號:「視覺化資料準備」、「訓練前的無程式碼特徵工程」、「訓練資料內建偏差報告」→ Amazon SageMaker Data Wrangler。
Amazon SageMaker Ground Truth — 資料標注
Amazon SageMaker Ground Truth 是 Amazon SageMaker 平台內的托管標注服務。它透過三種工作人員,將原始圖片、影片、文字和 3D 點雲轉換為有標籤的訓練資料:
- Amazon Mechanical Turk — 公開、低成本、高產量的眾包標注群體。
- 私有工作人員 — 在 VPC 內部使用自家員工,適用於敏感資料。
- 廠商工作人員 — 來自 AWS Marketplace 的精選第三方標注合作夥伴。
Amazon SageMaker Ground Truth 支援自動標注——在約 1,000 筆人工標注後,內部模型會自動標注簡單案例,只將困難案例轉交人工,最多可降低 70% 的標注成本。內建任務類型涵蓋圖片分類、邊界框、語義分割、文字分類、命名實體辨識、影片幀物件追蹤,以及 3D 點雲標注。
Amazon SageMaker Ground Truth 產生有標籤的資料集;它不訓練模型。常見陷阱是在題目說「自動分類圖片」時選了 Amazon SageMaker Ground Truth——那是推論,由訓練好的模型(Amazon Rekognition Custom Labels 或 SageMaker 端點)來執行。Amazon SageMaker Ground Truth 屬於準備階段。若題目說「我們需要人工標注 50 萬張醫療影像才能開始訓練」,請選 Amazon SageMaker Ground Truth。 Source ↗
Amazon SageMaker Feature Store — 共享特徵倉庫
Amazon SageMaker Feature Store 是 Amazon SageMaker 平台內專為儲存、探索與提供 ML 特徵而設計的儲存庫。「特徵」是從原始資料計算出的單一輸入欄位,例如從訂單記錄計算出的 customer_30d_purchase_count。
Amazon SageMaker Feature Store 解決了 MLOps 中最難察覺的隱性失敗:訓練/服務偏差(training/serving skew)。若訓練 Pipeline 用一種方式計算 purchase_count,而線上推論層用稍有不同的方式計算,模型將在無聲無息中劣化。Amazon SageMaker Feature Store 透過同一套 API 提供兩個儲存層:
- 線上儲存 — 低延遲讀取,供即時推論使用(內部由 Amazon DynamoDB 支撐)。
- 離線儲存 — 以 Amazon S3 中的 Parquet 格式存放,供訓練批次讀取和補填歷史資料。
兩個儲存層透過相同的攝入 API 保持同步,確保訓練時使用的特徵與推論時使用的特徵完全一致。
當 AIF-C01 題目提到「團隊需要保證訓練和推論使用相同的特徵定義」時,答案是 Amazon SageMaker Feature Store。當題目提到「跨多個模型和團隊的集中式特徵目錄」時,答案仍然是 Amazon SageMaker Feature Store。它是 Amazon SageMaker 中唯一專門負責特徵層的子服務。 Source ↗
Amazon SageMaker Training Jobs — 托管模型訓練
Amazon SageMaker Training Jobs 是 Amazon SageMaker 平台的托管訓練引擎。你提供訓練腳本(或選擇內建演算法)、Amazon S3 中的輸入資料位置,以及執行個體類型;Amazon SageMaker 佈建運算資源、執行任務、將成品寫回 Amazon S3,然後拆除叢集。你完全不需要觸碰底層的 EC2 執行個體。
隨需執行 vs Managed Spot Training
Amazon SageMaker Training Jobs 可在隨需執行個體或 Managed Spot Training 上運行。Managed Spot Training 使用 Amazon EC2 Spot 容量,最多可降低 90% 的訓練成本。Amazon SageMaker 會處理 Spot 中斷,並使用寫入 Amazon S3 的檢查點自動恢復任務。代價是更長的實際掛鐘時間,因為 Spot 容量可能無法立即取得。
AIF-C01 的判斷原則:對中斷有容忍度且注重成本的大型基礎模型訓練 → Managed Spot Training。有截止期限、不能等待的時效性訓練 → 隨需執行。
分散式訓練
Amazon SageMaker 支援兩種訓練大型模型的分散式訓練架構:
- 資料平行 — 每個副本持有完整模型的副本;批次資料分散在各副本上。使用 SageMaker Distributed Data Parallel(SMDDP)函式庫或 Horovod/PyTorch DDP。適合可放入單一 GPU 的模型。
- 模型平行 — 單一模型太大而無法放入單一 GPU,因此分割到多個裝置上。使用 SageMaker Distributed Model Parallel(SMMP)函式庫,或針對大規模基礎模型訓練使用 Amazon SageMaker HyperPod。
AWS 另外提供 Amazon SageMaker HyperPod,這是一個具備容錯能力的專用叢集,能在長達數週的基礎模型訓練過程中自動從執行個體故障中恢復。
SageMaker Training Compiler
Amazon SageMaker Training Compiler 是可選的圖層級編譯器,透過運算元融合和降低記憶體傳輸量,將深度學習模型的訓練速度提升最多 50%。它可直接與 PyTorch 和 TensorFlow 搭配使用,只需在 Estimator 上加入單一參數即可啟用,不需要修改程式碼。
Amazon SageMaker Training Jobs 有三個降低訓練成本的調節旋鈕:(1) Managed Spot Training 最多可降低 90% 的執行個體費用;(2) Amazon SageMaker Training Compiler 透過圖編譯最多縮短 50% 的訓練時間;(3) 分散式訓練(資料平行或模型平行)可橫向擴展,在更大的叢集上更快完成訓練。在 AIF-C01 中,「以最少的程式碼變更降低訓練成本」= Managed Spot Training;「在不更換執行個體類型的情況下加速訓練」= SageMaker Training Compiler。 Source ↗
自動模型調校
Amazon SageMaker Automatic Model Tuning(也稱為 SageMaker 超參數調校)會以不同的超參數組合平行執行多個訓練任務,套用貝葉斯最佳化或隨機搜尋,並列出最佳模型排行榜。在 AIF-C01 中,Automatic Model Tuning 是 SageMaker 中取代手動網格搜尋的功能。
Amazon SageMaker JumpStart — 預訓練模型中心
Amazon SageMaker JumpStart 是 Amazon SageMaker 平台的預訓練模型中心,提供數百個基礎模型和特定任務模型(文字分類、物件偵測、表格迴歸),以及端對端解決方案範本(詐欺偵測、預測性維護、需求預測)。
你可以:
- 兩步驟將 JumpStart 模型部署至 Amazon SageMaker 端點。
- 透過 Amazon SageMaker Training Jobs,以自有資料對 JumpStart 基礎模型(Meta Llama、Falcon、Amazon Titan、Stability AI Stable Diffusion 等)進行微調。
- 匯出重現部署或微調 Pipeline 的 Notebook。
Amazon SageMaker JumpStart 是 Amazon SageMaker 平台與生成式 AI 世界的接軌點:它是從 SageMaker 這側進入基礎模型的大門。Amazon Bedrock 那側的大門則是 Amazon Bedrock API。在 AIF-C01 中,你可能會看到將 JumpStart 與 Bedrock 並排的題目——請參閱本指南後面的決策矩陣。
Amazon SageMaker Canvas — 無程式碼 ML
Amazon SageMaker Canvas 是提供給商業分析師使用的無程式碼 ML 介面。上傳 CSV、選擇目標欄位、點擊「Build」,Amazon SageMaker Canvas 會在背景執行 Amazon SageMaker Autopilot,產生可部署的模型。Amazon SageMaker Canvas 也原生連接 Amazon S3、Snowflake、Salesforce、Redshift 和 AWS Lake Formation,並可將預測結果呈現回 Amazon QuickSight 儀表板。
Amazon SageMaker Canvas 2024 年以後的版本新增搭載基礎模型的生成式 AI 功能:使用者可在 Canvas UI 中與 Amazon Bedrock 模型對話、摘要文件,以及執行 Retrieval-Augmented Generation,無需撰寫任何程式碼。
AIF-C01 對 Amazon SageMaker Canvas 的主要信號是:不需要 Python、不需要 Notebook、BI 風格的 ML。
Amazon SageMaker Autopilot — AutoML
Amazon SageMaker Autopilot 是 Amazon SageMaker 平台的 AutoML 引擎。你將 Autopilot 指向一個表格資料集和目標欄位;Autopilot 會自動探索特徵前處理、演算法(XGBoost、Linear Learner、MLP)和超參數,然後產生候選模型排行榜,並附上完整的 Notebook 透明度——你可以看到建構每個候選模型的確切程式碼。Amazon SageMaker Canvas 以 Amazon SageMaker Autopilot 作為後端引擎。
AIF-C01 的理解框架:Autopilot = 「自動嘗試多種模型」,Canvas = 「使用 Autopilot 作為底層的無程式碼 UI」,Studio = 「專業人員的 IDE」。三者都在 Amazon SageMaker 平台內。
Amazon SageMaker Pipelines 與 Model Registry — MLOps
Amazon SageMaker Pipelines 是 Amazon SageMaker 平台內專為 ML 設計的 CI/CD 服務。一個 SageMaker Pipeline 是由處理、訓練、評估、模型建立、批次轉換、登錄、部署等步驟組成的有向無環圖(DAG),使用 SageMaker SDK 以 Python 定義。Pipelines 在托管運算上執行 DAG、記錄每個成品、快取重複步驟,並與 Amazon EventBridge 整合以支援觸發式重新訓練。
Amazon SageMaker Model Registry 是已訓練模型的版本化目錄。每個模型版本都有元資料(訓練任務、指標、血緣)、核准狀態(PendingManualApproval / Approved / Rejected),以及指向 Amazon S3 中模型成品的連結。典型的 MLOps 模式是:Pipelines 訓練 → 以 PendingManualApproval 狀態向 Model Registry 登錄新版本 → 資料科學負責人審查指標 → 核准 → 下游 Pipelines 步驟將 Approved 版本部署至正式端點。
在 AIF-C01 中,若情境說「以核准閘門自動化重新訓練」或「對已訓練模型進行版本控制並追蹤血緣」,答案是結合 Amazon SageMaker Pipelines(工作流程引擎)和 Amazon SageMaker Model Registry(模型目錄)。兩者缺一不可——必須配對使用才是完整的 MLOps 答案。CodePipeline 可以編排更高層級的發布週期,但 ML 專屬的核准和血緣功能存在於 Amazon SageMaker Model Registry 中。 Source ↗
Amazon SageMaker 推論選項 — 四種端點類型
Amazon SageMaker 平台提供四種不同的推論模式。在 AIF-C01 中,將正確的推論模式與工作負載配對,是考試中測驗最頻繁的 Amazon SageMaker 推論主題。
即時端點
Amazon SageMaker 即時端點是持久性的 HTTPS 端點,由一個或多個 EC2 執行個體組成的自動擴展群組提供支撐。預期延遲為毫秒級。端點啟動後,即使流量為零也需按執行個體小時付費。適用於低延遲、穩定流量的線上推論,例如結帳時的詐欺評分或首頁上的推薦元件。
Serverless 推論
Amazon SageMaker Serverless 推論僅在請求到達時佈建運算資源,請求之間縮容至零。按實際使用的運算秒數計費,而非按佈建的小時數計費。在安靜期結束後的第一個請求存在冷啟動延遲。適用於流量不可預測、間歇性或突發性的工作負載,在這類情況下為閒置容量付費很浪費——例如內部工具、原型應用程式,或每分鐘只有少量請求的 B2B API。
非同步推論
Amazon SageMaker 非同步推論將入站請求排入 Amazon S3 佇列,並在數分鐘或數小時後將結果傳回 Amazon S3 上的回呼位置。Amazon SageMaker 端點在佇列清空之間自動縮容至零,節省成本。適用於大型負載(最高 1 GB)和長時間處理(每個請求最多一小時)——典型範例包括對長影片、大型 PDF 或高解析度醫療掃描圖像進行推論。
批次轉換
Amazon SageMaker Batch Transform 是基於任務的推論選項。你提供 Amazon S3 中一個資料夾的輸入記錄和一個模型;SageMaker 啟動托管叢集、並行處理每筆記錄、將結果寫入 Amazon S3,然後拆除叢集。沒有持久性端點,也沒有按小時計費的費用。適用於定期離線評分——對全體客戶進行夜間流失率預測、每週潛在客戶評分,或對歷史資料補填預測結果。
四種 Amazon SageMaker 推論選項對應非常特定的使用情境,AIF-C01 干擾選項會故意互換它們。即時 = 穩定低延遲線上服務。Serverless = 間歇性低流量線上服務,可縮容至零。非同步 = 透過 Amazon S3 排隊的大型負載或長時間執行的線上請求。批次轉換 = 基於任務、無端點、一次處理完整資料集。「請求之間縮容至零」是 Serverless 的信號。「負載超過 6 MB」或「每個請求需要數分鐘處理」是非同步推論的信號。「每晚一次對全部客戶資料表進行評分」是批次轉換的信號。 Source ↗
Multi-Model Endpoints(MME)
Amazon SageMaker Multi-Model Endpoints 在單一端點後方托管多個模型,按需從共享的執行個體池中載入和卸載模型。最適合你擁有數千個類似模型(每個客戶的推薦模型、每個地區的預測模型)且任意時刻只有一部分處於熱狀態的情況。MME 大幅降低每個端點的成本,代價是對冷模型的第一次呼叫延遲略高。
Multi-Container Endpoints(MCE)
Amazon SageMaker Multi-Container Endpoints 在單一端點後方托管最多 15 個不同的容器,可透過容器名稱直接呼叫或串聯依序調用。適合將異質模型(例如一個 TensorFlow 模型加上一個 PyTorch 模型加上一個前處理器)整合在同一個 URL 後方。
Amazon SageMaker Shadow Testing
Amazon SageMaker Shadow Testing 將線上正式流量複製到執行候選模型的影子變體。影子變體的回應僅被記錄而不返回給使用者,因此你可以在不影響任何使用者的情況下,比較其延遲、錯誤率和輸出分佈與目前正式模型的差異。Shadow Testing 是 AWS 原生的安全方法,用於在將新模型切換至正式流量前進行驗證。
AIF-C01 信號:「以真實流量比較新模型與正式模型,但不影響使用者」→ Amazon SageMaker Shadow Testing。
Amazon SageMaker Inference Recommender
Amazon SageMaker Inference Recommender 會針對指定模型,跨數十種執行個體類型、批次大小和容器設定執行基準負載測試,並返回最佳的成本/效能組合。它取代了為 SageMaker 即時端點選擇執行個體家族時的猜測與驗證過程。
AIF-C01 信號:「我應該為端點選擇哪種執行個體類型?」→ Amazon SageMaker Inference Recommender。
Amazon SageMaker Model Monitor — 漂移偵測
Amazon SageMaker Model Monitor 監看已部署端點的四類漂移,並在任一漂移超過閾值時透過 Amazon CloudWatch 發出警示:
- 資料品質漂移 — 輸入特徵分佈與訓練基準不同。
- 模型品質漂移 — 預測準確度下降(需要真實標籤)。
- 偏差漂移 — 公平性指標(透過 Amazon SageMaker Clarify)退化。
- 特徵歸因漂移 — 驅動預測的特徵隨時間移位。
Amazon SageMaker Model Monitor 依排程執行(每小時或每天)。結果記錄至 Amazon S3 並在 Amazon SageMaker Studio 中彙整顯示。Model Monitor 是 MLOps 故事的漂移偵測那半部;Amazon SageMaker Pipelines 是重新訓練編排那半部。
Amazon SageMaker Model Monitor 監看線上端點的漂移。Amazon SageMaker Clarify 檢查偏差並解釋特徵重要性。Model Monitor 可呼叫 Clarify 進行偏差漂移監控,但兩個服務有各自明確的主要用途。在 AIF-C01 中,「端點準確度在部署三個月後下降」= Amazon SageMaker Model Monitor;「解釋為何模型對這位申請人預測貸款拒絕」= Amazon SageMaker Clarify。 Source ↗
Amazon SageMaker 平台 vs Amazon Bedrock — 決策矩陣
這是 AIF-C01 中被問到最頻繁的比較題。Amazon SageMaker 平台和 Amazon Bedrock 是 AWS 進入 AI 工作負載的兩個入口,但它們回答的是截然不同的問題。
| 維度 | Amazon SageMaker 平台 | Amazon Bedrock |
|---|---|---|
| 主要用途 | 建構、訓練、部署你自己的模型 | 透過 API 呼叫別人的基礎模型 |
| 所需 ML 專業程度 | 高(資料科學家、ML 工程師) | 低至中(開發人員、提示工程師) |
| 客製化程度 | 完整——從頭訓練、微調、自帶容器 | 有限——提示、對支援的 FM 進行微調、透過 Knowledge Bases 實現 RAG |
| 定價方式 | 按訓練和端點的執行個體小時計費 | 按輸入/輸出 Token 計費(隨需)或佈建輸送量 |
| 基礎設施可見度 | 你選擇執行個體類型和規格 | 完全抽象——無執行個體概念 |
| 基礎模型存取 | Amazon SageMaker JumpStart(將 FM 部署或微調為 SageMaker 端點) | 原生 Bedrock API |
| 生成式 AI 專用工具 | 透過 Amazon SageMaker JumpStart | Bedrock Guardrails、Knowledge Bases、Agents、Model Evaluation |
在以下情況使用 Amazon SageMaker 平台:
- 你需要以自有專有資料訓練的客製模型。
- 問題不屬於文字或圖片生成任務(表格預測、詐欺偵測、推薦系統)。
- 你需要對執行個體類型、VPC 設定和 MLOps Pipeline 擁有完整控制權。
- 你希望使用自己的訓練迴圈和超參數來微調基礎模型(JumpStart 路徑)。
在以下情況使用 Amazon Bedrock:
- 你需要生成式 AI 功能——文字、圖片、對話、摘要、程式碼。
- 你希望以僅 API 的方式存取預訓練基礎模型,無需 ML 基礎設施。
- 你需要 Bedrock 原生的 RAG、Agents 或 Guardrails。
Amazon SageMaker JumpStart 和 Amazon Bedrock 都可以使用基礎模型,AIF-C01 干擾選項正是利用這個重疊。區分規則:Amazon Bedrock 以無伺服器 API 的形式提供 FM,沒有執行個體概念;Amazon SageMaker JumpStart 將 FM 部署至你自行管理的 SageMaker 端點。當題目情境提到 SageMaker 端點、自訂微調迴圈或現有 SageMaker MLOps Pipeline 時,選 JumpStart。當題目情境提到無伺服器生成式 AI、Bedrock Knowledge Bases、Bedrock Agents 或 Bedrock Guardrails 時,選 Bedrock。 Source ↗
常見 Amazon SageMaker 平台考試陷阱
以下五個陷阱佔了 Amazon SageMaker 平台題目大部分的錯誤答案:
- Amazon SageMaker Studio vs Amazon SageMaker Canvas — 程式碼 IDE 對比無程式碼 UI。「沒有 Python 能力的商業分析師」永遠是 Amazon SageMaker Canvas。
- Amazon SageMaker Ground Truth vs Amazon Rekognition — 標注訓練資料對比執行預訓練圖片推論。Ground Truth 產生用於後續訓練的標籤;Rekognition 直接產生預測結果。
- 即時 vs Serverless vs 非同步 vs Batch Transform — 四種 Amazon SageMaker 推論選項對應不同的工作負載形態(詳見推論選項章節)。
- Amazon SageMaker JumpStart vs Amazon Bedrock — 兩者都能存取基礎模型;JumpStart 部署至 SageMaker 端點,Bedrock 是無伺服器 API。
- Amazon SageMaker Model Monitor vs Amazon SageMaker Clarify — 正式環境的漂移偵測對比偏差和可解釋性檢查。兩者都是負責任 AI 工具,但進入點不同。
關鍵數字與必記 Amazon SageMaker 事實
- Managed Spot Training:可中斷工作負載的訓練成本最多降低 90%。
- SageMaker Training Compiler:透過圖編譯最多縮短 50% 的訓練時間。
- 非同步推論:負載最高 1 GB、每個請求處理時間最長 1 小時,批次之間縮容至零。
- Multi-Model Endpoints:單一端點後方托管數千個模型,按需載入。
- Multi-Container Endpoints:單一端點後方最多 15 個不同容器。
- Feature Store:線上儲存具備 DynamoDB 等級延遲,離線儲存使用 Amazon S3 Parquet 格式。
- Ground Truth 自動標注:約 1,000 筆人工標注後,最多可降低 70% 的標注成本。
- Model Registry 狀態:PendingManualApproval、Approved、Rejected。
- Model Monitor 漂移類別:資料品質、模型品質、偏差、特徵歸因。
- Amazon SageMaker AI:2024 年起在新世代 Amazon SageMaker 傘式品牌下,對原有 SageMaker 服務的新品牌命名。
實戰情境練習 — Task 3.1 對應演練
情境 1:一家零售公司在訓練自訂分類器前,必須標注 30 萬張商品圖片。正確選擇:Amazon SageMaker Ground Truth。
情境 2:一位沒有 Python 經驗的行銷分析師,希望從 CSV 預測每月流失率。正確選擇:Amazon SageMaker Canvas。
情境 3:一個資料科學團隊希望以內部文件對 Meta Llama 進行微調,並將結果部署至有自訂 VPC 隔離的 SageMaker 端點。正確選擇:Amazon SageMaker JumpStart(基礎模型微調)搭配 Amazon SageMaker Training Jobs。
情境 4:一位 ML 工程師希望在 GPU 執行個體叢集上訓練數十億參數的語言模型,且不需要撰寫叢集管理程式碼。正確選擇:在 Amazon SageMaker HyperPod 上執行 Amazon SageMaker 分散式訓練。
情境 5:一個團隊希望藉由容忍偶爾中斷,降低非緊急電腦視覺模型的訓練成本。正確選擇:SageMaker Managed Spot Training。
情境 6:一個應用程式的客戶請求頻率低且不固定(每分鐘 0 到 5 次),且不能為閒置端點時間付費。正確選擇:Amazon SageMaker Serverless 推論。
情境 7:一條醫療影像 Pipeline 對 400 MB 的掃描圖像進行推論需要 20 分鐘。正確選擇:Amazon SageMaker 非同步推論。
情境 8:一個詐欺偵測團隊每晚一次對整個月份的交易資料表進行評分。正確選擇:Amazon SageMaker Batch Transform。
情境 9:一個 ML 平台托管 5,000 個每客戶推薦模型,任意時刻只有約 100 個處於活躍狀態。正確選擇:Amazon SageMaker Multi-Model Endpoints。
情境 10:在將新模型切換至正式環境前,團隊希望使用真實流量比較其延遲和輸出與目前模型的差異,但不影響任何使用者。正確選擇:Amazon SageMaker Shadow Testing。
情境 11:ML 團隊希望每月自動重新訓練模型,並附有核准閘門和血緣追蹤。正確選擇:Amazon SageMaker Pipelines 搭配 Amazon SageMaker Model Registry。
情境 12:一個已部署的信用風險模型在上線三個月後開始產生異常的預測分佈。正確選擇:Amazon SageMaker Model Monitor。
FAQ — Amazon SageMaker 平台最常見的七個問題
1. Amazon SageMaker 和 Amazon Bedrock 有什麼差異?
Amazon SageMaker 是用於建構、訓練和部署你自己模型的端對端 ML 平台——從表格式 XGBoost 到數十億參數的 LLM 都涵蓋在內。Amazon Bedrock 是無伺服器 API,讓你無需任何基礎設施即可呼叫預訓練基礎模型(Anthropic Claude、Meta Llama、Amazon Titan、Stability AI)。如果 AIF-C01 的情境提到訓練資料、Notebook、超參數或 SageMaker 端點,答案是 Amazon SageMaker。如果情境提到基礎模型、提示、生成式 AI 或 Bedrock Knowledge Bases,答案是 Amazon Bedrock。兩者可以整合:Amazon SageMaker JumpStart 為需要 SageMaker 風格基礎設施控制的團隊,將基礎模型部署至 SageMaker 端點。
2. 我什麼時候應該用 Amazon SageMaker Canvas 而不是 Amazon SageMaker Studio?
Amazon SageMaker Canvas 是為沒有程式設計能力的商業分析師和 BI 使用者而設計的。你上傳 CSV、選擇目標欄位、點擊「Build」。Amazon SageMaker Studio 是為撰寫 Python 的資料科學家和 ML 工程師而設計的。兩者都在 Amazon SageMaker 平台上建立模型,但 UI 針對不同使用者角色設計。在 AIF-C01 中,「無程式碼 ML」、「商業使用者」或「不需要 Python」指向 Canvas;「Jupyter Notebook」、「SDK 程式碼」或「完整 ML IDE」指向 Studio。
3. SageMaker Serverless 推論和非同步推論有什麼差異?
兩者都在請求之間縮容至零,但服務不同的工作負載。Serverless 推論適用於間歇性或不可預測流量的小型低延遲線上請求——負載小於 6 MB、回應時間在秒級、呼叫方同步等待。非同步推論適用於大型負載(最高 1 GB)和長時間處理(最長 1 小時)——呼叫方提交請求後 SageMaker 將其排入 Amazon S3 佇列,結果傳回至回呼 S3 位置。若題目提到負載大小或處理時間,選非同步推論。若提到縮容至零且低延遲 HTTP,選 Serverless。
4. SageMaker Model Monitor 如何偵測漂移?
Amazon SageMaker Model Monitor 在部署時建立基準(輸入特徵統計、預測結果,以及若有標籤則包含準確度)。依排程(每小時或每天),Model Monitor 對線上端點流量進行取樣、計算相同的統計數字,並與基準進行比較。超過閾值的偏差會觸發 Amazon CloudWatch 警示。Model Monitor 支援四種監控類型:資料品質、模型品質、偏差漂移(透過 Amazon SageMaker Clarify),以及特徵歸因漂移。
5. SageMaker JumpStart 是什麼,它與 Amazon Bedrock 有什麼關係?
Amazon SageMaker JumpStart 是Amazon SageMaker 平台內的預訓練模型中心。JumpStart 讓你將基礎模型(Meta Llama、Amazon Titan、Falcon、Stable Diffusion)部署或微調為你自行管理的 Amazon SageMaker 端點。相比之下,Amazon Bedrock 以無伺服器 API 的形式提供基礎模型,沒有執行個體概念。當你需要 SageMaker 風格的控制(VPC 隔離、自訂微調迴圈、現有 SageMaker MLOps)時使用 JumpStart;當你希望無基礎設施、使用 Bedrock 原生 RAG Knowledge Bases 或 Bedrock Guardrails 時使用 Bedrock。
6. SageMaker 的四種推論選項分別在什麼情況下使用?
Amazon SageMaker 平台提供四種推論模式。即時端點 — 持久性 HTTPS 端點,適用於穩定低延遲的線上流量。Serverless 推論 — 縮容至零,適用於間歇性/不可預測流量。非同步推論 — 透過 Amazon S3 排隊,適用於大型負載或長時間處理。Batch Transform — 基於任務的整資料集評分,無持久性端點。另外還有 Multi-Model Endpoints(單一端點托管多個模型)和 Multi-Container Endpoints(單一端點最多 15 個容器)作為部署變體。
7. 如果我已經使用 AWS CodePipeline,還需要 Amazon SageMaker Pipelines 嗎?
通常需要,因為兩者在不同的層次上運作。AWS CodePipeline 編排通用軟體發布工作流程(程式碼 → 建構 → 部署)。Amazon SageMaker Pipelines 編排 ML 專屬的生命週期——資料處理、訓練、評估、模型登錄、核准閘門——並具備原生 SageMaker 步驟類型、自動成品血緣追蹤和步驟快取。常見的模式是在外層使用 CodePipeline,在有新資料到達時觸發 SageMaker Pipelines 執行。在 AIF-C01 中,有關「帶有血緣和核准功能的 ML 專屬 CI/CD」的題目,答案指向 Amazon SageMaker Pipelines 搭配 Amazon SageMaker Model Registry。
延伸閱讀
- Amazon SageMaker Developer Guide — https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html
- Amazon SageMaker Studio — https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html
- Amazon SageMaker Data Wrangler — https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler.html
- Amazon SageMaker Ground Truth — https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html
- Amazon SageMaker Feature Store — https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html
- SageMaker Training Jobs — https://docs.aws.amazon.com/sagemaker/latest/dg/train-model.html
- Managed Spot Training — https://docs.aws.amazon.com/sagemaker/latest/dg/model-managed-spot-training.html
- Distributed Training — https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training.html
- SageMaker Training Compiler — https://docs.aws.amazon.com/sagemaker/latest/dg/training-compiler.html
- SageMaker JumpStart — https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart.html
- SageMaker Canvas — https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
- SageMaker Autopilot — https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development.html
- SageMaker Pipelines — https://docs.aws.amazon.com/sagemaker/latest/dg/pipelines.html
- SageMaker Model Registry — https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry.html
- Real-time Endpoints — https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html
- Serverless Inference — https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html
- Asynchronous Inference — https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html
- Batch Transform — https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html
- Multi-Model Endpoints — https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints.html
- Multi-Container Endpoints — https://docs.aws.amazon.com/sagemaker/latest/dg/multi-container-endpoints.html
- Shadow Testing — https://docs.aws.amazon.com/sagemaker/latest/dg/shadow-tests.html
- Inference Recommender — https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html
- Model Monitor — https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor.html
- AWS AIF-C01 Exam Guide — https://d1.awsstatic.com/training-and-certification/docs-ai-practitioner/AWS-Certified-AI-Practitioner_Exam-Guide.pdf
總結
Amazon SageMaker 平台以單一托管服務家族覆蓋整個 ML 生命週期,目前在新世代 Amazon SageMaker 傘式品牌下以 Amazon SageMaker AI 命名。使用 Amazon SageMaker Data Wrangler 和 Amazon SageMaker Ground Truth 準備資料;將特徵存入 Amazon SageMaker Feature Store 以消除訓練/服務偏差;透過 Amazon SageMaker Training Jobs 進行訓練,利用 Managed Spot Training 控制成本、Amazon SageMaker Training Compiler 提升速度,以及分散式訓練(或 Amazon SageMaker HyperPod)實現規模化。以 Amazon SageMaker JumpStart 從預訓練模型出發,或透過 Amazon SageMaker Canvas(以 Amazon SageMaker Autopilot 為後端)完全略過程式碼。以 Amazon SageMaker Pipelines 搭配 Amazon SageMaker Model Registry 自動化重新訓練、進行版本控制與設置核准閘門。透過四種端點類型提供推論——即時、無伺服器、非同步、批次轉換——以及 Multi-Model 和 Multi-Container 變體。以 Amazon SageMaker Shadow Testing 降低發布風險,以 Amazon SageMaker Inference Recommender 為運算資源選出合適規格。透過 Amazon SageMaker Model Monitor 監看正式環境的漂移。對 AIF-C01 而言,最重要的單項技能是 Amazon SageMaker 平台對比 Amazon Bedrock 的判斷——客製模型訓練走 Amazon SageMaker 平台,無伺服器基礎模型 API 走 Amazon Bedrock——其次是四種推論選項的對應,AWS 在幾乎每一道 Task 3.1 情境題中都會考到。