ML 資料品質、完整性與標籤是 MLA-C01 Domain 1(ML 資料準備,28% 比重)的第三支柱,直接對應 Task 1.3——「確保資料完整性並為建模準備資料」。來自 K21 Academy 和 Pluralsight 的社群學習指南一致認為這個面向準備不足,考生過度關注 Glue ETL 和 Feature Store,而草率帶過資料品質和標籤的內容。考試用形如「模型在評估時準確,但兩週後在產品中降級」的情境題懲罰這個缺口——正確答案是一個應該在有缺陷的資料集到達訓練器之前就讓管線失敗的資料品質規則。
本指南涵蓋 ML 脈絡中的資料品質含義、考試期待你知道的五個品質維度、AWS Glue Data Quality 如何在管線規模執行規則、SageMaker Data Wrangler 如何互動式呈現品質報告、schema 驗證和資料合約如何防止型別漂移、SageMaker Model Monitor baselines 如何把訓練時的資料品質連結到產品漂移偵測、SageMaker Ground Truth 和 Ground Truth Plus 中的四條標籤路徑、自動化標籤搭配 active learning、用 Macie 和 Comprehend 處理 PII 與 PHI 合規,以及 AWS Config 強制執行的資料駐留規則。每個章節都對應一個特定的 MLA-C01 陷阱。
什麼是 ML 資料品質?
ML 資料品質是確保訓練資料在準確、完整、一致、及時且唯一後才訓練模型的規範。資料品質差是大多數產品 ML 失敗的根本原因——遠多於演算法選擇或超參數調整。一個在 30% 特徵缺失或一個客戶區段的標籤欄位被靜默翻轉的資料集上訓練的模型,會產生在評估中看起來合理但在部署後降級的預測。因此,資料品質是 MLA-C01 考試測試的第一個 ML 工程規範,因為後面的所有管線階段都假設資料是乾淨的。
為何資料品質是大多數模型降級的根本原因
針對失敗產品模型的產業調查一致把資料問題——缺失值、schema 漂移、標籤錯誤的記錄、training-serving skew——識別為主要失敗模式。演算法是商品;資料是差異化優勢。投資於品質閘、schema 驗證和標籤規範的 ML 工程團隊,能推出在產品中存活的模型;沒有投資的團隊,推出的模型看起來在上線前很好,然後悄悄腐爛。考試反映了這個現實。
五個資料品質維度
你必須記住的五個品質維度:
- 完整性(Completeness) — 每個必填欄位都有值;缺失值比率低於閾值。
- 準確性(Accuracy) — 值反映真實情況;例如郵遞區號與城市對應。
- 一致性(Consistency) — 相同實體在不同列和資料表中有相同的表示;用戶 ID 在一個資料流中不能是「USR-123」,在另一個中是「user_123」。
- 及時性(Timeliness) — 資料在可接受的新鮮度窗口內到達;昨天的訓練集是新鮮的,上季度的就不是。
- 唯一性(Uniqueness) — 主鍵是唯一的;重複列不會扭曲模型擬合。
Glue Data Quality 和 Data Wrangler 品質報告都圍繞這些維度組織其檢查。
白話文解釋 ML 資料品質
資料品質是六個 AWS 服務爭奪同一段落的主題。三個具體類比讓結構更清晰。
類比一 — 餐廳的衛生檢查
想像一家忙碌的餐廳。每天開餐前,主廚進行開班檢查——冰箱溫度在範圍內、食材在保鮮期內、刀具鋒利、備料份量符合當天預測。如果任何檢查失敗,廚房不開門,直到問題解決。這個檢查就是 AWS Glue Data Quality——一個在下游消費之前執行的定義規則集,如果資料不符合規格就阻止管線。主廚用來驗證醬汁收稠是否正確的試吃湯匙,就是 SageMaker Data Wrangler 的品質報告——在食譜開發中互動式採樣和視覺確認。
突擊檢查的衛生稽查員就是 AWS Config——自動、排程的合規檢查,評估資源是否符合政策。在冰箱裡找未標記過敏原的稽查員就是 Amazon Macie——掃描儲存空間尋找不應該存在的敏感內容。確認桌上的菜餚是否符合客人點餐的美食評論家,就是 SageMaker Ground Truth——把標記好的交付物與真實規格進行比較。
如果主廚跳過早班檢查,廚房就會出餐不安全的食物,客人會生病(模型在產品中降級)。如果主廚偽造檢查文件,稽查員會發現並關閉餐廳(審計失敗)。每個班次、每道菜都徹底執行每個檢查的規範,就是讓餐廳持續運作的方法——也是讓 ML 系統保持產品級運作的方法。
類比二 — 藥廠的品質管制實驗室
想像一家藥品製造工廠。每批 API(活性藥物成分)都要通過品質管制實驗室,依照書面規格測量純度、效力、無菌性和溶解速率。不符規格的批次被隔離,從不出貨。QC 實驗室就是 Glue Data Quality——每批次是一個訓練執行的資料集,每個檢查是一條規則,例如「customer_id 欄位的完整性 ≥ 99%」或「transaction_amount 的均值在歷史基準的 ±2 個標準差內」。
隨每批次出具的**分析證書(CoA)**就是 Data Wrangler 品質報告——一份記錄 QC 團隊測量和簽核內容的快照文件。存在監管檔案中的已簽署批次記錄就是 SageMaker Model Monitor baseline——一個保存的統計參考,下游產品監控用它比較持續的批次以偵測漂移。讓調查員追蹤受污染批次的每瓶標籤追蹤系統,就是 AWS Config 和 CloudTrail——記錄哪個資料集用於訓練哪個模型以及它被部署到哪裡的審計鏈。
掃描倉庫尋找未標記或過期產品的合規官,就是掃描 S3 儲存桶的 Macie,尋找不應出現在訓練資料中的 PII。教導新實驗室技術員識別摻假原料的培訓計畫,就是 SageMaker Ground Truth——讓人類在工作流程中產生標記資料,讓自動化系統學習什麼是好的和壞的。每個步驟都是強制性的;跳過任何一個都會讓患者(產品模型及其最終用戶)面臨風險。
類比三 — 大學博士論文答辯
想像一個準備博士論文的研究生。他們收集的資料就是訓練資料集。論文委員會有規則——方法論必須可靠(資料品質)、引用必須完整(完整性)、各章節的引用必須一致(一致性)、資料必須來自相關年代(及時性),且沒有來源可以抄襲或重複(唯一性)。委員會在學生撰寫最終論文前的提案答辯時執行這些檢查,在授予學位前的最終答辯時再次執行。每次答辯都是可以阻止進展的品質閘。
提案答辯就是攝取時的 Glue Data Quality——在繁重工作發生之前快速失敗。最終答辯就是 Model Monitor baseline 建立加漂移偵測——工作完成後,持續與保存的基準比較以偵測產品中的偏差。批准人類受試者資料使用的機構審查委員會(IRB)就是 Macie 加 Comprehend PII 偵測——明確驗證敏感資料在倫理和監管規則範圍內處理。教導學生如何引用的圖書館員就是 SageMaker Ground Truth 標籤指南——記錄的標準,讓在同一領域工作的許多研究生產生一致的高品質標記資料。
通過提案答辯、最終答辯和 IRB 批准的論文是一份可辯護的學術貢獻。通過攝取時 Glue Data Quality、訓練時 Model Monitor baseline 和儲存時 Macie 掃描的 ML 模型是一個可辯護的產品系統——兩者都建立在每個階段執行每個檢查的相同規範上。
AWS Glue Data Quality — 管線規模的品質執行
AWS Glue Data Quality 是用於在管線規模定義和執行資料品質規則的 AWS 原生服務。
內建規則類型
Glue Data Quality 附帶大約二十種內建規則類型,對應五個品質維度:
- 完整性規則 —
Completeness "column" > 0.95要求至少 95% 的值被填充。 - 唯一性規則 —
Uniqueness "column" > 0.99要求近乎唯一的值。 - 範圍規則 —
ColumnValues "column" between X and Y。 - 模式規則 —
ColumnValues "column" matches "[regex]"。 - 統計規則 —
Mean "column" between X and Y或StandardDeviation "column" between X and Y。 - 新鮮度規則 — 資料集之間的
RowCountMatch或DataFreshness對最後更新時間戳記。 - 外鍵規則 — 兩個資料表之間的
ReferentialIntegrity。
規則用 DQDL(Data Quality Definition Language)撰寫,這是為這些檢查專門建構的領域特定語法。
Glue Data Quality 如何執行
你把規則集附加到 Glue Data Catalog 資料表,或在 Glue ETL job 中內嵌定義。當 job 執行時,規則集對資料進行評估,產出分數(通過的規則百分比)和報告(每條規則的通過或失敗,帶有違規列計數)。你設定 job 在分數低於閾值時失敗並停止,或繼續但發出 CloudWatch 事件進行非同步處理。Fail-stop 模式是產品 ML 管線的正確預設——你不想在品質失敗的資料集上訓練模型。
與 SageMaker Pipelines 的整合
Glue Data Quality job 是 SageMaker Pipelines DAG 早期步驟的自然選擇:攝取 → 品質檢查 → 訓練資料準備 → 訓練 → 評估 → registry → 部署。ConditionStep 可以根據 Data Quality 分數分支,把壞資料送到補救佇列,把好資料送到訓練。這是標準的 MLOps 模式,也是考試中大量測試的情境。
Glue Data Quality 不是什麼
Glue Data Quality 在 Data Catalog 或 Glue ETL job 上下文中批次處理靜態資料。它不即時監控 streaming 資料(對此使用 Kinesis Data Analytics 或自訂 Lambda),也不驗證已部署模型的推理輸入是否符合訓練分佈(那是 SageMaker Model Monitor 的工作)。考試測試這個差異:「如何偵測產品輸入漂移」的題目答案是 Model Monitor,不是 Glue Data Quality。
AWS Glue Data Quality 在管線規模強制執行資料品質規則,是 ML 訓練「如果資料壞了就讓管線失敗」的標準閘。 規則用 DQDL 定義,涵蓋完整性、唯一性、新鮮度、模式匹配、統計界限和引用完整性。Glue Data Quality 在 Data Catalog 或 Glue ETL 的批次資料上執行——它不監控 streaming 輸入,也不偵測產品推理漂移。對推理時的漂移偵測,使用帶有 baseline 的 SageMaker Model Monitor;對 ML 管線閘控,使用 Glue Data Quality。
SageMaker Data Wrangler 品質報告 — 互動式品質介面
SageMaker Data Wrangler 是互動式特徵工程工具,其品質和洞察報告是 Glue Data Quality 的互動式補充。
報告顯示的內容
Data Wrangler 品質報告顯示:
- 缺失值摘要 — 每個欄位的缺失百分比。
- 異常值偵測 — 每個數值欄位超出統計界限的值。
- 類別不平衡 — 分類資料集的標籤類別分佈。
- 特徵目標相關性 — 每個特徵與標籤的相關程度。
- 特徵間相關性 — 輸入特徵的多重共線性風險。
- 異常樣本 — 被標記為異常值的特定列,可內嵌查看。
- Quick model — 快速 XGBoost 基準,顯示任何特徵工程之前的預測提升。
何時使用 Wrangler 報告 vs Glue Data Quality
在資料科學家在 Studio 中互動式塑造特徵的探索性資料分析中使用 Data Wrangler 品質報告——它是人在迴路的、基於採樣的和資訊性的。在自動化檢查必須在無人工審查的情況下通過或失敗的產品管線中使用 Glue Data Quality——它在完整規模上確定性地執行,並與管線協調整合。兩者相輔相成:資料科學家在 Wrangler 中探索,把發現提煉成 DQDL 規則,規則保護後續的產品管線。
Schema 驗證與資料合約
Schema 驗證是統計品質之下的結構層。
Schema 驗證的內容
Schema 宣告資料集的預期型別和結構:欄位名稱、型別(string、integer、float、boolean)、可空性和可接受的枚舉值。Schema 驗證拒絕結構不符的記錄——在宣告為 integer 的欄位中有 string 值的記錄,在任何統計檢查執行之前就被拒絕。
Glue Data Catalog 作為 Schema 來源
Glue Data Catalog 是 AWS 分析和 ML 的中央 schema registry。Glue Crawlers 從資料推斷 schema 並登錄它們;你也可以明確定義 schema。下游消費者——Athena、EMR、SageMaker Processing——從 catalog 讀取 schema。Schema 漂移(新欄位出現、型別變更)可透過隨時間比較 crawler 執行來偵測。
跨團隊的資料合約
資料合約是資料生產者和資料消費者之間的協議,固定 schema、新鮮度 SLA 和品質規則。在 AWS 上實際執行時,合約被編碼為:Glue Data Catalog 資料表定義(schema)、Glue Data Quality 規則集(品質)和 EventBridge 排程加新鮮度規則(及時性)。生產者承諾維護三者;消費者承諾優雅地處理失敗。資料合約是 MLOps 成熟度實踐,也是新興的考試主題。
Schema 演進機制
當 schema 必須變更時——新增欄位、欄位重新命名、型別擴寬——schema 演進規則管理如何進行。向後相容的變更(新增可為空的欄位)是安全的;破壞性變更(移除欄位、縮窄型別)需要協調的生產者和消費者更新。Glue Schema Registry(與 Data Catalog 不同)管理帶有相容性規則的版本化 schema,是跨許多生產者和消費者演進 schema 的正確工具。
SageMaker Model Monitor Baseline — 橋接訓練與產品
SageMaker Model Monitor baselines 是訓練時資料品質與產品漂移偵測之間的連結。
什麼是 Baseline
Baseline 是訓練資料集統計屬性的保存快照——欄位均值、標準差、唯一值計數、缺失值比率等等。Baseline 透過 SuggestBaseline Processing job 計算一次,作為 constraints JSON 和 statistics JSON 保存到 S3。
Model Monitor 如何使用 Baseline
部署後,Model Monitor 排程定期對捕獲的推理輸入執行。它把推理輸入統計與 baseline 統計進行比較;如果任何特徵的均值、分佈或唯一計數漂移超出 baseline 的約束閾值,monitor 就發出 CloudWatch 指標和違規報告。這是產品資料品質監控——訓練時 Glue Data Quality 的執行時補充。
模型更新後必須重新產生 Baseline
一個常見的 bug:團隊在稍微不同的資料集上訓練了一個新模型,部署了新模型,但忘記重新產生 baseline。Monitor 現在把推理輸入與舊 baseline 比較,並發出持續的偽陽性漂移警報。規範做法是:每次模型重新訓練都要重新產生 baseline 作為 Pipeline 步驟。
每次 SageMaker 模型重新訓練都必須重新產生 Model Monitor baseline,否則產品漂移偵測會把推理輸入與過時的訓練統計進行比較,並產生偽警報。 Baseline 是綁定到特定訓練資料集的快照;當訓練資料集改變時(新特徵、更新記錄、schema 演進),baseline 對新模型就失效了。SageMaker Pipelines 中的標準模式是:訓練步驟 → baseline 重新產生步驟(在相同訓練資料集上的 SuggestBaseline Processing job)→ 模型登錄步驟 → 條件式部署。跳過 baseline 步驟是最常見的 MLOps bug 之一,也是熱門的 MLA-C01 考試陷阱。
SageMaker Ground Truth — 人工標籤工作流程
SageMaker Ground Truth 是 AWS 原生的資料標籤服務。
標籤 Job 類型
Ground Truth 支援常見任務的內建標籤 job 範本:
- 圖像分類 — 給圖像分配一個或多個標籤。
- Bounding box — 在圖像中的物件周圍畫矩形。
- 語義分割 — 圖像區域的像素級標籤。
- 文字分類 — 給文字區段或整個文件分配標籤。
- 命名實體識別 — 標記文字中的實體(人物、地點、組織)。
- 視頻分類和追蹤 — 幀級或物件級視頻標籤。
- 3D 點雲標注 — 標記 LiDAR 資料,用於自動駕駛。
- 自訂工作流程 — 透過 Liquid 範本引入你自己的標籤 UI。
工作人員選項
三種工作人員類型:透過 Amazon Mechanical Turk 的公共工作人員(最便宜、最低隱私、適合非敏感資料)、你自己的員工或合作者的私有工作人員(最高控制、適合敏感資料)以及透過 AWS Marketplace 的廠商工作人員(具有醫療影像或法律文件等領域專業的專業廠商)。
RLHF 工作流程
透過 Ground Truth 的偏好排名標籤任務支援人類回饋強化學習(RLHF)——工作人員比較兩個模型輸出並選擇首選的,產生用於微調大型語言模型的偏好資料。鑒於 Bedrock 和 JumpStart 的重要性,RLHF 是新興的 MLA-C01 主題。
Active Learning 與自動化標籤
Ground Truth 的自動化標籤功能使用兩模型 active learning 循環。隨著工作人員標記一組起始記錄,一個內部模型在那些標籤上訓練並預測未標記記錄的標籤。模型有信心(高於信心閾值)的記錄被自動標記;低於閾值的記錄被送給人工。隨著更多人工標籤的積累,模型改進,自動標記率提高。結果:大型資料集的標籤成本降低 30-70%,同時品質與完全人工標籤相當。Active learning 有最小資料集大小要求(通常是數千條記錄),且只適用於特定任務類型。
Ground Truth Plus
Ground Truth Plus 是完全託管的標籤選項——AWS 提供工作人員、標籤說明、品質保證和專案管理。你交出資料和要求;AWS 在約定的 SLA 內返回標記好的資料。當你沒有標籤團隊且標籤不是你的核心能力時使用它。每個標籤的單價更高,但總成本(無需內部雇用和管理團隊)通常更低。
對任何超過幾千條記錄的資料集使用 Ground Truth 自動化標籤——相比完全人工標籤節省 30-70% 的成本是相當可觀的,品質差異很小。 Active learning 只把模糊的記錄送給人工,而有把握的記錄由內部模型自動標記。資料集大小閾值因任務類型而異——圖像分類約需 1,250 個最小值,bounding box 約 5,000,語義分割約 2,000。低於這些大小,需要純人工標籤。MLA-C01 考試中,「高效標記 100,000 張圖像」的情境指向自動化標籤;「標記 500 條高度敏感的醫療記錄」的情境指向私有工作人員、完全人工、無自動化。
訓練資料中的 PII 與 PHI 合規
PII(個人識別資訊)和 PHI(受保護的健康資訊)處理是 K21 Academy 指出準備不足的資料完整性面向。
Amazon Macie 用於 S3 敏感資料發現
Amazon Macie 掃描 S3 儲存桶並發現敏感資料——信用卡號碼、SSN、姓名、地址、健康記錄模式、API 金鑰等秘密。發現結果發布到 Security Hub 和 EventBridge 進行自動補救。Macie 只涵蓋 S3;它不掃描 streaming 資料、RDS 或其他來源。
Comprehend PII 偵測與編修
Amazon Comprehend 有專用的 PII 偵測 API,可以識別並選擇性編修文字中的 PII。流程:Lambda 或 Glue job 讀取訓練文字,呼叫 Comprehend ContainsPiiEntities 或 DetectPiiEntities,並用編修 token 取代識別的區段。對準備用於 NLP 訓練的文字資料使用 Comprehend;對批次 S3 發現使用 Macie。
資料駐留與區域固定
監管制度(GDPR、HIPAA、區域資料主權法)通常要求資料留在特定的 AWS 區域。執行層是:
- AWS Config 規則 —
s3-bucket-cross-region-replication-enabled加上驗證複製目標是否為已批准區域的自訂規則。 - S3 儲存桶策略 —
aws:RequestedRegion條件拒絕來自不允許區域的存取。 - OU 層級的 SCPs — 拒絕向非批准區域的
s3:PutBucketReplication和拒絕在允許區域外的 SageMaker 操作。
加密不等於完整性
一個常見的考生混淆:假設 KMS 加密保護資料完整性。加密保護機密性——未授權的讀取者無法讀取資料。完整性是獨立的保證——資料未被修改。KMS 在解密後無法偵測篡改;完整性需要雜湊、簽名或 WORM 儲存。Macie 也不處理完整性;它處理的是敏感性發現。ML 訓練資料的完整性透過 schema 驗證、Glue Data Quality 規則和不可變存檔的 S3 Object Lock 來強制執行。
Macie 掃描 S3 中的靜態資料,不是即時掃描器——流過 Kinesis 或 Firehose 的資料在落地 S3 之前不會被 Macie 偵測到。 工程師通常假設 Macie 監控「資料」,卻沒意識到 streaming 管線需要單獨的 PII 處理,通常是在每批次傳遞到 S3 之前呼叫 Comprehend 的 Lambda 轉換。考試把這個設定為情境:「我們需要在 streaming 資料到達 ML 訓練儲存桶之前對其進行 PII 編修」——答案是呼叫 Comprehend 的 Firehose Lambda 轉換,不是 Macie。Macie 的角色是事後發現——它找到已落地且不應該在那裡的東西。對預防使用 streaming 中的 Comprehend;對靜態偵測使用 Macie。
資料品質、完整性與標籤的常見考試陷阱
MLA-C01 考試在這個面向設置了一套反覆出現的陷阱。把它們都記住。
陷阱一 — 資料完整性等於加密
錯。加密保護機密性。完整性防止篡改,透過雜湊、schema 驗證和不可變儲存來強制執行。KMS 加密 S3 儲存桶並不能阻止授權的寫入者損壞資料。
陷阱二 — Macie 即時掃描 Stream
錯。Macie 是 S3 靜態掃描器。Stream 上的即時 PII 偵測在 Firehose Lambda 轉換中使用 Comprehend。
陷阱三 — Glue Data Quality 偵測產品漂移
錯。Glue Data Quality 在訓練前的管線批次資料上執行。產品推理漂移偵測是 SageMaker Model Monitor 的工作。
陷阱四 — Ground Truth 公共工作人員用於敏感資料
錯。Mechanical Turk 的公共工作人員只適合非敏感資料。敏感資料(PII、PHI、內部文件)需要私有工作人員或帶適當廠商協議的 Ground Truth Plus。
陷阱五 — 自動化標籤適用於任何資料集大小
錯。自動化標籤因任務類型有最小資料集大小要求(通常 1,000 到 5,000 條記錄)。低於最小值,需要完全人工標籤。
陷阱六 — Schema 驗證與資料品質是同一回事
錯。Schema 驗證結構(型別、欄位、可空性)。資料品質驗證統計屬性(完整性、分佈、範圍)。兩者都需要——Schema 先作為快速閘,然後才是品質。
陷阱七 — Model Monitor Baseline 建立一次就好
錯。每次模型重新訓練都要重新產生 baseline。針對新模型的過時 baseline 產生持續的偽陽性漂移警報。
陷阱八 — Ground Truth Plus 只是更貴的 Ground Truth
錯。Ground Truth Plus 是 AWS 提供工作人員和專案管理的託管服務。Ground Truth 需要你自己提供和管理工作人員。
陷阱九 — Comprehend PII 偵測適用於任何語言
部分正確。Comprehend PII 偵測支援特定語言——主要是英文加上較小的一組,包括西班牙文、法文、德文、義大利文、葡萄牙文等。在圍繞它設計工作流程之前驗證語言支援。
陷阱十 — AWS Config 自動執行資料駐留
錯。Config 偵測不合規,但不阻止操作。阻止需要 SCPs、IAM 條件或 S3 儲存桶策略。Config 是審計和偵測層;SCPs 是執行層。
五個資料品質維度是完整性、準確性、一致性、及時性和唯一性——每條 Glue Data Quality 規則和每個 Data Wrangler 品質報告檢查都對應其中之一。 記住這個列表,因為考試圍繞個別維度提問:「資料集有重複的客戶列」是唯一性;「資料集來自上季度」是及時性;「30% 的值為空」是完整性;「值超出合理範圍」是準確性;「不同列的用戶 ID 格式不同」是一致性。每個都對應一個特定的 Glue Data Quality 規則類型。知道維度讓你在考試時間壓力下快速選出規則類型。
必記資料品質關鍵數字與事實
五個資料品質維度
- 完整性(Completeness)
- 準確性(Accuracy)
- 一致性(Consistency)
- 及時性(Timeliness)
- 唯一性(Uniqueness)
AWS Glue Data Quality
- DQDL(Data Quality Definition Language)語法
- 約二十種內建規則類型
- 分數加上每條規則的報告
- Fail-stop 或 continue-and-emit-event 模式
- 透過 ConditionStep 與 SageMaker Pipelines 整合
SageMaker Data Wrangler 品質報告
- 互動式、基於採樣
- 呈現缺失值、異常值、類別不平衡、相關性
- 包含 Quick model 基準
- 補充 Glue Data Quality,不是取代
Schema 驗證
- Glue Data Catalog 作為中央 schema registry
- Glue Schema Registry 用於版本化 schema 演進
- 向後相容的變更安全;破壞性變更需要協調
SageMaker Model Monitor Baseline
- 透過 SuggestBaseline Processing job 計算
- S3 中的 constraints JSON 加 statistics JSON
- 每次模型重新訓練都必須重新產生
- 把產品推理輸入與訓練統計比較
SageMaker Ground Truth
- 圖像、文字、視頻、3D 點雲的內建範本
- 三種工作人員:公共(Mechanical Turk)、私有、廠商
- Active learning 自動化標籤削減成本 30-70%
- Ground Truth Plus 由 AWS 完全託管
PII 和 PHI 合規
- Macie 掃描 S3 靜態,不掃描 stream
- Comprehend PII 內嵌文字編修
- AWS Config 偵測,SCPs 執行
- 加密不等於完整性
MLA-C01 exam priority — ML 資料品質、完整性與標籤 — MLA-C01 ML Engineer 學習筆記. This topic carries weight on the MLA-C01 exam. Master the trade-offs, decision boundaries, and the cost/performance triggers each AWS service exposes — the exam will test scenarios that hinge on knowing which service is the wrong answer, not just which is right.
FAQ — ML 資料品質、完整性與標籤常見問題
Q1 — 何時應使用 Glue Data Quality 而非 SageMaker Data Wrangler 品質報告?
對自動化、確定性的產品管線閘使用 Glue Data Quality——它作為 ML 管線中的一個步驟執行,評估定義的規則集,如果品質低於閾值就讓管線失敗。對資料科學家在 Studio 中塑造特徵的互動式探索性資料分析使用 Data Wrangler 品質報告——它對資料採樣、呈現視覺化,並支援人在迴路的調查。兩者相輔相成:資料科學家在 Wrangler 中探索,識別品質風險,把它們提煉成 DQDL 規則,規則保護後續的 Glue Data Quality job。考試設置你必須選一個的情境——互動式探索是 Wrangler,自動化管線閘控是 Glue Data Quality。
Q2 — 如何在資料漂移影響產品模型準確率之前偵測它?
兩個互補的機制。在管線層,對最新資料集執行帶統計規則(均值、標準差、分佈)的 Glue Data Quality,並把分數與歷史分數比較——突然下降表明分佈偏移。在產品推理層,執行帶有 baseline 的 SageMaker Model Monitor;Monitor 評估捕獲的推理輸入與訓練時 baseline,並對漂移發出 CloudWatch 指標。管線在重新訓練前捕獲漂移;monitor 在推理期間即時捕獲漂移。兩者都需要以獲得完整覆蓋。管線是預防性的(不在漂移的資料上訓練);monitor 是偵測性的(如果產品輸入從訓練假設漂移則發出警報)。
Q3 — 何時應使用 Ground Truth 而非 Ground Truth Plus?
如果你有內部標籤團隊或已建立的廠商關係、想對標籤說明和品質保證有細粒度的控制,且有持續的標籤需求,使用 Ground Truth。如果你沒有標籤團隊、需要快速完成標籤而無需建立基礎設施,或有一次性的標籤專案,使用 Ground Truth Plus。Ground Truth Plus 是完全託管的——AWS 提供工作人員、標籤工具設定、品質保證和專案管理。每個標籤的單價更高,但總專案成本(無需雇用團隊、無需建立工具)通常更低。考試設置由客戶的運營成熟度決定答案的情境——擁有現有標籤人員的大型 ML 團隊選 Ground Truth,沒有標籤員工的精簡團隊選 Plus。
Q4 — 如何在不破壞模型效能的情況下處理訓練資料中的 PII?
三種互補策略。編修——在訓練前用佔位符 token 取代 PII 區段;模型從結構學習,但從不看到實際值。使用 Comprehend DetectPiiEntities 識別區段並內嵌取代。Tokenization——用確定性 token 取代 PII,保持引用完整性(相同的電子郵件始終映射到相同的 token),但不洩露底層身份。使用 AWS 管理的 tokenization 或用 KMS 加密的查詢表建構。合成替換——用合成資料生成器的逼真但虛假的值取代 PII。選擇取決於模型是否需要從 PII 中的模式學習(使用 tokenization 或合成)或 PII 是附帶的可以移除(使用編修)。Macie 事後掃描訓練儲存桶作為最終合規閘,確認沒有 PII 漏網。
Q5 — 如何強制執行 ML 訓練資料的資料駐留?
三層控制。AWS Organizations 層級的 SCPs 拒絕向批准區域外的儲存桶的 s3:PutObject 以及在批准區域外的 sagemaker:CreateTrainingJob——在操作發生前阻止它。AWS Config 管理規則如 s3-bucket-cross-region-replication-enabled 和自訂規則偵測不合規,在 Security Hub 中浮現,並觸發 SSM 自動補救。帶有 aws:RequestedRegion 條件的 S3 儲存桶策略拒絕來自非批准區域的存取。這個組合阻止資料離開批准區域、偵測意外的策略缺口,並在請求層強制執行。考試用 GDPR 或金融法規駐留要求的題幹測試這個,答案必須包含所有三層。
Q6 — Ground Truth 自動化標籤何時比純人工標籤省錢?
當資料集足夠大到可以攤銷訓練內部 active learning 模型的成本時,自動化標籤才值得——通常視任務類型需要最少 1,000 到 5,000 條記錄。低於最小值,需要純人工標籤,因為 active learning 模型無法達到有用的信心。超過最小值,典型節省 30-70%,品質與人工標籤相當,因為自動標記的記錄只有內部模型高度有信心的那些——人工標記模糊的尾端。對標籤成本是重要預算項目的大型資料集選自動化標籤;對自動化不達規模閾值的小型高風險資料集選純人工。
Q7 — 如何把訓練時的資料品質與產品漂移偵測連結起來?
機械連結是從訓練資料集產生的 SageMaker Model Monitor baseline。流程:在訓練時,對訓練資料執行 SuggestBaseline Processing job,產生 S3 中的 constraints JSON 和 statistics JSON。模型被部署,endpoint 上啟用資料捕獲,Model Monitor 排程定期執行。Monitor 把捕獲的推理輸入與 baseline 比較,並對漂移發出 CloudWatch 指標。關鍵是每次模型重新訓練都要對新訓練資料集重新產生 baseline——過時的 baseline 產生持續的偽漂移警報。在 SageMaker Pipelines 中,這被編碼為:訓練步驟 → baseline 重新產生步驟 → 模型登錄步驟 → 條件式部署。管線確保 baseline 始終是新的,並綁定到已部署的模型。
延伸閱讀 — 資料品質與標籤官方 AWS 文件
權威的 AWS 來源包括:AWS Glue Data Quality 文件(DQDL 語法、規則類型、整合模式)、SageMaker Data Wrangler 文件(品質和洞察報告、資料品質功能)、SageMaker Ground Truth 文件(job 範本、工作人員、自動化標籤)、Ground Truth Plus 文件(託管服務工作流程)、Amazon Macie 文件(敏感資料發現、S3 掃描、發現結果)、Amazon Comprehend PII 文件(DetectPiiEntities、編修模式)、SageMaker Model Monitor baseline 文件(SuggestBaseline、constraints、漂移偵測)、AWS Config 管理規則文件(合規執行)以及 AWS Organizations SCP 文件(預防性執行)。
AWS Machine Learning Blog 和 AWS Big Data Blog 有多篇關於 Glue Data Quality 模式、Ground Truth 自動化標籤案例研究以及帶品質閘的端到端 MLOps 管線的深度文章。AWS Well-Architected ML Lens 在資料準備階段涵蓋資料品質和標籤。Amazon SageMaker Examples GitHub repository 包含展示 Pipelines 與 Data Quality 整合、Model Monitor baseline 生成和使用 Python SDK 程式碼的 Ground Truth 標籤 jobs 的端到端 notebook。