examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 20 分鐘

Macie、DataZone 與資料隱私治理

4,000 字 · 約 20 分鐘閱讀 ·

DEA-C01 領域 4 任務 4.4/4.5 資料控管:Amazon Macie ML 驅動的 S3 PII 探索、Amazon DataZone 商務目錄、CloudTrail 資料事件 vs 管理事件、S3 存取日誌、Redshift 稽核日誌記錄、動態資料遮罩以及 GDPR/HIPAA 合規模式。

立即做 20 題練習 → 免費 · 不用註冊 · DEA-C01

Macie、DataZone 以及更廣泛的資料控管工具組是 DEA-C01 領域 4 中常讓資料工程師措手不及的服務。這是因為它們看起來像是安全工具,但實際上服務於不同的目的 — 探索 PII(個人識別資訊)、為企業資料資產編製目錄、稽核存取以及強制執行隱私法規。在 DEA-C01 考試中,任務 4.4 和 4.5 大約在每八題中就有一題會測試考生是否清楚 Macie(探索)、Lake Formation(存取控制)、DataZone(商務目錄)以及 CloudTrail(稽核)之間的界限。陷阱很少在於「是否要控管」,而是在於「為該問題選擇正確的工具」,因為該領域中的每個錯誤答案看起來都非常合理。

本指南從資料工程師 / MLOps 的視角涵蓋資料隱私控管 — 介紹 Amazon Macie 能做與不能做的事、DataZone 的商務目錄與 Glue 資料目錄有何不同、CloudTrail 資料事件與管理事件的區別、Redshift 動態資料遮罩與 Lake Formation 儲存格層級遮罩如何組合、如何記錄 S3 物件級存取以滿足合規性,以及圍繞 Macie 與 Lake Formation、DataZone 與 Glue 目錄、以及 CloudTrail 的兩類事件設定的典型考試陷阱。

資料隱私控管 — 三大支柱

在討論 Macie 或 DataZone 之前,請先區分「控管」所包含的三個關鍵領域。

支柱 1 — 探索 (Discovery)

我們的資料湖中存在哪些敏感資料,位於何處?探索是保護的前提 — 您無法對找不到的資料進行加密或遮罩。Amazon Macie 是 AWS 用於在 S3 中自動探索 PII 的服務。

支柱 2 — 存取控制 (Access Control)

誰可以查看哪些資料,細粒度如何?存取控制由 IAM(API 層級)、Lake Formation(資料庫/資料表/欄位/資料列)和 KMS(加密金鑰)強制執行。這在 IAM 與 Lake Formation 主題中已有討論;此處僅涉及其與探索和稽核的邊界。

支柱 3 — 稽核與合規 (Audit and Compliance)

誰在何時、從何處實際存取了哪些資料?稽核由 CloudTrail、S3 存取日誌、Redshift 稽核日誌和 CloudTrail Lake 強制執行。稽核是事後滿足 GDPR、HIPAA、SOX 等法規的反應式記錄。

為什麼 DEA-C01 測試這三者

考試會設定候選人混淆探索與存取控制(例如「使用 Macie 阻斷 PII 存取」)或稽核與探索(例如「使用 CloudTrail 尋找 PII」)的情境。每種工具各司其職;混淆它們是領域 4 最常見的錯誤。

Amazon Macie — ML 驅動的 PII 探索

Amazon Macie 是 AWS 用於自動探索 S3 儲存桶中敏感資料的服務。

Macie 的作用

Macie 使用機器學習模型和模式匹配掃描 S3 物件(CSV、JSON、Parquet、Avro、純文字及常見文件格式),以識別敏感資料 — 如信用卡號、社會安全號碼、姓名、地址、AWS 存取金鑰、SSH 金鑰等。發現項 (findings) 會在 Macie 主控台中顯示,並可匯出至 Security Hub,或作為 EventBridge 事件發出以觸發下游自動化流程。

Macie 「不能」做的事

Macie 是一個探索工具 — 它負責「發現」敏感資料並進行「報告」。Macie 不會對資料進行遮罩、脫敏、加密、刪除或阻斷存取。根據發現項採取行動是工程師的責任(通過 Lake Formation 授予、KMS 加密、S3 Object Lambda 或手動修正)。DEA-C01 陷阱:選擇 Macie 來「自動防止分析師查看 PII」是錯誤的 — Macie 報告,Lake Formation 強制執行。

託管資料識別碼 (Managed Data Identifiers)

Macie 內建了 150 多個託管資料識別碼 — 這些是針對常見 PII 模式預建的偵測規則(如通過 Luhn 檢查驗證信用卡、SSN、IBAN、AWS 存取金鑰、IP 地址、各國姓名和地址)。每個識別碼都有可調的閾值,並支持允許清單 (allow-listing) 模式以減少誤報。

自定義資料識別碼 (Custom Data Identifiers)

自定義資料識別碼允許您定義正則表達式 (regex) 模式,再加上組織特定 PII 的背景關鍵字 — 如員工 ID、內部產品代碼、自定義病歷號碼。模式為:正則表達式匹配候選字串,關鍵字檢查要求在配置的鄰近範圍內出現背景詞(如 "employee", "id", "ssn")。

允許清單與隱藏規則 (Allow Lists and Suppression Rules)

允許清單用於排除已知的安全值(如帶有假 SSN 的測試資料、文檔中的範例信用卡)。隱藏規則則對匹配模式的發現項進行歸檔而不發出警報,適用於開發儲存桶中已知的誤報。

流水線背景下的 Macie

典型模式:在存放新資料的暫存 (staging) S3 儲存桶上啟用 Macie,配置排程探索任務(每日或每週),將發現項呈現在 Security Hub 中,並將高嚴重性發現項路由到修正 Lambda,由後者隔離儲存桶前綴或提醒資料擁有者。Macie 是「資料已到達」與「資料獲准進入生產資料湖」之間的閘門。

成本模型

Macie 針對敏感資料探索任務按掃描的 GB 數計費,並針對儲存桶庫存功能按評估的 S3 儲存桶數量計費。DEA-C01 考試將成本作為約束條件 — 每日掃描數 PB 的資料湖代價高昂;正確模式是對暫存儲存桶進行有針對性的掃描,而非全湖掃描。

Amazon Macie 使用機器學習和託管資料識別碼來探索和報告 S3 中的敏感資料 — 它不會遮罩、脫敏或阻斷對資料的存取;修正行動是工程師透過 Lake Formation、KMS、S3 Object Lambda 或手動處理來完成的。 Macie 在流水線中的角色是閘門:在提升至生產資料湖之前掃描暫存儲存桶以識別 PII,將發現項呈報至 Security Hub 供 SOC 審核,並發出觸發修正工作流的 EventBridge 事件。DEA-C01 考試將 Macie 作為「在數千個 S3 儲存桶中自動探索 PII」的正確答案 — 永遠不要為了「防止分析師看到信用卡號」(那是 Lake Formation 欄位層級授予)或「在查詢結果中遮罩 SSN 值」(那是 Redshift 動態資料遮罩或 Lake Formation 資料篩選器)而選擇 Macie。Macie 回答「是什麼」和「在哪裡」;其他服務回答「如何控制」。

Amazon DataZone — 商務資料目錄

Amazon DataZone 是 AWS 用於跨團隊資料探索、發布和訂閱的服務。

DataZone 提供什麼

DataZone 是一個面向業務的目錄,資料生產者在此將資料集作為可探索的資產發布,而資料取用者(分析師、機器學習工程師、業務利益相關者)則進行瀏覽、搜尋和請求存取。每個資產都包含商務中繼資料(描述、擁有者、分類、資料品質評分、欄位文檔)、譜系圖 (lineage graphs) 和訂閱工作流程。

網域、專案與資產 (Domains, Projects, and Assets)

DataZone 圍繞三個概念組織。網域 (Domains) 是最高層級的控管範圍(通常每個組織或業務單元一個)。專案 (Projects) 是網域內的協作空間,團隊在此開發資料產品。資產 (Assets) 是附加到專案的已發布資料集(Glue 資料表、Redshift 資料表、自定義資產)。

訂閱工作流程 (Subscription Workflow)

取用者瀏覽目錄,找到資產並請求訂閱。資產擁有者核准或拒絕請求。一旦核准,DataZone 會自動佈建底層存取權限(Lake Formation 授予、IAM 角色更新),無需取用者或生產者手動配置權限。

DataZone vs Glue 資料目錄

Glue 資料目錄是技術中繼資料存儲庫 — 包含結構描述、分割區佈局、檔案格式、連接詳情。DataZone 是商務目錄 — 包含描述、擁有者、商務術語表、訂閱工作流程、譜系。兩者互補:Glue 編錄技術資產,DataZone 將其發布給商務取用者。DEA-C01 陷阱:混淆兩者 — DataZone 不是 Glue 的替代品,且 Glue 對非工程師通常不可見。

內建 ML 建議

DataZone 使用機器學習來建議相關資產、推薦資產描述並自動分類欄位。這對於手動維護不切實際的大型目錄非常有用。

譜系視覺化 (Lineage Visualization)

DataZone 追蹤從來源到取用者的譜系 — 哪個 Glue ETL 工作產生了這個 Redshift 資料表,哪個儀表板使用了它,哪個使用者進行了訂閱。譜系圖幫助取用者了解資料來源 (provenance),幫助生產者了解結構描述變更的下游影響。

何時選用 DataZone

當組織採用具有多個生產團隊和許多取用團隊的資料網格 (data mesh) 架構時,當業務利益相關者需要在不學習 Glue 或 IAM 的情況下探索資料時,以及當存取請求工作流程能從自助服務目錄中受益時。DEA-C01 將 DataZone 作為「具備自助探索功能的資料網格」的答案。

何時不選 DataZone

對於只有一兩個生產者和少數取用者的團隊,Glue 資料目錄加 Lake Formation 就足夠了,引入 DataZone 會增加運作開銷。考試在純技術中繼資料或單團隊資料湖的情境中會將 DataZone 作為錯誤干擾項。

CloudTrail — 管理事件 vs 資料事件

CloudTrail 是 AWS 針對 API 調用的稽核日誌,而管理事件與資料事件的區別是 DEA-C01 的必考點。

管理事件 (Management Events)

管理事件記錄控制平面 (control-plane) 的 API 調用 — 如 s3:CreateBucketiam:CreateRoleglue:CreateDatabaseredshift:CreateCluster。每個 AWS 帳戶預設啟用;第一份複本免費。使用案例:偵測未經授權的資源建立、追蹤基礎設施變更以滿足合規性。

資料事件 (Data Events)

資料事件記錄資料平面 (data-plane) 的 API 調用 — 如 s3:GetObjects3:PutObjectlambda:Invokedynamodb:GetItem預設不啟用;必須按資源(按 S3 儲存桶、按 Lambda 函數)進行配置。按擷取的每百萬個事件計費。使用案例:物件級存取稽核、受監管資料追蹤、調查誰讀取了哪個檔案的鑑識分析。

為什麼區別很重要

對於 S3 資料湖合規性,管理事件告訴您「儲存桶已建立」,但對於誰讀取了哪個物件則隻字未提。資料事件記錄了每一次 GetObjectPutObject,提供 GDPR 和 HIPAA 所要求的稽核追蹤。DEA-C01 陷阱:認為 CloudTrail 的預設追蹤涵蓋了 S3 讀取 — 錯誤,這需要顯式的資料事件配置。

成本控制的選取器

繁忙 S3 儲存桶上的全量資料事件每日可能產生數十億條記錄。CloudTrail 事件選取器(基本和進階)允許您縮小擷取的事件範圍 — 僅限特定儲存桶、特定前綴、特定委託人 — 以在維持受監管資料稽核覆蓋的同時控制成本。

CloudTrail Lake — 可使用 SQL 查詢的稽核存儲

CloudTrail Lake 是一個託管的事件資料存儲庫,可將 CloudTrail 事件存儲長達 7 年,並允許您使用 SQL 進行查詢。使用案例:臨機鑑識查詢(「誰在日期 Y 和 Z 之間存取了儲存桶 X」)、合規性的長期保留、稽核報告。它取代了以往將 CloudTrail 日誌發送到 S3 + Athena 的模式。

CloudTrail 資料事件預設不啟用,且是 S3 物件級存取稽核、Lambda 調用記錄和 DynamoDB 項目級存取追蹤所必需的 — 若不配置,CloudTrail 僅記錄儲存桶建立,而不記錄誰讀取了哪個檔案。 管理事件(控制平面 API 調用)是免費且預設開啟的;資料事件(資料平面 API 調用)按每百萬事件收費,且需按資源顯式配置。DEA-C01 考試將此作為典型的 CloudTrail 陷阱:情境題要求「誰存取了敏感 S3 資料的物件級稽核日誌」,選擇「預設 CloudTrail」的考生是錯誤的,因為預設情況不擷取 S3 GetObject。正確答案:為包含受監管資料的特定 S3 儲存桶(或前綴路徑)配置 CloudTrail 資料事件,並接受按事件計算的成本。使用事件選取器縮小範圍以控制成本;並發送到 CloudTrail Lake 以實現支援 SQL 查詢的資料保留。

S3 存取日誌 vs CloudTrail S3 資料事件

這是兩種 AWS 原生記錄 S3 存取的方式。DEA-C01 考試會測試何時適用於哪種。

S3 伺服器存取日誌 (S3 Server Access Logs)

較舊的功能:每筆 S3 請求都會作為一條記錄寫入目標儲存桶中的定界文字行。擷取儲存桶級別的存取(對來源儲存桶的每筆請求),包括請求者身分、操作、來源 IP 和回應代碼。免費(您只需支付日誌檔案的存儲費用)。

CloudTrail S3 資料事件

較新的功能:每筆 S3 資料 API 調用都會作為帶有完整 IAM 背景資訊的 CloudTrail 事件記錄,並與 Security Hub、EventBridge、CloudTrail Lake 及更廣泛的稽核基礎設施整合。按每百萬事件計費。

何時使用哪一個

S3 存取日誌更簡單且免費,適用於高流量儲存桶,因為按事件計算的 CloudTrail 成本可能非常高。CloudTrail 資料事件與 AWS 稽核生態系統整合,且是強制要求「CloudTrail 中具備稽核日誌」的合規框架所必需的。對於受監管的資料湖,儘管有成本,CloudTrail 資料事件仍是正確答案;對於非監管的高流量儲存桶,S3 存取日誌即已足夠。

結合兩者

生產模式通常兩者並行 — S3 存取日誌用於廉價的全儲存桶可見性,CloudTrail 資料事件則套用於特定的受監管前綴以提供稽核級別的追蹤。DEA-C01 考試可能會將此設定為多模式情境題。

Redshift 稽核日誌記錄與動態資料遮罩

Redshift 有兩項不同的安全可觀察性功能,DEA-C01 考試對此都有測試。

Redshift 稽核日誌記錄 (Audit Logging)

Redshift 稽核日誌記錄擷取連線嘗試、使用者活動以及在叢集上執行的查詢。日誌發送到 S3 或 CloudWatch Logs。使用案例:追蹤誰針對資料倉儲運行了哪些查詢,這對於安全和效能調查都很有用。

動態資料遮罩 (Dynamic Data Masking, DDM)

Redshift 動態資料遮罩在查詢時將基於角色的遮罩套用於欄位值,而不會修改底層資料。CREATE MASKING POLICY 定義遮罩邏輯(如返回 null、返回 SHA-256 雜湊、返回 SSN 後 4 位等);該政策被 ATTACH(附加)到欄位並根據查詢者的角色套用。

DDM 與 Lake Formation 篩選器的區別

Lake Formation 欄位層級授予和資料篩選器適用於通過 Athena、Redshift Spectrum 或 EMR 查詢的 S3 後端 Glue 資料表。Redshift DDM 則適用於原生 Redshift 資料表(RA3 託管存儲)。兩者互補 — Lake Formation 管控資料湖,DDM 管控倉儲。

用於合規性的 DDM

常見模式:客服人員通過 DDM 看到信用卡號的最後 4 位,而財務團隊則看到完整號碼。底層資料相同,根據角色進行不同的遮罩顯示,無需建立單獨的資料表複本。DEA-C01 考試將 DDM 作為「敏感 Redshift 欄位的角色型檢視」的正確答案。

資料遮罩策略 — Lake Formation、Redshift DDM、S3 Object Lambda

這是 AWS 遮罩敏感資料的三種方法,分別位於不同的層級。

Lake Formation 儲存格層級安全

在 Lake Formation 中結合欄位層級授予和資料列層級資料篩選器,以在 Glue 資料表上實現儲存格層級遮罩。由 Athena、Redshift Spectrum、EMR 和其他查詢 Glue 目錄的引擎使用。適用於:S3 後端資料表的資料湖遮罩。

Redshift 動態資料遮罩

在查詢時套用於 Redshift 原生資料表的角色型遮罩。適用於:具有角色型揭露模式的倉儲內存資料。

S3 Object Lambda

S3 Object Lambda 攔截 S3 GetObject 調用並運行 Lambda 函數在返回前轉換資料。使用案例:即時從 CSV 檔案中脫敏 PII 欄位,根據請求角色套用自定義遮罩邏輯。比 Lake Formation 或 DDM 更靈活,但延遲較高。適用於:需要在不更改應用程式的情況下,為讀取原始 S3 物件的舊有應用程式提供遮罩。

選擇層級

當取用者是 Athena/Spectrum/EMR 時,在資料湖層級 (Lake Formation) 進行遮罩。當取用者是 Redshift 原生查詢時,在倉儲層級 (Redshift DDM) 進行遮罩。當取用者是讀取原始物件的舊系統時,在應用程式層級 (S3 Object Lambda) 進行遮罩。DEA-C01 考試會根據情境中的取用者來決定遮罩選擇。

Amazon DataZone 是一個具備訂閱工作流程和譜系功能的商務資料目錄 — 它不是存取控制機制、加密工具或技術中繼資料存儲庫,DEA-C01 考試會設定陷阱來測試候選人是否混淆了 DataZone 與 Lake Formation 或 Glue 資料目錄。 DataZone 將資料集作為商務可探索資產發布、處理訂閱請求並呈現譜系;它依賴 Lake Formation 進行實際的存取強制執行,並依賴 Glue 資料目錄獲取技術中繼資料。考試陷阱描述的情境如「團隊需要控制分析師可以看到哪些欄位,並在一個目錄中探索所有資產」 — 錯誤答案是「DataZone 強制執行欄位層級授予」(那是 Lake Formation 的職責),錯誤答案是「DataZone 取代 Glue」(它並非如此)。正確答案:DataZone 作為探索和訂閱層,構建在 Lake Formation 控管和 Glue 目錄中繼資料之上。三層結構,三種職責,不可互相替代。

GDPR、HIPAA 與 AWS 合規工具

DEA-C01 考試可能會以高階方式出現合規情境題。

GDPR — 資料主體權利

GDPR 授予歐盟居民包括存取權(資料副本)、更正權、刪除權(被遺忘權)和可攜權(以機器可讀格式匯出)在內的權利。AWS 工具:Macie 探索個人資料、Lake Formation 強制執行存取、S3 Object Lock 防止篡改、KMS 進行靜態加密、CloudTrail 稽核存取。

HIPAA — PHI 處理

受 HIPAA 約束的實體必須保護受保護健康資訊 (PHI)。AWS 商務合作夥伴增補合約 (BAA) 涵蓋了符合 HIPAA 資格的服務。工具:Macie 探索 PHI、Lake Formation 欄位層級去識別化、KMS 用於加密、CloudTrail 資料事件用於存取日誌、專用 VPC 用於隔離。

AWS 合規計畫

AWS Artifact 提供可下載的合規報告(SOC, ISO, PCI DSS, HIPAA BAA)。AWS Config 追蹤組態變更以提供合規性證據。AWS Audit Manager 自動收集稽核證據。DEA-C01 考試將這些作為「在哪裡可以找到合規報告」類型的問題。

資料落地 (Data Residency)

某些法規要求資料必須留在特定區域內。AWS 區域是獨立的,S3 跨區域複寫、KMS 多區域金鑰和 DynamoDB 全域資料表允許您針對落地需求進行架構設計。使用區域中繼資料標記資料,並使用 IAM aws:RequestedRegion 條件來強制執行。

白話文解釋 Macie, DataZone 與資料控管

三個具體的類比。

類比 1 — 同時具備隱私官、檔案室與稽核日誌的醫院

Macie 就像醫院的自動 PII 掃描員 — 它巡視每個科室每個櫃子裡的紙本檔案,標記包含患者姓名、病歷號碼或保險 ID 的文件,並生成一份「敏感資料在哪裡」的報告。它不會上鎖櫃子或銷毀文件 — 它只是發現並報告。Lake Formation 就像檔案室根據 Macie 的發現所使用的鎖與金鑰系統。DataZone 則是醫院內部的資料目錄,讓研究人員、計費和藥房團隊瀏覽「有哪些資料、誰擁有它、內容是什麼、我可以訂閱嗎?」 — 它是構建在凌亂檔案室之上的精美商務介面。CloudTrail 管理事件記錄了每次安裝新櫃子的操作;資料事件則記錄了每次打開特定檔案的操作。S3 存取日誌是檔案室門口的進出登記簿。Redshift 動態資料遮罩則是急診護士看到的檢視,顯示患者 SSN 的後四位,而計費團隊則看到完整號碼 — 同一個患者,基於角色的揭露。DEA-C01 的陷阱是要求「Macie 去鎖櫃子」(它不能)或「DataZone 去偵測 PII」(它是目錄,不是掃描器) — 每個工具各施其職。

類比 2 — 具有索引、目錄與借閱記錄的圖書館

Macie 是圖書館的 PII 稽核員:一個在書架間穿梭讀取書籍內容並標記任何包含個人資訊、需要特殊處理書籍的機器人。它不會移動書籍或限制存取 — 它只是產生報告。管理員(Lake Formation 授予、KMS 金鑰)根據報告採取行動。DataZone 是圖書館面向公眾的目錄:讀者瀏覽主題、查看書籍描述和作者、查看哪個管理員負責該區域,並通過目錄 UI 請求預約,請求會路由到管理員進行核准。Glue 資料目錄則是管理員使用的後台編目系統(技術中繼資料) — 讀者永遠看不到它。CloudTrail 管理事件記錄了每次建立新書架或僱用管理員的操作;資料事件則記錄了每次借書與還書。S3 存取日誌是圖書館入口處的旋轉門計數器。Redshift 動態資料遮罩是閱覽室規則,允許研究人員查看脫敏文件,而具有權限的檔案保管員則看到同一文件的完整版本 — 同一物件,角色型脫敏。DEA-C01 的陷阱是派 PII 稽核員 (Macie) 去設計公眾目錄 (DataZone) — 不同工作,不同工具。

類比 3 — 具有緝毒犬、公開名錄與監控畫面的海關邊境

Macie 是海關邊境的緝毒犬團隊:巡視進口貨物、發現限制物品並提交報告。它不會扣押或轉向貨物 — 只是識別。海關官員(Lake Formation、KMS)決定如何處理發現項。DataZone 是報關行的名錄:進口商列出他們合法結清的貨物,出口商瀏覽、諮詢並下單,這一切都通過一個隱藏了後台文書工作的精美介面完成。CloudTrail 管理事件是海關設施本身何時建造或修改的主日誌;資料事件則是每件處理過進口包裹的日誌。S3 存取日誌是進入倉庫每輛卡車的門口攝影機畫面。Redshift 動態資料遮罩是出貨清單,向倉庫工人顯示脫敏的收件人地址,但向司機顯示完整地址。GDPR/HIPAA 是整個系統必須遵守的國際貿易法 — Macie 探索哪些在範圍內,Lake Formation 控制存取,CloudTrail 在事後證明合規性。

Macie、DataZone 與資料控管的常見考試陷阱

請務必記住這五個陷阱。

陷阱 1 — Macie 阻斷了 PII 存取

情境題建議使用 Macie 來「防止分析師查看信用卡號」。錯誤 — Macie 僅探索並報告,從不執行限制。正確答案:Lake Formation 欄位層級授予或 Redshift DDM。

陷阱 2 — DataZone 取代了 Glue 資料目錄

情境題建議將 DataZone 作為技術中繼資料存儲。錯誤 — DataZone 是構建在 Glue 之上的商務目錄。正確答案:保留 Glue 用於技術中繼資料,使用 DataZone 進行商務探索。

陷阱 3 — 預設 CloudTrail 擷取了 S3 讀取操作

情境題要求「誰讀取了敏感 S3 物件的稽核日誌」,選項中包含「預設 CloudTrail」。錯誤 — 預設 CloudTrail 僅擷取管理事件。正確答案:在特定的 S3 儲存桶或前綴上配置 CloudTrail 資料事件。

陷阱 4 — 使用 S3 存取日誌滿足合規要求

情境題要求「符合 GDPR 的稽核追蹤」並將 S3 伺服器存取日誌作為答案。這是有偏誤的答案 — S3 存取日誌雖然簡單,但缺乏 IAM 背景資訊且未與 AWS 稽核生態系統整合。對於受監管資料,正確答案是帶有 CloudTrail Lake 保留期的 CloudTrail 資料事件。

陷阱 5 — Macie 每日掃描整個資料湖

情境題描述 Macie 每日掃描 5 PB 的資料湖。錯誤 — 代價太高。正確答案:掃描新資料落地的暫存儲存桶,每月或每季排程一次全湖掃描,針對可疑前綴使用有針對性的任務。

關鍵數據與必背事實

Amazon Macie

  • 150+ 託管資料識別碼(信用卡、SSN、IBAN、AWS 金鑰、姓名、地址)
  • 通過 regex + 背景關鍵字實現的自定義資料識別碼
  • 用於處理誤報的允許清單與隱藏規則
  • 與 Security Hub 和 EventBridge 整合
  • 按掃描 GB 數和評估儲存桶數量計費
  • 僅限探索 — 不會遮罩、加密或阻斷

Amazon DataZone

  • 三個概念:網域 (Domain)、專案 (Project)、資產 (Asset)
  • 帶有核准路由的訂閱工作流程
  • ML 驅動的描述與相關資產建議
  • 生產者與取用者之間的譜系視覺化
  • 與 Glue 資料目錄(技術)和 Lake Formation(存取)整合
  • 按使用者和按資產定價

CloudTrail

  • 管理事件:免費、預設開啟、控制平面 API 調用
  • 資料事件:預設不開啟、按每百萬事件收費、資料平面 API 調用
  • 事件選取器可縮小範圍以控制成本
  • CloudTrail Lake:支援 SQL 查詢,長達 7 年的保留期
  • 用於異常偵測的 Insights 事件(付費功能)

Redshift 動態資料遮罩

  • CREATE MASKING POLICY 定義轉換邏輯
  • ATTACH 套用於欄位
  • 查詢時的基準角色顯示
  • 僅限原生 Redshift 資料表(不含 Spectrum 外部表)

S3 存取記錄

  • 伺服器存取日誌:免費、較簡單、寫入目標 S3 儲存桶
  • CloudTrail 資料事件:付費、與 Security Hub 和 EventBridge 整合
  • 兩者可同時運行以實現分層防禦

先使用 Macie 的託管資料識別碼進行首輪掃描,再添加自定義資料識別碼來處理組織特定的 PII 模式 — 這種組合能覆蓋 90% 以上現實世界的敏感資料。 150 多個託管識別碼涵蓋了信用卡、SSN、IBAN、AWS 存取金鑰、IPv4/IPv6 地址、各國姓名、郵寄地址、電話號碼等類別,且內建了誤報減少機制(如信用卡的 Luhn 檢查、SSN 的格式驗證)。自定義識別碼則通過正則模式加上必要的背景關鍵字擴展覆蓋範圍 — 例如匹配 EMP\d{6} 的正則表達式,加上 50 個字元內必須出現 "employee" 關鍵字,即可定義組織的員工 ID。DEA-C01 考試將此模式作為「如何偵測標準 PII 與自定義組織識別碼」的正確答案 — 當 Macie 的識別碼框架是專為此設計時,永遠不要選擇「編寫 Lambda 掃描檔案」或「使用 Glue Data Quality 的正則規則」。偵測後,將發現項路由至 Security Hub 或修正 Lambda;記住 Macie 僅報告,不行動。

熟記 CloudTrail 事件類型:管理事件(免費、預設開啟、控制平面如 CreateBucket)、資料事件(付費、預設關閉、資料平面如 GetObject)以及 Insights 事件(付費、管理 API 調用的異常偵測)。 針對 DEA-C01 稽核情境題:受監管的 S3 資料湖 => 在特定儲存桶上啟用資料事件;基礎設施變更追蹤 => 管理事件即已足夠(已開啟);偵測異常 API 調用模式(潛在入侵) => 啟用 Insights 事件。成本優化:使用事件選取器將資料事件縮小到特定前綴和委託人;將管理事件發送至 CloudTrail Lake 以實現 SQL 查詢保留;將較舊事件封存至 S3 並透過生命週期移至 Glacier 進行長期合規保留。考試常將資料事件 vs 管理事件作為陷阱 — 當提到 CloudTrail 時,始終先問「資料平面還是控制平面?」。

DEA-C01 考試重點 — Macie、DataZone 與資料控管。 此主題在 DEA-C01 考試中佔有很大權重。請掌握每項 AWS 服務所暴露的權衡取捨、決策邊界以及成本/性能觸發點 — 考試將測試那些依賴於知道哪個服務是錯誤答案而不僅僅是正確答案的情境。

常見問題 (FAQ) — Macie、DataZone 與資料控管熱門問題

Q1 — 我應該在什麼時候使用 Amazon Macie 或是 AWS Glue Data Quality?

使用 Macie 來探索 S3 中的敏感資料(PII, PHI, 憑證, API 金鑰) — 它回答「存在哪些敏感資料,位於何處?」。使用 Glue Data Quality 來強制執行 Glue ETL 流水線中的資料品質規則(完整性、唯一性、取值範圍) — 它回答「這份資料是否符合我們的品質合約?」。這兩種工具目的不同,在生產中經常互補:Macie 識別需要遮罩的 PII 欄位,Glue Data Quality 驗證遮罩轉換是否正確套用。DEA-C01 考試將 Macie 作為「在數百個 S3 儲存桶中探索 PII」的正確答案,將 Glue Data Quality 作為「在 ETL 流水線中強制執行結構描述和數值規則」的正確答案。永遠不要為了通用資料品質選擇 Macie(它專注於 PII),也不要為了 PII 探索選擇 Glue Data Quality(它是基於規則的,而非 ML 驅動)。

Q2 — Amazon DataZone 與 AWS Glue 資料目錄有什麼不同?

Glue 資料目錄是技術中繼資料存儲庫 — 包含結構描述、分割區佈局、檔案格式、連接詳情 — 由 Glue ETL 工作、Athena、Redshift Spectrum 和 EMR 用於查詢規劃。DataZone 則是構建在其上的面向商務的目錄 — 資料集作為帶有描述、擁有者、商務術語表、譜系圖以及處理存取請求之訂閱工作流程的資產發布。Glue 是給工程師用的;DataZone 是給商務取用者和分析師用的。兩者互補 — Glue 編錄技術資產,DataZone 通過自助服務工作流程在精美介面中發布它們。對於只有一兩個生產者的少數團隊,僅使用 Glue;對於具有許多生產和取用團隊的資料網格架構,請同時使用 Glue 和 DataZone。DEA-C01 考試透過「自助式商務資料探索」(DataZone) 與「ETL 流水線的技術中繼資料」(Glue) 的情境題直接測試此區別。

Q3 — 我該如何配置 CloudTrail 以記錄 S3 物件級存取以滿足合規性?

在包含受監管資料的特定 S3 儲存桶上啟用 CloudTrail 資料事件。在 CloudTrail 線跡 (trail) 中,配置包含 S3 資料事件 (AWS::S3::Object) 的事件選取器,並指定要擷取的儲存桶 ARN(或儲存桶內的前綴)。線跡隨後會記錄每一次帶有完整 IAM 背景資訊(請求委託人、來源 IP、使用者代理程式、回應代碼)的 GetObjectPutObjectDeleteObject 調用。預設的 CloudTrail(僅限管理事件)不會擷取 S3 讀取操作 — 這是引用最多的 DEA-C01 稽核陷阱。成本考量:資料事件按每百萬事件計費,因此請使用事件選取器將範圍縮小到僅受監管的前綴。將日誌發送到 CloudTrail Lake 進行支援 SQL 查詢的資料保留,時長可達 7 年,以滿足 GDPR 和 HIPAA 的稽核要求。

Q4 — S3 伺服器存取日誌與 CloudTrail S3 資料事件有什麼區別?

S3 伺服器存取日誌是較舊的原生 S3 功能,針對每筆 S3 請求向目標儲存桶寫入定界文字記錄 — 具備儲存桶級可見性、簡單且免費(只需支付存儲費)。CloudTrail S3 資料事件則與 AWS 稽核生態系統整合,擷取的請求帶有完整 IAM 背景資訊,可與 Security Hub、EventBridge 和 CloudTrail Lake 協作,按每百萬事件計費。對於必須滿足 GDPR、HIPAA 或 SOX 的受監管資料湖,儘管有成本,CloudTrail 資料事件仍是正確答案 — 稽核員期望看到 CloudTrail 整合。對於簡單可見性即可滿足要求的非監管儲存桶,S3 存取日誌免費且足夠。生產模式通常兩者並行 — S3 存取日誌用於所有儲存桶的廉價基準可見性,CloudTrail 資料事件用於特定受監管前綴的稽核級整合。

Q5 — Amazon Macie 能否通過遮罩或刪除 PII 自動修正發現項?

不能。Macie 僅負責探索和報告 — 它不會遮罩、脫敏、加密或刪除資料。要針對 Macie 發現項採取行動,您需要圍繞它們構建修正機制:由 EventBridge 規則觸發 Lambda 函數來隔離儲存桶前綴、通過 SNS 向資料擁有者發送通知、在票務系統中開立工單,或調用編排清理工作的 Step Functions 工作流程。常見的修正模式:通過將物件複製到隔離儲存桶並從生產路徑移除來隔離有問題的 S3 前綴;套用 Lake Formation 欄位層級授予來向分析師遮罩 PII 欄位;使用存取受限的客戶管理 KMS 金鑰加密資料。DEA-C01 考試將 Macie 的「僅限報告」角色作為最常見的陷阱 — 務必將 Macie 與下游的強制執行層配對。

Q6 — 我應該在什麼時候使用 Redshift 動態資料遮罩而非 Lake Formation 儲存格層級安全?

當遮罩套用於原生 Redshift 資料表(RA3 託管存儲)且取用者是 Redshift SQL 時,使用 Redshift 動態資料遮罩 — 通過 CREATE MASKING POLICY 定義遮罩轉換,在查詢時進行角色型顯示,無需資料表複本。當遮罩套用於由 Athena、Redshift Spectrum、EMR 或 Glue 查詢的 S3 後端 Glue 資料表時,使用 Lake Formation 儲存格層級安全(欄位層級授予加上資料列層級資料篩選器)。兩者都能提供基於角色的細粒度存取;選擇取決於資料存放位置。對於既有原生 Redshift 資料表又有經 Glue 編錄的 S3 資料的混合架構,請兩者兼用 — DDM 用於倉儲內存敏感欄位,Lake Formation 用於資料湖敏感欄位。DEA-C01 考試會根據情境中哪個引擎查詢資料來設定此考點。

Q7 — 我該如何證明 AWS 上資料湖的 GDPR 合規性?

資料湖的 GDPR 合規性涉及多個層面:(1) 探索 — Macie 掃描 S3 儲存桶以識別個人資料,建立歐盟居民資料存放位置的清單。(2) 存取控制 — Lake Formation 欄位層級授予限制誰能查看個人資料;IAM 政策和 KMS 金鑰政策強制執行最小權限存取。(3) 加密 — KMS 客戶管理金鑰加密靜態資料,TLS 強制執行傳輸中加密。(4) 稽核 — CloudTrail 資料事件記錄對受監管 S3 儲存桶的每一次存取,並在 CloudTrail Lake 中保留 7 年。(5) 刪除權 — 設計允許精確刪除個人記錄的資料模型(考慮使用支援 ACID 刪除操作的 Iceberg 資料表)。(6) 資料主體存取請求 — 設計能按需匯出個人資料以滿足可攜性的流水線。DEA-C01 考試將 GDPR 作為多工具架構答案;沒有單一 AWS 服務能提供完整的 GDPR 合規,但 Macie、Lake Formation、KMS 和 CloudTrail 的組合涵蓋了必要的技術控制。

延伸閱讀 — AWS 官方文件

權威的 AWS 來源包括《Amazon Macie 使用者指南》(託管識別碼、自定義識別碼、排程任務、發現項)、《Amazon DataZone 使用者指南》(網域、專案、資產發布、訂閱工作流程)、《AWS CloudTrail 使用者指南》(管理與資料事件、事件選取器、CloudTrail Lake)、《Redshift 資料庫開發人員指南》(稽核日誌記錄、動態資料遮罩)以及 AWS 合規中心(Artifact、Audit Manager、合規計畫文檔)。AWS 大數據部落格發布了關於 Netflix 和 Capital One 等公司資料控管的案例研究。Skill Builder 的 DEA-C01 考試準備標準課程中有專門針對領域 4 稽核與隱私的模組。AWS Well-Architected 安全支柱涵蓋了控管與稽核的最佳實踐。若需更深入的合規內容,AWS GDPR 中心和 AWS HIPAA 文檔頁面為受監管工作負載提供了服務專屬指導,且 AWS Samples GitHub 存儲庫提供了合規資料湖的端對端範例架構。

官方資料來源

更多 DEA-C01 主題