examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 20 分鐘

S3 儲存等級、生命週期政策與資料湖基礎

4,000 字 · 約 20 分鐘閱讀 ·

DEA-C01 網域 2 任務 2.1/2.3 S3 儲存體類別與生命週期:Standard vs IA vs Intelligent-Tiering vs Glacier Instant/Flexible/Deep Archive 權衡、生命週期轉換最短儲存期限規則、版本控制與複寫先決條件、存取點、事件通知、生命週期陷阱。

立即做 20 題練習 → 免費 · 不用註冊 · DEA-C01

Amazon S3 是每個 AWS 資料架構的基礎儲存層。在 DEA-C01 考試中,它出現在網域 1、2 和 3 中,場景涉及選擇正確的儲存體類別 (storage class)、設計正確的生命週期策略 (lifecycle policy),以及配置正確的複寫 (replication) 與事件通知 (event-notification) 連接。來自 Tutorials Dojo、Digital Cloud Training 以及 ExamCert.App 等社群學習指南都指出了相同的難點:考生選擇了最便宜的儲存體類別卻未檢查「最短儲存期限 (minimum-storage-duration)」規則,為微小檔案配置 Intelligent-Tiering 導致支付的監控費用高於節省的儲存費用,並將 Glacier Instant Retrieval 與較舊且仍需數小時「解凍」作業的 Glacier Flexible 和 Deep Archive 類別混為一談。在考試中選錯就意味著在生產環境中選錯:為複寫備份選擇 One Zone-IA,結果在單一可用區域 (Availability Zone, AZ) 故障時遺失資料;為每月合規報告選擇 Glacier Deep Archive,結果每次稽核員索取檔案時都必須等待十二個小時。

本指南是從資料工程師的角度編寫的。內容涵蓋什麼是 S3 儲存體類別、為什麼存在生命週期引擎、七種儲存體類別及其成本與擷取特性、生命週期轉換規則與最短儲存期限計算、版本控制與複寫先決條件、EventBridge 與 Lambda 的事件通知連接、用於共享資料湖儲存貯體的 S3 存取點 (Access Points)、用於 WORM 合規的物件鎖定 (Object Lock)、用於查詢時過濾的 S3 Select,以及讓大多數考生掉入陷阱的典型 S3 生命週期考試陷阱。最後,儲存體類別的決策應該會像選擇廚房貨架存放每天烹飪的食材,與選擇地下室冷凍櫃存放可能永遠不會解凍的食材一樣自然。

什麼是 S3 儲存體類別以及為什麼存在生命週期引擎

S3 儲存體類別是七種不同的後端儲存層,具備不同的成本、耐久性、可用性以及擷取延遲 (retrieval-latency) 權衡。S3 中的每個物件在任何時刻都剛好屬於一種儲存體類別,該類別決定了物件每 GB 每月的儲存成本、擷取成本以及擷取速度。生命週期引擎是基於規則的排程器,它會根據物件年齡自動在儲存體類別之間移動物件,並最終使物件過期。兩者結合構成了每個由 S3 支援的資料湖的成本控制層。

為什麼生命週期對資料工程師很重要

一個典型的原始資料 S3 儲存貯體每天增長數 TB,且大多數資料在第一週被頻繁查詢,下個月偶爾查詢,九十天後幾乎不再被查詢。將所有資料存放在 S3 Standard (每月每 TB 23 美元) 是浪費的,因為存放九十天的資料可以放在 Glacier Deep Archive (每月每 TB 1 美元)。生命週期策略會自動執行搬移 — 只需編寫一次規則,S3 就會永久執行,資料工程師的儲存帳單能降低一個數量級,且無需變更任何應用程式。

七類階層

按存取延遲遞增排序的儲存體類別為:S3 Standard (毫秒級存取,成本最高)、S3 Intelligent-Tiering (熱資料毫秒級存取,自動分層)、S3 Standard-Infrequent Access 與 S3 One Zone-Infrequent Access (毫秒級存取,有擷取費,儲存成本較低)、S3 Glacier Instant Retrieval (毫秒級存取,成本更低,擷取費更高)、S3 Glacier Flexible Retrieval (數分鐘至數小時存取,歸檔成本) 以及 S3 Glacier Deep Archive (十二小時存取,最低歸檔成本)。生命週期策略可以依序在這些類別之間轉換物件 — 但順序很重要,且有時會限制跳過某些類別,這正是考試最愛的陷阱來源。

白話文解釋 S3 Storage Classes And Lifecycle

儲存體類別的決策很難僅憑名稱來直觀理解。三個具體的比喻能讓「成本對比延遲」的權衡變得好記。

比喻 1 — 餐廳備料台、步入式冰箱與地下室冷凍櫃

想像一個擁有三個儲存區域的餐廳廚房。線上備料台 (line pantry) 觸手可及,存放著今天的備料 — 切好的洋蔥、擠壓瓶裡的醬汁,每班次會被使用幾十次。每立方英尺的成本最高,因為備料台位於溫控良好的黃金地段,但存取是即時的。步入式冰箱 (walk-in fridge) 在廚房後方,存放著明天的食材以及今天未用完的備料 — 存取較慢 (廚師必須走過去),每立方英尺較便宜。地下室冷凍櫃 (basement freezer) 存放著緊急備貨與季節性食材,一年只用幾次 — 每立方英尺最便宜,但洗碗工必須花二十分鐘解凍冷凍湯底,廚師才能使用。

備料台就是 S3 Standard — 即時存取、價格昂貴、用於熱資料。步入式冰箱就是 S3 Standard-IA 或 Glacier Instant Retrieval — 拿取時仍是即時的,基礎成本較低,但每次存取有一小筆擷取費。地下室冷凍櫃就是 Glacier Flexible Retrieval 或 Deep Archive — 每 GB 最便宜,但你必須等待數分鐘至數小時讓資料「解凍」後才能使用。一個聰明的廚房會根據食材的使用頻率將其從備料台轉到冰箱再轉到冷凍櫃,正如 S3 生命週期策略會根據物件年齡將其從 Standard 轉到 IA 再轉到 Glacier 一樣。

比喻 2 — 圖書館閱覽室、書庫與遠端檔案館

想像一個研究圖書館。門口的閱覽室存放著當前的期刊與借閱率最高的書籍 — 即時存取,書架空間昂貴,每小時支援數十位讀者。地下的書庫存放著過去五年的期刊與專著 — 較慢 (你填寫申請單,由管理員取回),每平方英尺較便宜。遠端檔案館存放任何超過五年的材料 — 保存在二十英里外的溫控倉庫中,擷取需要一天,儲存費率最低。

閱覽室是 S3 Standard,書庫是 S3 Standard-IA,遠端檔案館是 S3 Glacier Deep Archive。圖書館的館藏發展策略就是生命週期策略:新書進入閱覽室,一年後移至書庫,五年後移至遠端檔案館,二十五年後從目錄中剔除 (生命週期過期)。需要五十年前論文的讀者等待一天;需要今天《紐約時報》的讀者則從前排架子抓取。

比喻 3 — 銀行保險箱系統

想像一個擁有三個保險庫的銀行。櫃檯抽屜存放著當天的週轉金 — 即時存取,每班次使用數百次,受到嚴密監控。分行保險庫存放著分行的儲備金 — 當櫃檯抽屜需要補充時可在幾分鐘內存取,安全維護成本較低。區域保險庫存放長期的儲備金 — 存入或取出需要裝甲車運輸,擷取需要一天,維護成本最低。

櫃檯抽屜是 S3 Standard,分行保險庫是 Standard-IA 或 Glacier Instant Retrieval,區域保險庫是 Glacier Flexible 或 Deep Archive。最短儲存期限規則自然對應:如果你在九十天內從區域保險庫取出現金,銀行會收取罰金,因為裝甲車的調度費已經支付了,這正如如果你在 IA 或 Glacier 類別中於最短期限前刪除或轉換物件,S3 仍會向你收取完整的三十天、九十天或一百八十天的儲存費用。這筆「罰金」不是錯誤,而是 AWS 如何為這些層級底層運行的磁帶與磁碟硬體定價的方式。

七種 S3 儲存體類別詳解

每種儲存體類別都有考試期望你了解的特定成本概況、耐久性保證、可用性 SLA 以及使用案例。

S3 Standard

預設類別,具備十一個九的耐久性,橫跨至少三個可用區域 (AZ) 的四個九可用性,毫秒級首位元組延遲。無擷取費,無最短儲存期限,無最小物件大小限制。適用於熱資料、主動資料湖著陸區以及每月被多次讀取的內容。它是每 GB 每月儲存成本最高的類別,但免收擷取費用與最短期限罰金。

S3 Intelligent-Tiering

一個特殊的儲存體類別,可在四個內部存取層之間自動移動物件 — 頻繁存取層、不頻繁存取層 (三十天未存取後)、歸檔即時存取層 (九十天後) 以及選用的歸檔存取層與深層歸檔存取層。在頻繁與不頻繁存取層中不收取擷取費。會收取一筆微小的每物件監控費用。設計用於存取模式不可預測的情況。考試陷阱:監控費用是按物件收取的,因此對於擁有數百萬個微小物件 (128 KB 以下,Intelligent-Tiering 本就不會將其轉出頻繁層) 的儲存貯體,監控費用可能超過節省的儲存費用。

S3 Standard-Infrequent Access (Standard-IA)

具備與 Standard 相同的十一個九耐久性,三個九可用性,毫秒級存取。儲存成本較低,但收取每 GB 擷取費。最短儲存期限為三十天 — 在三十天前刪除或轉換,仍需支付滿三十天的儲存費用。最小計費物件大小為 128 KB — 較小的物件按 128 KB 計費。適用於備份與舊日誌,這些資料偶爾被查詢但需要時必須即時可用。

S3 One Zone-Infrequent Access (One Zone-IA)

與 Standard-IA 相同,但資料儲存在單一可用區域而非三個。比 Standard-IA 便宜 20%,但如果該 AZ 故障或毀壞,資料將遺失。僅適用於可重現的衍生資料 — 次要副本、轉碼媒體、臨時分析中間產物 — 絕不用於主要副本或備份紀錄。同樣具備三十天最短期限與 128 KB 最小計費大小。

S3 Glacier Instant Retrieval

2021 年底推出的類別,結合了 Glacier 層級的儲存成本 (比 Standard-IA 便宜) 與毫秒級的擷取延遲 (與 Standard 相同)。比 Standard-IA 更高的每 GB 擷取費。最短儲存期限為九十天。最小計費物件大小為 128 KB。適用於查詢頻率極低但在存取時必須即時可用的歸檔資料 — 醫療影像檔案、新聞媒體檔案、法規文件庫。

S3 Glacier Flexible Retrieval

經典的 Glacier 類別 (2021 年從「Glacier」更名)。提供三個擷取層級:加速 (Expedited,1-5 分鐘,費用最高)、標準 (Standard,3-5 小時,預設值) 與大量 (Bulk,5-12 小時,最便宜,大批量時免費)。最短儲存期限九十天。最小計費物件大小為 40 KB。適用於可等待數分鐘至數小時進行擷取,且儲存成本節約足以抵銷等待時間的歸檔。

S3 Glacier Deep Archive

最深層的歸檔。提供兩個擷取層級:標準 (12 小時) 與大量 (48 小時)。最短儲存期限為一百八十天。S3 中最便宜的儲存類別,通常每 TB 每月低於 1 美元。適用於必須保留七至十年的合規性歸檔,且幾乎從不讀取的資料 — 金融紀錄、監管提交、過期的醫療紀錄。

S3 儲存體類別是七種後端層級,具備不同的成本、耐久性、擷取延遲、最短儲存期限以及最小計費物件大小概況。 這七種分別是 Standard、Intelligent-Tiering、Standard-IA、One Zone-IA、Glacier Instant Retrieval、Glacier Flexible Retrieval 與 Glacier Deep Archive。為存取模式選錯類別是資料工程中最昂貴的錯誤之一 — 為主要備份選擇 One Zone-IA 風險在 AZ 故障時遺失所有資料,為每月報告選擇 Glacier Deep Archive 則每次索取檔案都需等待十二小時,而為微小檔案儲存貯體選擇 Intelligent-Tiering 則可能收取的監控費用高於節省的費用。在 DEA-C01 考試中,場景會描述存取模式、耐久性要求以及擷取延遲容忍度,正確答案是同時滿足所有約束的最便宜類別。

生命週期策略 — 轉換、過期與中止規則

生命週期策略是基於規則的引擎,可自動執行儲存體類別轉換與物件刪除。

生命週期規則結構

生命週期規則包含過濾器 (前綴、標籤、物件大小)、轉換清單 (N 天后移至類別 X) 以及選用的過期動作 (N 天后刪除物件)。規則適用於當前版本、非當前版本 (啟用版本控制時) 以及不完整的分段上傳 (incomplete multipart uploads)。一個儲存貯體最多可擁有 1,000 條生命週期規則,但實踐中大多不超過 10 條。

轉換規則 — 30-90-180 數學

從 Standard 轉換至 Standard-IA 要求物件在 Standard 中至少待滿三十天。從任何類別轉換至 Glacier Flexible 或 Deep Archive 可在任何年齡發生,但目標類別會強制執行其自身的最短儲存期限。經典考試陷阱:你不能將在 Standard-IA 中待了不到三十天的物件轉換到任何其他類別,除非你願意支付滿三十天的最短費用。生命週期策略會自動執行此規則 — 一條規定「在 Standard 待 1 天后轉至 Standard-IA,再待 1 天后轉至 Glacier」的規則,對於走這條路徑的每個物件,仍需支付三十天的 Standard-IA 儲存費用。

過期規則 (Expiration Rules)

過期會在自建立起 N 天后 (或在啟用版本控制時物件變為非當前版本 N 天后) 刪除物件。對於未啟用版本控制的儲存貯體,物件會永久消失。對於啟用版本控制的儲存貯體,當前版本的過期會建立刪除標記 (delete marker) — 非當前版本仍會存在並繼續產生費用,直到另一條單獨的非當前版本過期規則將其刪除。

中止不完整的分段上傳 (Abort Incomplete Multipart Upload)

已開始但從未完成的分段上傳會留下無法計算的組件,這些組件會產生儲存費用且永遠不會出現在物件列表中。每個生產環境的儲存貯體都應具備一條「7 天后中止不完整分段上傳」的生命週期規則。考試非常愛考這點 — 「儲存貯體帳單持續增長但物件數量保持不變」這類問題的答案就是配置中止分段上傳生命週期動作。

S3 生命週期最短儲存期限規則是不論物件是否留在該類別都會收費的 — Standard-IA 即使你在 1 天后轉換,也會收取三十天的費用;Glacier Flexible 收取九十天;Glacier Deep Archive 收取一百八十天。 設計激進生命週期策略的工程師經常忽視這一點,導致帳單比一直留在 Standard 還高。經驗法則:在物件可能在 IA 類別中待滿至少最短期限前,不要將其轉換過去;在物件至少六個月內不太可能被讀取前,不要將其轉換至 Glacier Deep Archive。DEA-C01 考試透過描述一個「成本優化」策略實際上因最短期限罰金而耗資更多的場景來測試這一點。

S3 Intelligent-Tiering — 自動分層類別

Intelligent-Tiering 是一個特殊的儲存體類別,因為它會自動做出生命週期決策。

Intelligent-Tiering 如何運作

當你將物件寫入 Intelligent-Tiering 時,S3 將其放在頻繁存取層。連續三十天未存取後,S3 將其移至不頻繁存取層 (成本較低,無擷取費)。九十天未存取後,S3 將其移至歸檔即時存取層 (成本更低)。選用的歸檔存取層與深層歸檔存取層提供更大幅度的折扣,但需在每個儲存貯體層級明確選擇加入 (opt-in)。

何時使用 Intelligent-Tiering

當存取模式不可預測時使用 Intelligent-Tiering — 你不知道下個月物件會變熱還是變冷。該類別為你做出決策,且在毫秒級延遲層級中不收取擷取費。當存取模式已知時停止使用:可預測的熱資料屬於 Standard (無監控費),可預測的冷資料屬於 Glacier (每 GB 成本較低,且無每物件監控開銷)。

監控費用陷阱

Intelligent-Tiering 會收取每物件監控費用。對於擁有數百萬個微小物件 (128 KB 以下,由於合格物件大小閾值為 128 KB,這些物件本就不會轉出頻繁層) 的儲存貯體,監控費用可能超過任何儲存節省。考試會問:「一個擁有一億個 50-KB 物件的儲存貯體使用 Intelligent-Tiering 導致帳單異常高 — 資料工程師該怎麼做?」正確答案是將微小物件移出 Intelligent-Tiering,移至 Standard (無監控費) 或透過合併 (compaction) 將小檔案彙整為較大物件。

S3 版本控制、複寫與 MFA 刪除

版本控制與複寫是兩項獨立的功能,共同為資料保護服務。

版本控制 (Versioning)

版本控制會儲存物件的每個版本 — 覆寫與刪除不會實際移除資料,而是建立新版本或刪除標記。版本控制是複寫、針對非當前版本的生命週期規則以及大多數資料保護模式的先決條件。一旦啟用,版本控制可以暫停但不能關閉 — 現有版本將永久存在,除非明確刪除。

MFA 刪除 (MFA Delete)

MFA 刪除是一項版本控制選項,要求使用多因素驗證 (Multi-Factor Authentication) 才能永久刪除版本或暫停版本控制。它只能由儲存貯體擁有者的根帳戶 (root account) 使用 AWS CLI 配置 — 控制台無法設定。適用於存放合規性關鍵資料、必須防止意外或惡意刪除的儲存貯體。

跨區域複寫 (CRR) 與同區域複寫 (SRR)

複寫會將物件從來源儲存貯體異步複製到目標儲存貯體 — 跨區域 (CRR) 或同區域 (SRR)。兩者均要求來源與目標儲存貯體啟用版本控制、具備複寫許可的 IAM 角色,以及在來源儲存貯體上配置複寫規則。CRR 用於災難復原與地理冗餘;SRR 用於合規隔離、日誌彙總或在同區域帳戶間進行複寫。複寫不會追溯複製現有物件 — 僅複寫規則建立後的新寫入。如需回填現有資料,請使用 S3 Batch Replication (批次複寫)。

S3 複寫時間控制 (RTC)

對於 RPO 敏感的工作負載,S3 RTC 提供十五分鐘複寫 SLA 與 CloudWatch 指標。成本高於標準複寫。適用於資料工程師必須向合規單位證明硬性復原時間目標的情況。

S3 事件通知、存取點、物件鎖定與 S3 Select

多項 S3 功能為儲存與生命週期層以外的資料工程管道提供動力。

S3 事件通知 (Event Notifications)

S3 可在物件建立、刪除、還原與複寫失敗時,向 SQS 佇列、SNS 主題、Lambda 函數或 EventBridge 發布事件。最常見的管道觸發模式:生產者在著陸前綴放入 Parquet 檔案,S3 向 EventBridge 發送 s3:ObjectCreated:* 事件,EventBridge 叫用執行 Glue 作業以轉換並載入檔案的 Step Functions 工作流。偏好 EventBridge 整合而非直接 SQS 或 Lambda 目標,因為 EventBridge 支援過濾、每個事件多個目標以及跨帳戶路由。

S3 存取點 (Access Points)

存取點是具有自身存取策略的具名網路端點,附屬於儲存貯體。它們簡化了大型共享儲存貯體的每應用程式存取管理 — 每個取用者擁有自己的存取點與聚焦策略,而非在單一儲存貯體策略中為每個取用者授予權限。多區域存取點 (Multi-Region Access Points) 為主動-主動工作負載增加了跨區域的自動故障轉移路由。

S3 物件鎖定 (Object Lock)

物件鎖定實現了個別物件上的 WORM (一寫多讀) 保護。存在兩種保留模式:控管 (Governance,允許特定特權使用者覆寫鎖定) 與合規 (Compliance,在保留期屆滿前,包括根帳戶在內的任何人都無法刪除或修改物件)。適用於監管合規性歸檔 — SEC 17a-4、FINRA、HIPAA — 在保留期間內資料必須具備防篡改性。

S3 Select 與 Glacier Select

S3 Select 對單一物件 (CSV、JSON、Parquet) 在擷取時執行簡單的 SQL 過濾,僅傳回匹配的子集。Glacier Select 對 Glacier Flexible 物件執行相同操作。用於當應用程式從 1 GB 物件中讀取 10% 資料列時減少下游運算量 — 將過濾下推至 S3,而非在 Lambda 中拉取完整 1 GB 資料後過濾。考試會對比 S3 Select (單物件過濾) 與 Athena (具備聯結的多物件 SQL) — 它們解決不同的問題。

對於存取模式未知或隨時間變化的資料湖儲存貯體,使用 S3 Intelligent-Tiering 作為預設類別,並搭配明確的物件大小過濾器以排除 128 KB 以下的物件。 Intelligent-Tiering 會在三十天與九十天未存取後自動將物件移至較低成本層級,同時在存取時保留毫秒級延遲讀取,消除了手動生命週期規劃。128 KB 過濾器避免了在微小檔案上收取的監控費用,因為在那裡費用超過了節省。將此與另一條將真正冷資料 (兩年以上) 轉換至 Glacier Deep Archive 以進行長期保留的生命週期規則結合。此模式在不預測存取模式的情況下提供了近乎最優的成本。

S3 作為資料湖基礎

每個現代 AWS 資料架構都建立在 S3 之上,因為 S3 是唯一結合了無限容量、十一個九耐久性、區域可用性以及與每項分析服務整合的 AWS 服務。

為什麼 S3 支撐著每種資料架構

S3 沒有固有的運算耦合 — 你可以儲存一次資料,並從 Athena、Redshift Spectrum、EMR Spark、Glue ETL、SageMaker、QuickSight 以及任何自訂應用程式中查詢,無需複製資料。這種儲存與運算的分離正是實現資料湖模式的關鍵,也是每種現代分析架構的基石。鎖定在特定供應商格式 (如 Redshift 的內部區塊) 會阻礙這一點;以 Parquet 等開放格式存放在 S3 上則能實現。

銅、銀、金分區 (Bronze, Silver, Gold Zoning)

典型的資料湖將資料組織在三個 S3 前綴 (或儲存貯體) 中:銅 (bronze) 用於與擷取時完全一致的原始著陸資料,銀 (silver) 用於初次 ETL 後經過清理與分割的資料,金 (gold) 用於供分析使用的聚合後業務就緒資料。生命週期策略因區分而異 — 銅區在九十天內激進地歸檔到 Glacier,銀區保留在 Standard-IA 一年,金區則無限期保留在 Standard。

S3 搭配 Lake Formation 管理

Lake Formation 將 S3 路徑註冊為受管位置,並在資料表、欄位、資料列與儲存格層級套用細粒度存取。Lake Formation 不取代儲存貯體策略 — 兩者都必須允許存取作業才能成功。這種兩層模型是有意設計的:儲存貯體策略強制執行粗粒度的網路與帳戶邊界,Lake Formation 強制執行細粒度的資料治理。

One Zone-IA 僅在一個可用區域中儲存資料,因此單一 AZ 故障或毀損會永久銷毀資料 — 絕不將 One Zone-IA 用於主要副本、備份紀錄或任何無法從其他來源重新生成的資料。 考試會設計一個場景描述「我們希望為備份尋找最便宜的 IA 類別」,並將 One Zone-IA 列為最便宜選項。選擇它是錯誤的,因為備份根據定義必須在 AZ 故障中倖存。僅將 One Zone-IA 用於衍生的次要副本 — 轉碼媒體、分析中間產物、快取資料集 — 這些資料在 AZ 遺失時能廉價地重新生成。DEA-C01 考試將此視為單一問題的否決條件,許多考生在這一細微差別上失分。

S3 儲存體類別與生命週期的常見考試陷阱

DEA-C01 考試設定了一組一致的 S3 陷阱。請記住這六個。

陷阱 1 — 將 Glacier Instant Retrieval 與 Glacier Flexible 混淆

場景詢問:「我們需要比 Standard-IA 便宜但具備毫秒級存取的資料歸檔」。正確答案:Glacier Instant Retrieval。錯誤答案:Glacier Flexible Retrieval,它更便宜但擷取需要數分鐘至數小時。

陷阱 2 — 激進轉換反而增加成本

場景描述生命週期策略在 Standard、Standard-IA、Glacier Flexible、Glacier Deep Archive 之間快速轉換物件。錯誤直覺:這能省錢。正確答案:每個層級的最短儲存期限罰金意味著帳單高於留在 Standard,因為每個層級都收取了完整的最低期限儲存費。

陷阱 3 — 為微小物件使用 Intelligent-Tiering

儲存貯體在 Intelligent-Tiering 中有一億個 10 KB 物件。由於每物件監控費用,帳單很高。正確答案:彙總微小物件,或將其移出 Intelligent-Tiering。128 KB 閾值意味著微小物件永遠不會轉出頻繁層,因此監控費用增加了成本卻無節省。

陷阱 4 — 為主要備份選用 One Zone-IA

如上所述。One Zone-IA 僅適用於可重現的衍生資料,絕不用於備份紀錄。

陷阱 5 — 複寫卻未啟用版本控制

場景詢問「為儲存貯體配置 CRR」,考生忘記來源與目標都必須先啟用版本控制。沒有版本控制的複寫配置會失敗。考試會依序列出先決條件,省略版本控制的答案是錯誤的。

陷阱 6 — 為頻繁報告選用 Glacier Deep Archive 的十二小時擷取

場景詢問「每月合規報告必須可依需求讀取,且我們希望成本最低」。錯誤答案:Deep Archive (十二小時擷取使「依需求」變得不可能)。正確答案:Glacier Instant Retrieval (毫秒級存取,成本低於 Standard-IA)。

陷阱 7 — 忘記中止不完整的分段上傳

儲存貯體帳單穩定增長,但可見物件數量持平。原因是隱形的「不完整分段上傳」在累積。修正方法是設定一條將中止動作設為七天的生命週期規則。

S3 儲存體類別具備最短儲存期限計費 — Standard 無,IA 類別 (Standard-IA, One Zone-IA, Glacier Instant Retrieval) 收取三十或九十天最短期限,Glacier Flexible 收取九十天,Glacier Deep Archive 收取一百八十天。 請記住 0/30/90/180。生命週期轉換若在最短期限前移出物件,仍需支付滿額的最短期限儲存費。這是 DEA-C01 上測試最多的 S3 成本概念 — 每個「成本優化的生命週期策略」問題都取決於考生是否了解最短期限規則。結合「Glacier Instant Retrieval 是唯一具備毫秒級存取的 Glacier 類別」這一規則,你就能回答考試中大部分的 S3 儲存體類別場景。

關鍵數據與必須記住的 S3 事實

儲存體類別最短期限

  • S3 Standard:無最短期限,無最小物件大小限制
  • S3 Intelligent-Tiering:無最短期限,但針對 128 KB 及以上物件收取每物件監控費
  • S3 Standard-IA, One Zone-IA:三十天最短期限,128 KB 最小計費大小
  • S3 Glacier Instant Retrieval:九十天最短期限,128 KB 最小計費大小
  • S3 Glacier Flexible Retrieval:九十天最短期限,40 KB 最小計費大小
  • S3 Glacier Deep Archive:一百八十天最短期限,40 KB 最小計費大小

擷取延遲

  • Standard, Intelligent-Tiering, Standard-IA, One Zone-IA, Glacier Instant Retrieval:毫秒級
  • Glacier Flexible Retrieval:加速 1-5 分鐘、標準 3-5 小時、大量 5-12 小時
  • Glacier Deep Archive:標準 12 小時、大量 48 小時

耐久性與可用性

  • 所有類別均具備十一個九的耐久性
  • Standard:跨至少三個 AZ 的四個九可用性
  • One Zone-IA:單一 AZ 內的三個九可用性

生命週期策略限制

  • 每個儲存貯體最多 1,000 條規則
  • 規則適用於當前版本、非當前版本以及不完整分段上傳
  • 建議在每個生產儲存貯體中配置中止不完整分段上傳動作

版本控制與複寫

  • 版本控制是儲存貯體級設定,是複寫的先決條件
  • MFA 刪除僅能透過根帳戶 CLI 配置
  • CRR 與 SRR 要求來源與目標均啟用版本控制
  • 複寫不會回填現有物件 — 請使用 S3 Batch Replication

DEA-C01 考試重點 — S3 儲存體類別與生命週期策略。 此主題在 DEA-C01 考試中佔有相當權重。掌握每個 AWS 服務所暴露的權衡、決策邊界以及成本/效能觸發點 — 考試將測試那些依賴於知道哪個服務是錯誤答案,而不僅僅是哪個服務是正確答案的場景。

常見問題 (FAQ) — S3 儲存體類別與生命週期

Q1 — 我該如何在 Standard-IA、Glacier Instant Retrieval 與 Intelligent-Tiering 之間做選擇?

當你確生存取頻率低 (每月不到一次) 但可預測且毫秒級存取很重要時,使用 Standard-IA。當存取更罕見 (一年幾次)、仍需毫秒級回應且儲存節省能抵銷更高的每 GB 擷取費時,使用 Glacier Instant Retrieval。當存取模式未知或隨時間變化時,使用 Intelligent-Tiering — 該類別會在毫秒級延遲層級間自動分層且無擷取費,代價是有一筆每物件監控費。決策矩陣:可預測熱選 Standard,可預測冷但需即時選 Standard-IA 或 Glacier Instant Retrieval,不可預測選 Intelligent-Tiering。

Q2 — 為什麼我的「激進」生命週期策略反而比留在 S3 Standard 還貴?

因為最短儲存期限規則。Standard-IA 收取三十天最短費用,Glacier Flexible 九十天,Glacier Deep Archive 一百八十天。如果你的策略在第 1 天將物件從 Standard 轉至 Standard-IA,第 2 天轉至 Glacier Flexible,第 3 天轉至 Deep Archive,你將支付完整的三十天 Standard-IA 費用、九十天 Glacier Flexible 費用與一百八十天 Deep Archive 費用 — 遠高於一直留在 Standard。修正方法是讓每次轉換間隔至少等於目標類別的最短期限:第三十天轉至 IA,第九十加三十天後轉至 Glacier Flexible,第一百八十加先前累積時間後轉至 Deep Archive。

Q3 — 我應該何時使用 One Zone-IA 而非 Standard-IA?

僅當資料能從其他來源廉價地重新生成時才使用 One Zone-IA — 轉碼媒體、分析中間產物、快取資料集、衍生出的運算特徵。絕不要為主要備份或任何在 AZ 故障時會損失業務價值的資料選用 One Zone-IA。相對於 Standard-IA 節省的 20% 成本雖然真實,但對於不可替代的資料來說不值得冒耐久性風險。考試視此為關鍵判斷點 — 陷阱模式是為「備份」提供 One Zone-IA 選項。請改選 Standard-IA。

Q4 — 如何配置 S3 在新檔案進入時觸發 Glue ETL 作業?

在著陸前綴配置 S3 事件通知,監控 s3:ObjectCreated:* 並路由至 EventBridge。建立一條 EventBridge 規則匹配該 S3 事件,並以 Step Functions 狀態機為目標。狀態機啟動 Glue 作業、等待完成並觸發下游任務。偏好 EventBridge 而非直接 Lambda 或 SQS 目標,因為它支援過濾、扇出到多個目標以及跨帳戶事件路由。舊式的直接 Lambda 模式仍有效,但無法擴展到多個下游取用者且缺乏集中式的規則可見性。

Q5 — 典型的原始資料擷取儲存貯體,正確的生命週期策略為何?

三條規則:三十天後轉換至 S3 Standard-IA,九十天後轉換至 S3 Glacier Flexible Retrieval 或 Deep Archive (取決於擷取延遲容忍度),以及七天後中止不完整的分段上傳。如果合規性允許在保留期限後自動刪除 (通常針對受規管行業為七至十年),則增加第四條過期規則。對於不可預測的存取模式,將第一條轉換規則替換為:對 128 KB 及以上的物件,在第 0 天轉換至 Intelligent-Tiering,並讓其處理後續移動。

Q6 — 我該如何防止合規性歸檔被意外刪除?

三個層面。第一,啟用儲存貯體版本控制,使刪除操作建立刪除標記而非移除資料。第二,透過根帳戶 CLI 配置 MFA 刪除,要求多因素驗證才能永久刪除版本。第三,在合規 (Compliance) 模式下套用 S3 物件鎖定,保留期等於監管要求 — 合規模式防止包括根帳戶在內的任何人在保留期屆滿前刪除物件。增加一條儲存貯體策略,除了特定的合規人員外,拒絕所有人執行 s3:DeleteBuckets3:DeleteObjectVersion。這些層級相結合,使保留期內的意外或惡意刪除在功能上變得不可能。

Q7 — 我應該何時使用 S3 Select 而非 Athena?

當你需要從單一物件中過濾資料列時使用 S3 Select — 例如,應用程式讀取 1 GB CSV 但僅需地區等於 "us-west-2" 的列 — 將過濾下推至 S3 可減少網路傳輸與下游運算。當你需要跨多個物件進行具有 SQL 聯結、聚合與分割裁剪的查詢時使用 Athena — Athena 是多物件 SQL 的標準資料湖查詢引擎。S3 Select 無法跨物件聯結且無法理解分割。它們解決不同的問題,彼此不可替代。

延伸閱讀 — S3 官方 AWS 文件

權威的 AWS 來源包括《S3 使用者指南》中有關儲存體類別 (概觀與類別詳情)、物件生命週期管理 (規則結構、轉換考量)、Intelligent-Tiering (層級行為、監控費)、版本控制 (配置、MFA 刪除)、複寫 (CRR, SRR, RTC, 先決條件)、事件通知 (EventBridge, SQS, SNS, Lambda 整合)、存取點 (單區域與多區域)、物件鎖定 (控管對比合規模式) 以及 S3 Select (對物件進行 SQL 過濾) 的章節。

AWS Well-Architected Framework Storage Lens 儀表板為資料工程師提供橫跨所有 S3 儲存體類別的成本與用量分析,用以驗證生命週期策略是否按預期運作。S3 定價頁面記錄了各區域的確切費率。AWS Cost Explorer S3 儲存體類別報告可細分任何時段的類別成本 — 使用它來識別上述陷阱模式 (過多監控費、次佳的轉換時機、遺棄的分段上傳)。最後,《AWS 儲存部落格》有多篇關於資料湖生命週期策略設計的深入文章,可作為官方文件的補充。

官方資料來源

更多 DEA-C01 主題