白話文解釋
類比 1:策展博物館與 Dataplex
想像一個充滿來自世界各地文物的巨大博物館。如果沒有像 Dataplex:資料治理與型錄(dataplex-data-governance-and-governance)這樣的系統,這個博物館就只是一個混亂的倉庫。Dataplex:資料治理與型錄 充當首席策展人、編目系統和安全團隊。它確保每個文物(資料資產 Asset)都被標記、放置在正確的展館(區域 Zone),並且僅供授權研究人員存取。在這個博物館中,Dataplex:資料治理與型錄 提供了地圖,告訴您物品在哪裡以及它們是如何關聯的。這是 Dataplex:資料治理與型錄 在任何大型組織中的核心價值。沒有它,文物將會丟失、貼錯標籤或由錯誤的人處理。Dataplex:資料治理與型錄 框架提供了擴展所需的結構。
類比 2:現代公共圖書館與 Dataplex
將 Dataplex:資料治理與型錄 視為大型大都市圖書館的作業系統。在這個圖書館中,書籍(資料)以各種格式(紙本、數位、音訊)不斷湧入。Dataplex:資料治理與型錄 自動掃描這些新進書籍,對其進行分類,並更新中央搜尋型錄。它還管理「借書證」,確保兒童無法借閱受限的成人研究材料,這正是 Dataplex:資料治理與型錄 為企業資料安全性所做的事情。圖書館系統依靠 Dataplex:資料治理與型錄 來保持一切井然有序。每位圖書管理員都知道 Dataplex:資料治理與型錄 是運作良好的圖書館的秘訣。
類比 3:自動化供應鏈與 Dataplex
在大型製造廠中,零件來自數千家供應商。Dataplex:資料治理與型錄 就像自動化追蹤系統,追蹤從到達到最終產品的每個零件。它檢查零件的品質(資料品質 Data Quality)、記錄誰處理過它們(資料歷程 Lineage),並確保它們儲存在正確的溫控環境中(資料區域 Data Zone)。沒有 Dataplex:資料治理與型錄,供應鏈將因缺乏可見性和品質控制而崩潰。Dataplex:資料治理與型錄 平台確保每個零件都得到妥善核算並符合要求的規格。在這種複雜的環境中,Dataplex:資料治理與型錄 是操作的大腦。
Dataplex:資料治理與型錄簡介
當我們談論 Dataplex:資料治理與型錄 時,我們指的是智慧型資料網格(data fabric),它使組織能夠集中管理、監控和治理分佈在資料湖(data lakes)、資料倉儲(data warehouses)和資料市集(data marts)中的資料。實施 Dataplex:資料治理與型錄 對於在 Google Cloud 上工作的任何現代資料工程團隊都至關重要。
Dataplex:資料治理與型錄 的核心使命是為資料探索、資料管理和資料治理提供統一的體驗。透過使用 Dataplex:資料治理與型錄,您可以自動探索來自 Cloud Storage 和 BigQuery 等各種來源的元資料。這種自動化是 Dataplex:資料治理與型錄 的關鍵功能,使其與手動編目系統區分開來。
每位資料工程師都必須了解 Dataplex:資料治理與型錄 的細微差別。無論您是架構新系統還是管理現有系統,Dataplex:資料治理與型錄 都提供了成功所需的工具。Dataplex:資料治理與型錄 中的治理層將原始資料轉化為寶貴的業務資產。
智慧型資料網格,可對 Google Cloud 中分散的資料資產進行統一的資料管理與治理。
Dataplex 的核心架構
理解 Lakes 與 Zones
在 Dataplex:資料治理與型錄 的世界中,「Lake」是最高級別的容器。它代表資料資產(Asset)的邏輯分組。在 Lake 內,Dataplex:資料治理與型錄 允許您建立「Zone」(區域)。這些區域分為「Raw」(原始)或「Curated」(精選)。
Dataplex:資料治理與型錄 中的 Raw Zone 通常用於存放原始格式的資料。Curated Zone 則用於存放已清洗、轉換並準備好進行分析的資料。有效管理這些區域是設定 Dataplex:資料治理與型錄 時的首要任務。原始與精選之間的分離是 Dataplex:資料治理與型錄 的基本原則。
資產管理 (Asset Management)
Dataplex:資料治理與型錄 中的「Asset」(資產)映射到物理資料來源,例如 Cloud Storage 儲存桶或 BigQuery 資料集。當您在 Dataplex:資料治理與型錄 中註冊資產時,系統開始對其元資料建立索引。此索引過程實現了 Dataplex:資料治理與型錄 內的搜尋功能。
Dataplex:資料治理與型錄 中的每個資產都是您資料網格的基石。在單個 Dataplex:資料治理與型錄 執行個體中可以擁有數千個資產。這些資產的管理透過 Dataplex:資料治理與型錄 介面進行簡化。
Dataplex:資料治理與型錄 中的資產不會移動資料;它僅管理元資料並在現有儲存之上提供治理層。
資料探索與元資料管理
Dataplex:資料治理與型錄 中的自動探索服務會掃描您的資產以識別架構(schema)、分割區(partitions)和其他元資料。然後將這些元資料發佈到與 Dataplex:資料治理與型錄 整合的 Data Catalog 中。
透過自動化探索,Dataplex:資料治理與型錄 減少了手動維護資料型錄所需的工作。這對於在 Dataplex:資料治理與型錄 中維持單一事實來源至關重要。元資料是 Dataplex:資料治理與型錄 的命脈。
深入探討資料探索與元資料管理
自動探索掃描
Dataplex:資料治理與型錄 最強大的功能之一是其執行自動探索掃描的能力。這些掃描會查看 Cloud Storage 中的資料檔案和 BigQuery 中的表。Dataplex:資料治理與型錄 隨後推斷架構並在 Metastore 中註冊表。掃描頻率可以根據需求進行調整。
當掃描在 Dataplex:資料治理與型錄 中執行時,它不只是查找檔案,還會尋找模式。它根據目錄結構識別分割區,這是 Dataplex:資料治理與型錄 組織大資料的關鍵方式。這種智慧使 Dataplex:資料治理與型錄 非常高效。
業務元資料與標籤範本 (Tag Templates)
除了技術元資料外,Dataplex:資料治理與型錄 還透過標籤範本支援業務元資料。這些範本允許您將標籤(如「PII」、「保留期」或「所有者」)附加到資料資產。這使得 Dataplex:資料治理與型錄 對業務使用者和合規管理員來說成為更有用的工具。
在 Dataplex:資料治理與型錄 中,標籤範本是元資料的結構(schema)。它確保組織中的每個人在描述 Dataplex:資料治理與型錄 中的資料時都使用相同的術語。
使用 Dataplex:資料治理與型錄 中的標籤範本來標準化組織描述資料資產的方式。
資料品質與分析 (Data Quality and Profiling)
品質規則與驗證
資料品質是 Dataplex:資料治理與型錄 的基石。您可以在 Dataplex:資料治理與型錄 內定義資料品質規則,以檢查空值、範圍限制或格式不匹配等內容。Dataplex:資料治理與型錄 隨後針對您的資料執行這些檢查並提供品質評分。
品質檢查結果顯示在 Dataplex:資料治理與型錄 儀表板中,讓您清楚了解資料健康狀況。這種主動的品質方法是 Dataplex:資料治理與型錄 的主要優點。
資料分析以獲得洞察 (Profiling)
Dataplex:資料治理與型錄 中的資料分析(Profiling)幫助您了解資料的統計分布。它回答諸如「此欄位的平均值是多少?」或「有多少個唯一值?」等問題。這對於使用 Dataplex:資料治理與型錄 構建可靠管道的資料工程師來說非常重要。
請熟記 PDE 考試愛考的 Dataplex 階層與 API:一個 lake 包含多個 zone(raw 或 curated),zone 內含指向 Cloud Storage bucket 或 BigQuery dataset 的 asset。Discovery 預設每小時執行一次,lineage 記錄預設保留 30 天(除非匯出),而必須一起放進 VPC-SC perimeter 的三個 API 是 dataplex.googleapis.com、datacatalog.googleapis.com 與 datalineage.googleapis.com。AutoDQ 內建規則類型涵蓋 null check、uniqueness、set membership、regex、range、statistic、referential integrity 與 row-count delta — 其他需求一律寫 custom SQL rule,且該 SQL 必須回傳零列才算通過。
資料歷程 (Data Lineage)
歷程視覺化
了解資料的來源和去向稱為資料歷程。Dataplex:資料治理與型錄 為各種 GCP 服務提供自動歷程追蹤。當您執行 BigQuery 工作或 Dataflow 管道時,Dataplex:資料治理與型錄 會擷取資料的移動。
Dataplex:資料治理與型錄 中的歷程以圖表呈現。您可以在 UI 中看到來源表、轉換過程和最終輸出表。這對於影響分析至關重要。
Dataplex:資料治理與型錄 中的自動歷程可能無法捕捉在支援的 GCP 服務之外發生的所有資料移動。請務必驗證涵蓋範圍。
安全性與存取控制
集中化原則管理
安全性內建於 Dataplex:資料治理與型錄 中。您可以在 Lake、Zone 或 Asset 層級定義 IAM 角色。這種階層式安全性模型是 Dataplex:資料治理與型錄 的一大優勢,讓您能從單一介面管理數千個資料集的存取權限。
屬性型存取控制 (ABAC)
透過與 Data Catalog 標籤整合,Dataplex:資料治理與型錄 支援屬性型存取控制(ABAC)。這意味著您可以為標記為「Public」的資產授予存取權限,而無需管理個別資產權限。這在 Dataplex:資料治理與型錄 環境中比傳統的 RBAC 更具擴展性。
欄位層級安全性與資料遮罩
對於敏感資料,Dataplex:資料治理與型錄 支援欄位層級安全性。您可以限制對特定欄位(如身分證字號)的存取。此外,Dataplex:資料治理與型錄 可以動態遮罩資料,向未經授權的使用者僅顯示末四碼。
治理原則與自動化
監控治理事件
Dataplex:資料治理與型錄 中執行的每項操作都會被記錄下來。這提供了合規性所需的稽核軌跡。您可以透過監控日誌查看誰在何時存取了什麼資料。
治理成本管理
Dataplex:資料治理與型錄 提供龐大價值,但監控其成本也很重要。探索掃描和資料品質檢查會消耗資源。在 Dataplex:資料治理與型錄 內高效地調度這些任務是實施成本效益型的關鍵。
為 Dataplex 設計 VPC Service Controls perimeter 時,請務必同時納入 dataplex.googleapis.com、datacatalog.googleapis.com、datalineage.googleapis.com、bigquery.googleapis.com 與 storage.googleapis.com。少了任何一個,要嘛 pipeline 整條斷掉,要嘛產生看不見的 metadata 外洩。See https://cloud.google.com/dataplex/docs/introduction
與其他 GCP 服務整合
BigQuery 與 Dataplex
BigQuery 與 Dataplex:資料治理與型錄 之間的整合是無縫的。BigQuery 資料集可以註冊為資產,元資料會自動同步,且 BigQuery 會遵守 Dataplex:資料治理與型錄 中定義的安全性原則。
Dataflow 與 Dataproc 整合
在處理資料時,Dataplex:資料治理與型錄 可以作為元資料的單一事實來源。您的工作可以查詢 Dataplex:資料治理與型錄 以尋找原始資料資產的位置,並由其自動捕捉歷程。
實施深入探討
實施 Dataplex:資料治理與型錄 需要策略性方法。您首先必須定義資料網域、識別資料所有者,然後將其映射到 Lake 和 Zone 的階層結構。
在大型組織中,Dataplex:資料治理與型錄 充當各部門之間的黏合劑。行銷團隊可以找到客戶資料,而財務團隊則確保符合法規。這種跨功能效用使 Dataplex:資料治理與型錄 極具價值。
當您擴展 Dataplex:資料治理與型錄 的使用時,務必為標籤和範本建立清晰的命名慣例,否則型錄可能會變得混亂。
在 GCP PDE 考試中,應熟悉 Dataplex:資料治理與型錄 如何處理探索與安全性。預期會有關於設定 Curated Zone 或使用標籤進行存取控制的問題。
進階資料管理
元資料匯出與互通性
Dataplex:資料治理與型錄 不是封閉系統。您可以使用 API 將元資料匯出到其他工具,這對於使用多廠商工具鏈的公司非常重要。
AI 驅動的治理
Google 越來越多地使用 AI 來增強 Dataplex:資料治理與型錄。例如,AI 可以根據內容建議標籤,或預測潛在的資料品質問題。這代表了 Dataplex:資料治理與型錄 的未來。
災害復原
您的治理元資料與資料一樣重要。Dataplex:資料治理與型錄 確保元資料已備份,並可在區域故障時復原。
資料管家 (Data Stewards) 的角色
資料管家在 Dataplex:資料治理與型錄 中扮演關鍵角色。他們負責定義標籤、範本和原則。沒有明確的管家制度,Dataplex:資料治理與型錄 就只是一個缺乏目標的技術工具。
與雲端資料遺失防護 (DLP) 整合
Dataplex:資料治理與型錄 與 Cloud DLP 整合,可自動識別敏感資訊。這使得 Dataplex:資料治理與型錄 能自動套用標籤並觸發安全性原則。
實施檢查清單
- 定義 Lakes: 按業務單位或環境分組。
- 設定 Zones: 建立 raw 和 curated 區域。
- 註冊 Assets: 新增儲存桶和資料集。
- 配置 Discovery: 設定自動掃描。
- 建立標籤範本: 定義業務元資料。
- 套用安全性: 設定 IAM 和 ABAC。
- 定義品質規則: 建立驗證檢查。
- 監控歷程: 確保管道報告移動。
- 稽核記錄: 定期審查。
- 培訓使用者: 確保團隊了解如何使用。
常見問題
Lake 與 Zone 的區別?
Lake 是 Dataplex:資料治理與型錄 中的頂層容器;Zone 則是內部的子區域,用於按成熟度或網域組織資料。
Dataplex 會儲存我的資料嗎?
不會。Dataplex:資料治理與型錄 僅管理元資料與原則。實際資料仍保留在 GCS 或 BigQuery 中。
如何幫助合規?
透過自動探索、DLP 整合、集中存取控制和詳細稽核記錄,Dataplex:資料治理與型錄 讓滿足 GDPR 或 HIPAA 等法規變得更簡單。
(有關 Dataplex:資料治理與型錄 的指南到此結束)