examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 21 分鐘

生成式 AI 的資料治理

4,180 字 · 約 21 分鐘閱讀 ·

Google Cloud Generative AI Leader 考試核心章節:生成式 AI 的資料治理,涵蓋資料就緒度、企業級「不用我的資料訓練模型」保證、資料駐留地與資料主權、PII 處理、生成內容的智慧財產權,以及 IAM、VPC Service Controls、Cloud DLP 如何讓企業級 GenAI 部署合規且安全。

立即做 20 題練習 → 免費 · 不用註冊 · GENAI-LEADER

什麼是生成式 AI 的資料治理?

生成式 AI 的資料治理是一套政策、控制措施與平台保證的集合,用以決定 GenAI 系統可以存取哪些資料、這些資料可以流向何處、誰可以使用輸出結果,以及每一次互動如何被記錄以供日後稽核。對於 Google Cloud Generative AI Leader 考試而言,這個章節將生成式 AI 令人振奮的潛力——起草文件、摘要會議、回答客戶問題——與一個不夠迷人卻至關重要的商業現實連結起來:資料同時是 GenAI 價值的來源,也是 GenAI 風險的來源

企業部署的每一項生成式 AI 功能,本質上都是一條資料管線。提示詞是送進模型的資料;回應是從模型傳回的資料;經過接地的 RAG 助理會將公司文件拉入提示詞;微調後的模型則是透過訓練樣本塑造而成。這些資料中只要有一部分品質低劣,答案就會出錯;只要有一部分屬於敏感資訊而洩漏,公司就會成為新聞頭條;只要有一部分跨越了不應越過的國境,監管機關就會介入。資料治理是確保這些情況都不會發生的學問,也是將一個有趣的概念驗證專案,轉化為董事會能夠核准的生成式 AI 部署方案的關鍵所在。

Generative AI Leader 考試不要求你親手撰寫 IAM 政策或設定 VPC Service Controls 邊界。它測驗的是:身為企業領導者,你能否回答以下問題:「如果員工在 Gemini 中輸入了客戶資訊,Google 會用這些資料來訓練模型嗎?」(對於企業版 Vertex AI 和附有 Gemini 的 Google Workspace:不會——合約中有明確保證。)「我們可以將 GenAI 資料保留在特定國家嗎?」(可以——透過資料駐留地承諾與區域端點。)「行銷團隊生成的文字,著作權歸誰?」(這個問題有所細微差異,取決於司法管轄區,以及人類是否對內容進行了有意義的塑造。)「如何阻止信用卡號被貼入提示詞並儲存在日誌中?」(Cloud DLP / Sensitive Data Protection。)這些都是考試期望你能夠自信作答的決策。

為何資料治理是 GenAI 價值的基礎?

治理是加速器,而非剎車

我們容易將資料治理視為剎車——一種拖慢業務發展的合規稅。Generative AI Leader 考試希望你持相反的觀點:良好的資料治理是加速器。一個以乾淨、標記完善、可存取的公司資料作為接地基礎的生成式 AI 助理,能夠提供準確的答案並贏得使用者信任。同一個助理若以過時、自相矛盾或無法存取的資料作為接地基礎,則會自信滿滿地產出胡說八道的內容,使用者將不再信任它,專案也會悄悄宣告失敗。

治理是規模化的解鎖鑰匙

治理也是規模化部署的解鎖條件。十位工程師的試驗專案可以容忍鬆散的控制;一萬名員工的全面推廣,涉及客戶紀錄、財務資料與受監管的健康資訊,則絕對不行。在生成式 AI 領域行動最快的組織,並不是那些跳過治理的組織;而是那些在早期就建立治理機制的組織,讓每一個新的應用場景都能繼承既有的控制措施,而非重新發明。這是考試所期望的商業思維框架:資料治理使企業級 GenAI 在法律與聲譽上都是安全的,因此也是讓它得以大規模部署的先決條件。

資料就緒度:品質、標記與可存取性

在第一個提示詞送出之前,領導者必須先問:我們的資料準備好了嗎? 資料就緒度有三個維度,考試要求你能夠辨識。

資料品質

資料品質意指資料是準確、即時、完整且一致的。一個以充滿過時產品規格的知識庫作為接地基礎的生成式 AI 模型,將會信心十足地引用錯誤規格。一個對一半紀錄都是重複項目的客戶工單進行摘要的模型,其摘要結果將會有所偏差。生成式 AI 並不能修正糟糕的資料——它會放大糟糕的資料,因為它會以流暢、自信的語氣呈現錯誤資訊,使其比原始試算表更難以質疑。

資料標記與結構

標記意指資料帶有詮釋資料(metadata),告知系統這份資料是什麼、誰可以查看,以及其敏感程度。一份標記為「內部——財務——機密」的文件可以被治理;一份漂浮在共用雲端硬碟中、沒有任何標記的文件則不行。對於接地的生成式 AI 而言,標記使系統能夠只擷取特定使用者有權查看的文件。

資料可存取性

可存取性意指正確的系統與正確的人員確實能夠存取資料——同樣地,錯誤的人員則無法存取。鎖在無法存取的舊式系統中的資料,無法作為 GenAI 助理的接地來源。所有人都可存取的資料,則是一顆等待引爆的洩漏炸彈。目標是最小權限的可存取性:每個資料使用者只能看到其所需的內容,不多也不少。

在任何生成式 AI 專案開始之前,有一個實用的就緒度檢查清單:選出你計畫用來接地助理的單一知識來源,並問三個問題:它是否即時(上次更新是什麼時候)?是否有標記(每份文件是否帶有敏感程度與擁有者標記)?是否有存取控制(能否讓助理遵守與人類使用者相同的存取權限)?若其中任何一個問題的答案是「否」,請先修復資料再建構助理——在未治理資料之上加一層 GenAI,只會繼承那些資料的所有問題,並以更有說服力的方式呈現出來。參考:https://cloud.google.com/vertex-ai/generative-ai/docs/data-governance

提示詞與輸出結果流向何處?

每位主管對生成式 AI 最常問的問題,大致上都是某個版本的:「當員工在 AI 中輸入某些內容時,它會流向哪裡?誰能看到?」Generative AI Leader 必須能夠清晰地回答這個問題。

企業使用路徑

當員工使用企業版生成式 AI 服務——Google Workspace 中的 Gemini,或基於 Vertex AI 建構的應用程式——提示詞會傳送至 Google 管理的模型,經過處理後回傳回應。提示詞與回應都是客戶資料,受組織與 Google Cloud 之間的企業協議所約束。它們在傳輸中與靜態時均經過加密,不會讓其他客戶看到,也不會用於訓練 Google 的基礎模型。

企業版與消費者版的對比

真正重要的對比——也是考試最喜歡測驗的——是企業使用路徑與消費者路徑之間的差異。免費的個人版 Gemini 應用程式受消費者條款而非企業條款約束,而這兩者的條款是不同的。這個區別是整個考試中最重要的治理課題之一。

消費者版 Gemini 應用程式與企業版 Vertex AI 的資料使用條款不同——混淆兩者是企業可能犯下的最危險的治理錯誤之一。在企業版服務(Vertex AI 和 Gemini for Google Workspace)下,Google 在合約中承諾,客戶的提示詞與輸出結果不會用於訓練 Google 的基礎模型,且資料將保留在客戶的受治理環境中。在免費消費者版 Gemini 帳戶下,消費者條款適用,對話可能被人工審查以改善產品。若員工將機密客戶資料貼入個人消費者版 Gemini 帳戶,等同於將那些資料送出公司的治理邊界之外。解決方案不是發一份備忘錄告訴人們要小心——而是提供一個經過核准的企業版生成式 AI 工具,讓員工根本不需要使用消費者版。參考:https://cloud.google.com/vertex-ai/generative-ai/docs/data-governance

「我的資料會被用來訓練模型嗎?」——企業級保證

這個問題值得獨立成一個章節,因為這是每個法務團隊、每位 CISO 以及每場考試都會提問的問題。Google Cloud 企業生成式 AI 的答案毫不含糊。

條款實際上說了什麼

對於 Vertex AI 以及 Gemini in Google Workspace,Google Cloud 的條款明確說明:未經客戶許可,客戶資料不會用於訓練或改善 Google 的基礎模型。你的提示詞、上傳的文件、接地資料,以及模型的回應,都是你的資料。Google 對其進行處理是為了提供你所要求的服務,僅此而已。這週你所呼叫的基礎模型與其他所有客戶呼叫的是同一個;它不會在請求之間悄悄吸收你的商業機密。

為何合約保證至關重要

這是一項合約保證,而不只是你可以切換的設定項目。正是這項保證,使銀行、醫院或政府機關能夠在受監管的資料上使用生成式 AI。當考試呈現一個受監管組織因擔心「餵給模型」而猶豫是否採用 GenAI 的情境時,正確的領導回應是指向這項企業資料使用承諾。

對於 Generative AI Leader 考試,請精確記住企業保證的內容:當你使用 Vertex AIGemini for Google Workspace 時,你的提示詞、接地資料與輸出結果不會用於訓練 Google 的基礎模型。客戶資料僅被處理以服務客戶的請求,並受企業協議與 Google Cloud 安全控制措施的保護,仍歸客戶所有。這與客戶自行選擇進行的微調不同——當客戶刻意用自己的資料微調模型時,調整後的模型是為該客戶創建且隔離給該客戶使用的;它仍然不會被折回 Google 共享的基礎模型中。考試測驗的是你能否用這個事實來安撫緊張的利害關係人,而非含糊地承諾「會去查看隱私政策」。參考:https://cloud.google.com/vertex-ai/generative-ai/docs/data-governance

生成式 AI 的資料駐留地與資料主權

駐留地與主權的差異

資料駐留地是關於資料實際儲存與處理的位置資料主權則是更廣泛的概念——資料受其所在國家的法律約束,而組織希望控制哪些法律適用於自己的資料。對於生成式 AI 而言,這些問題比一般雲端儲存更為尖銳,因為提示詞不只是靜靜地躺在磁碟上;它是被模型主動處理的,而這個處理發生在某個地方。

Google Cloud 如何應對資料駐留地需求

Google Cloud 透過幾種方式來滿足 Generative AI Leader 應了解的資料駐留地需求:

  • 區域端點。 Vertex AI 讓客戶透過綁定特定區域或多區域(例如歐洲端點)的端點呼叫生成式 AI 模型,使提示詞與回應的處理受限於該地理範圍。
  • 資料駐留地承諾。 Google Cloud 發布合約性的資料駐留地承諾,描述受涵蓋服務的靜態客戶資料儲存於何處。
  • 主權雲端方案。 對於要求最嚴格的公部門與受監管客戶,Google 與合作夥伴提供主權雲端解決方案,讓運營控制與金鑰存取可以保留在某一司法管轄區內或由當地合作夥伴持有。

考試的商業思維框架:一家必須讓歐洲客戶資料遵守歐洲法律的跨國企業,不能單純假設全球 AI 服務即可滿足這項要求。它必須選擇區域性生成式 AI 端點,並依賴 Google Cloud 的資料駐留地承諾。認識到資料駐留地是一個事先做出的設計決策——而非事後打補丁——正是考試所期望的領導層洞察。

處理提示詞與輸出中的 PII

個人識別資訊(PII)——姓名、身份證字號、支付卡號、健康識別碼、聯絡方式——是最常見的敏感資料類型,往往不知不覺地出現在生成式 AI 的互動之中。客服人員將完整的客戶紀錄貼入提示詞以取得摘要;開發人員將生產資料庫匯出的資料送入模型以生成測試資料。若未加以治理,上述每一種情況都是 PII 洩漏事件。

Cloud DLP 與 infoType

Google Cloud 針對此問題的控制措施是 Cloud DLP,官方名稱已更名為 Sensitive Data Protection。Cloud DLP 可以在文字送達模型之前——或在回應傳回之後——進行檢查,並偵測超過 150 種內建的 infoType:支付卡號、台灣身分證字號、美國社會安全號碼、電子郵件地址、電話號碼、醫療識別碼,以及組織自訂的模式。一旦偵測到,Cloud DLP 可以對敏感元素進行刪除遮罩符記化,使模型仍能對文字的結構進行有用的處理,而不必接觸到原始的 PII。

跨知識庫的 PII 治理

對於接地的生成式 AI,相同的原則也適用於知識庫:掃描將作為助理接地來源的文件,並刻意決定助理應該或不應該能夠呈現哪些敏感內容。PII 治理不是一個單一的開關;它是一個分別施加於輸入、接地來源與輸出的層次。

生成內容的智慧財產權與著作權

一個較為細微的治理問題,也是考試視為真正商業考量的議題:生成式 AI 系統的輸出結果由誰擁有?商業使用是否安全?

侵權風險與賠償保證

這裡有兩個不同的議題。第一個是智慧財產權賠償保證:擔心模型的輸出可能無意中重現受著作權保護的訓練素材。對此,Google Cloud 透過提供賠償保證來回應客戶的顧慮,涵蓋 Google 基礎模型所使用的訓練資料以及生成的輸出——適用於按指示使用的涵蓋 Vertex AI 服務——這是一項商業保證,旨在讓企業使用生成內容時無需擔憂突如其來的侵權索賠。

生成輸出的所有權

第二個議題是輸出結果本身的所有權。許多司法管轄區的著作權法傳統上保護由人類創作的作品;主要由機器產生的內容在法律上的地位仍在演變中,且因國家而異。考試的領導層重點不是給出單一的法律裁決——而是認識到組織應制定一項政策:定義在生成內容發布之前需要多少人類的著作與審查,將模型視為起草工具而非最終作者,並在高風險素材(例如品牌資產與合約)上讓法律顧問介入。

生成式 AI 的資料治理是政策與技術控制措施的綜合集合,用以決定 GenAI 系統可存取哪些資料、資料可在何處被處理與儲存、誰可以使用其輸入與輸出,以及每次互動如何被記錄並保留以供稽核。它涵蓋資料就緒度(品質、標記、可存取性)、資料使用保證(客戶資料不訓練基礎模型的企業承諾)、駐留地與主權(區域端點與資料存放位置的合約承諾)、敏感資料處理(Cloud DLP / Sensitive Data Protection 處理 PII)、智慧財產權保證(賠償保證與著作權政策),以及保留與稽核(Cloud Audit Logs 與明確的保留期限)。它與模型效能截然不同:一個模型可以非常強大,卻完全未受治理,而一個未受治理的模型,是任何受監管企業都無法負責任地部署的。參考:https://cloud.google.com/vertex-ai/generative-ai/docs/data-governance

白話文解釋

生成式 AI 的資料治理聽起來像一場法律研討會,但日常生活中的類比其實出乎意料地直觀。以下三個類比各自突顯這門學問的不同面向——來源追蹤、存取控制與歷史記錄——並分別對應到具體的 Google Cloud 控制措施。

類比一:追蹤每一項食材的台灣小吃攤(資料就緒度與接地品質)

想像一家台灣知名夜市攤位,剛剛因為極致的口味獲得了媒體的高度報導。攤主手藝高超,但每位美食評論家都知道:再高超的手藝,也無法用變質的食材做出好料理。所以這家攤位推行了一套食材溯源制度。每一袋蔬菜都貼有標籤:來自哪個產地、何時採收、由誰驗收、是否通過有機認證。開攤前,師傅逐一核查標籤。沒有標籤、或已過期的食材,一律不上桌——無論外觀看起來多新鮮。

生成式 AI 助理就是那位手藝高超的師傅。它所接地的公司知識庫就是食材倉庫。資料就緒度就是食材溯源制度。如果你用一堆沒有新鮮度檢查、沒有敏感程度標記、也不知道是誰寫的文件來接地一個客服助理,這個助理就會自信滿滿地端出以變質資料製成的「料理」——引用已停產的產品、報出去年的售價、重複幾個月前已撤銷的政策。客戶無從分辨,因為答案以流暢自信的語氣呈現,就像一盤擺盤精美卻以壞食材製成的料理。

這就是為何接地資料品質是第一優先的治理考量,而非事後才想到的事。在 Google Cloud 上,這門學問看起來像這樣:確保接地來源是即時的(採收日期)、已標記敏感程度與擁有者詮釋資料(產地標籤),並以 Cloud DLP 掃描,確保你知道哪些「食材」含有不應送達用餐者的成分——例如客戶的身分證字號,或內部薪資數字。師傅的工作是把料理做好;治理制度的工作是保證師傅所用的食材是安全且新鮮的。沒有資料就緒度的生成式 AI 部署,就是讓米其林大廚蒙著眼從沒有標籤的倉庫裡取料烹飪——最終必然有人「食物中毒」。

類比二:設有分級借閱權限的大學圖書館(IAM、VPC Service Controls 與存取邊界)

再想像一座大型的台灣大學圖書館。並非每本書都對每位訪客開放。有一個任何人都可以瀏覽的開架閱覽區。有一個書籍不得帶出館外的參考閱覽室。還有一個只有具備資格的研究人員才能進入的珍貴手稿保管室,每次入室均有記錄,任何東西——絕對任何東西——都不得帶離閱覽室。圖書館不依賴一塊寫著「請勿竊取手稿」的禮貌提示牌;它依賴的是分級權限與實體邊界。

生成式 AI 的存取控制運作方式相同。Identity and Access Management(IAM) 是借閱證系統:它決定哪些員工與哪些應用程式可以存取哪些資料和哪些 AI 服務。初級分析師的借閱證可以開啟開架閱覽區;它無法開啟珍貴手稿保管室。當接地助理擷取文件時,它應當遵守相同的借閱證——只呈現詢問者有權查看的內容,絕不在沒有存取權限的人的答案中洩漏受限文件。

但 IAM 單獨存在時有一個缺口。一位被允許進入手稿保管室的合格研究人員,在理論上仍可以拍攝手稿,再將照片帶出去。IAM 控制誰可以讀取;它不控制資料事後可以流向何處。這就是 VPC Service Controls 的工作——圖書館的鎖定邊界,說明「手稿資料只能在這個閱覽室內被讀取,其他地方不行」。對於生成式 AI,在 Vertex AI 專案、接地資料儲存庫與相關服務周圍設置 VPC Service Controls 邊界,意味著即使是已通過身份驗證的內部人員——或遭入侵的服務帳戶——也無法將提示詞、接地文件或輸出結果洩漏至外部專案或個人帳戶。考試希望你內化的組合是:IAM 是借閱證,VPC Service Controls 是鎖定的保管室邊界,而嚴肅的 GenAI 部署需要兩者並用,因為一座發放借閱證卻不上鎖任何門的圖書館,實際上並不安全。

類比三:銀行金庫的存取記錄簿(保留、稽核與問責)

最後,想像一家銀行黃金金庫的安全作業。金庫建造堅固,鎖具嚴密——但稽核人員與監管機關最在意的功能是那本記錄簿。每次金庫門開啟,系統都會記錄是誰開啟的、確切時間、停留多久,以及取走了什麼。記錄簿依規定保存一定年限,然後按計畫銷毀。如果任何時候出了問題——一根金條不見了,懷疑有內部人員涉案——調查不依賴記憶或誠信,而是依賴那本記錄。

生成式 AI 需要同樣的記錄簿。每一次有意義的互動——送出的提示詞、為接地而擷取的敏感文件、生成的輸出結果、模型設定的變更——都是一個受治理組織事後必須能夠重建的事件。在 Google Cloud 上,Cloud Audit Logs 就是那本記錄簿:它記錄誰在什麼時間、從哪裡呼叫了哪項服務。如果監管機關日後詢問「請展示你的 AI 助理在三月份每次存取健康紀錄的情況」,答案是查詢稽核日誌,而不是聳聳肩膀。

記錄簿還有一個保留的維度。就像銀行不會永久保存記錄簿——儲存是有成本的,而舊紀錄會成為一種責任——組織也必須刻意決定,要將 GenAI 提示詞、輸出結果與日誌保留多久。保留時間太短,就無法調查事故或滿足監管機關的要求;保留時間太長,你就在囤積可能洩漏的敏感資料,甚至可能違反「被遺忘的權利」義務。治理的學問在於設定一個符合法律與業務需求的保留政策,並自動強制執行。考試的領導層課題:一個你無法稽核、且資料是出於慣性而非刻意保留的生成式 AI 系統,是不可信賴的——問責需要記錄簿,而記錄簿需要刻意設定的保留規則,一如那座贏得監管機關信任的黃金金庫。

執行 GenAI 資料治理的 Google Cloud 控制措施

這些類比對應到一套具體的工具組合。Generative AI Leader 應能夠說出這些控制措施的名稱,並以商業語言說明每項措施的作用。

IAM — 控制誰可以接觸資料與模型

Identity and Access Management(IAM) 管理哪些使用者、群組與應用程式可以存取生成式 AI 服務及其背後的資料。最小權限的 IAM 確保員工或服務帳戶只持有其角色真正需要的權限。對於接地助理,IAM 也是使系統能夠尊重每位使用者既有權限的機制,確保生成的答案絕不揭露詢問者無法正常開啟的文件。

VPC Service Controls — 防止資料洩漏

VPC Service Controls 在 Google Cloud 服務(包括 Vertex AI、Cloud Storage 和 BigQuery)周圍劃定安全邊界,使即使是已通過身份驗證、經 IAM 授權的使用者,也無法將資料移至核准邊界之外。對於生成式 AI,這是阻止遭入侵的帳戶或疏忽的內部人員,將提示詞、接地資料或輸出結果複製到未核准的專案或外部目的地的機制。

Cloud DLP / Sensitive Data Protection — 尋找並遮罩 PII

Cloud DLP(品牌名稱為 Sensitive Data Protection)可檢查資料中的敏感 infoType,並對其進行刪除、遮罩或符記化。應用於 GenAI 輸入、接地來源與輸出,可防止 PII 在不應被處理、儲存或呈現時遭到洩漏。

資料駐留地承諾 — 控制資料存放位置

Google Cloud 的資料駐留地承諾與區域端點,讓組織可以限制受涵蓋的客戶資料儲存與處理的位置——對於以生成式 AI 工作負載滿足國家與產業主權要求而言,至關重要。

Cloud Audit Logs — 記錄每次互動

Cloud Audit Logs 記錄 Google Cloud 上的管理與資料存取事件,提供法鑑追蹤記錄,證明誰在何時使用了哪項生成式 AI 服務,以及針對哪些資料。

對於考試,請認識 Google Cloud 治理控制措施之間的職責分工——考題常常呈現情境並詢問哪種控制措施最合適。「限制哪些員工可以使用生成式 AI 助理」→ IAM。「阻止內部人員將接地資料複製到外部專案」→ VPC Service Controls。「防止客戶支付卡號被儲存在提示詞日誌中」→ Cloud DLP / Sensitive Data Protection。「讓歐洲客戶資料的處理保留在歐洲」→ 資料駐留地承諾與區域端點。「向稽核人員證明誰在何時存取了模型」→ Cloud Audit Logs。沒有任何單一控制措施能涵蓋一切;生成式 AI 的資料治理是上述所有措施的層次化組合。參考:https://cloud.google.com/vpc-service-controls/docs/overview

GenAI 互動的保留與稽核

一個受治理的生成式 AI 部署,會將提示詞、輸出結果與接地存取視為必須刻意保留可隨時查閱的記錄。領導者必須回答兩個政策問題:

我們要保留 GenAI 資料多久?

我們要保留 GenAI 資料多久? 保留期限應由法律義務與業務需求驅動,而非慣性。金融服務法規可能要求多年保存特定互動記錄;隱私法可能要求在個人資料的目的達成後即刪除。治理的答案是一份明確的、自動執行的保留時程——長到足以調查事故並滿足合規要求,短到足以限制風險。

對於 Generative AI Leader 考試,請牢記三個治理事實。一: 在企業版 Vertex AI 和 Gemini for Workspace 下,客戶的提示詞、接地資料與輸出結果不會用於訓練 Google 的基礎模型——這是合約保證。二: 消費者版 Gemini 應用程式適用不同的消費者條款,不可作為經核准的企業工具替代品。三: 治理是由一套層次化控制措施執行的——IAM(誰)、VPC Service Controls(資料可以流向何處)、Cloud DLP / Sensitive Data Protection(PII)、資料駐留地承諾(地理位置),以及 Cloud Audit Logs(誰在何時做了什麼的記錄)。參考:https://cloud.google.com/learn/certification/generative-ai-leader

我們能夠重建發生了什麼嗎?

我們能夠重建發生了什麼嗎? 可稽核性意味著,對於任何過去的互動,組織都能夠回答「誰、何時、哪些資料、哪些輸出」。Cloud Audit Logs 提供平台層級的追蹤記錄;應用程式層級的提示詞與回應記錄(與任何其他敏感儲存庫一樣受到治理和存取控制)則補全了全貌。沒有這些,組織既無法調查濫用事件、回應監管機關,也無法證明其負責任 AI 的承諾是真實的而非流於形式。

資料治理如何與其他 Generative AI Leader 章節連結

資料治理並非獨立的孤島——它貫穿 Generative AI Leader 課綱的其他部分:

  • Responsible AI 與 SAIF — 治理是負責任 AI 在資料層的體現;Google 的 Secure AI Framework 將資料保護與來源追蹤視為核心安全領域。請參閱 Responsible AI 與 SAIF,了解治理如何融入更廣泛的信任與安全模型。
  • 消費者與企業生產力 — 消費者版與企業版的資料使用區別,是整個考試中最高風險的治理決策;請參閱 GenAI 消費者與企業生產力,了解兩種層級在實踐中的差異。
  • Vertex AI for Generative AI — Vertex AI 是大多數這些治理控制措施——區域端點、訓練保證、與 IAM 和 VPC Service Controls 的整合——實際運行的平台。請參閱 Vertex AI for Generative AI,了解平台背景。

應避免的常見資料治理錯誤

對於考試,當情境描述以下反面模式時,請加以辨識:

  1. 將消費者版 Gemini 應用程式視為企業工具。 員工將機密資料貼入個人帳戶是治理違規行為;應提供經核准的企業工具作為替代。
  2. 在未治理的資料上建構接地助理。 GenAI 層會繼承——並放大——其來源資料的品質、標記與存取問題。
  3. 假設 IAM 單獨即可防止資料洩漏。 IAM 控制誰能讀取;VPC Service Controls 控制資料可以流向何處。
  4. 跳過對提示詞與接地來源的 PII 掃描。 敏感資料會透過自由文字欄位悄悄進入,並留在日誌中。
  5. 沒有保留或稽核政策。 一個你無法稽核、且資料是出於慣性而非刻意保留的 GenAI 系統,是沒有任何監管機關會信任的。
  6. 將資料駐留地視為事後補丁。 地理位置是在部署之前透過選擇區域端點做出的設計決策。

常見問題

如果員工在 Google Cloud 上使用企業版生成式 AI,Google 會用我們的資料訓練模型嗎?

不會。對於 Vertex AIGemini in Google Workspace,Google Cloud 在合約中承諾,客戶資料——提示詞、上傳的文件、接地資料與輸出結果——未經客戶許可,不會用於訓練或改善 Google 的基礎模型。資料僅被處理以提供客戶所要求的服務,並受企業協議與 Google Cloud 安全控制措施的保護,仍歸客戶所有。這項保證使受監管組織得以採用生成式 AI。請注意,免費消費者版 Gemini 應用程式適用不同的消費者條款——這正是為何員工應使用經核准的企業工具的原因。

消費者版 Gemini 應用程式與企業版 Vertex AI 在資料治理上有何差異?

消費者版 Gemini 應用程式是一個免費的個人產品,受消費者條款約束,依據該條款,對話可能會被人工審查以改善產品。企業版服務——Vertex AI 和 Gemini for Google Workspace——受組織企業協議約束,保證客戶資料不會用於訓練基礎模型,並讓資料保留在客戶的受治理環境中。治理風險在於員工將機密公司資料貼入個人消費者版帳戶,將其送出治理邊界之外。解決方案是提供經核准的企業工具,而不只是警告員工。

Google Cloud 如何協助生成式 AI 的資料駐留地需求?

Google Cloud 為 Vertex AI 生成式 AI 服務提供區域端點,使提示詞與回應的處理可以限制在所選的地理區域(例如歐洲)內;提供合約性資料駐留地承諾,描述受涵蓋的靜態客戶資料儲存於何處;以及為要求最嚴格的公部門與受監管客戶提供主權雲端選項。領導層重點:生成式 AI 的資料駐留地是一個事先透過選擇區域端點做出的設計決策——它無法在全球服務已上線使用後再行追加。

如何防止 PII 洩漏到生成式 AI 的提示詞與日誌中?

使用 Cloud DLP(品牌名稱為 Sensitive Data Protection)來檢查文字中超過 150 種敏感 infoType——支付卡號、身分證字號、健康識別碼、聯絡方式——並對其進行刪除、遮罩或符記化。在三個節點套用:在提示詞送達模型之前的輸入端、對接地來源進行掃描,以及在回應被儲存或顯示之前的輸出端。配合 IAM 和 VPC Service Controls,確保即使有資料流入,也無法離開核准的邊界。

AI 生成的內容著作權歸誰?商業使用安全嗎?

這涉及兩個不同的議題。關於侵權風險,Google Cloud 提供賠償保證,涵蓋其基礎模型背後的訓練資料以及生成的輸出——適用於按指示使用的涵蓋 Vertex AI 服務——這是一項商業保證,旨在讓企業有信心使用生成內容。關於所有權,許多司法管轄區的著作權法傳統上保護人類創作的作品,而主要由機器產生的內容之法律地位仍在演變中,且因國家而異。領導者的回應是制定組織政策:將模型視為起草工具,在發布前要求有意義的人類著作與審查,並在高風險內容上讓法律顧問介入。

為何保留與稽核對生成式 AI 部署至關重要?

因為問責需要記錄。Cloud Audit Logs 記錄誰在什麼時間、從哪裡呼叫了哪項生成式 AI 服務,使組織能夠為內部調查或監管機關重建任何過去的互動。保留政策決定提示詞、輸出結果與日誌保留多久——長到足以調查事故並滿足法律義務,短到足以限制風險並滿足隱私義務(例如在個人資料目的達成後予以刪除)。一個你無法稽核、且資料是出於慣性而非刻意保留的 GenAI 系統,是任何董事會或監管機關都無法信任的。

總結:資料治理使企業級 GenAI 得以安全部署

對於 Google Cloud Generative AI Leader 考試而言,生成式 AI 的資料治理是將令人振奮的試驗專案,轉化為董事會可以核准的部署方案的學問。資料既是生成式 AI 的價值,也是風險所在:乾淨、標記完善、可存取的資料能產出可信賴的答案,而未受治理的資料則會產出充滿自信的胡說八道與資料洩漏。

請記住各項支柱。資料就緒度——品質、標記、可存取性——必須在助理建構之前到位。企業資料使用保證意味著 Vertex AI 和 Gemini for Workspace 不會以客戶資料訓練 Google 的基礎模型,而消費者版 Gemini 應用程式適用不同條款資料駐留地是透過區域端點與合約承諾做出的設計決策。PII 由 Cloud DLP / Sensitive Data Protection 處理。智慧財產權與著作權透過 Google Cloud 的賠償保證與刻意的人類著作政策加以管理。保留與稽核使每次互動都可透過 Cloud Audit Logs 重建。

Google Cloud 控制措施集合——IAM 管誰、VPC Service Controls 管資料可以流向何處、Cloud DLP 管 PII、資料駐留地承諾管地理位置、Cloud Audit Logs 管誰在何時做了什麼的記錄——是一套層次化的組合,而非單一開關。一位能夠將這些轉化為商業語言的 Generative AI Leader——「我們只使用經核准的企業工具、以受治理的資料接地助理、讓受監管的資料保留在所在區域、掃描 PII,並能稽核每次互動」——已準備好向利害關係人說明,企業級生成式 AI 可以在法律與聲譽上都是安全的。治理不是生成式 AI 的剎車;它是讓企業快速前進而不會跌倒的基礎。

官方資料來源

更多 GENAI-LEADER 主題