GCP 上的 AI/ML 解決方案設計簡介
在生成式 AI (Generative AI) 的時代,一位 Professional Cloud Architect 必須超越簡單的基礎設施,理解 AI 解決方案的整個生命週期。在 Google Cloud 上設計 AI/ML 解決方案涉及平衡算力 (GPU/TPU)、資料管理、模型選擇以及維運嚴謹性 (MLOps)。
對於 GCP PCA 考試,您需要了解如何利用 Vertex AI 構建預測型 ML 和生成式 AI 系統。重點在於擴展性、成本效益和負責任的部署。
Google Cloud 的統一 AI 平台,提供從資料準備到模型部署和監控的 ML 生命週期各個階段所需的工具。參考:https://cloud.google.com/vertex-ai/docs/generative-ai/learn/overview
白話文解釋 AI/ML 與生成式 AI 設計
透過這些類比,可以簡化對複雜 AI 設計景觀的理解。
類比 1 — 主廚與香料架 (Model Garden)
將 Model Garden 想像成頂級大廚廚房裡的香料架。作為架構師,您並不總是需要「從頭種植辣椒」(從頭開始訓練)。有時您使用預調香料(預訓練 API,如 Vision AI),有時您挑選高品質的原味香料並自行研磨(基礎模型,如 Gemini),有時您會創造自定義混合香料(微調 Fine-tuning)。選擇取決於您要供應的「菜餚」(商業案例)。
類比 2 — 圖書館與研究助理 (Vector DB & RAG)
想像一個圖書館(您的數據)和一位研究助理(LLM)。如果助理僅依靠他們在學校學到的知識(預訓練),他們可能會提供過時或虛假的信息(幻覺)。檢索增強生成 (RAG) 就像是給助理一張借書證,而向量資料庫 (Vector Database) 就是高效的數位索引。助理在回答問題前會在圖書館查閱確切事實,確保答案基於公司的實際情況。
類比 3 — 工廠流水線 (MLOps)
MLOps 就像是一座高度自動化的汽車工廠。您不僅僅是手工打造一輛車(模型);您建立了一條流水線 (Vertex AI Pipelines),可以持續穩定地複製那輛車。如果「鋼材品質」(資料)發生變化,流水線會檢測到它 (Model Monitoring)。如果您需要更快的引擎,您可以更換組件而無需重建整座工廠。
在考試中,如果需求是「最快上市時間」且「技術工作量最小」,請始終優先選擇 預訓練 API 或 Model Garden 中的基礎模型,而非自定義訓練。參考:https://cloud.google.com/vertex-ai/docs/generative-ai/learn/overview
Vertex AI 平台組件
Vertex AI 不是單一工具,而是一套整合服務。
- Vertex AI Studio: 用於快速原型設計和測試生成式 AI 模型的 Web 工具。
- Model Garden: 存放第一方 (Google)、第三方和開源模型(如 Gemini、Llama、PaLM 2)的儲存庫。
- Vertex AI Pipelines: 使用 KFP (Kubeflow Pipelines) 或 TFX 編排 ML 工作流。
- Vertex AI Feature Store: 用於共享和發現 ML 特徵的集中式儲存庫。
- Vertex AI Search and Conversation: 用於構建基於 RAG 的搜尋引擎和聊天機器人的「開箱即用」工具。
設計生成式 AI 解決方案
在設計 GenAI 解決方案時,架構通常遵循以下三種模式之一:
- 提示工程 (Prompt Engineering): 透過優化輸入直接使用模型。成本最低,速度最快。
- 檢索增強生成 (RAG): 將模型連接到外部資料源(向量資料庫)。對於「落地」(Grounding) 和減少幻覺至關重要。
- 微調 (Fine-Tuning): 在小型、特定領域的資料集上訓練基礎模型。成本高,但對特定任務的精確度高。
對於涉及「即時商業數據」和「最小化幻覺」的 PCA 場景,RAG 幾乎總是正確的架構選擇。參考:https://cloud.google.com/architecture/framework/system-design/machine-learning
大語言模型 (LLM) 選擇
Google Cloud 提供一系列模型,選擇正確的模型是架構師的關鍵技能:
- Gemini 1.5 Pro: 最適合複雜推理、大上下文(100萬+ token)和多模態。
- Gemini 1.5 Flash: 為高吞吐量任務優化了速度和成本效益。
- Imagen: 用於圖像生成和編輯。
- Chirp: 用於語音轉文字。
常見的架構錯誤是不分情況把所有 workload 都丟給 Gemini 1.5 Pro,理由是它在 benchmark 上分數最高。但對於高流量的任務像聊天摘要、批次翻譯、意圖分類,Gemini 1.5 Flash 通常產生相同結果,per-token 成本卻只有大約十分之一。PCA 考試會獎勵那些在 use case 不需要 1M token context 或深度推理時,選擇較小模型的決策。
資料標記與準備
高品質的資料是 ML 的燃料。
- Vertex AI Data Labeling: 一項請求人工標記員為您的資料集(圖像、影片、文字)進行註釋的服務。
- BigQuery ML: 允許您在 BigQuery 中使用 SQL 建立和執行 ML 模型,是結構化資料的理想選擇。
MLOps 管道與版本控制
標準化是專業級架構的關鍵。
- ML 的 CI/CD: 自動化模型的測試與部署。
- Model Registry: 集中追蹤模型版本、元數據和譜系。
- 持續監控: 追蹤「訓練-服務偏離」(Training-Serving Skew) 和「資料漂移」(Data Drift)。
當 PCA 情境題描述「模型精確度隨時間下降」或「預測值跟訓練時的行為產生分歧」,預期答案是先指認 Training-Serving Skew 或 Data Drift 是肇因,再推薦 Vertex AI Model Monitoring 作為偵測層,把警示回饋給 Model Registry 觸發再訓練。Model Registry → Model Monitoring → re-training 這個迴圈是常見的 2-3 分考題場景。
負責任的 AI 與偏差檢測
Google 強調 AI 原則。
- Model Armor: 一個安全層,用於過濾有害內容、檢測提示注入並防止數據洩漏。
- 可解釋的 AI (XAI): 幫助您理解模型為何做出特定預測的工具(特徵歸因)。
向量資料庫與搜尋
GenAI 通常需要非結構化資料搜尋。
- Vertex AI Vector Search (原 Matching Engine): 用於語義搜尋的高規模、低延遲向量資料庫。
- AlloyDB / Cloud SQL (搭配 pgvector): 適合將向量搜尋整合到現有的關聯式資料庫中。
GCP 上的標準 RAG pipeline:使用者 query → embedding model(textembedding-gecko)→ Vector Search(Matching Engine 或 pgvector)→ top-K 相關段落 → grounded prompt → Gemini 回應。認得這五步驟,就解了大部分 PCA 題目中提到「內部文件」、「資訊正確性」或「降低 hallucination」的場景 — 只要需要最新且可引用來源的資料,RAG 都打敗 fine-tuning 跟單純 prompt 工程。
訓練 vs. 微調 vs. 提示工程
| 方法 | 投入程度 | 所需資料 | 成本 | 使用案例 |
|---|---|---|---|---|
| 提示工程 | 低 | 無 | 低 | 一般任務、摘要 |
| RAG | 中 | 知識庫 | 中 | 客戶支援、內部文件 |
| 微調 | 高 | 標記資料集 | 高 | 特定風格、專業術語 |
| 自定義訓練 | 極高 | 海量資料集 | 極高 | 建立全新的基礎模型 |
擴展 AI 工作負載:TPU vs. GPU
- GPUs (NVIDIA L4, H100): 通用、靈活,非常適合各種 ML 框架和推理。
- TPUs (v4, v5p): Google 定制開發的 ASIC,專為大規模訓練 Transformer 模型和高吞吐量推理而設計。
FAQ — AI/ML 與生成式 AI 解決方案設計
Q1. 何時應該使用 Vertex AI Search 而非構建自定義 RAG?
當您想要一個「無程式碼」或「低程式碼」解決方案,且該方案能自動處理索引、分塊和檢索時,請使用 Vertex AI Search。當您需要深度控制嵌入模型或向量資料庫時,請構建自定義 RAG。
Q2. 什麼是生成式 AI 中的「落地」(Grounding)?
落地是將 LLM 連接到「現實世界」或「私有」資料源的過程,以確保其回應在事實上準確且與特定背景相關。
Q3. 如何防止「提示注入」(Prompt Injection)?
使用 Model Armor 檢查傳入的提示是否存在惡意模式,並對模型的輸出應用安全過濾器。
Q4. 推理時使用大模型還是小模型更好?
這是一個權衡。大模型 (Pro) 更聰明但更慢/更貴。小模型 (Flash) 更快/更便宜但可能在複雜推理上表現不佳。建議從能滿足您準確度需求的最小模型開始。
Q5. 為什麼我需要 MLOps 管道?
為了確保可重複性和可靠性。沒有管道,部署模型是一個手動且容易出錯的過程,難以審計或擴展。
最終架構師提示
在 PCA 考試中,請始終優先考慮託管服務 (Vertex AI),而非在 Compute Engine 上管理自己的 ML 基礎設施。此外,請記住資料隱私至關重要:在 Vertex AI 上用於推理的客戶資料不會被用於訓練 Google 的基礎模型。