examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 19 分鐘

資料倉儲與 BigQuery

3,680 字 · 約 19 分鐘閱讀 ·

掌握 Google Cloud Digital Leader (CDL) 考試中的 BigQuery:無伺服器架構、PB 級分析、儲存與運算分離以及 BigQuery ML。

立即做 20 題練習 → 免費 · 不用註冊 · CDL

什麼是使用 BigQuery 的資料倉儲? (What Is Data Warehousing with BigQuery?)

原始資料為何需要倉儲

在現代商業環境中,數據常被稱為「新石油」。然而,除非您能將原始數據提煉成可執行的洞察,否則它毫無價值。資料倉儲(Data Warehouse) 是一個中央儲存庫,企業在此儲存來自多個不同來源(如銷售記錄、網站點擊和庫存日誌)的歷史數據,以便進行複雜的分析。

BigQuery 作為無伺服器資料倉儲

BigQuery 是 Google Cloud 的全代管、無伺服器(Serverless)且達 PB 級規模的資料倉儲。對於 Cloud Digital Leader (CDL) 考試,最重要的一點是理解 BigQuery 是 無伺服器 的。這意味著您不需要管理任何基礎設施。您不必購買伺服器,不需要安裝軟體,也不必擔心硬碟空間。您只需將 BigQuery 「指向」您的數據,並開始使用 SQL(結構化查詢語言)提出問題。

速度與規模的商業價值

BigQuery 真正的商業價值在於其速度與規模。它可以在幾秒鐘內分析數兆行數據——這項任務在傳統資料庫中可能需要數小時甚至數天。這使得企業領導者能根據「當前」發生的情況做出決策,而不是依賴上個月的數據。

白話文解釋

理解一個 PB 級的資料倉儲可能令人畏懼,但如果將其與我們在物理世界中管理資訊與服務的方式進行比較,就會清晰得多。

類比 1 — 無限大的公共圖書館 (擴展性與儲存)

想像一個巨大的圖書館,裡面收藏了有史以來寫過的每一本書。在傳統的「在地部署」圖書館中,如果您想儲存更多書,您必須親自建造一個新的側翼,購買書架,並僱用更多管理員。如果空間用完了,在建築完工前,您無法接受新書。

BigQuery 就像一個神奇的數位圖書館。當您帶入更多書(數據)時,圖書館會自動擴大其牆壁並立即增加書架。您永遠不需要拿起錘子或僱用承包商。最棒的是,您只需為書本目前佔用的特定書架空間付費。這就是無伺服器儲存的價值。

類比 2 — 廚房主廚 vs. 廚師大軍 (運算與速度)

假設您有一個複雜的食譜(一個數據查詢),需要切 10,000 個洋蔥。傳統資料庫就像一位頂級主廚。他技術精湛,但他只有兩隻手。無論他工作多快,切完 10,000 個洋蔥都要花上一整天。

BigQuery 則像一支由 1,000 名廚師組成的軍隊。當您發送「切碎」指令時,BigQuery 會在幾秒鐘內自動招募 1,000 名廚師。每位廚師切 10 個洋蔥,工作瞬間就能完成。洋蔥切好後,廚師們就回家了,您也就停止支付費用。這就是分散式運算儲存與運算分離的力量。

類比 3 — 自助式百匯 (BigQuery ML 與普及化)

傳統上,如果您想使用機器學習(ML)來預測未來銷售,您必須僱用專業的科學家,他們會將您的數據帶到一個獨立的「實驗室」(不同的伺服器),並使用複雜的工具來建構模型。

BigQuery ML 就像一個自助式百匯。所有的食材(數據)和烹飪工具(ML 演算法)都已經擺在桌上。如果您知道如何使用湯匙(SQL),您就可以直接在餐廳裡為自己準備一個機器學習模型。您不需要將數據移動到任何其他地方。這實現了 AI 的「普及化」,讓任何具備基礎 SQL 知識的人都能建構預測模型。

關鍵特性:無伺服器架構 (Serverless Architecture)

BigQuery 消除的管理任務

BigQuery 的「無伺服器」特性是其最大的差異化優勢。在傳統的資料倉儲中,「DBA」(資料庫管理員)會花費大量時間處理「管理任務」:

  • 手動擴展或縮減硬體。
  • 管理備份與復原。
  • 為了性能而調校資料庫。
  • 為作業系統打補丁。

在 BigQuery 中,Google 負責處理所有的基礎設施管理。不需要預配伺服器,也不需要管理集群。這使得您的數據團隊能將 100% 的時間專注於分析,而不是「維持運作」。

企業領導者的零營運負擔

對於企業領導者來說,這意味著零營運開銷。您可以在今天啟動一個數據專案,並在今天下午就獲得洞察,而無需等待 IT 部門購買並設定新硬體。

儲存與運算分離 (Separation of Storage and Compute)

兩個層級的定價方式

BigQuery 採用獨特的架構,將儲存(數據存放處)與運算(分析數據的「大腦」)分離。這是 CDL 考試中的常考點,因為它具有巨大的成本效益。

  • 儲存:您根據儲存的數據量支付非常低的費用(類似於 Cloud Storage 的價格)。
  • 運算(查詢):您僅需為運行查詢時所使用的資源付費。

儲存與運算分離 (Separation of Storage and Compute) 是一種架構設計,其中數據儲存層與處理層是獨立的。這允許您廉價地儲存 PB 級數據,同時僅在實際需要執行分析時才為高性能處理付費。

解決資源閒置問題

這種分離防止了「資源閒置」問題。在傳統系統中,您必須全天候支付一台強大伺服器的費用,僅是為了確保在每個月需要運行一次大型報告時它已準備就緒。使用 BigQuery,您整個月只需廉價地儲存數據,並在運行報告的那幾秒鐘內支付「廚師大軍」的費用。

PB 級規模與性能 (Petabyte-Scale and Performance)

理解 Petabyte 的實際規模

1 個「Petabyte」(PB) 等於 1,000 Terabytes (TB)。具體來說,1 PB 的數據量大約相當於 2,000 萬個裝滿文字的高大檔案櫃。

欄式儲存與 EB 級擴展

大多數傳統資料庫在達到幾個 TB 時就會開始變慢甚至崩潰。BigQuery 的設計目標是輕鬆處理 EB 級 (Exabyte-scale, 1,000 PB) 的數據。它使用 欄式儲存 (Columnar Storage) 格式,這意味著它只會讀取查詢所需的特定數據欄位,而不是讀取整個資料表的每一行。這使其效率極高且速度飛快。

如果 CDL 考試題目提到「分析海量數據集」或「在不損失性能的情況下擴展到 PB 級」,BigQuery 幾乎肯定是正確答案。

BigQuery ML:使用 SQL 進行機器學習

移動資料才是問題所在

BigQuery 最具創新性的功能之一是 BigQuery ML。通常,機器學習需要將大量數據從倉儲中移出,進入一個獨立的 AI 環境(如 Python 或 R)。移動數據既慢又貴,且存在安全風險。

用 SQL 就能建構的使用情境

BigQuery ML 允許使用者直接在 BigQuery 內部使用標準 SQL 建立並執行機器學習模型。

  • 預測分析: 「哪些客戶下個月可能會流失?」
  • 推薦引擎: 「根據該使用者的歷史記錄,我們應該向其推薦什麼產品?」
  • 預測 (Forecasting): 「我們在第四季度的庫存需求會是多少?」

BigQuery ML 透過消除匯出數據的需求,縮短了「獲得洞察的時間」。它讓數據分析師能利用既有的 SQL 技能成為「公民數據科學家」。

即時與串流分析 (Real-time and Streaming Analytics)

從批次處理到串流攝取

舊式的資料倉儲使用「批處理 (Batch Processing)」——您會收集一整天的數據並在凌晨 2 點上傳。這意味著您的報告總是落後 24 小時。

即時儀表板的實際應用

BigQuery 支援 串流攝取 (Streaming Ingestion)。當客戶點擊您網站上的按鈕時,該數據可以直接發送到 BigQuery,並在幾秒鐘內即可用於分析。這實現了即時儀表板,例如監控即時行銷活動或檢測系統錯誤的突發激增。

BI Engine:極速儀表板

次秒級儀表板的挑戰

雖然 BigQuery 已經很快,但某些「商業智慧」(BI) 儀表板(如 LookerTableau 中的儀表板)需要為數百名同時在線的使用者提供低於一秒的響應時間。

記憶體內加速

BigQuery BI Engine 是一種記憶體內 (In-memory) 分析服務。它將最常訪問的數據儲存在伺服器的 RAM (記憶體) 中,以便儀表板能瞬間載入。它與 BigQuery 智慧地協作,確保即使是最複雜的互動式視覺化內容也能感到流暢且響應迅速。

BigQuery BI Engine 透過記憶體內技術為互動式儀表板提供次秒級的查詢響應時間。它是您最重要的商業報告的「快速車道」。

Connected Sheets:每個人的大數據

彌合 SQL 技能落差

許多商務使用者習慣使用 Google Sheets (試算表),但對 SQL 或資料庫感到恐懼。Connected Sheets 彌合了這一差距。

熟悉的試算表工具、PB 級運算能力

它允許使用者打開一個標準的 Google 試算表,並將其「連接」到一個擁有數十億行數據的 BigQuery 資料表。使用者可以使用熟悉的試算表功能(如樞紐分析表、圖表和公式)來分析 BigQuery 數據。繁重的工作(即「運算」)仍在 BigQuery 中完成,但使用者介面是熟悉的試算表。

Connected Sheets 是 Google Cloud 「數據普及化」願景的典型範例,讓行銷經理或財務專員無需編寫一行程式碼即可分析 PB 級數據。

BigQuery 的成本管理

兩種定價模式

由於 BigQuery 非常強大,管理成本至關重要。您應該了解兩種主要的定價模式:

  1. 按需定價 (On-Demand Pricing):您根據每個查詢處理的字節數付費。這非常適合小型或不可預測的工作負載。
  2. 基於容量的定價 (Slots):您以固定的月費「租用」專用的處理能力(稱為 Slots)。這對於具有穩定、可預測用量的大型企業來說更好。

不要假設 BigQuery 對小型公司來說「太貴」。由於其按需付費模式和優厚的免費層(每月前 10GB 儲存和 1TB 查詢免費),運行 BigQuery 通常比運行一個小型 MySQL 伺服器更便宜。

治理與安全性:數據潔淨室 (Data Clean Rooms)

加密與 IAM 控管

BigQuery 提供企業級的安全性。預設情況下,它會對靜態和傳輸中的所有數據進行加密。它還使用 IAM (身分與存取管理) 來控制誰可以查看哪些資料集、資料表,甚至是特定的資料欄。

共享洞察而不共享原始資料

一個關鍵的現代功能是 BigQuery 資料潔淨室 (Data Clean Rooms)。這允許兩家不同的公司(如零售商和信用卡公司)在不實際共享原始數據的情況下,共同分析其組合數據。他們可以找到「重疊」的客戶,同時保護個人隱私。

常見問題 (FAQ)

Q: BigQuery 是像 MySQL 或 PostgreSQL 那樣的資料庫嗎?

A: 不是。BigQuery 是一種 OLAP (聯機分析處理) 資料倉儲,旨在對歷史數據進行複雜分析。MySQL 則是一種 OLTP (聯機事務處理) 資料庫,旨在進行快速、簡單的更新(如處理單筆銷售交易)。

Q: 我需要成為程式設計師才能使用 BigQuery 嗎?

A: 不需要。如果您懂 SQL(許多商務分析師都懂)甚至只是會用 Google Sheets,您就可以在 BigQuery 中進行強大的分析。

Q: 「設定」BigQuery 需要多長時間?

A: 幾秒鐘。因為它是無伺服器的,所以無需安裝。您只需登入 Google Cloud 控制台,建立資料集,然後開始上傳數據即可。

Q: BigQuery 可以分析「非儲存在 BigQuery 中」的數據嗎?

A: 可以。這被稱為 BigLake 或「同盟查詢 (Federated Queries)」。BigQuery 可以分析儲存在 Cloud Storage 中的數據(如 CSV 或 Parquet 檔案),甚至可以分析其他雲端(如 AWS S3)中的數據,而無需先移動數據。

Q: BigQuery 的儲存上限是多少?

A: 理論上沒有上限。Google 會自動管理擴展。您可以從 1 GB 增加到 10 PB,而無需更改任何設定。

總結:從數據到決策

對於 Google Cloud Digital Leader 來說,BigQuery 是數據產品組合中的「皇冠珠寶」。它解決了資料倉儲中的三大難題:基礎設施管理(透過無伺服器消除)、擴展(瞬間且無限制)以及成本(儲存與運算分離)。透過使用 BigQuery,公司從一個「數據豐富」的組織轉變為**「數據驅動」**的組織,每位員工都有能力從數據中尋找真相。

官方資料來源

更多 CDL 主題