examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 20 分鐘

Exploring Data with BigQuery Studio

3,820 字 · 約 20 分鐘閱讀 ·

深入探討 GCP Professional Data Engineer 關於 Exploring Data with BigQuery Studio 的學習筆記與架構指南。

立即做 20 題練習 → 免費 · 不用註冊 · PDE

白話文解釋

使用 BigQuery Studio 探索數據(Exploring Data with BigQuery Studio),就像為您的數據配備了一把「超級瑞士刀」。以前,您可能需要一個工具來處理 SQL,另一個工具處理 Python,再用第三個工具分享結果。Exploring Data with BigQuery Studio 將所有這些都整合到一個統一的工作空間中。

  1. 多語翻譯員比喻: 想像您正在參加一個全球會議。Exploring Data with BigQuery Studio 就像一個神奇的耳機,讓您可以對資料庫說 SQL,並立即切換到對數據科學家說 Python,而無需離開座位。它將資料倉儲的原始力量轉化為靈活的程式語言。

  2. 共享畫布比喻: 將 Exploring Data with BigQuery Studio 想像成一個巨大的數位白板,多位藝術家可以同時在上面創作同一幅畫。一個人可以繪製輪廓(SQL),而另一個人則添加詳細的紋理(Python),整個團隊都可以看到傑作的演變。

  3. 高速實驗室比喻: Exploring Data with BigQuery Studio 就像一個現代科學實驗室,設備都已經校準並連接好了。您不必浪費時間設置顯微鏡或混合化學品;您可以直接跳入實驗(數據發現),並在幾分鐘而不是幾天內找到答案。

BigQuery Studio 統一界面介紹

Exploring Data with BigQuery Studio 始於其革命性的統一界面。多年來,數據專業人員必須在 BigQuery SQL 控制台和外部 Jupyter Notebooks 之間切換。Exploring Data with BigQuery Studio 透過將完整的 Notebook 體驗直接嵌入 BigQuery 控制台中改變了這一點。這種無縫整合是 Exploring Data with BigQuery Studio 的標誌。

工作空間哲學

在 Exploring Data with BigQuery Studio 的世界中,工作空間是為效率而設計的。您可以在單個側邊欄中存取您的數據集、查詢和 Notebooks。Exploring Data with BigQuery Studio 讓您能夠管理這些資產,而不會產生通常困擾數據工程工作流的「上下文切換(Context Switching)」成本。

統一治理

Exploring Data with BigQuery Studio 不僅僅關乎 UI;它還關乎統一治理。在進行 Exploring Data with BigQuery Studio 時,相同的 IAM 權限同時適用於您的 SQL 查詢和您的 Python Notebooks。這確保了 Exploring Data with BigQuery Studio 對於企業數據分析來說仍然是一個安全的環境。

BigQuery Studio: 一個用於數據工程、分析和 AI 工作負載的統一工作空間,簡化了從數據到 AI 的端到端工作流。

在 BigQuery Studio 中執行 Python Notebooks

Exploring Data with BigQuery Studio 的核心功能是執行 Python Notebooks 的能力。這由 Colab Enterprise 提供支援,並已整合到 Exploring Data with BigQuery Studio 體驗中。在 Exploring Data with BigQuery Studio 時,您可以直接從 SQL 結果集中單擊一下來創建一個新的 Notebook。

「SQL 到 Notebook」工作流

Exploring Data with BigQuery Studio 最強大的功能之一是從 SQL 到 Python 的轉換。您可以執行查詢,然後單擊「在 Notebook 中探索(Explore in Notebook)」。Exploring Data with BigQuery Studio 將自動生成一個 Python 程式碼單元(Cell),將您的查詢結果加載到 Pandas DataFrame 中。這使得 Exploring Data with BigQuery Studio 在執行探索性數據分析(EDA)時速度極快。

Notebooks 的可擴展運算

當使用 Notebooks 進行 Exploring Data with BigQuery Studio 時,您不受本地機器 RAM 的限制。Exploring Data with BigQuery Studio 利用 Google Cloud 的可擴展運算能力,讓您能夠處理龐大的數據集,而這些數據集通常會導致標準筆記型電腦當機。

在 Exploring Data with BigQuery Studio 時,請在 Notebook 中使用 bigquery-magics 以快速執行 SQL 命令,而無需編寫冗長的 Python 樣板程式碼。

協作分析與共享

Exploring Data with BigQuery Studio 本質上具有社交屬性。數據工程是一項團隊運動,Exploring Data with BigQuery Studio 提供了有效進行團隊合作的工具。在 Exploring Data with BigQuery Studio 時,您可以像分享 Google 文件一樣輕鬆地與同事分享您的 Notebooks 和查詢。

即時協作

Exploring Data with BigQuery Studio 支持 Notebooks 中的即時共同編修。這意味著兩個人可以對同一個文件進行 Exploring Data with BigQuery Studio,並即時看到對方的更改。這對於結對程式設計(Pair Programming)和集體的 Data Prep for LLM Fine-Tuning and RAG 來說是一個革命性的進步。

評論與文件化

Exploring Data with BigQuery Studio 的一個主要部分是記錄您的發現。Exploring Data with BigQuery Studio 的 Notebooks 允許您將 Markdown 文本與程式碼單元混合使用。這確保了您發現的上下文得以保留,使 Exploring Data with BigQuery Studio 成為一個自我文件化(Self-documenting)的過程。

在分享 Exploring Data with BigQuery Studio 資產時,請務必設置適當的 IAM 角色。協作固然重要,但數據安全必須始終放在首位。

整合 SQL 與 Python 進行數據探索

Exploring Data with BigQuery Studio 的真正力量在於混合方法。當您可以同時使用 SQL 和 Python 時,為什麼還要二選一呢?Exploring Data with BigQuery Studio 鼓勵您使用 SQL 進行重度作業(過濾、連接、聚合),並使用 Python 進行專門分析(統計測試、可視化、機器學習)。

SQL 的效率

在進行 Exploring Data with BigQuery Studio 時,請始終盡可能將邏輯推送到使用 SQL 的 BigQuery 引擎中。這是因為 SQL 針對大規模數據處理進行了高度優化。Exploring Data with BigQuery Studio 讓將這些優化後的結果傳遞到 Python 變得非常容易。

Python 的靈活性

一旦您獲得了可管理的數據子集,Exploring Data with BigQuery Studio 就允許您使用廣泛的 Python 庫生態系統(Scikit-learn, Matplotlib, Seaborn)。這種靈活性就是為什麼 Exploring Data with BigQuery Studio 成為現代數據科學家首選工具的原因。

在 Exploring Data with BigQuery Studio 時,如果可以先在 SQL 中進行聚合,就不要將數百萬行數據拉入 Python DataFrame 中。這是 Exploring Data with BigQuery Studio 工作流中常見的效能瓶頸。

使用 Colab Enterprise 進行進階數據科學

Exploring Data with BigQuery Studio 建立在 Colab Enterprise 之上。這提供了一個「專業版」的熱門 Colab 環境,專門針對企業需求進行了調整。在 Exploring Data with BigQuery Studio 時,您可以獲得 VPC-SC(虛擬私有雲服務控制)和自定義執行階段模板等功能。

託管執行階段 (Managed Runtimes)

在 Exploring Data with BigQuery Studio 中,您可以精確定義 Notebooks 使用什麼硬體和軟體。無論您需要用於深度學習的 GPU,還是用於複雜模擬的額外 RAM,透過 Colab Enterprise 進行 Exploring Data with BigQuery Studio 都能滿足您的需求。

企業級安全性

與公共版本的 Colab 不同,Exploring Data with BigQuery Studio 中使用的 Colab Enterprise 實例與 GCP 的安全堆疊完全整合。這意味著即使對於敏感或受監管的數據,Exploring Data with BigQuery Studio 也是安全的。

BigQuery Studio 資產與版本控制

管理您的工作是 Exploring Data with BigQuery Studio 的關鍵部分。該平台引入了一種組織資產的新方法,包括查詢、Notebooks 甚至排程作業。Exploring Data with BigQuery Studio 將這些視為 Google Cloud 生態系統中的一等公民。

與 Git 整合

Exploring Data with BigQuery Studio 允許您將工作空間連接到 Git 儲存庫(如 GitHub 或 GitLab)。這意味著當您進行 Exploring Data with BigQuery Studio 時,您可以提交更改、創建分支並遵循標準的軟體開發生命週期。

資產歷史記錄

即使沒有 Git,Exploring Data with BigQuery Studio 也為您的查詢提供了基礎的版本歷史記錄。這讓您在 Exploring Data with BigQuery Studio 期間如果不小心犯錯,可以返回到複雜 SQL 語句的先前版本。

Exploring Data with BigQuery Studio 資產(Notebooks、查詢)存儲在與您的數據相同的項目中,以便透過 Google Cloud 控制台輕鬆查找和管理。

以視覺化方式連接外部數據源

Exploring Data with BigQuery Studio 不僅限於已在 BigQuery 中的數據。其最令人印象深刻的功能之一是能夠透過視覺化界面連接到外部來源,例如 Cloud Storage 或 Spanner。Exploring Data with BigQuery Studio 簡化了「BigLake」表的創建。

BigLake 的優勢

當使用 BigLake 進行 Exploring Data with BigQuery Studio 時,您可以直接在數據所在地以開放格式(如 Parquet 或 Avro)查詢數據。Exploring Data with BigQuery Studio 提供了類似精靈(Wizard)的體驗來設置這些連接,從而消除了對複雜 DDL 語句的需求。

透過 Omni 實現多雲

Exploring Data with BigQuery Studio 還支持 BigQuery Omni。這允許您對存儲在 AWS S3 或 Azure Blob Storage 中的數據執行 Exploring Data with BigQuery Studio,且一切都在同一個 Google Cloud 界面中完成。

使用 Duet AI 生成 AI 輔助 SQL(概念性)

Exploring Data with BigQuery Studio 透過 AI 輔助得到了增強。雖然品牌可能會演變(現為 Gemini),但概念保持不變:使用自然語言來協助 Exploring Data with BigQuery Studio。您可以要求 Studio「編寫一個查詢,找出上個月消費排名前 10 的客戶」。

自然語言轉 SQL

Exploring Data with BigQuery Studio 中的這項功能極大地提高了生產力。它甚至允許非專家透過用通俗易懂的英語描述他們的需求來開始 Exploring Data with BigQuery Studio。Studio 隨後會生成 SQL,供您進行微調。

程式碼補全與除錯

當您在進行 Exploring Data with BigQuery Studio 並遇到錯誤時,AI 輔助可以建議修復方案。這種針對數據工程的「自動校正」是現代 Exploring Data with BigQuery Studio 中最令人興奮的方面之一。

在 Studio 內進行數據分析 (Data Profiling)

在深入研究之前,您需要了解數據的輪廓。Exploring Data with BigQuery Studio 包含內建的數據分析工具。只需單擊幾下,Exploring Data with BigQuery Studio 即可顯示任何列的數值分布、空值計數和數據類型。

視覺化摘要

Exploring Data with BigQuery Studio 會自動生成直方圖和摘要統計資訊。這種即時的反饋迴圈在 Exploring Data with BigQuery Studio 的早期階段至關重要,可幫助您在數據質量問題扭曲分析之前識別它們。

結構描述發現 (Schema Discovery)

Exploring Data with BigQuery Studio 讓探索複雜且嵌套的結構描述(如 JSON 欄位)變得容易。界面允許您展開和折疊欄位,使對半結構化數據進行 Exploring Data with BigQuery Studio 變得不再那麼令人畏懼。

互動式數據發現的最佳實踐

為了充分利用 Exploring Data with BigQuery Studio,您應該遵循既定的最佳實踐。Exploring Data with BigQuery Studio 是一個強大的工具,但就像任何工具一樣,它也可能被誤用。

迭代改進

在進行 Exploring Data with BigQuery Studio 時,先從小處著手。先對數據樣本執行查詢,以節省成本和時間。一旦您在 Exploring Data with BigQuery Studio 中優化了邏輯,就可以將其擴展到完整數據集。

Notebook 中的整潔程式碼

僅僅因為 Notebook 是為了「探索」並不意味著它應該是雜亂無章的。在進行 Exploring Data with BigQuery Studio 時,請使用清晰的變數名稱並添加註釋。這將幫助您(和他人)在數月後理解您的 Exploring Data with BigQuery Studio 過程。

在效能調校的題目中,請務必先確認瓶頸到底是 slot wait time 還是 compute time。Slot wait time 高代表 reservation 容量不足或 workload 排程有問題;compute time 高則指向 query 本身要重寫(clustering、partitioning、materialized view)。BigQuery Studio 內建的 query plan 視圖就是區分這兩者最權威的位置。Reference: https://cloud.google.com/bigquery/docs/query-plan-explanation

常見問題

BigQuery Studio 是與 BigQuery 不同的產品嗎?

不,Exploring Data with BigQuery Studio 是直接建構在現有 BigQuery 控制台中的統一界面。它是 BigQuery UI 的演變,為 Exploring Data with BigQuery Studio 添加了 Notebook 功能和更好的資產管理。

Exploring Data with BigQuery Studio 需要額外付費嗎?

界面本身不收取單獨費用。但是,在進行 Exploring Data with BigQuery Studio 時,您仍然需要為查詢使用的 BigQuery Slot 和 Notebooks 使用的 Colab Enterprise 執行階段付費。

我可以將 Exploring Data with BigQuery Studio 用於生產流水線嗎?

雖然 Exploring Data with BigQuery Studio 針對探索進行了優化,但您創建的 Notebooks 可以被排程為生產作業。這允許從 Exploring Data with BigQuery Studio 平滑過渡到自動化數據處理。

Exploring Data with BigQuery Studio 支持哪些語言?

Exploring Data with BigQuery Studio 主要支持 SQL 和 Python。這是數據工程和數據科學中最常用的兩種語言,使 Exploring Data with BigQuery Studio 幾乎適用於任何任務。

Exploring Data with BigQuery Studio 如何處理版本控制?

Exploring Data with BigQuery Studio 與 GitHub 等 Git 提供商整合。這允許您在進行 Exploring Data with BigQuery Studio 時使用專業的版本控制工作流,確保您的程式碼得到追蹤和備份。

Exploring Data with BigQuery Studio 總結

Exploring Data with BigQuery Studio 代表了數據工作的未來。透過將結構化的 SQL 世界與靈活的 Python 世界相結合,Exploring Data with BigQuery Studio 為數據發現提供了一個無與倫比的環境。無論您是經驗豐富的數據工程師還是業務分析師,Exploring Data with BigQuery Studio 都能賦予您更快、更具協作性地尋找洞察的能力。統一的界面、AI 輔助以及與 GCP 生態系統的深度整合,使 Exploring Data with BigQuery Studio 成為現代數據策略的基石。隨著您繼續進行 Exploring Data with BigQuery Studio,您會發現數據攝取、轉換和分析之間的障礙開始消失。Exploring Data with BigQuery Studio 不僅僅是一個工具;它是一種思考數據的新方式。投入時間掌握 Exploring Data with BigQuery Studio,您將在數據旅程中解鎖生產力和洞察的新水平。

官方資料來源

更多 PDE 主題