Data Prep for LLMs and RAG - GCP PDE 學習筆記

白話文解釋

為 LLM Fine-Tuning 和 RAG 進行資料準備（Data Prep），就像為大廚準備食材和食譜。如果您希望大廚能完美地烹飪某道菜，您不能只是把沒洗過的原始蔬菜扔給他們。您需要清洗、切碎並組織好所有東西，這樣大廚才能專注於烹飪藝術。

圖書館比喻 (RAG)： 想像您有一位非常聰明的圖書管理員（LLM），他知識淵博，但不知道您公司的私有書籍。RAG 就像是給圖書管理員一份精心策劃、索引良好的公司書籍收藏。在這種情況下，Data Prep for LLM Fine-Tuning and RAG 是指掃描這些書籍、對其進行正確索引並確保圖書管理員能在幾秒鐘內找到正確頁面的過程。如果書籍損壞或索引出錯，圖書管理員就會給出錯誤的答案。
專業培訓比喻 (Fine-Tuning)： 想像一位普通醫生需要成為專業的神經外科醫生。Fine-tuning 就是那個專業的住院醫師實習計畫。這裡的 Data Prep for LLM Fine-Tuning and RAG 就是課程。您需要數千個高品質、標籤正確的醫療案例來教導醫生手術的細微差別。如果課程包含錯誤，醫生就會學到壞習慣。
採金礦比喻 (Cleaning)： 大型語言模型（LLM）就像金礦精煉廠。它們可以產出純金，但需要高品質的礦石。Data Prep for LLM Fine-Tuning and RAG 是從原始數據中洗掉泥土、岩石和碎屑，以便僅保留有價值信息的過程。如果您向精煉廠放入過多「噪音」，您會得到脆弱、低質量的結果。

為檢索增強生成 (RAG) 準備數據

Data Prep for LLM Fine-Tuning and RAG 始於理解 RAG 是一個動態過程。與 Fine-tuning 將知識「烘焙」到模型中不同，RAG 在查詢當下為模型提供上下文（Context）。這需要一個強大的 Data Prep for LLM Fine-Tuning and RAG 流水線，能夠處理大量的企業數據。

理解 RAG 流水線

在 Data Prep for LLM Fine-Tuning and RAG 的背景下，RAG 流水線涉及幾個關鍵步驟：攝取（Ingestion）、轉換（Transformation）、嵌入（Embedding）和索引（Indexing）。每個步驟都必須經過優化，以確保 Data Prep for LLM Fine-Tuning and RAG 過程能為 LLM 產出高質量的上下文。

Embeddings 在 RAG 中的角色

Embeddings 是 RAG 的支柱。在 Data Prep for LLM Fine-Tuning and RAG 期間，我們將文本轉換為數值向量。這允許進行語意搜尋（Semantic Search），系統根據含義而不是僅僅根據關鍵字來查找資訊。高品質的 Data Prep for LLM Fine-Tuning and RAG 確保這些 Embeddings 能代表您組織中使用的領域特定語言。

RAG (Retrieval-Augmented Generation，檢索增強生成)： 一種架構模式，透過在生成回應之前引用訓練數據源之外的權威知識庫，來優化大型語言模型的輸出。

為 LLM Fine-Tuning 格式化數據集

當我們談論用於 Fine-tuning 目的的 Data Prep for LLM Fine-Tuning and RAG 時，我們所看到的結構比 RAG 嚴謹得多。Fine-tuning 需要成對的數據——通常是 Prompt-Response（提示-回應）對。正確的 Data Prep for LLM Fine-Tuning and RAG 可確保這些配對根據特定模型（例如 Gemini、PaLM 2 或 Llama）的要求進行格式化。

監督式微調 (SFT) 格式

對於 SFT，Data Prep for LLM Fine-Tuning and RAG 涉及創建 JSONL 文件，其中每一行代表一個訓練範例。這是 Data Prep for LLM Fine-Tuning and RAG 中關鍵的一步，因為即使是一個小的格式錯誤也可能導致訓練作業失敗，或者更糟的是，導致模型產生格式錯誤的「幻覺」回應。

平衡數據集

在 Data Prep for LLM Fine-Tuning and RAG 中，平衡數據集至關重要。如果您提供過多某種類型任務的範例，而另一種類型的範例不足，模型就會產生偏見。有效的 Data Prep for LLM Fine-Tuning and RAG 涉及仔細稽核訓練數據中主題和風格的分布。

Fine-tuning 既昂貴又耗時。在對數據的一小部分執行嚴格的 Data Prep for LLM Fine-Tuning and RAG 以驗證格式和質量之前，切勿開始 Fine-tuning 作業。

為高品質 LLM 輸入進行數據清洗

「垃圾進，垃圾出」（Garbage in, garbage out）原則在 Data Prep for LLM Fine-Tuning and RAG 中最為適用。為 LLM 清洗數據不僅僅是刪除空值；它需要對語言細微差別和數據完整性有深入的理解。Data Prep for LLM Fine-Tuning and RAG 必須解決樣板內容移除、編碼錯誤和重複內容等問題。

移除噪音和樣板內容

在對網頁抓取的數據或內部文件執行 Data Prep for LLM Fine-Tuning and RAG 時，您必須剝離頁首、頁尾和側邊欄。這些噪音會在訓練或檢索期間混淆 LLM。Data Prep for LLM Fine-Tuning and RAG 工具通常使用正規表示式或專門的 HTML 解析器來清洗這些數據。

去重策略

重複數據是 Data Prep for LLM Fine-Tuning and RAG 中的一個主要陷阱。如果相同的信息在訓練集中出現多次，模型可能會過度擬合（Overfit）該特定信息。在 RAG 中，重複會浪費存儲空間並可能導致冗餘的搜尋結果。正確的 Data Prep for LLM Fine-Tuning and RAG 包括模糊去重（Fuzzy Deduplication）以識別近乎相同的文件。

在 Data Prep for LLM Fine-Tuning and RAG 中，僅依賴簡單的關鍵字匹配進行清洗是一個陷阱。始終使用語意分析或經過充分測試的啟發式方法，以確保您不會刪除有價值的資訊。

對 Gemini 進行 supervised tuning 時，必須另外切出一份評估用的 JSONL（通常為策畫好的 prompt-response 對的 10 至 20 percent，且至少 100 筆才能讓指標穩定），並透過 vertexai.tuning.sft.train() 的 validation_dataset_uri 參數傳入；切勿讓訓練範例與評估範例重疊，否則前面提到的 golden set 回歸檢查會無法察覺 overfitting。整條 chunk、清洗、embedding、建索引的 DAG 建議用 Vertex AI Pipelines（或 Cloud Composer）來編排，大規模 embedding 步驟交給 Dataflow 搭配 MLTransform 執行，這樣當 text-embedding-005 升版需要全面 re-embedding 時，整個流程才能完整重現。參考：https://cloud.google.com/vertex-ai/generative-ai/docs/models/tune-models

長文件的分塊（Chunking）策略

針對長文件的 Data Prep for LLM Fine-Tuning and RAG 需要一種稱為「分塊（Chunking）」的策略。由於 LLM 的上下文窗口有限，您無法一次將 500 頁的 PDF 餵給它們。Data Prep for LLM Fine-Tuning and RAG 涉及將這些文件分解為較小且有意義的部分。

固定大小分塊 vs. 語意分塊

固定大小分塊是 Data Prep for LLM Fine-Tuning and RAG 中一種簡單的方法，您每隔 N 個字元或單詞拆分一次文本。然而，語意分塊對於 Data Prep for LLM Fine-Tuning and RAG 通常更優，因為它嘗試在邏輯邊界（如段落或章節）處拆分文本以保留上下文。

重疊分塊（Overlapping Chunks）

在用於 RAG 系統的 Data Prep for LLM Fine-Tuning and RAG 中，常見的做法是在塊之間包含「重疊」。例如，塊 A 的末尾可能會重複塊 B 的前 50 個單詞。這確保了上下文不會在邊界處丟失，這是 Data Prep for LLM Fine-Tuning and RAG 中的一個重要考量。

在執行 Data Prep for LLM Fine-Tuning and RAG 時請記住：分塊大小會影響檢索速度和準確性。較小的塊速度較快但可能缺乏上下文；較大的塊提供更多上下文但可能超過模型的限制。

為 GenAI 處理非結構化數據 (PDFs, Docs)

大多數企業數據是非結構化的。用於 GenAI 的 Data Prep for LLM Fine-Tuning and RAG 必須能夠處理 PDF、Word 文件甚至文本圖像中的複雜佈局。這是 Data Prep for LLM Fine-Tuning and RAG 中最具挑戰性的方面之一。

OCR 與佈局分析

對於掃描文件，Data Prep for LLM Fine-Tuning and RAG 需要光學字元辨識 (OCR)。然而，僅有標準 OCR 是不夠的；您還需要佈局分析來理解表格、列和圖像說明。Google Cloud Document AI 等工具對於 Data Prep for LLM Fine-Tuning and RAG 的這一階段至關重要。

提取元數據 (Metadata)

Data Prep for LLM Fine-Tuning and RAG 不僅僅關乎文本。在 Data Prep for LLM Fine-Tuning and RAG 過程中提取元數據（作者、日期、部門）可以在 RAG 系統中進行更精確的過濾。這些元數據可以與 Embeddings 一起存儲在向量資料庫中。

Vertex AI 數據集準備要求

如果您使用的是 Google Cloud，您的 Data Prep for LLM Fine-Tuning and RAG 必須符合 Vertex AI 的特定要求。Vertex AI 提供用於 Fine-tuning 和託管 LLM 的託管服務，其 Data Prep for LLM Fine-Tuning and RAG 工作流高度結構化。

Vertex AI 中的託管數據集

Vertex AI 允許您為視覺、文本和表格數據創建託管數據集。對於 GenAI，Data Prep for LLM Fine-Tuning and RAG 通常涉及使用 Vertex AI Search and Conversation（原名 Gen App Builder）來自動化數據的攝取和索引。

數據連接器

GCP 提供各種連接器來簡化 Data Prep for LLM Fine-Tuning and RAG。您可以直接從 Cloud Storage、BigQuery 甚至外部 API 提取數據。這些連接器處理了 Data Prep for LLM Fine-Tuning and RAG 流水線中的大部分繁重工作。

處理結構化或半結構化數據時，請使用 BigQuery 進行 Data Prep for LLM Fine-Tuning and RAG。其基於 SQL 的轉換對於為 LLM 準備大型數據集非常高效。

GenAI 數據集的質量評估

您如何知道您的 Data Prep for LLM Fine-Tuning and RAG 是否成功？您需要一個評估策略。在 Data Prep for LLM Fine-Tuning and RAG 中，質量是主觀的，但可以使用各種指標和技術來衡量。

人機回圈 (Human-in-the-loop) 評估

Data Prep for LLM Fine-Tuning and RAG 的金科玉律是人工審核。專家應檢查準備好的數據樣本，以確保其準確且相關。這種反饋迴圈對於完善您的 Data Prep for LLM Fine-Tuning and RAG 策略至關重要。

自動化質量評分

在 Data Prep for LLM Fine-Tuning and RAG 期間，您可以使用自動化工具檢查語言質量、毒性和偏見。像 Vertex AI Evaluation API 這樣的模型可以幫助自動化 Data Prep for LLM Fine-Tuning and RAG 過程中的這一部分。

將 Prompt 模板作為數據資產進行管理

在 GenAI 的世界中，Prompt 與數據本身一樣重要。Data Prep for LLM Fine-Tuning and RAG 應包括對 Prompt 模板的管理。這些模板是將指令與檢索到的數據一起提供給 LLM 的「包裝器」。

Prompt 模板的版本控制

就像您對程式碼和數據進行版本控制一樣，您也必須對 Prompt 模板進行版本控制。Prompt 模板的更改可能會對輸出產生巨大影響，即使基礎數據的 Data Prep for LLM Fine-Tuning and RAG 保持不變也是如此。

動態 Prompt 注入

在 RAG 中，Data Prep for LLM Fine-Tuning and RAG 涉及設計能夠動態接受檢索塊的模板。這需要仔細考慮在 Data Prep for LLM Fine-Tuning and RAG 階段如何向模型呈現上下文。

訓練數據集的版本控制

Data Prep for LLM Fine-Tuning and RAG 是一個迭代過程。您可能會經歷訓練和檢索數據集的許多版本。版本控制對於 Data Prep for LLM Fine-Tuning and RAG 中的可重複性至關重要。

使用 DVC 或 Git LFS

標準 Git 不適合大型數據集。對於 Data Prep for LLM Fine-Tuning and RAG，建議使用 Data Version Control (DVC) 或 Git Large File Storage (LFS) 等工具。這些工具允許您有效地追蹤 Data Prep for LLM Fine-Tuning and RAG 流水線和數據集的更改。

BigQuery 中的快照 (Snapshotting)

如果您的 Data Prep for LLM Fine-Tuning and RAG 發生在 BigQuery 中，請使用快照來擷取數據在特定時間點的狀態。這可確保您始終可以返回到 Data Prep for LLM Fine-Tuning and RAG 輸出的已知良好版本。

GenAI 數據中的隱私和安全過濾

安全性在 Data Prep for LLM Fine-Tuning and RAG 中至關重要。您必須確保 PII（個人識別資訊）和敏感的公司機密不會進入 LLM 的訓練集或檢索索引中。

PII 去識別化 (Redaction)

Data Prep for LLM Fine-Tuning and RAG 必須包含 PII 去識別化步驟。使用 Cloud DLP (Data Loss Prevention) 等工具在 Data Prep for LLM Fine-Tuning and RAG 過程中自動識別和遮蔽敏感數據。

安全過濾器

Vertex AI 提供內建的安全過濾器，可在 Data Prep for LLM Fine-Tuning and RAG 期間應用。這些過濾器可以檢測並封鎖仇恨、色情或危險內容，確保您的 Data Prep for LLM Fine-Tuning and RAG 過程符合倫理標準。

常見問題

Data Prep for LLM Fine-Tuning and RAG 中最常見的錯誤是什麼？

Data Prep for LLM Fine-Tuning and RAG 中最常見的錯誤是低估了數據清洗的重要性。許多團隊匆忙使用帶有噪音的數據進行 Fine-tuning，導致模型表現不佳。嚴格的清洗是成功的 Data Prep for LLM Fine-Tuning and RAG 的基礎。

Fine-tuning 的 Data Prep for LLM Fine-Tuning and RAG 需要多少數據？

對於監督式微調，您通常需要幾百到幾千個高品質範例。然而，對於 RAG 系統中的 Data Prep for LLM Fine-Tuning and RAG，數量不如文件的相關性和可索引性重要。

我應該為我的 GenAI 應用程式選擇 RAG 還是 Fine-tuning？

這是 Data Prep for LLM Fine-Tuning and RAG 中的一個關鍵問題。RAG 更適合經常更改的動態數據，而 Fine-tuning 更適合教導模型特定的風格或專業詞彙。通常，最佳的 Data Prep for LLM Fine-Tuning and RAG 策略涉及兩者的結合。

Data Prep for LLM Fine-Tuning and RAG 如何處理多模態數據？

針對多模態數據（圖像、影片、文本）的 Data Prep for LLM Fine-Tuning and RAG 涉及使用多模態 Embeddings。像 Vertex AI 的 Gemini 這樣的模型可以處理多種類型的數據，但 Data Prep for LLM Fine-Tuning and RAG 過程仍必須涉及對每種數據類型進行適當的清洗和格式化。

GCP 為 Data Prep for LLM Fine-Tuning and RAG 提供哪些工具？

GCP 提供了一套用於 Data Prep for LLM Fine-Tuning and RAG 的工具，包括用於隱私的 Cloud DLP、用於轉換的 BigQuery、用於非結構化數據的 Document AI，以及用於託管 GenAI 工作流和評估的 Vertex AI。

Data Prep for LLM Fine-Tuning and RAG 總結

Data Prep for LLM Fine-Tuning and RAG 是一個廣泛且細緻的領域。從最初攝取非結構化數據到最終評估微調後的模型，每一步都需要仔細的規劃和執行。透過專注於清洗、分塊、格式化和安全性，您可以確保您的 Data Prep for LLM Fine-Tuning and RAG 努力能夠產出強大且可靠的 GenAI 解決方案。請記住，Data Prep for LLM Fine-Tuning and RAG 不是一次性的任務，而是一個持續改進的循環。隨著數據和模型的演進，您的 Data Prep for LLM Fine-Tuning and RAG 策略也必須隨之調整。隨時了解 Data Prep for LLM Fine-Tuning and RAG 中的最新工具和技術，以在快速變化的 AI 領域中保持競爭優勢。LLM 計畫的成功很大程度上取決於 Data Prep for LLM Fine-Tuning and RAG 的質量。投入必要的時間和資源來掌握 Data Prep for LLM Fine-Tuning and RAG，您將在 AI 模型的表現和準確性中看到成果。無論您是建立一個簡單的基於 RAG 的聊天機器人，還是一個複雜的微調專家模型，Data Prep for LLM Fine-Tuning and RAG 始終是您成功的關鍵因素。Data Prep for LLM Fine-Tuning and RAG 是原始數據與智慧洞察之間的橋樑。沒有有效的 Data Prep for LLM Fine-Tuning and RAG，LLM 的潛力將無法發揮。將 Data Prep for LLM Fine-Tuning and RAG 視為數據工程團隊的核心競爭力。AI 的未來是數據驅動的，而 Data Prep for LLM Fine-Tuning and RAG 就是駕駛座。Data Prep for LLM Fine-Tuning and RAG, Data Prep for LLM Fine-Tuning and RAG, Data Prep for LLM Fine-Tuning and RAG。

白話文解釋

為檢索增強生成 (RAG) 準備數據

理解 RAG 流水線

Embeddings 在 RAG 中的角色

為 LLM Fine-Tuning 格式化數據集

監督式微調 (SFT) 格式

平衡數據集

為高品質 LLM 輸入進行數據清洗

移除噪音和樣板內容

去重策略

長文件的分塊（Chunking）策略

固定大小分塊 vs. 語意分塊

重疊分塊（Overlapping Chunks）

為 GenAI 處理非結構化數據 (PDFs, Docs)

OCR 與佈局分析

提取元數據 (Metadata)

Vertex AI 數據集準備要求

Vertex AI 中的託管數據集

數據連接器

GenAI 數據集的質量評估

人機回圈 (Human-in-the-loop) 評估

自動化質量評分

將 Prompt 模板作為數據資產進行管理

Prompt 模板的版本控制

動態 Prompt 注入

訓練數據集的版本控制

使用 DVC 或 Git LFS

BigQuery 中的快照 (Snapshotting)

GenAI 數據中的隱私和安全過濾

PII 去識別化 (Redaction)

安全過濾器

常見問題

Data Prep for LLM Fine-Tuning and RAG 中最常見的錯誤是什麼？

Fine-tuning 的 Data Prep for LLM Fine-Tuning and RAG 需要多少數據？

我應該為我的 GenAI 應用程式選擇 RAG 還是 Fine-tuning？

Data Prep for LLM Fine-Tuning and RAG 如何處理多模態數據？

GCP 為 Data Prep for LLM Fine-Tuning and RAG 提供哪些工具？

Data Prep for LLM Fine-Tuning and RAG 總結

官方資料來源

更多 PDE 主題