examlab .net 用最有效率的方法,考取最有價值的證照
本篇導覽 約 20 分鐘

預訓練 AI APIs

3,850 字 · 約 20 分鐘閱讀 ·

掌握 Google Cloud Digital Leader (CDL) 考試中的預訓練 AI API:Cloud Vision、Cloud Translation、Cloud Speech-to-Text、Cloud Text-to-Speech、Cloud Natural Language API、Cloud Video Intelligence API、Document AI 與 Dialogflow——以及何時選用預訓練 API 而非 AutoML 或 Vertex AI 自訂訓練。

立即做 20 題練習 → 免費 · 不用註冊 · CDL

什麼是預訓練 AI API?

對於 Google Cloud Digital Leader (CDL) 考試而言,預訓練 AI API 是為企業應用程式加入人工智慧最簡單、最快速、最低成本的方式。這些 API 封裝了 Google 研究等級的機器學習模型——與 Google 內部用於驅動 Google 搜尋、Google 相簿、YouTube 字幕和 Google 翻譯的相同模型——以 REST API 形式對外開放,任何開發者都能直接呼叫,無須自行訓練模型、聘請資料科學家,也不需要管理 GPU。您傳入資料(一張圖片、一段音訊、一段文字),API 傳回答案(標籤、逐字稿、情感分數)。計費模式為按 API 呼叫次數計費,多數產品均提供免費配額層,讓試驗成本幾乎為零。

這種 AI 即 API 層是 Google Cloud AI 產品組合的最頂層。其餘層次分別是 AutoML(以您自己的標籤訓練自訂模型,不需撰寫程式碼)和 Vertex AI 自訂訓練(以 TensorFlow 或 PyTorch 全面掌控 ML 管線)。CDL 考試最常見的題型是情境題,詢問哪一層最適合某個商業問題。決策流程很簡單:預訓練 API 優先、AutoML 其次、Vertex AI 自訂訓練最後——永遠選擇能解決問題的最高層,因為往下走代表增加成本、時間與營運複雜度。更廣泛的 AI 背景知識,請參閱 AI 與機器學習基礎概念章節

預訓練 AI API 產品組合目前涵蓋 Cloud Vision APICloud Translation APICloud Speech-to-TextCloud Text-to-SpeechCloud Natural Language APICloud Video Intelligence APIDocument AIDialogflow CX / ES,以及特定產業的 Healthcare Natural Language API。每項 API 均透過穩定的 HTTPS 端點對外提供,整合 Cloud IAM 進行存取控制,每次呼叫皆記錄至 Cloud Audit Logs,並繼承 Google Cloud 的靜態加密與傳輸加密保障。身為 Cloud Digital Leader,您不需要撰寫 SDK 程式碼,但必須能在幾秒內為正確的情境推薦正確的預訓練 API。

白話文解釋

預訓練 AI API 聽起來像是研究等級的概念,但實際使用起來就像日常消費品。您不需要理解神經網路背後的數學——您只需要知道每個產品的功能,以及何時選用它。以下類比將 AI 即 API 層轉化為商業決策者不需要任何技術背景就能掌握的圖像。

類比一 — 即食料理包、料理包 DIY、從零創作食譜

想像一個忙碌家庭備餐的三種方式。第一種是從架上拿一包即食料理包——放入微波爐加熱三分鐘,晚餐就好了。第二種是買一套附食材與食譜的料理包,自己花三十分鐘組裝完成。第三種是從零創作一道全新食譜——從冰箱食材開始,充滿創意,但需要整個下午和幾次失敗嘗試。預訓練 AI API 就是即食料理包。 Cloud Vision API 早已知道如何辨識貓咪、車牌和貨架商品;倒入圖片,標籤就出來了。Cloud Translation API 已支援 100 種以上語言;倒入西班牙文,英文就出來了。Cloud Speech-to-Text 早已能聽寫英文、普通話、廣東話、日文、印地文和 120 種以上其他語言。

料理包 DIY 的對應是 AutoML——您帶來自己的標籤(您的特定商品、您的特定缺陷類別),Google 負責模型架構。從零創作食譜的對應是 Vertex AI 自訂訓練——完全控制、完全責任、完全投入。CDL 層級的建議是:當企業說「我們只需要翻譯客戶評論」或「我們只需要讀取收據上的文字」,請指向即食料理包,因為 Google 研究團隊已經完成了所有工作。往下走到 AutoML 或 Vertex AI 只有在企業需要真正獨特的輸出時才說得通——例如分類只有他們工廠生產線才有的印刷電路板瑕疵。

類比二 — 借調專家廚師,而不是自己招募

第二個實用圖像是廚師人力派遣公司。一間餐廳若需要壽司師傅應付週末包場,不會啟動半年招聘流程——打電話給派遣公司,下午五點一位技藝精湛的師傅準時抵達,整晚表現完美,午夜後離開。餐廳按時計費;師傅屬於派遣公司,不屬於餐廳。預訓練 AI API 的運作方式完全相同。Cloud Natural Language API 是一位借調的語言學家,早已知道如何從文字中擷取實體與情感。Cloud Speech-to-Text API 是一位借調的逐字稿專員。Document AI Invoice Parser 是一位借調的應付帳款文員,能讀取任何格式的發票欄位。

借調專家的類比說明了經濟邏輯。企業不用承擔培訓專家的成本(海量資料集、數週 GPU 時間、ML 研究團隊)。企業不用承擔收容專家的成本(伺服器、MLOps、監控)。企業只需要支付專家上工期間的費用——每張圖片、每分鐘音訊、每個字元文字、每頁文件。工作消失,成本也隨之消失。這正是雲端價值主張落實到 AI 的具體展現:將原本需要數百萬元資本支出的投資,轉化為按次計費的營運支出。

類比三 — 公用工具箱,每個抽屜是一種 API

第三個實用圖像是工作室牆上的公用工具箱。每個抽屜放著一種專用工具:螺絲起子、扳手、捲尺、水平儀。您不需要自己鍛造工具——打開符合工作需求的那個抽屜就好。Google Cloud 的預訓練 AI API 正是這樣的工具箱。Cloud Vision 抽屜放著圖片標籤與 OCR 的工具。Cloud Translation 抽屜放著語言轉換的工具。Speech-to-Text 抽屜放著音訊轉寫的工具。Text-to-Speech 抽屜放著自然語音合成的工具。Video Intelligence 抽屜放著影片鏡頭偵測與不當內容過濾的工具。Document AI 抽屜放著從發票、收據、合約和表單中萃取結構化欄位的工具。Dialogflow 抽屜放著在對話和語音管道建立聊天機器人的工具。

CDL 考試的關鍵洞見是:您很少只用一個抽屜。正式環境的工作流程往往會串連多個預訓練 API。例如,客服中心分析管線會取得原始錄音,執行 Speech-to-Text 取得逐字稿,執行 Natural Language API 擷取實體與情感,執行 Translation API 本地化逐字稿,若客戶同時上傳了掃描收據,再執行 Document AI。每個步驟是工具箱中的一個抽屜;工作流程是依序打開抽屜的施工計畫。組合多個預訓練 API 往往比建立一個做所有事的自訂模型更強大,而且便宜得多。

類比四 — 捷運站的自助服務機排

第四個貼近生活的類比是現代捷運站的自助服務機排。您走近那排機器,看到貼有「儲值」、「補票」、「查詢時刻」、「換購一日券」、「遺失物申報」標籤的機器。每台機器只做一件事,您按幾個按鈕,機器立刻回傳結果。您不需要知道機器內部如何運作——捷運公司早已設定好一切。預訓練 AI API 的運作方式完全相同。每種預訓練 API 都是一台機器:將圖片交給 Vision 機器,它回傳標籤;將文字和目標語言交給 Translation 機器,它回傳翻譯;將音訊和語言代碼交給 Speech-to-Text 機器,它回傳逐字稿。

自助服務的本質對 CDL 受眾至關重要:不需要訓練員工操作機器,不需要安排維護停機窗口,不需要採購硬體。機器會自動擴展——一筆交易或一百萬筆交易,使用者體驗完全相同。對比另一種選擇:每個閘口都安排一位人工服務員、訓練他們、支付薪資、管理輪班。這就是在 Compute Engine VM 上自行運營 AI 模型的感受,也正是為什麼大多數企業應該先從預訓練 API 開始,再考慮其他方案。更多關於分層方法的說明,請參閱 Vertex AI Platform 章節

Cloud Vision API — 理解圖片內容

Cloud Vision API 是圖片分析的核心預訓練模型。傳入 JPEG、PNG 或 GIF——以 base64 內嵌或 Cloud Storage URI 形式——API 傳回以下一項或多項結果:標籤偵測(通用類別如「狗」、「摩天大樓」、「皮革鞋子」)、OCR / 文字偵測(50 種以上語言的印刷與手寫文字)、人臉偵測(人臉邊界框、喜悅/悲傷/憤怒/驚訝的可能性——注意 Vision API 執行人臉識別或辨識個人身份)、地標偵測(知名地標如艾菲爾鐵塔或台北 101)、標誌偵測(企業品牌標誌)、物件定位(含邊界框的多個物件)、不當內容偵測(成人、暴力、色情、醫療內容的 SafeSearch 標記),以及裁切建議(縮圖推薦裁切矩形)。

Cloud Vision API 常見使用案例

零售商使用 Vision API 為商品照片自動加標籤,讓搜尋與推薦系統能依視覺屬性比對。保險公司使用 Vision API 進行理賠案件分級——客戶上傳的凹陷車體照片在人工理賠員審閱前先自動分類。媒體平台使用 SafeSearch 在使用者上傳內容公開前進行過濾。物流公司使用 OCR 讀取運送標籤和包裹條碼。政府機關使用 Vision API 大規模數位化文件。每種功能每月前 1,000 個單位免費,讓原型開發幾乎零成本。

Cloud Vision API 與 Vertex AI Vision 的差異

CDL 考試常見的混淆是將 Cloud Vision API(用於靜態圖片標籤與 OCR 的預訓練 REST API)與 Vertex AI Vision(含自訂邏輯和 AutoML 元件的受管即時影片分析服務)搞混。Cloud Vision API 回答的問題是「這張圖片裡有什麼?」Vertex AI Vision 回答的問題是「我如何對工廠攝影機的多路影片串流進行即時分析?」前者是單次呼叫;後者是串流管線。

Cloud Translation API — 跨越語言障礙

Cloud Translation API 是 Google 的預訓練神經機器翻譯服務。支援 100 種以上語言,若未指定來源語言可自動偵測,並提供兩個版本。Translation API Basic(又稱 v2)是原始的通用翻譯器——快速、低價、無自訂選項。Translation API Advanced(v3)新增了術語表(針對產品名稱或法律術語等特定領域詞彙的自訂對應)、大型文件集的批次翻譯,以及用於在雙語訓練資料上微調的 AutoML Translation 整合。

Cloud Translation API 使用案例

電商平台使用 Translation API 大規模本地化商品描述。新聞與媒體平台使用它從單一來源以多種語言發布。跨國客服團隊使用它翻譯進線客戶工單,讓任何客服人員都能讀取任何工單。旅遊應用程式透過鏡頭輸入進行菜單翻譯——Vision API 擷取文字,Translation API 進行轉換。計費方式為按來源文字字元計費,每月前 500,000 個字元免費。

Cloud Speech-to-Text — 音訊轉文字

Cloud Speech-to-Text 將音訊轉錄為文字。支援 125 種以上語言與方言,支援串流與批次模式,執行自動標點符號,支援說話者區分(辨識錄音中兩位以上的說話者),並提供專為電話通話音訊、影片和命令搜尋使用情境調整的進階模型。最新的 Chirp 2 模型是通用語音模型,即便是低資源語言也能達到接近人類的轉錄精確度。

當 CDL 題目強調「通用」、「無內部 ML 專業知識」、「最少投入」、「開箱即用」或「最快實現價值」時,預訓練 API 永遠是正確答案。 若企業說「我們只需要讀取發票上的文字」,答案是 Document AI——而非自訂 OCR 模型。若企業說「我們只需要轉錄客服電話」,答案是 Speech-to-Text——而非自訂音訊模型。若企業說「把我們 100,000 件商品描述翻成西班牙文、法文和德文」,答案是 Cloud Translation API——而非自訂 NMT 模型。參見 https://cloud.google.com/products/ai/apis

Cloud Speech-to-Text 使用案例

客服中心使用 Speech-to-Text 轉錄每通客戶來電,用於品質保證和合規存檔。媒體廣播商使用它為直播和播客自動加字幕。醫療機構使用專用醫療轉錄模型生成臨床病歷。語音控制 IoT 產品使用命令搜尋模型進行低延遲喚醒詞和意圖擷取。計費方式為按 15 秒音訊區塊計費,批次處理和記錄資料層享有折扣費率。

Cloud Text-to-Speech — 自然語音合成

Cloud Text-to-Speech 是 Speech-to-Text 的反向操作——接收文字並產出自然音質的音訊。支援 40 種以上語言的 220 種以上聲音,包含標準聲音、WaveNet 聲音(Google DeepMind 基於深度學習的語音合成)、Neural2 聲音(更新架構,自然度更高)和 Studio 聲音(適合行銷、新聞旁白和有聲書製作的進階聲音)。支援 SSML(語音合成標記語言),可精細控制發音、停頓、強調和音調。

Cloud Text-to-Speech 使用案例

IVR 系統使用 Text-to-Speech動態播報訂單狀態、帳戶餘額和預約確認給來電者。無障礙產品使用它為視覺障礙使用者朗讀網頁。線上學習平台使用它以多種語言朗讀課程內容。智慧家居助理使用它傳遞語音回應。計費方式為按合成文字字元計費,WaveNet 和 Studio 層因計算成本較高,費率高於標準聲音。

Cloud Natural Language API — 從文字中讀取意義

Cloud Natural Language API 分析文字的結構與意義。它執行實體分析(擷取人物、地點、組織、日期、價格、商品)、情感分析(傳回 -1.0 負向到 +1.0 正向的分數以及強度)、實體情感分析(同一文件中針對每個實體的情感評分)、語法分析(10 種以上語言的詞性標注和依存句法分析),以及內容分類(將文字歸入 700 種以上類別,例如「電腦與電子 / 軟體 / 行動應用程式」)。

Cloud Natural Language API 使用案例

客服平台使用它依情感路由進線工單——憤怒的客戶轉給資深客服,中性工單進入標準佇列。品牌監測工具使用它追蹤企業社群媒體提及的情感趨勢。新聞彙整平台使用內容分類自動將文章分類。法律科技工具使用實體擷取從合約中辨識當事人、日期和金額。

Cloud Vision API 提供通用標籤——而非特定產業標籤。 Vision API 能告訴您「這是一輛車」或「這是保險桿」或「這是金屬」,但無法告訴您「這是一輛 2022 年 Toyota Camry 需要鈑金修復的受損前保險桿」。若需要特定產業標籤,您需要使用以自有標注圖片訓練的 Vertex AI AutoML Vision,而非 Cloud Vision API。同樣的陷阱也適用於 Natural Language API——它提供通用實體和情感,而非您的特定產品名稱或法律條款類別。將通用預訓練模型與自訂 AutoML 混淆,是 AI 題目中最常見的 CDL 錯誤答案。參見 https://cloud.google.com/vision/automl/docs

Cloud Video Intelligence API — 理解影片內容

Cloud Video Intelligence API 將預訓練模型方法延伸至影片。它能執行鏡頭切換偵測(尋找場景邊界)、標籤偵測(逐幀與逐鏡頭標記)、不當內容偵測(標記成人內容場景)、影片內語音轉錄物件追蹤(跨多個畫格追蹤物件)、人物偵測人臉偵測(不識別個人身份)、標誌偵測,以及文字偵測(讀取出現在影片畫格中的文字)。

Cloud Video Intelligence API 使用案例

媒體平台使用此 API 在使用者上傳影片公開前進行自動內容審核。體育轉播商使用鏡頭偵測自動生成章節標記和精彩集錦。行銷團隊使用標誌偵測衡量網紅內容中的品牌曝光度。法務合規團隊使用它對廣播影片素材進行場景級存檔標注。計費方式為按每分鐘分析影片計費,各功能分開計費。

Document AI — 從非結構化文件中萃取結構化欄位

Document AI 是許多企業最具商業價值的預訓練 API。它接受 PDF、掃描圖片或文件照片,並傳回結構化欄位——發票號碼、廠商名稱、明細項目、金額、日期。Document AI 隨附針對常見文件類型的專用處理器Invoice ParserReceipt ParserW-9 ParserW-2 ParserPassport ParserDriver License ParserBank Statement ParserPay Stub ParserUtility Bill Parser 等等。每個專用處理器都在該類別的數百萬份真實文件上訓練,因此能理解正式環境文件實際呈現的版面、字型和掃描品質的多樣變化。

Document AI 使用案例

應付帳款團隊使用 Invoice Parser 消除 80% 以上的人工資料輸入。保險公司使用專用處理器大規模數位化理賠表單。房貸機構使用它從薪資單和 W-2 表格擷取收入資料。政府機關使用它處理福利申請案件。醫療行政人員使用它從入院表單擷取患者資料。輸出結果可直接整合至 BigQuery、Cloud Storage 和下游業務系統。計費方式為按處理頁數計費,一般處理器與專用處理器費率不同。

預訓練 AI API 是由 Google 完成訓練、評估和部署,並以穩定的 REST 或 gRPC HTTPS 端點開放給客戶使用、按呼叫次數計費的機器學習模型。客戶傳入輸入資料,API 傳回模型輸出,模型本身由 Google 持有和運營。客戶不接觸訓練資料,不管理推論基礎架構,也不需要為閒置運算付費。參見 https://cloud.google.com/products/ai/apis

Dialogflow — 聊天機器人與 IVR 的對話式 AI

Dialogflow 是 Google Cloud 的對話式 AI 平台。分為兩個版本。**Dialogflow ES(Essentials)**是原始產品,適合簡單的 FAQ 聊天機器人和中小型 IVR 流程。Dialogflow CX(Customer Experience)是企業版——引入狀態機模型(頁面、流程和參數),能處理 ES 無法應對的複雜多輪分支對話。CX 適合任何需要版本控制、A/B 測試、多語言支援,以及整合 Genesys 或 Avaya 等電話服務商的客服中心級部署。

Dialogflow 使用案例

銀行使用 Dialogflow CX 提供 24 小時客服 IVR,處理餘額查詢、信用卡開卡、詐欺通報和預約排程。航空公司使用它在行動應用程式和簡訊中建立航班狀態聊天機器人。零售商在網站上使用它提供訂單狀態聊天機器人。醫療網絡使用它提供預約排程聊天機器人。Dialogflow 原生整合 Cloud Contact Center AI (CCAI),支援完整客服中心自動化,包含客服助理和對話分析。

醫療與特定產業 API

除了通用預訓練 API,Google Cloud 還為受監管或專業化行業提供特定產業預訓練模型Healthcare Natural Language API 從臨床文字中擷取醫療概念(藥物、處置、診斷、解剖部位),並對應至 ICD-10、SNOMED CT 和 RxNorm 等標準醫療詞彙。Cloud Healthcare API 處理 FHIR、HL7v2 和 DICOM 資料格式。Retail Search 和 Recommendations AI 是針對電商的垂直專用 API。Contact Center AI Insights 是疊加在客服通話逐字稿上的預訓練分析層。這些產業 API 仍屬於預訓練——客戶不訓練模型——但訓練資料與輸出針對特定垂直行業進行了調整。

決策流程 — 預訓練 API vs AutoML vs Vertex AI 自訂訓練

請熟記這個決策流程,因為它是 CDL 考試中最常出現的單一題型:

  1. 問題是否屬於預訓練 API 已涵蓋的通用、明確定義任務? 翻譯文字 → Cloud Translation API。轉錄音訊 → Speech-to-Text。擷取發票欄位 → Document AI Invoice Parser。偵測照片中的物件 → Vision API。若是,停止。使用預訓練 API。

  2. 問題是否對企業獨特但缺乏資料科學團隊? 分類您的特定商品照片 → AutoML Vision。從您的自訂版面表單擷取欄位 → Document AI Custom Processor。從您的客戶資料表預測客戶流失 → AutoML Tabular。若是,停止。在 Vertex AI 上使用 AutoML。

  3. 您是否擁有資料科學家並需要最高精確度或非典型架構? 使用 Vertex AI 自訂訓練搭配 TensorFlow、PyTorch 或 scikit-learn。完全控制,完全責任。

預訓練 API → AutoML → Vertex AI 自訂訓練——三層、三種取捨。 預訓練 API:按呼叫次數計費,無須訓練,無須專業知識,通用輸出,最快實現價值。AutoML:以您的資料訓練,不需程式碼,自訂輸出,訓練時間數小時至數天。Vertex AI 自訂訓練:完整 ML 管線控制,自行撰寫程式碼,數週投入,最大彈性。永遠選擇能解決問題的最高層,以降低總體擁有成本。參見 https://cloud.google.com/vertex-ai/docs/start/introduction-unified-platform

定價與免費層

預訓練 AI API 以每單位輸入計費,並提供慷慨的免費層供原型開發使用。各產品的計費單位不同:

  • Cloud Vision API: 依每張圖片套用的功能計費。每種功能每月前 1,000 個單位免費;標準費率每 1,000 個單位 $1.50;超過 500 萬個單位享量折扣。
  • Cloud Translation API Basic: 依翻譯字元計費。每月前 500,000 個字元免費;超出部分每百萬字元 $20。
  • Cloud Speech-to-Text: 依 15 秒音訊區塊計費。每月前 60 分鐘免費;標準模型每分鐘 $0.024;進階模型費率較高。
  • Cloud Text-to-Speech: 依合成字元計費。標準聲音每月前 400 萬字元免費;WaveNet 超過 100 萬字元免費層後每百萬字元 $16。
  • Cloud Natural Language API: 依每種功能的 1,000 字元文字單位計費。每種功能每月前 5,000 個單位免費。
  • Cloud Video Intelligence API: 依每種功能的每分鐘影片計費。每種功能每月前 1,000 分鐘免費。
  • Document AI: 依處理頁數計費。依處理器定價;通用處理器每 1,000 頁 $1.50;專用處理器每頁 $0.10;各處理器費率不同。
  • Dialogflow ES: 依文字和語音對話計費。ES 版文字對話免費;語音對話按分鐘計費。
  • Dialogflow CX: 依對話計費。因進階流程引擎,費率高於 ES。

請務必確認免費層是否已足夠支撐您的原型工作量。 許多 CDL 層級的概念驗證專案(每天幾百次翻譯呼叫、每月幾千次圖片標籤)完全落在永久免費層內,代表業務單位可以零支出測試預訓練 AI API 後再決定是否投入。進入正式環境規模後,使用定價計算機預估每月費用,並考量高用量 API 的承諾使用折扣。參見 https://cloud.google.com/pricing/calculator

安全性、合規與資料落地

預訓練 AI API 繼承 Google Cloud 的企業安全架構。所有傳輸中資料均以 TLS 1.2+ 加密,靜態資料在支援的情況下以 Google 管理金鑰或**客戶管理加密金鑰(CMEK)**加密。IAM 控制存取——roles/serviceusage.serviceUsageConsumer 角色加上產品特定角色(如 roles/documentai.apiUser)管理哪些人可以呼叫哪些 API。VPC Service Controls 可將 API 置入安全邊界以防止資料外洩。稽核日誌記錄每次 API 呼叫。

對於受監管產業,多數預訓練 API 具備 HIPAA 合規資格(須簽署 BAA),許多產品也通過 PCI DSSISO 27001SOC 1/2/3FedRAMP 認證。資料落地可針對多項 API 進行設定:Cloud Translation API 支援僅限歐盟和僅限美國的端點,Document AI 支援多區域處理器,Speech-to-Text 支援歐盟區域端點。Google 明確聲明客戶傳送至預訓練 AI API 的資料不會用於訓練 Google 自身的模型——這對於擔心智慧財產外洩的企業採購團隊而言是關鍵的合約承諾。

常見整合模式

預訓練 API 很少單獨運行。最常見的正式環境模式是將預訓練 API 與其他 Google Cloud 服務串連:

文件處理管線

客戶將 PDF 上傳至 Cloud StorageEventarc 觸發 Cloud Run 服務 → Cloud Run 呼叫 Document AI Invoice Parser → 擷取欄位進入 BigQueryLooker 儀表板報告應付帳款處理量。客戶無須管理任何伺服器;整條管線為無伺服器架構。

多語言客服支援管線

客戶以任何語言寄來電子郵件 → Cloud Function 接收郵件 → 呼叫 Cloud Translation API 翻譯成客服人員的語言 → 呼叫 Natural Language API 擷取情感和實體 → 將工單路由至服務台系統的正確佇列。以少量程式碼為服務加入 AI 價值。

客服中心分析管線

來電錄音儲存 → Cloud Storage 存放音訊檔案 → Cloud Workflows 協調 Speech-to-Text 轉錄 → 逐字稿由 Natural Language API 評分情感 → 結果流入 BigQueryLooker 即時儀表板呈現每日客戶情感趨勢。直接對應雲端價值主張——將固定成本的客服中心分析轉化為按通話計費的營運支出模式。

對話式工作流程

使用者在網站上提出問題 → Dialogflow CX 比對意圖和參數 → Dialogflow 呼叫 Cloud Function Webhook → 函式查詢 BigQuery 或第三方 CRM → Dialogflow 格式化回應 → Text-to-Speech 將答案轉換為語音以供語音管道使用。由預訓練 API 積木組裝而成的端對端對話式 AI。

預訓練 API 不足以應對的情況

預訓練 API 能處理大多數常見商業問題,但並非全部。請辨識以下指向其他方案的訊號:

  • 輸出類別必須特定於您的業務。 Cloud Vision API 傳回「鞋子」或「皮革」;若您需要「M 號尺寸左腳趾有刮痕的退貨商品 X 型號」,您需要 AutoML Vision 或 Vertex AI 自訂模型。
  • 文件版面是貴公司獨有的。 通用發票解析器無法處理含自訂欄位的專有內部表單;您需要以標注範例訓練的 Document AI Custom Processor
  • 精確度必須超越通用基準。 通用 Speech-to-Text 對充滿術語的特定領域音訊可能只有 80% 精確度;自訂訓練模型可能推進到 95%。
  • 您需要含自訂系統提示的基礎模型。 對於內容生成和企業知識問答等生成式 AI 使用情境,應使用 Gemini on Vertex AI 而非預訓練 API。

預訓練 API 永遠優先選擇最高層答案——但它們並非萬能工具。 當 CDL 考試情境強調「獨特於我們的業務」、「我們的專有類別」、「特定產業缺陷」、「內部表單版面」或「超越 Google 通用基準的最高精確度」時,答案不是預訓練 API。這些情況下的正確答案是 AutoML(若無資料科學團隊)或 Vertex AI 自訂訓練(若有資料科學團隊)。仔細閱讀題目情境——「通用」或「開箱即用」通常出現在預訓練 API 正確的情境,「專有」或「自訂標籤」通常出現在預訓練 API 不適合的情境。參見 https://cloud.google.com/vertex-ai/docs/start/introduction-unified-platform

預訓練 API 與生成式 AI — 重疊性說明

2024 至 2026 年間,預訓練 API 與 Vertex AI 上的生成式 AI 之間的界線開始模糊。Gemini 能執行許多傳統上需要預訓練 API 的任務——例如,您可以要求 Gemini Pro Vision 描述圖片、從文字中擷取實體、摘要會議逐字稿或翻譯文字。Gemini 是基礎模型而非任務特定 API,因此更具彈性,但每次呼叫可能費用更高,輸出結構也較不固定。

CDL 層級的指引是:對於大量且需要確定性結構化輸出的任務(標記這張圖片、轉錄這段音訊、從這張發票擷取這些欄位),預訓練 API 仍是正確答案,因為其定價可預期,輸出結構穩定。對於開放式、內容生成或推理任務(摘要這份 50 頁文件並建議後續步驟;生成行銷電子郵件草稿;回答客戶關於產品目錄的問題),Vertex AI / Gemini 上的生成式 AI 是正確答案。聰明的架構會同時使用兩者——預訓練 API 處理無聊的大量任務,Gemini 處理開放式的創意或推理步驟。

常見問題

我應在何時選擇預訓練 API 而非 AutoML?

當任務屬於通用性質且 Google 已訓練好的模型已能滿足需求時,使用預訓練 API:翻譯常見語言間的文字、轉錄音訊、偵測常見圖片類別、從標準文件(如發票)擷取欄位。只有當輸出必須特定於您的業務時才切換到 AutoML——您的商品、您的缺陷、您的內部表單版面。永遠先從預訓練 API 概念驗證開始;成本幾乎為零,而且很快就能釐清是否真正需要 AutoML。

Google 會使用我的資料訓練其預訓練 AI API 嗎?

不會。Google 合約承諾傳送至預訓練 AI API 的客戶資料不會用於訓練 Google 的模型或其他任何客戶的模型。資料僅被處理以完成 API 呼叫,後續依照已公布的資料處理政策處理。客戶也可以選擇加入 Speech-to-Text 的資料記錄折扣方案,Google 會保留逐字稿用於模型改善,但這是選擇加入且有清楚說明的。

Cloud Vision API 與 Vertex AI Vision 有何不同?

Cloud Vision API 是用於靜態圖片標籤、OCR、人臉偵測、地標偵測和內容審核的預訓練 REST API——每張圖片一次呼叫。Vertex AI Vision 是含自訂邏輯、AutoML 模型整合和邊緣部署至實體攝影機的受管即時影片分析服務。混淆兩者是 CDL 考試最常見的誤讀。記憶口訣:Vision API = 透過單一 API 呼叫處理靜態圖片;Vertex AI Vision = 即時影片管線。

我可以在本地端或邊緣設備上執行預訓練 AI API 嗎?

多數預訓練 API 僅限雲端,因為它們依賴 Google 的託管模型基礎架構。對於邊緣部署,AutoML EdgeVertex AI Edge Manager 可將模型匯出至 TensorFlow Lite 或 Coral Edge TPU 設備。Speech-to-Text on-prem 可透過 Speech-to-Text on Google Distributed Cloud 供受監管客戶使用。但對多數 CDL 情境而言,「預訓練 API」意指雲端託管。

在正式環境執行預訓練 AI API 的典型費用是多少?

費用取決於用量。每月處理 10,000 次圖片標籤和 500 萬字元翻譯的小型 SaaS 新創可能完全在免費層內,每月費用為零。每月處理 100 萬張商品圖片和 5,000 萬字元翻譯的中型電商平台可能每月支出幾百美元。每月轉錄數百萬分鐘通話的企業客服中心可能每月支出數萬美元。按單位精細計費代表費用隨用量可預期地增長,且無任何前期承諾。

Dialogflow CX 與 Dialogflow ES 有何不同,應選哪一個?

**Dialogflow ES(Essentials)**使用意圖與實體模型,適合簡單的 FAQ 式聊天機器人——一個意圖比對一個問題,傳回一個回應。Dialogflow CX(Customer Experience)使用狀態機模型,含頁面、流程和參數,能處理複雜多輪對話、分支邏輯、A/B 測試和團隊協作。小型專案或簡單 FAQ 選 ES;客服中心等級、多語言、多管道部署選 CX。對於 2026 年新建專案,CX 是推薦路徑,因為 Google 持續在此平台上投資。

預訓練 API 如何融入更廣泛的 AI 策略?

預訓練 API 是任何 AI 策略的預設第一站,因為它們的試驗成本最低、實現價值最快。成熟的 AI 計畫通常以 AutoML(用於需要自訂標籤但不需程式碼的那一部分問題)和 Vertex AI 自訂訓練(用於高價值差異化模型)分層疊加。Vertex AI / Gemini 上的生成式 AI 則並排處理內容生成和推理任務。架構決策不是「選擇一層」,而是「為每個問題選擇正確的層」。更廣泛的策略背景,請參閱 Vertex AI Platform 章節雲端價值主張

摘要:Cloud Digital Leader 的預訓練 AI API 重點整理

預訓練 AI API 是 Google Cloud 為企業應用程式加入 AI 最快、最便宜、最簡單的路徑。它們涵蓋最常見的任務——視覺、翻譯、語音、語言、影片、文件理解和對話式 AI——且不需要任何 ML 專業知識。CDL 考試將測試您能否將商業情境對應到正確的預訓練 API,以及能否辨識何時應改用 AutoML 或 Vertex AI 自訂訓練。請熟記產品組合(Vision、Translation、Speech-to-Text、Text-to-Speech、Natural Language、Video Intelligence、Document AI、Dialogflow)、決策流程(預訓練 API → AutoML → Vertex AI 自訂訓練),以及定價模式(按呼叫次數計費並附帶免費層)。掌握這些,您就能自信地向任何商業利害關係人推薦預訓練 AI API 策略,並回答 CDL 考試中任何關於預訓練 AI API 的題目。

官方資料來源

更多 CDL 主題