examlab .net 用最有效率的方法,考取最有價值的認證
Vol. I
本篇導覽 約 27 分鐘

GenAI 商業能力、限制與 AWS 基礎設施

5,320 字 · 約 27 分鐘閱讀 ·

完整 AIF-C01 指南,深入解析生成式 AI(GenAI)的能力與限制。掌握 GenAI 擅長的任務、幻覺(Hallucination)的成因與緩解策略(RAG、Grounding、temperature=0)、偏見、成本驅動因素、延遲、智慧財產權,以及何時「不應」使用 GenAI,附含考試陷阱、白話文類比與 FAQ。

立即做 20 題練習 → 免費 · 不用註冊 · AIF-C01

生成式 AI(GenAI,Generative AI 的縮寫,泛指能夠產出文字、程式碼、圖像等全新內容的人工智慧系統)的能力與限制,是 AIF-C01 考試中 Task 2.2(搭配 Task 2.3 的基礎設施部分)最關鍵的考點之一。這個主題決定了應試者能否做出真實世界中的 GenAI 部署決策,而不只是背誦定義。AWS Certified AI Practitioner(AIF-C01)考試要求你清楚辨識 GenAI 擅長的任務(摘要整理、語言翻譯、草稿潤稿、程式碼補全、開放式問答、創意發想)、GenAI 做不好的任務(確定性數學運算、可驗證引用的事實、即時資料存取、無鷹架的複雜多步推理),以及如何緩解 GenAI 的失效模式,例如幻覺(Hallucination)與偏見(Bias)。Domain 2 約有 15 到 20 % 的題目涉及 GenAI 的能力與限制,換算下來每場考試約有 3 到 4 題,而且這些題目是整份藍圖中情境描述最豐富、最複雜的題型。

本學習指南涵蓋 AIF-C01 中 GenAI 能力與限制主題的每一個子技能:能力清單、失效模式清單、幻覺的成因與緩解方式(Retrieval-Augmented Generation、Grounding、結構化輸出、自我反思、temperature=0)、GenAI 輸出中的偏見、成本驅動因素(參數量 × Token 用量 × 吞吐量模式)、串流與批次的延遲差異、智慧財產權考量(訓練資料來源與輸出授權),以及支撐 GenAI 的 AWS 基礎設施(AWS Trainium、AWS Inferentia、Amazon EC2 P5/G5、Amazon Bedrock),還有「何時完全不應使用 GenAI」的決策準則。三個白話文類比、十個以上的 callout 提示框,以及七則 FAQ,幫助你鞏固記憶。

什麼是 GenAI 的能力與限制?

GenAI 的能力與限制描繪了基礎模型(FM,Foundation Model 的縮寫,指經過大規模預訓練、能執行多種任務的大型 AI 模型)在生產應用中能做到與做不到的雙面地圖。能力是指 FM 在可接受成本下能穩定超越規則導向基準的任務——摘要整理、語言翻譯、草稿潤稿、程式碼補全、開放式問答、創意發想,以及從非結構化文字中提取結構化資訊。限制是指 FM 在無聲、自信或高昂代價下失敗的任務——確定性算術、訓練截止日之後的可驗證引用事實、無工具的即時資料存取、無明確鷹架的複雜多步邏輯,以及任何「答錯了代價無法承受」的決策。

在 AIF-C01 中,「GenAI 能力與限制」是 Task 2.2(「理解 GenAI 解決商業問題的能力與限制」)和 Task 2.3(「描述建構 GenAI 應用程式的 AWS 基礎設施與技術」)之間的樞紐。Task 2.2 問的是:給定一個商業場景,GenAI 是正確的工具嗎?必須緩解哪些風險?Task 2.3 問的是:一旦決定使用 GenAI,哪些 AWS 服務與晶片能實現它?兩個 Task 都依賴同一個心智模型——能力 × 緩解措施 = 可部署價值;限制 − 緩解措施 = 生產風險

為什麼 GenAI 能力與限制對 AIF-C01 如此重要

AIF-C01 藍圖將 Domain 2(生成式 AI 基礎)的比重訂為 28%——是單一領域中佔比最大的一塊。社群痛點報告顯示,那些死背 FM 瑣碎知識(參數量、分詞器、注意力機制)卻無法在商業場景中闡述 GenAI 能力與限制的應試者,往往在這 3 到 4 題上失分。更糟的是,測試 GenAI 限制的情境題是刻意設計成反直覺的:「顯而易見」的答案(對所有事情都使用 GenAI)幾乎永遠是錯的。掌握這個主題,是考試當天加分最快的方法。

白話文解釋:GenAI 的能力與限制

GenAI 的能力與限制聽起來很抽象,但三個白板類比就能把它們牢牢鎖住。每個類比從不同角度對應能力與限制之間的取捨關係。

類比一 — 珍珠奶茶店的點餐員(開放式知識 vs. 即時查詢)

把 GenAI 想像成一位在台灣連鎖珍奶店工作的資深點餐員,他把幾千種配方全背在腦子裡,卻沒辦法看到當下的存貨螢幕。

請他推薦一款口感滑順的飲品——絕對沒問題,這就是摘要與創意發想的能力,GenAI 在這裡發光。

請他把菜單翻成日文給觀光客看——同樣輕鬆搞定,這是翻譯能力。

請他報一下今天下午三點的珍珠庫存剩幾顆——他會自信地說出一個數字,但那個數字很可能是猜的。這就是幻覺(Hallucination):流暢、自信、卻與事實無關。

現在給他一台可以查詢即時庫存的平板(這就是 RAG 或工具呼叫)——他的回答立刻變得準確可靠。

請他在腦海中計算今天 3,847 杯飲品的總收入——他會猜,但給他一個 POS 機(工具使用)他就能精確算出來。

白話總結: GenAI 是模式比對的推理器,不是資料庫或計算機。能力在模式主導的地方湧現;限制在精確查詢或精確計算主導的地方出現。AIF-C01 上每一個緩解措施(RAG、Grounding、工具使用、結構化輸出、temperature=0)都是在把對的工具交到這位點餐員手上,讓他回答對的問題。

類比二 — 電商商品文案團隊(能力的規模與成本)

想像一個台灣電商平台的文案部門,要為十萬個 SKU 自動生成商品描述,FM 就是這支文案團隊。

摘要整理、翻譯、草稿潤稿就像日常的基本款商品描述——食材便宜(輸入 Token 少)、擺盤快速(輸出 Token 少)、品質穩定。小模型就能勝任。

程式碼補全、複雜問答、創意廣告發想就像雙 11 大促的旗艦頁面——需要資深文案主任(參數量更大的 FM)和更多的準備時間(更長的 context window)。品質隨模型規模提升,成本也是。

計算折扣後的最終售價、查詢即時庫存數量、引用具體法規條文是 ERP 系統、倉管系統和法務部門的工作,不是文案的工作。如果讓文案憑記憶來做,他們就會產生幻覺。

出貨速度取決於文案是一字一字即時串流給客戶看(串流 Token,感知延遲低,首字元延遲約 200 到 800 ms),還是整批寫完再一次送出(批次推論,整體吞吐量高,但每筆請求的延遲也高得多)。

成本等於參數量 × 消耗的 Token × 需要多快產出——頂級高端模型(400B 參數跑在高吞吐 GPU 上)永遠比輕量模型(7B 參數跑在 AWS Inferentia 上)貴上好幾個數量級。

考試當天,任何要你在速度、品質、成本之間取得平衡的場景,都是在問你該挑哪個「文案等級」。

類比三 — 中信銀客服 Chatbot 的風險管理(限制與保障)

GenAI 的部署就像一個銀行客服 Chatbot 的風控核保問題。中國信託銀行導入客服 Chatbot 時,必須為每一個場景盤點風險與防護措施。

每一項能力都有用 Token 支付的保費:輸入 Token(你餵進去的,包括 RAG context)加上輸出 Token(模型寫回來的)。Context 越長,保費越高。

每一個限制都有出錯時要付的自負額:一則幻覺出來的法律條文進了正式契約、一個帶有偏見的貸款審核建議、一段從訓練資料複製出來的文字引發著作權訴訟。自負額是聲譽損失、法規罰款和流失的客戶。

緩解措施就是降低「保費加自負額」總和的安全裝置:RAG 降低幻覺風險,Amazon Bedrock Guardrails 降低毒性內容和 PII 外洩風險,temperature=0 降低輸出變異,人工審核把災難性失誤的上限封住。

什麼時候完全不該投保——當自負額(生命安全、醫療、法律或受監管金融決策中答錯的代價)高到無論怎麼降低保費都無法讓風險變得可接受時。GenAI 就不適合這些場景,應改用確定性規則或人類專家。

保險框架是在考試中推理 GenAI 能力與限制時,最實用、最好備考的思考工具。

GenAI 擅長的事 — 能力清單

GenAI 的能力集中在八個可重複套用的模式。把它們背起來;AIF-C01 的情境題幾乎都會重複使用這份清單。

摘要整理(Summarization)

FM 擅長把長篇輸入濃縮成短篇輸出。摘要能力有效,是因為預訓練教會了模型哪些 Token 通常重要、哪些是填充詞。Amazon Bedrock 搭配 Anthropic Claude、Amazon Titan Text、Meta Llama 或 Mistral 都提供強大的摘要能力。應用場景:客服通話記錄摘要、法律簡報精要、財報電話會議重點、事故事後報告。能力上限:摘要是抽取-生成混合,並非事實查核。當來源忠實度有要求時,搭配 Grounding 使用。

語言翻譯(Translation)

機器翻譯是現代 FM 能以接近專業品質處理主要語言對的序列到序列能力。在 AIF-C01 中,請認識到:若只需要純翻譯,使用 Amazon Translate 往往更便宜、更簡單;而 Amazon Bedrock 翻譯在你需要語氣轉換、領域專業詞彙,或在單一 prompt 中結合翻譯與摘要時才能發揮其優勢。

草稿潤稿(Draft-to-polish editing)

GenAI 能將粗糙草稿改寫成符合目標受眾、語氣或風格的版本——新聞稿、行銷文案、開發者文件、履歷條列。這是 GenAI 在辦公室生產力領域 ROI 最高的能力,也是 Amazon Q 在生產力介面中的核心功能。

程式碼補全與解釋(Code completion and code explanation)

在公開原始碼上訓練的 FM(Amazon Q Developer、基於 GitHub 的助理)能夠生成、補全、解釋和重構程式碼。對主流語言(Python、JavaScript、Java、Go、Rust)和常見模式的能力最強。對專有領域語言和最新函式庫版本(知識截止日限制)的能力會下降。

開放式問答(Open-domain question answering)

FM 能利用預訓練知識回答廣泛問題。這是所有能力中最容易產生幻覺的,因此 AIF-C01 的情境題大量以「問答 + Grounding + RAG」的組合緩解模式出現。

創意發想(Creative ideation)

GenAI 能以任何人類創作者都無法比擬的速度,腦力激盪出標語、產品名稱、分鏡概念、故事情節變體和行銷角度。品質由下游的人類策展者判斷,而非自動化指標。

從非結構化文字提取結構化資訊(Structured extraction from unstructured text)

透過明確的 prompt engineering(JSON schema prompt、結構化輸出模式),FM 能從電子郵件、發票、合約和醫療記錄中提取實體、欄位和關係。Amazon Textract 處理 OCR 與表單;GenAI 處理剩餘的散文提取。

對話式介面(Conversational interfaces)

多輪對話是 GenAI 相對於傳統 ML 獨有的能力。Amazon Bedrock Agents 加上 Amazon Bedrock Knowledge Bases 加上 Amazon Bedrock Guardrails,可以在不用你撰寫對話邏輯的情況下,組裝出一套對話式介面。

每一道 AIF-C01 GenAI 情境題,都用白話文描述了這八個能力模式中的其中一個。如果你在題幹第一句就認出模式,就等於已經把答案範圍縮小到「使用 GenAI 搭配緩解措施 X」。摘要 + 忠實度要求 = RAG;開放式問答 + 忠實度要求 = RAG;程式碼補全 = Amazon Q Developer;創意發想 = 直接呼叫 Amazon Bedrock。把「能力對應服務」的對照表背熟。 Source ↗

GenAI 做不好的事 — 限制清單

GenAI 的限制同樣可以預測。AIF-C01 考試中一定會出現至少一道「顯而易見使用 Amazon Bedrock」其實是錯誤答案的情境題。

確定性數學與算術

FM 是下一個 Token 的預測器,不是計算機。叫模型計算一張 47 行發票的確切總金額,你會得到一個聽起來合理但往往是錯的數字。緩解方式:工具使用(讓模型發出函式呼叫給計算機或 Python 沙箱),或在 prompt 之前直接在程式碼裡做計算。在 AIF-C01 中,任何說「確保財務計算精確到分」的情境,都不是純 GenAI 的情境。

訓練截止日之後的可驗證引用事實

訓練資料有知識截止日。詢問該日期之後的事件,模型要麼拒絕回答,要麼產生幻覺。緩解方式:Retrieval-Augmented Generation 或能獲取最新資料的工具使用。

即時資料存取

FM 無法在沒有工具的情況下原生查詢資料庫、呼叫 API 或讀取今天的股價。它們需要明確的工具。Amazon Bedrock Agents 提供工具使用;沒有它,這個限制就是絕對的。

無鷹架的複雜多步邏輯

FM 能原生處理兩到三步的推理,但在五到十步的邏輯鏈上很快就會退化。緩解方式:思維鏈(Chain-of-Thought)提示、Prompt Chaining,或能分解任務的 Amazon Bedrock Agents。

受監管領域的事實精確性

醫療劑量、法律引用、稅務計算、航空安全——這些領域中一個幻覺出來的答案是危險的。GenAI 可以起草,但必須由有執照的人類或確定性系統驗證。

長篇生成的一致性

模型在長篇輸出中會發生漂移。一份一萬個 Token 的報告可能在第八千個 Token 時自相矛盾。緩解方式:分塊生成,並在各塊之間加入驗證步驟。

理解真正全新的資訊

如果一個概念從未在訓練資料中出現,且沒有提供 context,模型無法憑空創造出連貫的理解。RAG 只有在檢索到的 context 完整時才能解決這個問題。

AIF-C01 情境題常常描述一個表面上大喊「使用 Amazon Bedrock」的任務。仔細閱讀題幹中的排除詞:「必須精確到分」、「必須引用現行法規」、「安全攸關」、「需要法規確定性」、「零幻覺容忍度」。這些詞中的任何一個,都會把正確答案從純 GenAI 轉向:確定性規則、RAG + Grounding + 人工審核的組合,或使用 Amazon SageMaker 的傳統 ML 方法。 Source ↗

幻覺(Hallucination)— GenAI 的旗艦限制

幻覺是指 FM 生成出自信但事實上錯誤或無任何來源支持的輸出。AIF-C01 測試幻覺的頻率高於任何其他 GenAI 失效模式。

幻覺的成因

FM 優化的目標是:在給定前面 Token 和預訓練分佈的情況下,產出最合理的下一個 Token。它們並不是在優化「說真話」。四個根本原因:

  1. 知識截止日 — 事實不在訓練資料中。
  2. 知識缺口 — 事實雖然在訓練資料中,但因出現次數不足,模型無法可靠地提取。
  3. Prompt 模糊性 — 問題太模糊,模型猜了一個特定解讀。
  4. 取樣隨機性 — 非零的 temperature 注入變異,導致每次執行都可能產生不同的錯誤答案。

幻覺是指 GenAI 輸出的內容在語法上流暢、以自信的語氣呈現,但事實上是錯誤的、沒有引用來源支持的,或是憑空捏造的。這個詞涵蓋了虛假事實(模型說出錯誤的日期)和虛假引用(模型捏造一個不存在的 URL 或法律案例)。幻覺是 GenAI 的內在特性,因為 FM 優化的是「合理性」,而不是「真實性」。 Source ↗

幻覺的緩解措施

AIF-C01 要求你熟練掌握五種緩解技術。把名稱和一行描述背起來。

Retrieval-Augmented Generation(RAG,檢索增強生成)

RAG 將模型「接地」到已檢索的來源文件中。在呼叫 FM 之前,應用程式先將使用者查詢向量化,搜尋向量資料庫(Amazon OpenSearch Service k-NN、Amazon Aurora PostgreSQL pgvector,或 Amazon Bedrock Knowledge Base),再將排名最高的文字塊注入 prompt 中。模型接著從檢索的 context 回答,而不是從記憶中回答。RAG 是 AIF-C01 上最常被引用的 GenAI 幻覺緩解措施。

Grounding 與 Grounding 檢查

Grounding(接地)是一個更廣泛的概念:任何將模型錨定到權威資料的技術。Amazon Bedrock Guardrails 包含一個情境式接地檢查(contextual grounding check),能比較模型的回應和提供的來源,並標記無支撐的聲明。Grounding 檢查能捕捉到 RAG 檢索漏掉的幻覺。

結構化輸出與 JSON Schema 限制

強制模型輸出固定 schema 的 JSON,能限制幻覺,因為允許的輸出空間很窄。Amazon Bedrock 結構化輸出模式(response format 限制)和工具使用 schema 都能做到這一點。一個幻覺出來的 JSON 鍵比一個幻覺出來的散文句子更容易被偵測和拒絕。

自我反思(Self-reflection)與自我一致性(Self-consistency)

自我反思是一種 prompt 模式,讓模型在最終確定之前,根據檢查清單審查自己的草稿輸出。自我一致性則是對模型取樣多次,選出頻率最高的答案。兩者都增加成本,但能有意義地降低推理任務的幻覺率。

Temperature=0(確定性解碼)

將 temperature 設為 0(或支援的最低值)會讓模型在每一步都選擇單一最高機率的 Token。輸出變得確定(相同 prompt 產生相同輸出),創意性降低,但忠實度提高。對於事實問答,temperature=0 是預設建議。

用 RGSST 記住五種幻覺緩解措施:RAG(檢索權威 context)、Grounding 檢查(Amazon Bedrock Guardrails 情境式接地)、Structured output(JSON schema)、Self-reflection(模型審查自己的草稿)、Temperature=0(確定性解碼)。在 AIF-C01 中,每一道幻覺緩解題都對應 RGSST 中的一個或多個技術。情境提到「真實來源文件」或「引用」,答案是 RAG;提到「根據來源驗證回應」,答案是 Grounding 檢查;提到「強制輸出精確 JSON」,答案是結構化輸出;提到「可重現性」,答案是 temperature=0。 Source ↗

幻覺 vs. 偏見 — 不同的失效模式

幻覺是事實性失效。偏見是公平性失效。一個模型可以在沒有偏見的情況下產生幻覺(錯誤但一視同仁),也可以在沒有幻覺的情況下存在偏見(系統性偏斜但可檢索)。AIF-C01 有時會在同一道題幹中對比兩者——仔細閱讀。

GenAI 輸出中的偏見(Bias)

GenAI 中的偏見是指模型輸出中任何與受保護屬性(性別、種族、年齡、國籍)或人口統計子群體相關的系統性偏斜。GenAI 的偏見有三個值得為 AIF-C01 了解的根本原因。

訓練資料偏見

FM 從網際網路規模的語料庫學習。這些語料庫過度代表英文、西方文化參考、男性撰寫的程式碼,以及歷史性刻板印象。模型會吸收並放大語料庫所編碼的一切。這是 GenAI 偏見的主要來源。

演算法偏見

最佳化目標(下一個 Token 預測)不包含公平性。架構選擇和損失函數可能會無意中偏好多數模式而非少數模式。

部署偏見

即使是公平的模型,在部署中如果面向使用者的 prompt 或下游業務規則重新引入偏斜,也會變得有偏見(例如,一個在招募 prompt 中提及「文化契合度」的系統,會重新發現人口統計模式)。

AWS 上的偏見緩解措施

  • Amazon SageMaker Clarify for Foundation Models — 針對 Amazon Bedrock 模型和自訂模型執行自動化偏見評估工作。
  • Amazon Bedrock Guardrails — 過濾仇恨、侮辱、性、暴力和不當行為類別,是對抗偏見驅動毒性輸出的防線。
  • 人工審核迴圈(Amazon A2I) — 將低信心或敏感的輸出路由給人工審核者。
  • Prompt Engineering — 在系統 prompt 中加入明確的公平性指示能減少輸出中的偏見,但無法完全消除。

在數十億個訓練樣本中,單一有偏見的訓練資料幾乎不可見。但當一個 FM 在生產環境中每天生成數百萬個輸出時,即使是微小的偏見也會成為系統性歧視,影響真實的使用者。在 AIF-C01 中,任何涉及招募、貸款、保險定價、醫療分流或刑事司法決策的情境,都必須將 GenAI 偏見視為第一級風險,而非事後補救。正確答案必須包含偏見評估(Amazon SageMaker Clarify)加上人工審核,以及記錄在案的限制說明(AWS AI Service Cards 或 Amazon SageMaker Model Cards)。 Source ↗

成本驅動因素 — 參數量 × Token 數 × 吞吐量

GenAI 的成本一旦你了解三個乘數,就能預測了。AIF-C01 會測試你估算選項之間相對成本的能力。

參數量

較大的模型(70B、175B、400B 參數)每個 Token 的成本高於較小的模型(7B、13B)。Amazon Bedrock 上 Anthropic Claude Opus 和 Claude Haiku 的價格差距,依基準測試大約是 10 到 60 倍。永遠選擇能滿足品質要求的最小模型。

Token 用量

成本與輸入 Token 加輸出 Token 呈線性關係。輸入 Token 包含系統 prompt、使用者訊息、少量範例和 RAG context。輸出 Token 是模型寫回來的內容。Amazon Bedrock 將輸入和輸出分開計費,輸出的定價通常更高。

吞吐量模式

  • On-demand(隨需應變) — 按 Token 付費,無承諾。適用於不可預測或低用量的工作負載。
  • Provisioned Throughput(預置吞吐量) — 為一段時間承諾(1 個月或 6 個月)保留模型單位。每 Token 價格較低,但有最低承諾量。適用於持續高吞吐量的生產環境。
  • 批次推論(Batch inference) — Amazon Bedrock 批次 API 提供折扣定價(通常比隨需應變便宜 50%),適用於能承受數小時延遲的工作。適用於隔夜摘要、後台文件處理或資料集標注。

額外的成本調節桿

  • Context Window 大小 — 更大的 context window(Claude 3 最高 200K Token)成本更高,且延遲成非線性成長。
  • Fine-tuning 成本 — 獨立的訓練運算成本,加上 fine-tuned 模型持續的 Provisioned Throughput 費用。
  • RAG 成本 — 嵌入模型的呼叫費用加上向量資料庫的儲存和查詢成本。通常是最大的隱藏費用項目。
  • Guardrails 成本 — Amazon Bedrock Guardrails 按每次政策評估計費。

在 AIF-C01 情境中進行粗略成本估算,使用以下公式:(參數相對成本乘數)× (輸入 Token + 輸出 Token)× (吞吐量模式折扣)。Anthropic Claude Haiku 大約是 1 倍基準。Claude Sonnet 大約是 Haiku 的 10 到 15 倍。Claude Opus 大約是 Haiku 的 60 倍。批次模式打對折。Provisioned Throughput 在約 80% 使用率時達到損益平衡點。先選擇能滿足品質的最小模型,再用 prompt engineering 和 RAG 塊剪枝優化 Token 數。 Source ↗

延遲(Latency)— 串流 vs. 批次

GenAI 的延遲行為與傳統 ML 推論不同。AIF-C01 上有兩個數字很重要。

首 Token 延遲(Time-to-first-token,TTFT)

從 API 呼叫到第一個輸出 Token 送達的延遲。典型範圍 200 ms 到 2 秒,取決於模型大小、prompt 長度和 AWS 區域。TTFT 主導了對話式 UI 中的感知延遲,因為使用者會盯著第一個 Token 出現。

每秒 Token 輸出率(Tokens-per-second,TPS)

第一個 Token 之後,模型以大約每秒 30 到 80 個 Token 的速率串流輸出(中型模型),以及每秒 10 到 30 個 Token(最大型模型)。一個 500 Token 的答案以每秒 50 個 Token 的速率需要 10 秒完成。

串流模式(Streaming)

Amazon Bedrock InvokeModelWithResponseStream 在 Token 生成時立即回傳。使用者可以漸進式看到輸出。端到端總時間與非串流相同,但感知延遲大幅降低。用於所有聊天 UI。

批次模式(Batch)

Amazon Bedrock 批次推論接受一個工作檔案,非同步處理(數分鐘到數小時),並將結果寫入 Amazon S3。每筆請求的總延遲高得多,但吞吐量成本低 50%。用於離線工作負載。

延遲降低技術

  • 更小的模型 — 參數量越小,生成速度越快。
  • 更短的 Prompt — TTFT 與輸入 Token 數成正比。
  • Prompt caching(Prompt 快取) — Amazon Bedrock prompt caching 重複使用已快取的前綴處理結果。
  • 跨區域推論(Cross-Region inference) — Amazon Bedrock 跨區域推論能路由到負載最低的 AWS 區域,以平滑峰值。

GenAI 中的智慧財產權(Intellectual Property)

智慧財產權是 AIF-C01 上的隱藏考點。有兩個角度會出現。

訓練資料來源(Training data provenance)

FM 是在包含受著作權保護的文字、程式碼和圖像的語料庫上訓練的。如果模型輸出緊密地重現了訓練段落,可能會引發著作權主張。Amazon Bedrock 透過供應商賠償(針對支援的供應商和符合條件的用途)以及使用 AWS 控制的資料訓練的 Amazon Titan 家族來緩解這個問題。客戶仍然負責在公開使用前審查輸出。

輸出授權(Output licensing)

FM 的輸出通常根據模型供應商的條款分配給客戶,但條款各異。AIF-C01 的關鍵事實:

  • Amazon Titan — 客戶擁有輸出;AWS 使用具有使用權的資料進行訓練。
  • Bedrock 上的第三方模型 — 每個供應商(Anthropic、Meta、Mistral、Cohere、AI21、Stability)有自己的授權;Amazon Bedrock 直接透過。
  • 客戶資料 — 發送到 Amazon Bedrock 的 prompt 和 completion 不會用於訓練基礎模型。這是合規等級的承諾。

客戶義務

客戶仍然必須:

  • 避免在沒有適當控制的情況下輸入受監管資料(PHI、PCI、PII)(需要 HIPAA BAA、加密、VPC endpoints)。
  • 在發布前審查 GenAI 輸出,特別是程式碼(授權相容性)和行銷文字(抄襲檢查)。
  • 在內部 AI 治理計劃中記錄 GenAI 使用情況(與 NIST AI RMF 和 ISO/IEC 42001 對齊)。

在 Amazon Bedrock 上,客戶的輸入(prompt)和輸出(completion)不會用於訓練或改進基礎 FM。資料在傳輸中加密(TLS)、在靜態加密(AWS KMS),留在客戶的 AWS 區域,並可使用 VPC endpoints 進行隔離。這讓 Amazon Bedrock 有別於某些可能保留對話用於再訓練的消費者導向 GenAI 產品。在 AIF-C01 中,請記住:「Amazon Bedrock 會用我的資料訓練模型嗎?」——答案是不會。 Source ↗

GenAI 的 AWS 基礎設施

Task 2.3 要求你識別哪些 AWS 技術能建構 GenAI 應用程式。這個技術棧分為四層。

第一層 — 自訂晶片

  • AWS Trainium(Trn1、Trn2 執行個體)— 專為訓練設計的晶片。在 FM 預訓練和大規模 fine-tuning 中,每訓練 FLOP 成本最低。Amazon SageMaker HyperPod 使用 Trainium 進行多節點分散式訓練。
  • AWS Inferentia(Inf1、Inf2 執行個體)— 專為推論設計的晶片。在穩定狀態的生產服務中,每推論 Token 成本最低。

第二層 — 通用 GPU

  • Amazon EC2 P5 / P5e(NVIDIA H100)— 最大規模的訓練、FM 預訓練。最高性能,最高成本。
  • Amazon EC2 P4d(NVIDIA A100)— 上一代訓練。
  • Amazon EC2 G5 / G6(NVIDIA A10G / L4)— 中型模型和 fine-tuning 的高性價比推論。

第三層 — 受管平台

  • Amazon SageMaker — 建構、訓練和部署自訂模型(包括透過 Amazon SageMaker JumpStart 使用的 FM)的端到端平台。
  • Amazon Bedrock — 完全受管的 FM API。Serverless。無基礎設施需要管理。對於「不需要管理基礎設施就能建構 GenAI 應用程式」,這是 AIF-C01 的預設答案。

第四層 — 應用服務

  • Amazon Q Business — 在 Amazon Bedrock 之上預建的企業助理,連接 SharePoint、Salesforce、ServiceNow、Amazon S3。
  • Amazon Q Developer — IDE 和主控台程式碼撰寫助理。
  • Amazon Q in QuickSight — 自然語言 BI。
  • Amazon Q in Connect — 即時客服中心代理輔助。

AWS Trainium 用於訓練(Training,名字裡就有)。AWS Inferentia 用於推論(Inference,名字裡就有)。兩者都是 AWS 自研晶片,對其目標工作負載的每次操作成本低於同等的 NVIDIA GPU。當你需要 CUDA 特定函式庫,或某個模型尚未移植到 Trainium 或 Inferentia 時,使用 NVIDIA GPU 執行個體(P5、G5、G6)。在 AIF-C01 中,情境提到「最低訓練成本」對應 Trainium;「最低推論成本」對應 Inferentia;「最高峰值訓練性能」對應 Amazon EC2 P5。 Source ↗

Amazon Bedrock 和 Amazon SageMaker 都出現在 GenAI 情境中。AIF-C01 的決策規則:如果情境說「透過 API 存取預訓練的 FM,無需管理基礎設施」,選 Amazon Bedrock。如果說「建構、訓練、部署自訂模型」或「使用 Jupyter Notebook 和訓練工作進行完全控制的 fine-tuning」,選 Amazon SageMaker。Amazon SageMaker JumpStart 架起了兩者之間的橋樑,在 SageMaker 環境中提供預訓練 FM——適用於需要深度 fine-tuning 控制的情況。AIF-C01 最大的陷阱是在 Bedrock 更簡單的情況下選了 SageMaker。 Source ↗

何時不應使用 GenAI

在 GenAI 能力與限制主題中,AIF-C01 最有價值的技能是識別「GenAI 是錯誤選擇」的情境。這些情境在每場考試中都會重複出現。

不應使用 GenAI 的情境

  1. 安全攸關的決策 — 醫療診斷確認、航空控制邏輯、自動駕駛車輛執行、工業安全聯鎖。使用具有正式驗證的認證確定性系統。
  2. 需要精確性的受監管財務計算 — 精確到分的稅務計算、利息計提、法規報告總計。使用確定性計算引擎;最多讓 GenAI 事後起草報告散文。
  3. 必須引用的法律合規答案 — 特定法條引用、特定案例編號、特定法規段落。沒有 RAG + Grounding 檢查 + 人工律師審核,風險太高。
  4. 即時精確資料 — 當前股價、當前庫存數量、當前預訂可用性。使用權威的資料記錄系統;如有需要,將其包裝成 Agent 的工具。
  5. 規則更便宜的低用量任務 — 如果 50 行正則表達式或 20 行 SQL 查詢就能解決問題,GenAI 是過度設計。
  6. 需要訓練分佈之外真正新穎性的任務 — 發明全新的數學定理、發現新的物理原理。FM 是在重新組合,不是從頭發明。
  7. 沒有適當控制的高度敏感資料 — 機密資訊、未脫敏的 PHI、支付卡號碼。即使在 Amazon Bedrock 上(不會用客戶資料訓練),合規態勢也必須刻意設計,包含 VPC endpoints、Amazon Macie 掃描和 Amazon Bedrock Guardrails PII 過濾器。

應使用 GenAI 的情境

  1. 長篇內容的摘要整理。
  2. 主要語言之間的翻譯。
  3. 草稿潤稿。
  4. 程式碼補全與程式碼審查輔助。
  5. 搭配 RAG Grounding 的開放式問答。
  6. 創意發想與腦力激盪。
  7. 從非結構化文字提取結構化資訊(附驗證)。
  8. 有界知識庫上的對話式介面。

如果 AIF-C01 情境題幹包含以下短語:「法規要求」、「可稽核」、「需要確定性輸出」、「精確的數值結果」、「不能容忍變異」或「必須能以法律確定性重現」,GenAI 很少是完整答案。正確選擇是確定性規則引擎、Amazon SageMaker 上的傳統 ML,或是受到 RAG + Grounding + temperature=0 + 人工審核嚴格約束的 GenAI。當題幹發出法規確定性訊號時,「直接使用 Amazon Bedrock」的答案是錯的。 Source ↗

負責任的 GenAI 部署 — 綜合應用

一個在 AWS 上生產就緒的 GenAI 應用程式,將能力、限制和緩解措施組合在分層架構中。

  1. 確定使用案例範圍,使用 AWS Generative AI Security Scoping Matrix——這個應用程式是消費者 SaaS 呼叫、預建模型上的企業應用、fine-tuned 模型上的企業應用、自訓練模型上的企業應用,還是你要出貨的預訓練模型?
  2. 在 Amazon Bedrock 上選擇模型,依據成本、能力、context window 和合規限制。
  3. 使用 Amazon Bedrock Knowledge Bases(受管 RAG)接地模型,當事實準確性很重要時。
  4. 使用 Amazon Bedrock Guardrails 約束輸出(內容過濾器、拒絕主題、PII 遮罩、情境式接地檢查)。
  5. 設定推論參數(事實性任務用 temperature=0,創意性任務用較高 temperature;設定 max tokens 來控制成本)。
  6. 使用 Amazon CloudWatch 記錄指標並以 AWS CloudTrail 進行稽核監控
  7. 使用 Amazon Bedrock Model Evaluation 和 Amazon SageMaker Clarify for Foundation Models 持續評估
  8. 透過 Amazon A2I 將低信心案例路由給人工審核者
  9. 在 Amazon SageMaker Model Cards 和 AWS AI Service Cards 中記錄目的、限制和預期用途。

GenAI 能力與限制的常見考試陷阱

  • 幻覺 ≠ 偏見 — 幻覺是事實性失效;偏見是公平性失效。兩者都存在,兩者需要不同的緩解措施。
  • RAG ≠ Fine-tuning — RAG 在推論時增加新鮮 context;fine-tuning 用訓練資料更新模型權重。關於「每週用新產品目錄更新模型」的情境傾向 RAG,而非 fine-tuning。
  • Temperature=0 ≠ 準確 — temperature=0 是確定性的,不是正確的。確定性的錯誤答案仍然是錯的。搭配 RAG 實現事實準確性。
  • Trainium vs Inferentia — Trainium 用於訓練,Inferentia 用於推論。不要搞混。
  • Amazon Bedrock ≠ Amazon SageMaker — Bedrock 是 FM 即 API;SageMaker 是自訂模型生命週期。兩者都能跑 FM,但操作模式不同。
  • GenAI ≠ 永遠優於傳統 ML — 對於表格資料上的結構化預測,Amazon SageMaker 上的傳統 ML 在成本和準確性上通常優於 GenAI。
  • Guardrails ≠ IAM — Amazon Bedrock Guardrails 是內容安全;IAM 是存取控制。兩者都需要。
  • 幻覺不只是「錯誤」 — 它特指自信的、流暢的、無支撐的輸出。拒絕回答(「我不知道」)不是幻覺。
  • Bedrock 上的客戶資料不會用於訓練基礎模型 — 常見的合規題。
  • 「開源」FM ≠ 免費運行 — 你仍然要付基礎設施成本。

FAQ — GenAI 能力與限制熱門問題

1. 緩解 GenAI 幻覺最重要的單一措施是什麼?

Retrieval-Augmented Generation(RAG)是生產 GenAI 中影響最大的幻覺緩解措施。RAG 將 FM 的輸出接地到已檢索的來源文件,讓模型從提供的 context 回答,而非從預訓練記憶回答。在 AWS 上,Amazon Bedrock Knowledge Bases 提供完全受管的 RAG 管線(從 Amazon S3 或其他連接器擷取文件、嵌入並索引到向量存儲、在查詢時檢索最佳塊)。搭配 Amazon Bedrock Guardrails 情境式接地檢查,作為額外的驗證層,標記任何未被檢索 context 支持的模型聲明。在 AIF-C01 中,任何關於「在使用最新內部文件的同時減少幻覺」的情境,核心答案都是 RAG。

2. 「temperature=0」實際上做什麼?我應該何時使用它?

Temperature 控制生成過程中 Token 選擇的隨機性。在 temperature=0(或支援的最低值)時,模型每一步都選擇單一最高機率的下一個 Token,產生確定性輸出——相同的 prompt 每次都得到相同的回應。對於事實問答、結構化提取、從規格生成程式碼,以及任何需要可重現性或法規可稽核性的情境,請使用 temperature=0。對於創意發想、行銷文案和腦力激盪(多樣性有其價值),使用較高的 temperature(0.7 到 1.0)。temperature=0 降低幻覺的變異(重新執行不會得到不同的錯誤答案),但本身不會降低幻覺率——確定性的答案仍然可能是錯的。搭配 RAG 來實現事實正確性。

3. Amazon Bedrock 上 GenAI 應用程式的三大成本驅動因素是什麼?

三個成本驅動因素,依影響程度粗略排序:(1)依參數量選擇模型 — Anthropic Claude Opus 每 Token 的成本可能比 Claude Haiku 高 60 倍;永遠選擇能滿足品質要求的最小模型。(2)Token 用量 — 輸入 Token(系統 prompt 加使用者訊息加 RAG context 加少量範例)乘以輸出 Token。RAG context 通常遠超使用者輸入。(3)吞吐量模式 — on-demand 最靈活但最貴;Provisioned Throughput 在持續高使用率時更便宜;批次推論對非同步工作負載提供約 50% 的折扣。次要驅動因素包含 context window 大小、fine-tuning 訓練運算、RAG 的向量資料庫成本,以及 Amazon Bedrock Guardrails 每次評估費用。

4. 什麼時候完全不應使用 GenAI?

以下情境不要使用 GenAI:安全攸關的決策(醫療劑量、航空控制、工業安全);需要法規數值精確性的計算(稅務、財務報告);需要可驗證法律引用但沒有人工律師審核的答案;即時精確資料查詢(當前股價、即時庫存);簡單的規則或 SQL 查詢就能解決的任務;以及沒有適當控制的高度敏感資料(VPC endpoints、Amazon Macie 掃描、Amazon Bedrock Guardrails PII 過濾器)。在 AIF-C01 中,情境帶有「法規確定性」、「精確數值結果」、「精確到分的稽核」或「攸關生命安全」等詞,就排除了純 GenAI 答案,轉向確定性系統、Amazon SageMaker 上的傳統 ML,或嚴格鷹架化的 GenAI(RAG + Grounding + 人工審核)。

5. AWS Trainium 和 AWS Inferentia 有什麼差別?

AWS Trainium 是 AWS 自研晶片,專為機器學習訓練工作負載設計,在 Amazon EC2 Trn1 和 Trn2 執行個體上提供。它針對 FM 預訓練和大規模 fine-tuning 進行最佳化,每訓練 FLOP 成本低於同等的 NVIDIA GPU。AWS Inferentia 是 AWS 自研晶片,專為機器學習推論工作負載設計,在 Amazon EC2 Inf1 和 Inf2 執行個體上提供。它針對以低於同等 GPU 的每 Token 成本提供預測進行最佳化。記憶口訣:Trainium 含有「Train(訓練)」,Inferentia 含有「Infer(推論)」。對於峰值訓練性能,或使用 CUDA 特定函式庫時,使用基於 NVIDIA 的 Amazon EC2 P5(H100)或 P4d(A100)執行個體。對於中型模型的高性價比推論,使用 Amazon EC2 G5 或 G6(NVIDIA A10G / L4)。

6. Amazon Bedrock 如何保護客戶的智慧財產權和資料隱私?

Amazon Bedrock 適用四項隱私承諾。第一,客戶的 prompt 和 completion 不會用於訓練基礎 FM——這是合約承諾,不是盡力保證。第二,資料在傳輸中以 TLS 加密、在靜態以 AWS 自管或客戶自管 AWS KMS 金鑰加密。第三,資料留在客戶選擇的 AWS 區域(區域資料駐留)。第四,VPC endpoints(AWS PrivateLink)允許私有連線,讓 Bedrock 流量永遠不經過公共網際網路。對於受監管行業,Amazon Bedrock 支援 HIPAA 合規工作負載,並在 AWS Artifact 中提供合規認證。客戶仍然負責審查輸出的 IP 和授權相容性,特別是生成的程式碼(可能需要授權審查)和生成的行銷文字(應檢查是否與訓練資料有無意的相似性)。

7. 在 GenAI 使用案例中,什麼時候應該選擇 Amazon Bedrock 而非 Amazon SageMaker?

當你想要 API 存取預訓練 FM 且不需要管理基礎設施、對供應商提供的模型(Anthropic Claude、Meta Llama、Mistral、Amazon Titan、Cohere、AI21、Stability AI)感到滿意,且你的客製化需求可以透過 prompt engineering、Amazon Bedrock Knowledge Bases 的 RAG 或受管 fine-tuning 來滿足時,選擇 Amazon Bedrock。當你需要從頭訓練自訂模型、執行完全控制的深度 fine-tuning(自訂訓練迴圈、在 AWS Trainium 或 NVIDIA GPU 叢集上分散式訓練)、在客戶自管 VPC 中部署具有特定網路的模型,或在單一 MLOps 管線中同時執行傳統 ML 和 FM 時,選擇 Amazon SageMaker。Amazon SageMaker JumpStart 是橋樑:它在 SageMaker 環境中公開預訓練 FM,適合想要受管模型選擇加上深度訓練控制的團隊。對於大多數 AIF-C01「快速建構 GenAI 應用程式」的情境,答案是 Amazon Bedrock。

延伸閱讀

摘要

GenAI 的能力與限制是 AIF-C01 Domain 2 的決策骨幹。能力集中在八個可重複套用的模式(摘要整理、翻譯、草稿潤稿、程式碼補全、開放式問答、創意發想、結構化提取、對話式介面)。限制集中在七個失效模式(確定性數學、知識截止日、即時資料、複雜邏輯、受監管領域精確性、長篇生成漂移、真正的新穎性)。幻覺是旗艦限制,透過 RGSST 技術棧(RAG、Grounding 檢查、結構化輸出、自我反思、temperature=0)緩解。偏見是獨立的公平性失效模式,透過 Amazon SageMaker Clarify 評估、Amazon Bedrock Guardrails 內容過濾器和 Amazon A2I 人工審核來緩解。成本等於參數量 × Token 數 × 吞吐量模式,Provisioned Throughput 和批次推論是主要的成本調節桿。延遲分為首 Token 延遲和每秒 Token 輸出率,聊天 UI 用串流模式,離線用批次。智慧財產權考量以 Amazon Bedrock 的「不用客戶資料訓練」承諾和各供應商的輸出授權為核心。AWS 基礎設施涵蓋 AWS Trainium(訓練)、AWS Inferentia(推論)、Amazon EC2 P5/G5(GPU)、Amazon SageMaker(自訂 ML)和 Amazon Bedrock(受管 FM API)。考試中最有價值的 GenAI 技能,是辨識「何時不應使用 GenAI」——安全攸關、法規確定性、精確計算和即時資料情境,會將正確答案從純 GenAI 推向確定性系統,或嚴格鷹架化的 GenAI(RAG + Grounding + 人工審核)。掌握能力清單、限制清單和緩解技術棧,GenAI 能力與限制的題目就會成為 AIF-C01 上最容易拿分的部分。

官方資料來源

更多 AIF-C01 主題