生成式 AI(GenAI,Generative AI 的縮寫,泛指能夠產出文字、程式碼、圖像等全新內容的人工智慧系統)的能力與限制,是 AIF-C01 考試中 Task 2.2(搭配 Task 2.3 的基礎設施部分)最關鍵的考點之一。這個主題決定了應試者能否做出真實世界中的 GenAI 部署決策,而不只是背誦定義。AWS Certified AI Practitioner(AIF-C01)考試要求你清楚辨識 GenAI 擅長的任務(摘要整理、語言翻譯、草稿潤稿、程式碼補全、開放式問答、創意發想)、GenAI 做不好的任務(確定性數學運算、可驗證引用的事實、即時資料存取、無鷹架的複雜多步推理),以及如何緩解 GenAI 的失效模式,例如幻覺(Hallucination)與偏見(Bias)。Domain 2 約有 15 到 20 % 的題目涉及 GenAI 的能力與限制,換算下來每場考試約有 3 到 4 題,而且這些題目是整份藍圖中情境描述最豐富、最複雜的題型。
本學習指南涵蓋 AIF-C01 中 GenAI 能力與限制主題的每一個子技能:能力清單、失效模式清單、幻覺的成因與緩解方式(Retrieval-Augmented Generation、Grounding、結構化輸出、自我反思、temperature=0)、GenAI 輸出中的偏見、成本驅動因素(參數量 × Token 用量 × 吞吐量模式)、串流與批次的延遲差異、智慧財產權考量(訓練資料來源與輸出授權),以及支撐 GenAI 的 AWS 基礎設施(AWS Trainium、AWS Inferentia、Amazon EC2 P5/G5、Amazon Bedrock),還有「何時完全不應使用 GenAI」的決策準則。三個白話文類比、十個以上的 callout 提示框,以及七則 FAQ,幫助你鞏固記憶。
什麼是 GenAI 的能力與限制?
GenAI 的能力與限制描繪了基礎模型(FM,Foundation Model 的縮寫,指經過大規模預訓練、能執行多種任務的大型 AI 模型)在生產應用中能做到與做不到的雙面地圖。能力是指 FM 在可接受成本下能穩定超越規則導向基準的任務——摘要整理、語言翻譯、草稿潤稿、程式碼補全、開放式問答、創意發想,以及從非結構化文字中提取結構化資訊。限制是指 FM 在無聲、自信或高昂代價下失敗的任務——確定性算術、訓練截止日之後的可驗證引用事實、無工具的即時資料存取、無明確鷹架的複雜多步邏輯,以及任何「答錯了代價無法承受」的決策。
在 AIF-C01 中,「GenAI 能力與限制」是 Task 2.2(「理解 GenAI 解決商業問題的能力與限制」)和 Task 2.3(「描述建構 GenAI 應用程式的 AWS 基礎設施與技術」)之間的樞紐。Task 2.2 問的是:給定一個商業場景,GenAI 是正確的工具嗎?必須緩解哪些風險?Task 2.3 問的是:一旦決定使用 GenAI,哪些 AWS 服務與晶片能實現它?兩個 Task 都依賴同一個心智模型——能力 × 緩解措施 = 可部署價值;限制 − 緩解措施 = 生產風險。
為什麼 GenAI 能力與限制對 AIF-C01 如此重要
AIF-C01 藍圖將 Domain 2(生成式 AI 基礎)的比重訂為 28%——是單一領域中佔比最大的一塊。社群痛點報告顯示,那些死背 FM 瑣碎知識(參數量、分詞器、注意力機制)卻無法在商業場景中闡述 GenAI 能力與限制的應試者,往往在這 3 到 4 題上失分。更糟的是,測試 GenAI 限制的情境題是刻意設計成反直覺的:「顯而易見」的答案(對所有事情都使用 GenAI)幾乎永遠是錯的。掌握這個主題,是考試當天加分最快的方法。
白話文解釋:GenAI 的能力與限制
GenAI 的能力與限制聽起來很抽象,但三個白板類比就能把它們牢牢鎖住。每個類比從不同角度對應能力與限制之間的取捨關係。
類比一 — 珍珠奶茶店的點餐員(開放式知識 vs. 即時查詢)
把 GenAI 想像成一位在台灣連鎖珍奶店工作的資深點餐員,他把幾千種配方全背在腦子裡,卻沒辦法看到當下的存貨螢幕。
請他推薦一款口感滑順的飲品——絕對沒問題,這就是摘要與創意發想的能力,GenAI 在這裡發光。
請他把菜單翻成日文給觀光客看——同樣輕鬆搞定,這是翻譯能力。
請他報一下今天下午三點的珍珠庫存剩幾顆——他會自信地說出一個數字,但那個數字很可能是猜的。這就是幻覺(Hallucination):流暢、自信、卻與事實無關。
現在給他一台可以查詢即時庫存的平板(這就是 RAG 或工具呼叫)——他的回答立刻變得準確可靠。
請他在腦海中計算今天 3,847 杯飲品的總收入——他會猜,但給他一個 POS 機(工具使用)他就能精確算出來。
白話總結: GenAI 是模式比對的推理器,不是資料庫或計算機。能力在模式主導的地方湧現;限制在精確查詢或精確計算主導的地方出現。AIF-C01 上每一個緩解措施(RAG、Grounding、工具使用、結構化輸出、temperature=0)都是在把對的工具交到這位點餐員手上,讓他回答對的問題。
類比二 — 電商商品文案團隊(能力的規模與成本)
想像一個台灣電商平台的文案部門,要為十萬個 SKU 自動生成商品描述,FM 就是這支文案團隊。
摘要整理、翻譯、草稿潤稿就像日常的基本款商品描述——食材便宜(輸入 Token 少)、擺盤快速(輸出 Token 少)、品質穩定。小模型就能勝任。
程式碼補全、複雜問答、創意廣告發想就像雙 11 大促的旗艦頁面——需要資深文案主任(參數量更大的 FM)和更多的準備時間(更長的 context window)。品質隨模型規模提升,成本也是。
計算折扣後的最終售價、查詢即時庫存數量、引用具體法規條文是 ERP 系統、倉管系統和法務部門的工作,不是文案的工作。如果讓文案憑記憶來做,他們就會產生幻覺。
出貨速度取決於文案是一字一字即時串流給客戶看(串流 Token,感知延遲低,首字元延遲約 200 到 800 ms),還是整批寫完再一次送出(批次推論,整體吞吐量高,但每筆請求的延遲也高得多)。
成本等於參數量 × 消耗的 Token × 需要多快產出——頂級高端模型(400B 參數跑在高吞吐 GPU 上)永遠比輕量模型(7B 參數跑在 AWS Inferentia 上)貴上好幾個數量級。
考試當天,任何要你在速度、品質、成本之間取得平衡的場景,都是在問你該挑哪個「文案等級」。
類比三 — 中信銀客服 Chatbot 的風險管理(限制與保障)
GenAI 的部署就像一個銀行客服 Chatbot 的風控核保問題。中國信託銀行導入客服 Chatbot 時,必須為每一個場景盤點風險與防護措施。
每一項能力都有用 Token 支付的保費:輸入 Token(你餵進去的,包括 RAG context)加上輸出 Token(模型寫回來的)。Context 越長,保費越高。
每一個限制都有出錯時要付的自負額:一則幻覺出來的法律條文進了正式契約、一個帶有偏見的貸款審核建議、一段從訓練資料複製出來的文字引發著作權訴訟。自負額是聲譽損失、法規罰款和流失的客戶。
緩解措施就是降低「保費加自負額」總和的安全裝置:RAG 降低幻覺風險,Amazon Bedrock Guardrails 降低毒性內容和 PII 外洩風險,temperature=0 降低輸出變異,人工審核把災難性失誤的上限封住。
什麼時候完全不該投保——當自負額(生命安全、醫療、法律或受監管金融決策中答錯的代價)高到無論怎麼降低保費都無法讓風險變得可接受時。GenAI 就不適合這些場景,應改用確定性規則或人類專家。
保險框架是在考試中推理 GenAI 能力與限制時,最實用、最好備考的思考工具。
GenAI 擅長的事 — 能力清單
GenAI 的能力集中在八個可重複套用的模式。把它們背起來;AIF-C01 的情境題幾乎都會重複使用這份清單。
摘要整理(Summarization)
FM 擅長把長篇輸入濃縮成短篇輸出。摘要能力有效,是因為預訓練教會了模型哪些 Token 通常重要、哪些是填充詞。Amazon Bedrock 搭配 Anthropic Claude、Amazon Titan Text、Meta Llama 或 Mistral 都提供強大的摘要能力。應用場景:客服通話記錄摘要、法律簡報精要、財報電話會議重點、事故事後報告。能力上限:摘要是抽取-生成混合,並非事實查核。當來源忠實度有要求時,搭配 Grounding 使用。
語言翻譯(Translation)
機器翻譯是現代 FM 能以接近專業品質處理主要語言對的序列到序列能力。在 AIF-C01 中,請認識到:若只需要純翻譯,使用 Amazon Translate 往往更便宜、更簡單;而 Amazon Bedrock 翻譯在你需要語氣轉換、領域專業詞彙,或在單一 prompt 中結合翻譯與摘要時才能發揮其優勢。
草稿潤稿(Draft-to-polish editing)
GenAI 能將粗糙草稿改寫成符合目標受眾、語氣或風格的版本——新聞稿、行銷文案、開發者文件、履歷條列。這是 GenAI 在辦公室生產力領域 ROI 最高的能力,也是 Amazon Q 在生產力介面中的核心功能。
程式碼補全與解釋(Code completion and code explanation)
在公開原始碼上訓練的 FM(Amazon Q Developer、基於 GitHub 的助理)能夠生成、補全、解釋和重構程式碼。對主流語言(Python、JavaScript、Java、Go、Rust)和常見模式的能力最強。對專有領域語言和最新函式庫版本(知識截止日限制)的能力會下降。
開放式問答(Open-domain question answering)
FM 能利用預訓練知識回答廣泛問題。這是所有能力中最容易產生幻覺的,因此 AIF-C01 的情境題大量以「問答 + Grounding + RAG」的組合緩解模式出現。
創意發想(Creative ideation)
GenAI 能以任何人類創作者都無法比擬的速度,腦力激盪出標語、產品名稱、分鏡概念、故事情節變體和行銷角度。品質由下游的人類策展者判斷,而非自動化指標。
從非結構化文字提取結構化資訊(Structured extraction from unstructured text)
透過明確的 prompt engineering(JSON schema prompt、結構化輸出模式),FM 能從電子郵件、發票、合約和醫療記錄中提取實體、欄位和關係。Amazon Textract 處理 OCR 與表單;GenAI 處理剩餘的散文提取。
對話式介面(Conversational interfaces)
多輪對話是 GenAI 相對於傳統 ML 獨有的能力。Amazon Bedrock Agents 加上 Amazon Bedrock Knowledge Bases 加上 Amazon Bedrock Guardrails,可以在不用你撰寫對話邏輯的情況下,組裝出一套對話式介面。
每一道 AIF-C01 GenAI 情境題,都用白話文描述了這八個能力模式中的其中一個。如果你在題幹第一句就認出模式,就等於已經把答案範圍縮小到「使用 GenAI 搭配緩解措施 X」。摘要 + 忠實度要求 = RAG;開放式問答 + 忠實度要求 = RAG;程式碼補全 = Amazon Q Developer;創意發想 = 直接呼叫 Amazon Bedrock。把「能力對應服務」的對照表背熟。 Source ↗
GenAI 做不好的事 — 限制清單
GenAI 的限制同樣可以預測。AIF-C01 考試中一定會出現至少一道「顯而易見使用 Amazon Bedrock」其實是錯誤答案的情境題。
確定性數學與算術
FM 是下一個 Token 的預測器,不是計算機。叫模型計算一張 47 行發票的確切總金額,你會得到一個聽起來合理但往往是錯的數字。緩解方式:工具使用(讓模型發出函式呼叫給計算機或 Python 沙箱),或在 prompt 之前直接在程式碼裡做計算。在 AIF-C01 中,任何說「確保財務計算精確到分」的情境,都不是純 GenAI 的情境。
訓練截止日之後的可驗證引用事實
訓練資料有知識截止日。詢問該日期之後的事件,模型要麼拒絕回答,要麼產生幻覺。緩解方式:Retrieval-Augmented Generation 或能獲取最新資料的工具使用。
即時資料存取
FM 無法在沒有工具的情況下原生查詢資料庫、呼叫 API 或讀取今天的股價。它們需要明確的工具。Amazon Bedrock Agents 提供工具使用;沒有它,這個限制就是絕對的。
無鷹架的複雜多步邏輯
FM 能原生處理兩到三步的推理,但在五到十步的邏輯鏈上很快就會退化。緩解方式:思維鏈(Chain-of-Thought)提示、Prompt Chaining,或能分解任務的 Amazon Bedrock Agents。
受監管領域的事實精確性
醫療劑量、法律引用、稅務計算、航空安全——這些領域中一個幻覺出來的答案是危險的。GenAI 可以起草,但必須由有執照的人類或確定性系統驗證。
長篇生成的一致性
模型在長篇輸出中會發生漂移。一份一萬個 Token 的報告可能在第八千個 Token 時自相矛盾。緩解方式:分塊生成,並在各塊之間加入驗證步驟。
理解真正全新的資訊
如果一個概念從未在訓練資料中出現,且沒有提供 context,模型無法憑空創造出連貫的理解。RAG 只有在檢索到的 context 完整時才能解決這個問題。
AIF-C01 情境題常常描述一個表面上大喊「使用 Amazon Bedrock」的任務。仔細閱讀題幹中的排除詞:「必須精確到分」、「必須引用現行法規」、「安全攸關」、「需要法規確定性」、「零幻覺容忍度」。這些詞中的任何一個,都會把正確答案從純 GenAI 轉向:確定性規則、RAG + Grounding + 人工審核的組合,或使用 Amazon SageMaker 的傳統 ML 方法。 Source ↗
幻覺(Hallucination)— GenAI 的旗艦限制
幻覺是指 FM 生成出自信但事實上錯誤或無任何來源支持的輸出。AIF-C01 測試幻覺的頻率高於任何其他 GenAI 失效模式。
幻覺的成因
FM 優化的目標是:在給定前面 Token 和預訓練分佈的情況下,產出最合理的下一個 Token。它們並不是在優化「說真話」。四個根本原因:
- 知識截止日 — 事實不在訓練資料中。
- 知識缺口 — 事實雖然在訓練資料中,但因出現次數不足,模型無法可靠地提取。
- Prompt 模糊性 — 問題太模糊,模型猜了一個特定解讀。
- 取樣隨機性 — 非零的 temperature 注入變異,導致每次執行都可能產生不同的錯誤答案。
幻覺是指 GenAI 輸出的內容在語法上流暢、以自信的語氣呈現,但事實上是錯誤的、沒有引用來源支持的,或是憑空捏造的。這個詞涵蓋了虛假事實(模型說出錯誤的日期)和虛假引用(模型捏造一個不存在的 URL 或法律案例)。幻覺是 GenAI 的內在特性,因為 FM 優化的是「合理性」,而不是「真實性」。 Source ↗
幻覺的緩解措施
AIF-C01 要求你熟練掌握五種緩解技術。把名稱和一行描述背起來。
Retrieval-Augmented Generation(RAG,檢索增強生成)
RAG 將模型「接地」到已檢索的來源文件中。在呼叫 FM 之前,應用程式先將使用者查詢向量化,搜尋向量資料庫(Amazon OpenSearch Service k-NN、Amazon Aurora PostgreSQL pgvector,或 Amazon Bedrock Knowledge Base),再將排名最高的文字塊注入 prompt 中。模型接著從檢索的 context 回答,而不是從記憶中回答。RAG 是 AIF-C01 上最常被引用的 GenAI 幻覺緩解措施。
Grounding 與 Grounding 檢查
Grounding(接地)是一個更廣泛的概念:任何將模型錨定到權威資料的技術。Amazon Bedrock Guardrails 包含一個情境式接地檢查(contextual grounding check),能比較模型的回應和提供的來源,並標記無支撐的聲明。Grounding 檢查能捕捉到 RAG 檢索漏掉的幻覺。
結構化輸出與 JSON Schema 限制
強制模型輸出固定 schema 的 JSON,能限制幻覺,因為允許的輸出空間很窄。Amazon Bedrock 結構化輸出模式(response format 限制)和工具使用 schema 都能做到這一點。一個幻覺出來的 JSON 鍵比一個幻覺出來的散文句子更容易被偵測和拒絕。
自我反思(Self-reflection)與自我一致性(Self-consistency)
自我反思是一種 prompt 模式,讓模型在最終確定之前,根據檢查清單審查自己的草稿輸出。自我一致性則是對模型取樣多次,選出頻率最高的答案。兩者都增加成本,但能有意義地降低推理任務的幻覺率。
Temperature=0(確定性解碼)
將 temperature 設為 0(或支援的最低值)會讓模型在每一步都選擇單一最高機率的 Token。輸出變得確定(相同 prompt 產生相同輸出),創意性降低,但忠實度提高。對於事實問答,temperature=0 是預設建議。
用 RGSST 記住五種幻覺緩解措施:RAG(檢索權威 context)、Grounding 檢查(Amazon Bedrock Guardrails 情境式接地)、Structured output(JSON schema)、Self-reflection(模型審查自己的草稿)、Temperature=0(確定性解碼)。在 AIF-C01 中,每一道幻覺緩解題都對應 RGSST 中的一個或多個技術。情境提到「真實來源文件」或「引用」,答案是 RAG;提到「根據來源驗證回應」,答案是 Grounding 檢查;提到「強制輸出精確 JSON」,答案是結構化輸出;提到「可重現性」,答案是 temperature=0。 Source ↗
幻覺 vs. 偏見 — 不同的失效模式
幻覺是事實性失效。偏見是公平性失效。一個模型可以在沒有偏見的情況下產生幻覺(錯誤但一視同仁),也可以在沒有幻覺的情況下存在偏見(系統性偏斜但可檢索)。AIF-C01 有時會在同一道題幹中對比兩者——仔細閱讀。
GenAI 輸出中的偏見(Bias)
GenAI 中的偏見是指模型輸出中任何與受保護屬性(性別、種族、年齡、國籍)或人口統計子群體相關的系統性偏斜。GenAI 的偏見有三個值得為 AIF-C01 了解的根本原因。
訓練資料偏見
FM 從網際網路規模的語料庫學習。這些語料庫過度代表英文、西方文化參考、男性撰寫的程式碼,以及歷史性刻板印象。模型會吸收並放大語料庫所編碼的一切。這是 GenAI 偏見的主要來源。
演算法偏見
最佳化目標(下一個 Token 預測)不包含公平性。架構選擇和損失函數可能會無意中偏好多數模式而非少數模式。
部署偏見
即使是公平的模型,在部署中如果面向使用者的 prompt 或下游業務規則重新引入偏斜,也會變得有偏見(例如,一個在招募 prompt 中提及「文化契合度」的系統,會重新發現人口統計模式)。
AWS 上的偏見緩解措施
- Amazon SageMaker Clarify for Foundation Models — 針對 Amazon Bedrock 模型和自訂模型執行自動化偏見評估工作。
- Amazon Bedrock Guardrails — 過濾仇恨、侮辱、性、暴力和不當行為類別,是對抗偏見驅動毒性輸出的防線。
- 人工審核迴圈(Amazon A2I) — 將低信心或敏感的輸出路由給人工審核者。
- Prompt Engineering — 在系統 prompt 中加入明確的公平性指示能減少輸出中的偏見,但無法完全消除。
在數十億個訓練樣本中,單一有偏見的訓練資料幾乎不可見。但當一個 FM 在生產環境中每天生成數百萬個輸出時,即使是微小的偏見也會成為系統性歧視,影響真實的使用者。在 AIF-C01 中,任何涉及招募、貸款、保險定價、醫療分流或刑事司法決策的情境,都必須將 GenAI 偏見視為第一級風險,而非事後補救。正確答案必須包含偏見評估(Amazon SageMaker Clarify)加上人工審核,以及記錄在案的限制說明(AWS AI Service Cards 或 Amazon SageMaker Model Cards)。 Source ↗
成本驅動因素 — 參數量 × Token 數 × 吞吐量
GenAI 的成本一旦你了解三個乘數,就能預測了。AIF-C01 會測試你估算選項之間相對成本的能力。
參數量
較大的模型(70B、175B、400B 參數)每個 Token 的成本高於較小的模型(7B、13B)。Amazon Bedrock 上 Anthropic Claude Opus 和 Claude Haiku 的價格差距,依基準測試大約是 10 到 60 倍。永遠選擇能滿足品質要求的最小模型。
Token 用量
成本與輸入 Token 加輸出 Token 呈線性關係。輸入 Token 包含系統 prompt、使用者訊息、少量範例和 RAG context。輸出 Token 是模型寫回來的內容。Amazon Bedrock 將輸入和輸出分開計費,輸出的定價通常更高。
吞吐量模式
- On-demand(隨需應變) — 按 Token 付費,無承諾。適用於不可預測或低用量的工作負載。
- Provisioned Throughput(預置吞吐量) — 為一段時間承諾(1 個月或 6 個月)保留模型單位。每 Token 價格較低,但有最低承諾量。適用於持續高吞吐量的生產環境。
- 批次推論(Batch inference) — Amazon Bedrock 批次 API 提供折扣定價(通常比隨需應變便宜 50%),適用於能承受數小時延遲的工作。適用於隔夜摘要、後台文件處理或資料集標注。
額外的成本調節桿
- Context Window 大小 — 更大的 context window(Claude 3 最高 200K Token)成本更高,且延遲成非線性成長。
- Fine-tuning 成本 — 獨立的訓練運算成本,加上 fine-tuned 模型持續的 Provisioned Throughput 費用。
- RAG 成本 — 嵌入模型的呼叫費用加上向量資料庫的儲存和查詢成本。通常是最大的隱藏費用項目。
- Guardrails 成本 — Amazon Bedrock Guardrails 按每次政策評估計費。
在 AIF-C01 情境中進行粗略成本估算,使用以下公式:(參數相對成本乘數)× (輸入 Token + 輸出 Token)× (吞吐量模式折扣)。Anthropic Claude Haiku 大約是 1 倍基準。Claude Sonnet 大約是 Haiku 的 10 到 15 倍。Claude Opus 大約是 Haiku 的 60 倍。批次模式打對折。Provisioned Throughput 在約 80% 使用率時達到損益平衡點。先選擇能滿足品質的最小模型,再用 prompt engineering 和 RAG 塊剪枝優化 Token 數。 Source ↗
延遲(Latency)— 串流 vs. 批次
GenAI 的延遲行為與傳統 ML 推論不同。AIF-C01 上有兩個數字很重要。
首 Token 延遲(Time-to-first-token,TTFT)
從 API 呼叫到第一個輸出 Token 送達的延遲。典型範圍 200 ms 到 2 秒,取決於模型大小、prompt 長度和 AWS 區域。TTFT 主導了對話式 UI 中的感知延遲,因為使用者會盯著第一個 Token 出現。
每秒 Token 輸出率(Tokens-per-second,TPS)
第一個 Token 之後,模型以大約每秒 30 到 80 個 Token 的速率串流輸出(中型模型),以及每秒 10 到 30 個 Token(最大型模型)。一個 500 Token 的答案以每秒 50 個 Token 的速率需要 10 秒完成。
串流模式(Streaming)
Amazon Bedrock InvokeModelWithResponseStream 在 Token 生成時立即回傳。使用者可以漸進式看到輸出。端到端總時間與非串流相同,但感知延遲大幅降低。用於所有聊天 UI。
批次模式(Batch)
Amazon Bedrock 批次推論接受一個工作檔案,非同步處理(數分鐘到數小時),並將結果寫入 Amazon S3。每筆請求的總延遲高得多,但吞吐量成本低 50%。用於離線工作負載。
延遲降低技術
- 更小的模型 — 參數量越小,生成速度越快。
- 更短的 Prompt — TTFT 與輸入 Token 數成正比。
- Prompt caching(Prompt 快取) — Amazon Bedrock prompt caching 重複使用已快取的前綴處理結果。
- 跨區域推論(Cross-Region inference) — Amazon Bedrock 跨區域推論能路由到負載最低的 AWS 區域,以平滑峰值。
GenAI 中的智慧財產權(Intellectual Property)
智慧財產權是 AIF-C01 上的隱藏考點。有兩個角度會出現。
訓練資料來源(Training data provenance)
FM 是在包含受著作權保護的文字、程式碼和圖像的語料庫上訓練的。如果模型輸出緊密地重現了訓練段落,可能會引發著作權主張。Amazon Bedrock 透過供應商賠償(針對支援的供應商和符合條件的用途)以及使用 AWS 控制的資料訓練的 Amazon Titan 家族來緩解這個問題。客戶仍然負責在公開使用前審查輸出。
輸出授權(Output licensing)
FM 的輸出通常根據模型供應商的條款分配給客戶,但條款各異。AIF-C01 的關鍵事實:
- Amazon Titan — 客戶擁有輸出;AWS 使用具有使用權的資料進行訓練。
- Bedrock 上的第三方模型 — 每個供應商(Anthropic、Meta、Mistral、Cohere、AI21、Stability)有自己的授權;Amazon Bedrock 直接透過。
- 客戶資料 — 發送到 Amazon Bedrock 的 prompt 和 completion 不會用於訓練基礎模型。這是合規等級的承諾。
客戶義務
客戶仍然必須:
- 避免在沒有適當控制的情況下輸入受監管資料(PHI、PCI、PII)(需要 HIPAA BAA、加密、VPC endpoints)。
- 在發布前審查 GenAI 輸出,特別是程式碼(授權相容性)和行銷文字(抄襲檢查)。
- 在內部 AI 治理計劃中記錄 GenAI 使用情況(與 NIST AI RMF 和 ISO/IEC 42001 對齊)。
在 Amazon Bedrock 上,客戶的輸入(prompt)和輸出(completion)不會用於訓練或改進基礎 FM。資料在傳輸中加密(TLS)、在靜態加密(AWS KMS),留在客戶的 AWS 區域,並可使用 VPC endpoints 進行隔離。這讓 Amazon Bedrock 有別於某些可能保留對話用於再訓練的消費者導向 GenAI 產品。在 AIF-C01 中,請記住:「Amazon Bedrock 會用我的資料訓練模型嗎?」——答案是不會。 Source ↗
GenAI 的 AWS 基礎設施
Task 2.3 要求你識別哪些 AWS 技術能建構 GenAI 應用程式。這個技術棧分為四層。
第一層 — 自訂晶片
- AWS Trainium(Trn1、Trn2 執行個體)— 專為訓練設計的晶片。在 FM 預訓練和大規模 fine-tuning 中,每訓練 FLOP 成本最低。Amazon SageMaker HyperPod 使用 Trainium 進行多節點分散式訓練。
- AWS Inferentia(Inf1、Inf2 執行個體)— 專為推論設計的晶片。在穩定狀態的生產服務中,每推論 Token 成本最低。
第二層 — 通用 GPU
- Amazon EC2 P5 / P5e(NVIDIA H100)— 最大規模的訓練、FM 預訓練。最高性能,最高成本。
- Amazon EC2 P4d(NVIDIA A100)— 上一代訓練。
- Amazon EC2 G5 / G6(NVIDIA A10G / L4)— 中型模型和 fine-tuning 的高性價比推論。
第三層 — 受管平台
- Amazon SageMaker — 建構、訓練和部署自訂模型(包括透過 Amazon SageMaker JumpStart 使用的 FM)的端到端平台。
- Amazon Bedrock — 完全受管的 FM API。Serverless。無基礎設施需要管理。對於「不需要管理基礎設施就能建構 GenAI 應用程式」,這是 AIF-C01 的預設答案。
第四層 — 應用服務
- Amazon Q Business — 在 Amazon Bedrock 之上預建的企業助理,連接 SharePoint、Salesforce、ServiceNow、Amazon S3。
- Amazon Q Developer — IDE 和主控台程式碼撰寫助理。
- Amazon Q in QuickSight — 自然語言 BI。
- Amazon Q in Connect — 即時客服中心代理輔助。
AWS Trainium 用於訓練(Training,名字裡就有)。AWS Inferentia 用於推論(Inference,名字裡就有)。兩者都是 AWS 自研晶片,對其目標工作負載的每次操作成本低於同等的 NVIDIA GPU。當你需要 CUDA 特定函式庫,或某個模型尚未移植到 Trainium 或 Inferentia 時,使用 NVIDIA GPU 執行個體(P5、G5、G6)。在 AIF-C01 中,情境提到「最低訓練成本」對應 Trainium;「最低推論成本」對應 Inferentia;「最高峰值訓練性能」對應 Amazon EC2 P5。 Source ↗
Amazon Bedrock 和 Amazon SageMaker 都出現在 GenAI 情境中。AIF-C01 的決策規則:如果情境說「透過 API 存取預訓練的 FM,無需管理基礎設施」,選 Amazon Bedrock。如果說「建構、訓練、部署自訂模型」或「使用 Jupyter Notebook 和訓練工作進行完全控制的 fine-tuning」,選 Amazon SageMaker。Amazon SageMaker JumpStart 架起了兩者之間的橋樑,在 SageMaker 環境中提供預訓練 FM——適用於需要深度 fine-tuning 控制的情況。AIF-C01 最大的陷阱是在 Bedrock 更簡單的情況下選了 SageMaker。 Source ↗
何時不應使用 GenAI
在 GenAI 能力與限制主題中,AIF-C01 最有價值的技能是識別「GenAI 是錯誤選擇」的情境。這些情境在每場考試中都會重複出現。
不應使用 GenAI 的情境
- 安全攸關的決策 — 醫療診斷確認、航空控制邏輯、自動駕駛車輛執行、工業安全聯鎖。使用具有正式驗證的認證確定性系統。
- 需要精確性的受監管財務計算 — 精確到分的稅務計算、利息計提、法規報告總計。使用確定性計算引擎;最多讓 GenAI 事後起草報告散文。
- 必須引用的法律合規答案 — 特定法條引用、特定案例編號、特定法規段落。沒有 RAG + Grounding 檢查 + 人工律師審核,風險太高。
- 即時精確資料 — 當前股價、當前庫存數量、當前預訂可用性。使用權威的資料記錄系統;如有需要,將其包裝成 Agent 的工具。
- 規則更便宜的低用量任務 — 如果 50 行正則表達式或 20 行 SQL 查詢就能解決問題,GenAI 是過度設計。
- 需要訓練分佈之外真正新穎性的任務 — 發明全新的數學定理、發現新的物理原理。FM 是在重新組合,不是從頭發明。
- 沒有適當控制的高度敏感資料 — 機密資訊、未脫敏的 PHI、支付卡號碼。即使在 Amazon Bedrock 上(不會用客戶資料訓練),合規態勢也必須刻意設計,包含 VPC endpoints、Amazon Macie 掃描和 Amazon Bedrock Guardrails PII 過濾器。
應使用 GenAI 的情境
- 長篇內容的摘要整理。
- 主要語言之間的翻譯。
- 草稿潤稿。
- 程式碼補全與程式碼審查輔助。
- 搭配 RAG Grounding 的開放式問答。
- 創意發想與腦力激盪。
- 從非結構化文字提取結構化資訊(附驗證)。
- 有界知識庫上的對話式介面。
如果 AIF-C01 情境題幹包含以下短語:「法規要求」、「可稽核」、「需要確定性輸出」、「精確的數值結果」、「不能容忍變異」或「必須能以法律確定性重現」,GenAI 很少是完整答案。正確選擇是確定性規則引擎、Amazon SageMaker 上的傳統 ML,或是受到 RAG + Grounding + temperature=0 + 人工審核嚴格約束的 GenAI。當題幹發出法規確定性訊號時,「直接使用 Amazon Bedrock」的答案是錯的。 Source ↗
負責任的 GenAI 部署 — 綜合應用
一個在 AWS 上生產就緒的 GenAI 應用程式,將能力、限制和緩解措施組合在分層架構中。
- 確定使用案例範圍,使用 AWS Generative AI Security Scoping Matrix——這個應用程式是消費者 SaaS 呼叫、預建模型上的企業應用、fine-tuned 模型上的企業應用、自訓練模型上的企業應用,還是你要出貨的預訓練模型?
- 在 Amazon Bedrock 上選擇模型,依據成本、能力、context window 和合規限制。
- 使用 Amazon Bedrock Knowledge Bases(受管 RAG)接地模型,當事實準確性很重要時。
- 使用 Amazon Bedrock Guardrails 約束輸出(內容過濾器、拒絕主題、PII 遮罩、情境式接地檢查)。
- 設定推論參數(事實性任務用 temperature=0,創意性任務用較高 temperature;設定 max tokens 來控制成本)。
- 使用 Amazon CloudWatch 記錄指標並以 AWS CloudTrail 進行稽核監控。
- 使用 Amazon Bedrock Model Evaluation 和 Amazon SageMaker Clarify for Foundation Models 持續評估。
- 透過 Amazon A2I 將低信心案例路由給人工審核者。
- 在 Amazon SageMaker Model Cards 和 AWS AI Service Cards 中記錄目的、限制和預期用途。
GenAI 能力與限制的常見考試陷阱
- 幻覺 ≠ 偏見 — 幻覺是事實性失效;偏見是公平性失效。兩者都存在,兩者需要不同的緩解措施。
- RAG ≠ Fine-tuning — RAG 在推論時增加新鮮 context;fine-tuning 用訓練資料更新模型權重。關於「每週用新產品目錄更新模型」的情境傾向 RAG,而非 fine-tuning。
- Temperature=0 ≠ 準確 — temperature=0 是確定性的,不是正確的。確定性的錯誤答案仍然是錯的。搭配 RAG 實現事實準確性。
- Trainium vs Inferentia — Trainium 用於訓練,Inferentia 用於推論。不要搞混。
- Amazon Bedrock ≠ Amazon SageMaker — Bedrock 是 FM 即 API;SageMaker 是自訂模型生命週期。兩者都能跑 FM,但操作模式不同。
- GenAI ≠ 永遠優於傳統 ML — 對於表格資料上的結構化預測,Amazon SageMaker 上的傳統 ML 在成本和準確性上通常優於 GenAI。
- Guardrails ≠ IAM — Amazon Bedrock Guardrails 是內容安全;IAM 是存取控制。兩者都需要。
- 幻覺不只是「錯誤」 — 它特指自信的、流暢的、無支撐的輸出。拒絕回答(「我不知道」)不是幻覺。
- Bedrock 上的客戶資料不會用於訓練基礎模型 — 常見的合規題。
- 「開源」FM ≠ 免費運行 — 你仍然要付基礎設施成本。
FAQ — GenAI 能力與限制熱門問題
1. 緩解 GenAI 幻覺最重要的單一措施是什麼?
Retrieval-Augmented Generation(RAG)是生產 GenAI 中影響最大的幻覺緩解措施。RAG 將 FM 的輸出接地到已檢索的來源文件,讓模型從提供的 context 回答,而非從預訓練記憶回答。在 AWS 上,Amazon Bedrock Knowledge Bases 提供完全受管的 RAG 管線(從 Amazon S3 或其他連接器擷取文件、嵌入並索引到向量存儲、在查詢時檢索最佳塊)。搭配 Amazon Bedrock Guardrails 情境式接地檢查,作為額外的驗證層,標記任何未被檢索 context 支持的模型聲明。在 AIF-C01 中,任何關於「在使用最新內部文件的同時減少幻覺」的情境,核心答案都是 RAG。
2. 「temperature=0」實際上做什麼?我應該何時使用它?
Temperature 控制生成過程中 Token 選擇的隨機性。在 temperature=0(或支援的最低值)時,模型每一步都選擇單一最高機率的下一個 Token,產生確定性輸出——相同的 prompt 每次都得到相同的回應。對於事實問答、結構化提取、從規格生成程式碼,以及任何需要可重現性或法規可稽核性的情境,請使用 temperature=0。對於創意發想、行銷文案和腦力激盪(多樣性有其價值),使用較高的 temperature(0.7 到 1.0)。temperature=0 降低幻覺的變異(重新執行不會得到不同的錯誤答案),但本身不會降低幻覺率——確定性的答案仍然可能是錯的。搭配 RAG 來實現事實正確性。
3. Amazon Bedrock 上 GenAI 應用程式的三大成本驅動因素是什麼?
三個成本驅動因素,依影響程度粗略排序:(1)依參數量選擇模型 — Anthropic Claude Opus 每 Token 的成本可能比 Claude Haiku 高 60 倍;永遠選擇能滿足品質要求的最小模型。(2)Token 用量 — 輸入 Token(系統 prompt 加使用者訊息加 RAG context 加少量範例)乘以輸出 Token。RAG context 通常遠超使用者輸入。(3)吞吐量模式 — on-demand 最靈活但最貴;Provisioned Throughput 在持續高使用率時更便宜;批次推論對非同步工作負載提供約 50% 的折扣。次要驅動因素包含 context window 大小、fine-tuning 訓練運算、RAG 的向量資料庫成本,以及 Amazon Bedrock Guardrails 每次評估費用。
4. 什麼時候完全不應使用 GenAI?
以下情境不要使用 GenAI:安全攸關的決策(醫療劑量、航空控制、工業安全);需要法規數值精確性的計算(稅務、財務報告);需要可驗證法律引用但沒有人工律師審核的答案;即時精確資料查詢(當前股價、即時庫存);簡單的規則或 SQL 查詢就能解決的任務;以及沒有適當控制的高度敏感資料(VPC endpoints、Amazon Macie 掃描、Amazon Bedrock Guardrails PII 過濾器)。在 AIF-C01 中,情境帶有「法規確定性」、「精確數值結果」、「精確到分的稽核」或「攸關生命安全」等詞,就排除了純 GenAI 答案,轉向確定性系統、Amazon SageMaker 上的傳統 ML,或嚴格鷹架化的 GenAI(RAG + Grounding + 人工審核)。
5. AWS Trainium 和 AWS Inferentia 有什麼差別?
AWS Trainium 是 AWS 自研晶片,專為機器學習訓練工作負載設計,在 Amazon EC2 Trn1 和 Trn2 執行個體上提供。它針對 FM 預訓練和大規模 fine-tuning 進行最佳化,每訓練 FLOP 成本低於同等的 NVIDIA GPU。AWS Inferentia 是 AWS 自研晶片,專為機器學習推論工作負載設計,在 Amazon EC2 Inf1 和 Inf2 執行個體上提供。它針對以低於同等 GPU 的每 Token 成本提供預測進行最佳化。記憶口訣:Trainium 含有「Train(訓練)」,Inferentia 含有「Infer(推論)」。對於峰值訓練性能,或使用 CUDA 特定函式庫時,使用基於 NVIDIA 的 Amazon EC2 P5(H100)或 P4d(A100)執行個體。對於中型模型的高性價比推論,使用 Amazon EC2 G5 或 G6(NVIDIA A10G / L4)。
6. Amazon Bedrock 如何保護客戶的智慧財產權和資料隱私?
Amazon Bedrock 適用四項隱私承諾。第一,客戶的 prompt 和 completion 不會用於訓練基礎 FM——這是合約承諾,不是盡力保證。第二,資料在傳輸中以 TLS 加密、在靜態以 AWS 自管或客戶自管 AWS KMS 金鑰加密。第三,資料留在客戶選擇的 AWS 區域(區域資料駐留)。第四,VPC endpoints(AWS PrivateLink)允許私有連線,讓 Bedrock 流量永遠不經過公共網際網路。對於受監管行業,Amazon Bedrock 支援 HIPAA 合規工作負載,並在 AWS Artifact 中提供合規認證。客戶仍然負責審查輸出的 IP 和授權相容性,特別是生成的程式碼(可能需要授權審查)和生成的行銷文字(應檢查是否與訓練資料有無意的相似性)。
7. 在 GenAI 使用案例中,什麼時候應該選擇 Amazon Bedrock 而非 Amazon SageMaker?
當你想要 API 存取預訓練 FM 且不需要管理基礎設施、對供應商提供的模型(Anthropic Claude、Meta Llama、Mistral、Amazon Titan、Cohere、AI21、Stability AI)感到滿意,且你的客製化需求可以透過 prompt engineering、Amazon Bedrock Knowledge Bases 的 RAG 或受管 fine-tuning 來滿足時,選擇 Amazon Bedrock。當你需要從頭訓練自訂模型、執行完全控制的深度 fine-tuning(自訂訓練迴圈、在 AWS Trainium 或 NVIDIA GPU 叢集上分散式訓練)、在客戶自管 VPC 中部署具有特定網路的模型,或在單一 MLOps 管線中同時執行傳統 ML 和 FM 時,選擇 Amazon SageMaker。Amazon SageMaker JumpStart 是橋樑:它在 SageMaker 環境中公開預訓練 FM,適合想要受管模型選擇加上深度訓練控制的團隊。對於大多數 AIF-C01「快速建構 GenAI 應用程式」的情境,答案是 Amazon Bedrock。
延伸閱讀
- AWS Certified AI Practitioner (AIF-C01) Exam Guide. https://d1.awsstatic.com/training-and-certification/docs-ai-practitioner/AWS-Certified-AI-Practitioner_Exam-Guide.pdf
- Amazon Bedrock User Guide — foundation models, RAG, Guardrails. https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html
- Amazon Bedrock Best Practices — hallucination mitigation and inference parameters. https://docs.aws.amazon.com/bedrock/latest/userguide/bedrock-best-practices.html
- Amazon Bedrock Knowledge Bases — managed RAG pipeline. https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base.html
- Amazon Bedrock Guardrails — content filters and grounding checks. https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html
- Generative AI Security Scoping Matrix (AWS Whitepaper). https://docs.aws.amazon.com/whitepapers/latest/generative-ai-security-scoping-matrix/generative-ai-security-scoping-matrix.html
- AWS Trainium — purpose-built training chip. https://aws.amazon.com/machine-learning/trainium/
- AWS Inferentia — purpose-built inference chip. https://aws.amazon.com/machine-learning/inferentia/
- AWS Responsible AI — fairness, explainability, privacy, safety, governance. https://aws.amazon.com/ai/responsible-ai/
- Amazon SageMaker Clarify for Foundation Models. https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-foundation-model-evaluate.html
摘要
GenAI 的能力與限制是 AIF-C01 Domain 2 的決策骨幹。能力集中在八個可重複套用的模式(摘要整理、翻譯、草稿潤稿、程式碼補全、開放式問答、創意發想、結構化提取、對話式介面)。限制集中在七個失效模式(確定性數學、知識截止日、即時資料、複雜邏輯、受監管領域精確性、長篇生成漂移、真正的新穎性)。幻覺是旗艦限制,透過 RGSST 技術棧(RAG、Grounding 檢查、結構化輸出、自我反思、temperature=0)緩解。偏見是獨立的公平性失效模式,透過 Amazon SageMaker Clarify 評估、Amazon Bedrock Guardrails 內容過濾器和 Amazon A2I 人工審核來緩解。成本等於參數量 × Token 數 × 吞吐量模式,Provisioned Throughput 和批次推論是主要的成本調節桿。延遲分為首 Token 延遲和每秒 Token 輸出率,聊天 UI 用串流模式,離線用批次。智慧財產權考量以 Amazon Bedrock 的「不用客戶資料訓練」承諾和各供應商的輸出授權為核心。AWS 基礎設施涵蓋 AWS Trainium(訓練)、AWS Inferentia(推論)、Amazon EC2 P5/G5(GPU)、Amazon SageMaker(自訂 ML)和 Amazon Bedrock(受管 FM API)。考試中最有價值的 GenAI 技能,是辨識「何時不應使用 GenAI」——安全攸關、法規確定性、精確計算和即時資料情境,會將正確答案從純 GenAI 推向確定性系統,或嚴格鷹架化的 GenAI(RAG + Grounding + 人工審核)。掌握能力清單、限制清單和緩解技術棧,GenAI 能力與限制的題目就會成為 AIF-C01 上最容易拿分的部分。