AI 與 ML 核心概念是 AWS Certified AI Practitioner(AIF-C01)考試的概念骨幹。任務說明 1.1——「解釋 AI 的基本概念與術語」——是考試中引用最廣泛的單一任務,因為其他每個領域(生成式 AI、Foundation Models、負責任的 AI、安全性)都默認你已經知道什麼是模型、特徵、標籤、神經網路以及推論呼叫。若你對 AI 與 ML 核心概念的詞彙理解有誤,整份考試都會跟著偏差。
這份學習筆記涵蓋 AIF-C01 考生需要認識的所有 AI 與 ML 核心概念面向:AI → ML → 深度學習 → 生成式 AI 的層級體系、窄域 AI 與通用 AI 的範疇區別、模型/訓練/推論/特徵/標籤/參數/超參數的詞彙表、神經網路的物理結構(神經元、層、激活函數)、四種典型使用情境模式(分類、回歸、分群、生成)、評估指標族群(準確率、精確率、召回率、F1),以及決定所有下游系統成敗的資料品質基礎。文中有一個清楚的分野說明,區分 AIF-C01 辨識層級深度與 AIP-C01 建置層級深度,避免你過度鑽研。
什麼是人工智慧?範疇、歷史,以及 AI/ML/DL 層級體系
人工智慧(AI)是建構能執行傳統上需要人類智慧之任務的電腦系統的總體學科——包括感知、推理、語言、決策與創造力。這個領域的名稱源自 1956 年達特茅斯研討會,此後歷經幾個浪潮:1970 年代的符號規則系統、1990 年代的統計學習、2012 年起的深度學習突破,以及 2018 年開始加速、2022 年隨 ChatGPT 爆發的 Foundation Model 與生成式 AI 浪潮。AIF-C01 不考日期,但確實考 AI 與 ML 核心概念的範疇:AI 是最外圈,ML 在 AI 之內,深度學習在 ML 之內,生成式 AI 則是橫跨深度學習與 Foundation Models 的能力帶狀區域。
理解 AI 與 ML 核心概念的層級體系,能消除考生在考試當天最常犯的詞彙錯誤——把 AI、ML 與深度學習當成同義詞。
**人工智慧(AI)**是任何模擬智慧行為的系統。**機器學習(ML)**是 AI 的子集,系統從資料中學習模式,而非遵循人工編寫的規則。**深度學習(DL)**是 ML 的子集,使用多層神經網路。**生成式 AI(GenAI)**是一種能力類別,通常由基於深度學習的 Foundation Models 驅動,能產生新內容(文字、圖像、音訊、程式碼)。 Source ↗
四個同心圓
將 AI、ML、DL 與 GenAI 想像成四個同心圓:
- AI(最外圈) — 任何看起來具備智慧的系統,包括完全不含學習機制的規則型專家系統與搜尋演算法。
- ML — 從資料中學習統計模式的系統;需要訓練資料,並產生一個模型。
- DL — 使用多層神經網路的 ML;是圖像、語音與語言任務的主流演算法。
- GenAI(最內側能力圈) — 由深度學習驅動的 Foundation Models,創造全新的內容,而非對既有內容進行分類。
每個 GenAI 系統都是 DL 系統。每個 DL 系統都是 ML 系統。每個 ML 系統都是 AI 系統。反方向則不成立:使用 minimax 搜尋的西洋棋引擎是 AI 但不是 ML;線性回歸銷售預測模型是 ML 但不是 DL;圖像分類器是 DL 但不是 GenAI。
為什麼 AIF-C01 如此重視這個層級體系
AIF-C01 考試指南在任務 1.1 的知識說明中,明確列出「區分 AI、ML 與深度學習」為考試範圍。社群考試報告一致指出,每次應試約有兩到三題測試考生能否將情境(「某零售公司在大型語言模型上建立客服聊天機器人」)放入正確的圓圈(GenAI 在 DL 內,DL 在 ML 內,ML 在 AI 內)。搞混層級體系,就會選到看似合理卻錯誤的答案。
機器學習 vs 深度學習 vs 傳統程式設計
理解 AI 與 ML 核心概念最清晰的方式之一,是對比三種建構軟體行為的典範。
傳統程式設計
在傳統程式設計中,人類撰寫明確的規則,電腦將這些規則套用到輸入資料以產生輸出。邏輯存在於 if / else 陳述式、查找表與數學公式中。當規則可知且穩定時,這種做法行得通——例如薪資計算、稅率級距、單位換算。
機器學習
在 ML 中,人類提供輸入資料與期望的輸出,讓機器自行學習規則。訓練的產出是一個模型——一個參數化函數,能將新輸入對應到預測結果。當規則數量龐大、過於細膩或需要持續調適、人類難以逐一編碼時,ML 是正確的工具(如垃圾郵件偵測、信用風險評分、醫療影像分流)。
深度學習
深度學習是使用多隱藏層神經網路的 ML。「深度」指的是層的數量,而非某種哲學上的深刻。深度網路擅長從非結構化資料中提取階層式特徵:圖像中的邊緣→形狀→物件;語音中的音素→單詞→句子;文字中的 token→語法→語義。深度學習比古典 ML 需要更多資料與算力,但在感知和語言任務上能達到最先進的準確度。
三種典範並排比較
| 維度 | 傳統程式設計 | 機器學習 | 深度學習 |
|---|---|---|---|
| 邏輯來源 | 人類撰寫規則 | 演算法從資料學習 | 神經網路從資料學習 |
| 所需輸入 | 規則 + 輸入資料 | 輸入 + 有標籤的輸出範例 | 大量輸入 + 大量有標籤的輸出 |
| 輸出 | 確定性結果 | 統計預測 | 統計預測 |
| 最適用於 | 穩定、易理解的領域 | 表格資料、中等資料量 | 圖像、音訊、語言、超大型資料 |
| 算力成本 | 低 | 低至中 | 高(通常需要 GPU / 加速器) |
當 AIF-C01 的情境說「團隊無法手動撰寫規則,因為邊界案例太多」,答案幾乎一定涉及 ML 而非傳統程式設計。當情境再加上「處理圖像或自然語言等非結構化資料」,則在答案中加入深度學習。 Source ↗
生成式 AI 在 AI/ML/DL 分類體系中的位置
2020 年以前,多數 ML 系統是判別式的:它們對既有的輸入進行分類、評分或排序。生成式 AI 翻轉了方向——不再問「這個輸入屬於哪個標籤?」,而是問「什麼樣的新內容最能延續或回應這個提示?」。
判別式 vs 生成式
- 判別式模型學習類別之間的邊界。範例:電子郵件垃圾郵件分類器、信用違約預測器、腫瘤 vs 良性圖像分類器。
- 生成式模型學習資料的分布,並能從中取樣新的範例。範例:產生新段落的大型語言模型(LLMs)、產生新圖像的擴散模型、產生新原始碼的程式助手。
GenAI 在層級體系中的位置
生成式 AI 幾乎全部建構在深度神經網路之上——語言任務使用 Transformer 架構,圖像任務使用擴散架構。因此,GenAI 是橫跨深度學習的能力帶狀區域,而非獨立的典範。AIF-C01 將 GenAI 視為一級領域(佔考試比重 24%),因此清楚掌握它相對於古典 ML 的位置至關重要。
Foundation Models 作為 GenAI 的引擎
Foundation Model(FM)是一種非常大型的深度學習模型,在廣泛、多元的資料上預訓練,無需針對特定任務重新訓練,即可適應多種下游任務。FM 是目前 AWS 上 GenAI 的核心引擎,透過 Amazon Bedrock 存取。AIF-C01 要求認識 FM 的特性(規模、通用性、適應性),但不要求你在程式碼層級建置或微調 FM——那個深度屬於 AIP-C01。
窄域 AI vs 通用 AI vs 人工通用智慧(AGI)
AI 與 ML 核心概念的考題有時會延伸到 AI 系統的哲學分類。把區別記得短而精準,符合考試需求即可。
窄域 AI(Artificial Narrow Intelligence,ANI)
窄域 AI 能在特定任務上表現極為出色,但無法推廣到該任務以外的範圍。今日所有商業部署的 AI 系統——包括 Amazon Rekognition、Amazon Transcribe、GPT 等級的 LLMs、AlphaGo、自動駕駛系統——都是窄域 AI。窄域 AI 在其領域內可以超越人類,但在其領域外則完全無能為力。
通用 AI(Artificial General Intelligence,AGI)
AGI 將能在人類可執行的任何智識任務上匹敵人類的認知彈性:從零開始學習新技能、跨領域遷移知識、在不重新訓練的情況下對新情境進行推理。AGI 今日並不存在。研究機構正在追求它;目前沒有任何產品能實現它。
超級智慧
一種假設中的未來 AI,在所有領域都超越人類智慧。對 AIF-C01 而言,這個概念除了作為干擾答案選項外,並不相關。
AIF-C01 喜歡將「AGI」偷偷放入答案選項作為誘餌。
若題目描述的是真實的 AWS 產品(Rekognition、Bedrock Claude、SageMaker),並要求你將其分類,答案永遠是窄域 AI。沒有任何 AWS 服務,也沒有任何公開可用的 Foundation Model 符合 AGI 的資格。聲稱「該系統展現了通用智慧」或「該模型已達到 AGI」的答案選項都是錯的。
同樣地,當情境說「該模型在窄域任務上表現良好」,不要去選「通用」這個詞——這與情境描述相矛盾。 Source ↗
白話文解釋 AI 與 ML 核心概念
抽象的分類體系,一旦與具體的日常情境結合,就會變得直觀。以下三個比喻涵蓋了 AI 與 ML 核心概念的完整面貌。
比喻一:便當店的廚房 — AI、ML、深度學習與生成式 AI
想像一家熱鬧的便當店廚房。人工智慧是整個廚房運作——所有能端出一道菜的方式,不管是廚師照著塑封菜單逐步操作(規則型),還是老師傅憑經驗即興發揮(學習型)。機器學習是那位嚐過幾千道醬汁、憑著直覺就能調出完美鹹淡的老師傅;「規則」存在於他的味蕾裡,不在紙本食譜上。深度學習是一排分工明確的備料工作站——切菜、熱炒、燴醬、擺盤——每一站精煉前一站的成果,最終的便當是多道連續工序的結晶。生成式 AI是那位糕點師傅,你只說「一個適合雨天午後的甜點」,他就創作出一道從未存在過的全新料理。
這個廚房比喻對應每個 AI 與 ML 核心概念術語:
- 模型是老師傅訓練出來的味覺判斷力。
- 訓練是多年試吃校準味覺的過程。
- 推論是某個服務班次中,用這份味覺判斷力品嚐新醬汁的那一刻。
- 特徵是食材與烹飪手法。
- 標籤是訓練期間顧客給出的回饋評分。
- 神經網路各層是切菜→熱炒→燴醬→擺盤各工作站。
比喻二:圖書館 — 資料品質與訓練流程
圖書館的品質完全取決於其分類編目流程。優秀的圖書管理員仔細為每本書標上類型、作者、語言與主題。若標籤錯誤——一本食譜誤放到科學區——每位信任目錄的讀者最終都會失望而歸。AI 與 ML 核心概念中關於資料品質的道理如出一轍。用錯誤標籤訓練的模型(把貓標成狗)會自信滿滿地輸出錯誤預測,因為模型無法區分「資料在說謊」與「資料在說真話」。訓練資料是目錄;模型是將目錄內化的圖書管理員。「垃圾進、垃圾出」不只是一句口號——它是 ML 領域中研究最深入的現象。
這個比喻特別有助於理解訓練集/驗證集/測試集的分割。訓練集是圖書管理員學習的館藏。驗證集是認證前用來考核圖書管理員的小批抽樣。測試集是認證後的突擊稽核:圖書管理員從未見過的書籍。
比喻三:開卷考試 — 參數、超參數與推論
想像一位學生在準備一場開卷考試。學生閱讀了數百道練習題,並制定了一套讀書策略:先複習哪些章節、做多少道練習題、每題花多少時間。這套策略就是超參數組合——在開始讀書之前就做好的決定。
當學生解題時,他們在腦中建立起連結:「當我看到提到速率乘以時間的題目,我就想到距離公式。」這些腦中連結就是參數——模型內部學習到的權重。考試當天(推論),學生無法重新讀書;他們將內化的參數,在讀書策略所塑造的框架下,套用到從未見過的題目上以產生答案。
這個比喻說明了為什麼超參數調整是獨立於訓練的步驟、為什麼參數不足的模型會欠擬合(學生沒有建立足夠的腦中連結),以及為什麼模型的參數相對於訓練資料過多時會過擬合(學生逐字背誦練習題而非理解概念)。
考試當天選用哪個比喻
- 關於**分類體系(AI vs ML vs DL vs GenAI)**的題目 → 廚房比喻。
- 關於資料品質、標籤、訓練集分割的題目 → 圖書館比喻。
- 關於參數、超參數、訓練 vs 推論的題目 → 開卷考試比喻。
關鍵 ML 術語:模型、訓練、推論、特徵、標籤、參數、超參數
每次 AIF-C01 的讀書階段都應以徹底內化這七個詞作為結尾。任何一個定義有誤,都可能損失兩到三道考題。
模型
模型是將輸入對應到預測結果的學習函數。訓練完成的模型是訓練結束時儲存的成品——一個包含數值權重的檔案,加上知道如何使用這些權重的架構描述。在 AWS 上,模型可能是 SageMaker 產生的 .tar.gz 成品、你永遠不需要下載的 Bedrock 託管 Foundation Model,或是 Rekognition Custom Labels 專案端點。
訓練
訓練是將有標籤的範例展示給演算法,讓它調整內部參數直到預測結果足夠準確的過程。訓練成本高昂、以批次方式進行,且每一代模型通常只執行一次。它需要大量算力(CPU、GPU 或 AWS Trainium)與大量資料。
推論
推論是使用已訓練的模型對新輸入進行預測的行為。推論每次呼叫的成本低廉、在生產環境中持續運行,且通常對延遲敏感。AWS 的推論介面包括 SageMaker 即時端點、SageMaker Batch Transform、Bedrock InvokeModel 以及 AWS Inferentia 晶片。混淆訓練與推論是 AIF-C01 的高頻陷阱,因為兩者的成本與延遲特性相差數個數量級。
特徵
特徵是輸入給模型的單一可測量輸入變數。對信用評分模型而言,特徵包括收入、信用使用率與工作年資。特徵工程——選擇、轉換與組合特徵——是古典 ML 中槓桿效益最高的活動之一。
標籤
標籤是附加在訓練範例上的正確答案。對垃圾郵件分類器而言,標籤是 spam 或 not spam;對房價模型而言,標籤是成交價格。標籤的產生成本高昂(需要人工標註),且定義了模型的學習目標。未標注的資料無法用於監督式學習。
參數
參數是演算法在訓練過程中學習的內部數值(權重與偏差)。小型線性回歸模型可能有數十個參數;大型 Foundation Model 可能有數千億個。參數是訓練的產出,而非訓練的輸入。
超參數
超參數是你在訓練開始前設定的旋鈕:學習率、訓練週期數(epochs)、批次大小、層數、dropout 率。超參數決定了模型如何學習。SageMaker Automatic Model Tuning 可代為搜尋超參數空間。
七個詞,每個一句話——反覆操練直到反射性記憶:
- 模型 = 訓練後的函數成品
- 訓練 = 產生模型的一次性學習過程
- 推論 = 在生產環境中使用訓練模型進行預測
- 特徵 = 輸入給模型的一個輸入變數
- 標籤 = 附加在訓練範例上的正確答案
- 參數 = 訓練期間學習而來的數值權重(訓練的產出)
- 超參數 = 訓練開始前由人類設定的旋鈕(訓練的輸入)
干擾線索:若 AIF-C01 的答案選項將「參數」與「超參數」互換,那個選項就是錯的。參數是學習而來的;超參數是人為選定的。 Source ↗
神經網路入門:層、權重、激活函數
AIF-C01 對神經網路基礎的測試停留在概念層級,而非數學層級。你不需要計算梯度;你需要認識各個組成部分及其功能。
神經元(節點)
神經元(或節點)是神經網路的基本單位。它接受多個數值輸入,將每個輸入乘以一個學習到的權重,對加權後的輸入加上偏差後求和,再將結果通過激活函數以產生單一數值輸出。單一神經元的能力有限;力量來自於將數千個神經元連接成各層。
層
神經網路由多個層組成:
- 輸入層 — 每個輸入特徵對應一個神經元。
- 隱藏層 — 網路在此建立抽象表示的中間層。「深度」網路具有許多隱藏層。
- 輸出層 — 產生最終預測(分類任務每個類別一個神經元;回歸任務則為一個神經元)。
一層中的每個神經元通常連接到下一層的每個神經元(「全連接」或「密集」層)。其他架構——用於圖像的卷積層、用於序列的循環層、用於語言的 Transformer 注意力層——都是這個基本概念的特化變體。
權重與偏差
權重是附加在每個神經元之間連結上的數值乘數。偏差是每個神經元的加法偏移量。合在一起,權重與偏差就是網路在訓練期間學習的參數。像 Claude 3 這樣的現代 Foundation Model,這些參數的數量大約在數千億的量級。
激活函數
激活函數套用於每個神經元的加權總和,以引入非線性。若沒有激活函數,一疊神經元在數學上會退化成單一線性模型,網路將無法學習複雜的模式。AIF-C01 可能提及的常見激活函數:
- ReLU(Rectified Linear Unit)— 輸出 = max(0, 輸入);現代深度學習的主力激活函數。
- Sigmoid — 將輸出壓縮到 (0, 1);用於二元分類的輸出層。
- Softmax — 將輸出正規化為機率分布;用於多類別分類的輸出層。
- Tanh — 將輸出壓縮到 (-1, 1);常見於較舊的架構與部分循環網路。
神經網路如何學習:前向傳播與反向傳播
在訓練過程中,每個範例都會經過前向傳播:輸入逐層流動,直到輸出層產生預測結果。預測結果透過損失函數與正確標籤進行比較,計算出一個誤差分數。反向傳播接著將誤差反向傳遞整個網路,計算每個權重對誤差的貢獻程度。每個權重都會朝著能減少誤差的方向稍微調整。經過數百萬個範例後,權重最終收斂到能產生準確預測的數值。
AIF-C01 不要求你實作反向傳播。它確實要求你認識以下幾點:
- 訓練 = 多次前向 + 反向傳播,調整權重。
- 推論 = 僅執行前向傳播。
- 層數越多、參數越多 = 容量越大,但算力需求越高,過擬合風險也越高。
AIF-C01 對神經網路基礎的測試停留在辨識層級。你應能識別各層、權重、激活函數,以及前向傳播(推論)與反向傳播(訓練)之間的區別。你不需要計算矩陣乘法或推導梯度公式——那個深度屬於 SageMaker 模型開發訓練,而非 AIF-C01。 Source ↗
訓練資料、驗證資料與測試資料
每個 ML 模型都從三個互不重疊的資料集建立。混淆它們的角色是考試中被扣分最重的 AI 與 ML 核心概念錯誤之一。
訓練集
訓練集是最大的那一份(通常佔可用資料的 60–80%)。模型看見這些範例並根據它們調整參數。單獨以訓練集評估模型品質毫無意義——一個死記硬背的模型可以在訓練集上達到 100% 準確率,卻在生產環境中慘敗。
驗證集
驗證集(通常佔 10–20%)在訓練時被保留,用於在開發過程中評估候選模型配置。它引導超參數的選擇、架構比較與早停決策。模型從未直接在驗證資料上訓練,但因為你根據驗證分數選擇配置,它間接地被驗證集塑造。
測試集
測試集(通常佔 10–20%)是在所有開發工作完成後,僅使用一次的最終評估資料集。它模擬生產環境中從未見過的資料。若你在開發過程中偷看測試集,你就污染了它,並失去誠實估計真實世界效能的能力。
為什麼分割很重要
若沒有獨立的分割,你就無法區分一個學習了底層模式的模型與一個死記訓練資料的模型。驗證集與測試集的分割,是防止過擬合的主要防線,也是獲得誠實效能數字的主要來源。
結構化資料 vs 非結構化資料
資料品質基礎從認識你擁有的資料類型開始。
結構化資料
結構化資料存在於具有已知綱要(schema)的列與欄中:SQL 表格、CSV 檔、Parquet、關聯式資料庫。結構化資料是古典 ML 演算法(邏輯回歸、梯度提升、隨機森林)以及 Amazon SageMaker 表格訓練和 Amazon Personalize 等 AWS 服務的自然輸入。
非結構化資料
非結構化資料包括圖像、影片、音訊與自由格式文字。沒有固定的綱要。非結構化資料是深度學習,以及 Amazon Rekognition(圖像、影片)、Amazon Transcribe(音訊)、Amazon Comprehend(文字)和 Amazon Bedrock Foundation Models 等 AWS 服務的自然輸入。
半結構化資料
半結構化資料(JSON、XML、日誌檔)具有部分組織標記,但沒有固定綱要。AWS Glue、Amazon Athena 和 SageMaker Data Wrangler 擅長將半結構化輸入轉換為訓練就緒的形式。
這對考試有何重要性
AIF-C01 的情境題常常將答案隱藏在資料類型詞彙中。「公司擁有數百萬份掃描的 PDF」→ 非結構化 → 尋求 Textract、Rekognition 或 Foundation Model 文件理解。「公司擁有一張一千萬行的交易資料表」→ 結構化 → 尋求 SageMaker Canvas、Amazon Personalize 或 SageMaker 訓練工作。
常見使用情境模式:分類、回歸、分群、生成
四種模式涵蓋了 AIF-C01 考試中絕大多數的 AI 與 ML 核心概念使用情境。
分類
分類從有限集合中預測離散標籤。二元分類有兩個類別(垃圾郵件 / 非垃圾郵件、詐欺 / 合法)。多類別分類有許多類別(狗 / 貓 / 兔子 / 馬)。多標籤分類允許每個範例有多個標籤(一張同時標記「海灘」和「日落」的圖片)。演算法:邏輯回歸、決策樹、隨機森林、梯度提升、神經網路。
回歸
回歸預測連續數值。根據坪數預測房價、根據天氣預測能源需求、根據距離估算配送時間。演算法:線性回歸、多項式回歸、梯度提升回歸器、深度神經網路。
分群
分群在沒有標籤資料的情況下,將相似的範例分組在一起。K-means 是典型演算法。使用情境:客戶分群、異常偵測、文件主題發現。分群是非監督式的——它不需要標籤,產生的也不是固定標籤,只是分群指派結果。
生成
生成根據提示或輸入產生新內容(文字、圖像、音訊、程式碼)。由 Foundation Models 和擴散模型實作。使用情境:內容草稿撰寫、程式碼輔助、合成資料創建、對話式代理。這就是生成式 AI 模式。
記住關鍵字到模式的對應表:
- 「預測一個類別 / 分類 / 標籤」→ 分類
- 「預測一個數值 / 金額 / 價格 / 時間長度」→ 回歸
- 「將相似項目分組 / 客戶分群 / 發現結構」→ 分群
- 「創作 / 撰寫 / 繪製 / 產生新內容」→ 生成
AIF-C01 的情境題幾乎總是透過一個單一動詞透露答案所屬的模式。 Source ↗
批次推論 vs 即時推論
兩者都是推論;兩者都對新資料執行訓練好的模型;差異在於部署形式。
即時(線上)推論
即時推論透過 HTTPS 端點,在毫秒內為單一請求提供預測結果。當使用者或應用程式正在等待回應時使用:結帳過程中的詐欺評分、聊天機器人回覆、推薦結果渲染。AWS 介面:SageMaker 即時端點、Bedrock InvokeModel、SageMaker Serverless Inference(可容忍冷啟動延遲)。
批次推論
批次推論以非同步方式一次對整個資料集執行預測,並將結果寫入儲存空間(通常是 S3)。當延遲不是關鍵考量時使用:對整個客戶群進行夜間評分、每週重新計算風險、每月生成報告。AWS 介面:SageMaker Batch Transform、Bedrock Batch Inference、SageMaker Async Inference(折衷方案)。
成本與延遲特性
- 即時端點在佈建期間持續產生費用,即使閒置也是如此。
- 批次工作僅在執行期間產生費用。
- Serverless 與非同步推論嘗試以部分冷啟動延遲為代價,在兩者之間取得平衡。
了解哪種特性適合哪種情境,是 AIF-C01 反覆測試的考點。
評估指標:準確率、精確率、召回率、F1
評估指標是衡量模型品質的數值度量。對於分類任務——考試中最常被測試的一類——四個指標最為重要。
混淆矩陣
四個分類指標都源自混淆矩陣:
- TP(真陽性) — 預測為正,實際也為正。
- TN(真陰性) — 預測為負,實際也為負。
- FP(假陽性) — 預測為正,實際為負(第一型錯誤)。
- FN(假陰性) — 預測為負,實際為正(第二型錯誤)。
準確率
準確率 = (TP + TN) / (TP + TN + FP + FN)。預測正確的比例。準確率直觀,但在類別不平衡時具有誤導性。一個總是預測「非詐欺」的詐欺偵測器,在詐欺佔 0.5% 的資料集上會獲得 99.5% 的準確率——卻完全沒有用。
精確率
精確率 = TP / (TP + FP)。在模型預測為正的所有結果中,有多少實際為正。高精確率意味著少有假警報。當假陽性的代價高昂時使用精確率——例如將合法交易標記為詐欺並封鎖客戶的信用卡,或將健康患者誤診為癌症。
召回率(敏感度)
召回率 = TP / (TP + FN)。在所有實際為正的案例中,模型捕捉到多少。高召回率意味著少有遺漏案例。當假陰性的代價高昂時使用召回率——例如遺漏真實的癌症案例、未能偵測到入侵,或忽略了詐欺交易。
F1 分數
F1 = 2 × (精確率 × 召回率) / (精確率 + 召回率)。精確率與召回率的調和平均數。F1 在兩者之間取得平衡,並對極端不均衡的情況加以懲罰。當你同時在意兩種錯誤類型,且類別分布不平衡時,使用 F1。
回歸指標(簡要說明)
對於回歸任務,常見指標有:
- MAE(平均絕對誤差)— 預測值與實際值之間的平均絕對差。
- MSE(均方誤差)— 平均平方差;對大誤差的懲罰更重。
- RMSE(均方根誤差)— MSE 的平方根,與目標值單位相同。
- R²(決定係數)— 目標值中由模型解釋的變異比例;1.0 為完美,0 與預測均值一樣好。
四個指標的分類速查表:
- 準確率 — 整體正確性;在不平衡資料上不可靠。
- 精確率 — 當你預測為正時,你答對的頻率有多高?假陽性代價高時使用。
- 召回率 — 在所有實際的正例中,你捉到了多少?假陰性代價高時使用。
- F1 — 精確率與召回率的平衡平均數。
AIF-C01 情境線索:
- 「最小化假警報 / 不想封鎖無辜使用者」→ 精確率
- 「不遺漏任何實際案例 / 捕捉每一個」→ 召回率
- 「資料不平衡且兩種錯誤類型都重要」→ F1
- 「資料平衡、簡單計分卡」→ 準確率
資料品質基礎
每次 AI 與 ML 核心概念的討論最終都會回到這裡:沒有乾淨、具代表性、標籤正確的資料,任何模型都無法成功。AIF-C01 在任務 1.3(ML 生命週期)和任務 4.1(負責任的 AI)中涵蓋資料品質,但核心詞彙是在核心概念階段引入的。
資料品質的七個維度
- 準確性 — 數值正確反映真實世界的狀態。
- 完整性 — 沒有缺失的關鍵欄位;缺失值策略處理空缺。
- 一致性 — 同一個實體在所有記錄中以相同方式呈現(「台灣」vs「台灣省」vs「TW」)。
- 及時性 — 資料在業務的新鮮度要求範圍內反映當前狀態。
- 有效性 — 數值符合預期的類型、範圍與格式。
- 唯一性 — 重複記錄已被移除或合併。
- 相關性 — 特徵與所要解決的問題相關。
常見的資料品質問題
- 缺失值 — 空白儲存格、null 欄位。透過插補、刪除或模型感知策略處理。
- 離群值 — 扭曲學習的極端值。透過截尾處理、轉換或調查處理。
- 類別不平衡 — 某個類別壓倒其他類別。透過重新採樣、類別權重或 F1 等專用指標處理。
- 標籤錯誤 — 不正確的基準答案。透過重新標籤、共識標籤或 Amazon A2I 等工具處理。
- 資料洩漏 — 測試集的資訊滲入訓練過程,虛高分數。透過嚴謹的分割與特徵工程處理。
- 採樣偏差 — 訓練資料不能代表生產環境的母體。透過分層採樣與領域審查處理。
為什麼資料品質對生成式 AI 很重要
Foundation Models 和大型語言模型是在從公開網路抓取的龐大資料集上訓練的。它們的輸出繼承了訓練資料所包含的偏見、不準確性和過時的知識。這就是為什麼 AIF-C01 第四領域(負責任的 AI)如此著重於偏見、公平性與可解釋性——模型的數學特性無法克服塑造它的資料特性。
「垃圾進、垃圾出」是 AI 與 ML 核心概念中最持久的原則。再多的超參數調整、模型架構升級或微調預算,都無法補償系統性有瑕疵的訓練資料。當 AIF-C01 的情境提及「模型在部署後效能不佳」,第一個需要考慮的根本原因類別永遠是資料品質——缺失欄位、標籤錯誤、訓練與生產之間的分布偏移,或採樣偏差。 Source ↗
AWS 上的 AI 服務類別:預建 AI API vs 自訂 ML vs 生成式 AI
AWS 將 AI 能力分為三個層級;AIF-C01 要求辨識每個服務屬於哪個層級。
第一層:預建 AI 服務(AI API)
完全託管、針對特定任務的 API。無需 ML 專業知識。範例:Amazon Rekognition(視覺)、Amazon Transcribe(語音轉文字)、Amazon Polly(文字轉語音)、Amazon Translate、Amazon Comprehend(NLP)、Amazon Textract(文件擷取)、Amazon Personalize(推薦)、Amazon Forecast、Amazon Kendra(智慧搜尋)、Amazon Lex(聊天機器人)。
第二層:自訂 ML 平台(Amazon SageMaker)
用於建置、訓練和部署自訂模型的端對端 ML 平台。包含 SageMaker Studio、Training Jobs、Endpoints、Pipelines、JumpStart、Canvas、Data Wrangler。當任務需要超越預建 API 的自訂邏輯時使用。
第三層:生成式 AI 平台(Amazon Bedrock + Amazon Q)
以託管方式存取 Foundation Models(Anthropic Claude、Amazon Titan、Meta Llama、Mistral、Cohere、Stability AI),並內建 Knowledge Bases、Agents、Guardrails 和 Model Evaluation 功能。Amazon Q 在 Foundation Model 能力之上,加入了目的性建置的助手(Q Business、Q Developer)。
選擇正確的層級
- 若預建 API 已能解決任務,從第一層開始。
- 若任務屬於生成式(內容創作、摘要、問答、程式碼),移至第三層。
- 只有當預建 API 和 Foundation Models 都不適合時,才移至第二層——你需要在自己的資料上建立一個客製化的自訂模型。
必記的關鍵數字與限制
AIF-C01 對一些能為 AI 與 ML 核心概念詞彙提供背景脈絡的典型數字給予獎勵。
AIF-C01 的 AI 與 ML 核心概念速查數字:
- 4 — AI → ML → DL → GenAI 層級體系的層數
- 7 — 核心詞彙術語數(模型、訓練、推論、特徵、標籤、參數、超參數)
- 3 — 誠實評估所需的資料集分割數(訓練集 / 驗證集 / 測試集)
- 60 / 20 / 20 — 常見(非強制)的訓練 / 驗證 / 測試比例
- 4 — 主要使用情境模式數(分類、回歸、分群、生成)
- 4 — 常見的分類評估指標數(準確率、精確率、召回率、F1)
- 7 — 資料品質的維度數(準確性、完整性、一致性、及時性、有效性、唯一性、相關性)
- 90 分鐘 — AIF-C01 考試時長
- 65 — AIF-C01 總題數(50 題計分 + 15 題不計分)
- 700 / 1000 — AIF-C01 及格分數
- USD 100 — AIF-C01 考試費用
- 3 年 — AIF-C01 重新認證前的有效期限
常見考試陷阱:AI/ML/DL 混用與 AGI 誤解
AIF-C01 積極利用五種與 AI 與 ML 核心概念相關的反覆出現陷阱模式。
陷阱一:AI ≡ ML ≡ 深度學習 ≡ GenAI
最常見的陷阱。答案選項將四個術語互換使用,期待你能注意到差異。每個情境只有一個正確的歸屬。使用同心圓的心理模型來排除錯誤選項。
陷阱二:參數與超參數定義互換
答案選項將兩者的定義對調。參數是訓練過程中學習而來的;超參數是人類在訓練前設定的。若某個選項聲稱「學習率是一個參數」,那就是錯的——學習率是超參數。
陷阱三:訓練與推論的成本和延遲混淆
混淆兩者的情境題,是為了懲罰只粗略瀏覽的考生。訓練昂貴、一次性、離線進行。推論每次呼叫成本低廉、持續運行、對延遲敏感。「降低對線上流量進行預測的成本」指向推論最佳化(較小的模型、Inferentia、Serverless),而非訓練基礎設施。
陷阱四:不平衡資料上的準確率已足夠
99.5% 準確率卻一件詐欺都沒抓到的詐欺偵測器。若題目強調類別不平衡,準確率就是錯誤的指標;精確率 / 召回率 / F1 才是正確的視角。
陷阱五:答案選項中出現 AGI
如前所述——沒有任何已部署的 AWS 服務是 AGI。任何聲稱具備 AGI 能力的答案都是錯的。
AI/ML/DL/GenAI 混用陷阱是 AIF-C01 出現頻率最高的錯誤。
當你看到四個答案選項如下:
- (A) 該系統使用 AI。
- (B) 該系統使用機器學習。
- (C) 該系統使用深度學習。
- (D) 該系統使用生成式 AI。
若情境描述的是 GenAI,四個選項可以同時為真(GenAI 就是深度學習,就是 ML,就是 AI)。考試要的是最精確的正確答案。套用「最內側正確圓圈」原則:選擇仍然成立的最精確標籤。提及 Foundation Models 和內容創作的情境應解析為 (D) GenAI,而非 (A) AI,即使 (A) 在技術上也是正確的。 Source ↗
分野說明:AIF-C01 辨識深度 vs AIP-C01 建置深度
AIF-C01 定位為面向商業利害關係人、專案經理、解決方案架構師和與 AI 工作負載互動的開發人員的基礎AWS 認證。它測試 AI 與 ML 核心概念詞彙的辨識層級能力——你能識別、分類並將情境對應到正確概念嗎?
AIP-C01(MLA / AI Engineer Associate 系列)測試建置層級能力——你能在 AWS 上實作、最佳化並操作 ML 和 GenAI 工作負載嗎?相同的概念出現在兩者中,但有更深入的實作細節:梯度計算、特定的超參數搜尋策略、SageMaker Pipelines 撰寫、Bedrock Agents 程式設計、微調工作的構建。
AIF-C01 對你的期望
- 辨識 AI/ML/DL/GenAI 層級體系。
- 識別模型、訓練、推論、特徵、標籤、參數、超參數。
- 在概念層級上說明層、權重與激活函數。
- 將情境對應到分類 / 回歸 / 分群 / 生成。
- 根據業務情境選擇正確的評估指標。
- 找出資料品質問題。
- 選擇正確的 AWS 層級(AI API vs SageMaker vs Bedrock)。
AIF-C01 不期望你做到的
- 撰寫反向傳播或梯度下降的程式碼。
- 設定 SageMaker 分散式訓練腳本。
- 用 Python 撰寫 Bedrock Agents 工具鏈。
- 使用 LoRA 微調 Foundation Model。
- 推導交叉熵損失函數的數學形式。
若你發現自己正在研究「不期望做到」清單中的任何項目,代表你已越界進入 AIP-C01 的領域。重新定向回 AIF-C01 的深度,繼續前進。
練習錨點:任務 1.1 概念辨識題型範本
與 AI 與 ML 核心概念相關的 AIF-C01 練習題集中在五種題型。完整的題目與詳解收錄在 ExamLab 題庫中。
範本 A:層級體系定位
某公司建立一個以 Amazon Bedrock 上的 Claude 為基礎的聊天機器人,根據提示產生行銷文案。以下哪個選項最能描述這項技術的類別?正確答案:生成式 AI。干擾選項聲稱「傳統 ML」或「泛義的窄域 AI」(過於模糊)。
範本 B:詞彙配對
一位資料科學家報告稱,調整學習率和訓練 epochs 數佔用了專案大部分的開發時間。哪個 ML 概念描述了這些數值?正確答案:超參數。干擾選項聲稱「參數」——錯誤,因為參數是學習而來的,而非選定的。
範本 C:指標選擇
某醫院建立一個模型,標記可能的腫瘤供放射科醫師審查。遺漏真實腫瘤的危害遠大於誤標一個假陽性。最佳化應優先考量哪個指標?正確答案:召回率。干擾選項聲稱「精確率」(會以遺漏腫瘤為代價減少假警報)或「準確率」(在不平衡資料上毫無用處)。
範本 D:資料集分割目的
某團隊訓練了一個模型,在訓練資料上得到 99% 的分數,但在保留的評估資料上只有 65%。最可能的解釋是什麼?正確答案:過擬合(模型死記了訓練資料)。這是訓練集與驗證集分數差距的典型信號。
範本 E:使用情境模式配對
某電商公司希望根據瀏覽行為將訪客分組,但沒有預先定義的類別。哪種 ML 模式適用?正確答案:分群(非監督式)。干擾選項聲稱分類(需要標籤)或回歸(需要數值目標)。
AI 與 ML 核心概念常見問題(FAQ)
AIF-C01 考試中 AI、ML 與深度學習的差異是什麼?
AI 是任何看起來具備智慧的系統的最外層傘狀概念。ML 是 AI 的子集,系統從資料中學習,而非遵循人工編碼的規則。深度學習是 ML 的子集,使用多層神經網路,在圖像、語音和語言任務上表現出色。生成式 AI 是一種由深度學習 Foundation Models 驅動的能力帶狀區域,能產生新內容。AIF-C01 要求你將任何給定的情境放入最小的正確圓圈,並辨識術語被互換使用的陷阱。
參數與超參數的差異是什麼?
參數是演算法在訓練過程中學習的數值權重——Foundation Model 內部有數十億個。超參數是人類在訓練開始前選定的數值:學習率、訓練 epochs 數、批次大小、隱藏層數、dropout 率。參數是訓練的產出;超參數是訓練的輸入。互換這兩個術語是 AIF-C01 最常見的陷阱模式之一,請反覆操練直到形成反射性記憶。
在 AIF-C01 考試中,何時應使用精確率 vs 召回率 vs F1 vs 準確率?
準確率僅在類別平衡且兩種錯誤類型代價相等時使用。精確率在假陽性代價高昂時使用(封鎖合法交易、診斷健康患者)。召回率在假陰性代價高昂時使用(遺漏真實癌症、未能標記真實詐欺)。F1 在不平衡資料上需要單一平衡指標時使用。情境措辭幾乎總能透露答案:「不要遺漏任何」→ 召回率;「不要誤報」→ 精確率;「不平衡且兩者都重要」→ F1。
AIF-C01 需要理解神經網路的數學嗎?
不需要。AIF-C01 僅在辨識層級測試神經網路基礎。你應該知道:網路有輸入層、隱藏層和輸出層;神經元有在訓練期間學習的權重和偏差;激活函數(ReLU、Sigmoid、Softmax、Tanh)引入非線性;訓練使用前向傳播加上反向傳播,而推論只使用前向傳播。你不會被要求推導梯度、計算矩陣乘法,或根據數學特性選擇特定的激活函數。那個深度屬於 AIP-C01 建置層級考試。
AWS 上批次推論與即時推論的差異是什麼?
即時推論透過 HTTPS 以毫秒延遲為單一請求提供預測——當使用者或應用程式正在等待時使用。AWS 介面:SageMaker 即時端點、Bedrock InvokeModel。批次推論以非同步方式對整個資料集執行預測並將結果寫入儲存空間——用於夜間評分、離線報告或延遲不重要的大型工作。AWS 介面:SageMaker Batch Transform、Bedrock Batch Inference。成本特性不同:即時端點在佈建期間持續收費,即使閒置也是如此;批次工作僅在執行期間收費。
為什麼 AIF-C01 如此強調資料品質?
因為無論是什麼模型架構、超參數搜尋或微調預算,都無法克服系統性有瑕疵的訓練資料。資料品質的七個維度——準確性、完整性、一致性、及時性、有效性、唯一性、相關性——直接決定了模型效能的天花板。AIF-C01 將資料品質與負責任的 AI(第四領域)連結,是因為資料偏見會轉化為模型偏見,進而在生產規模下轉化為不公平的結果。「垃圾進、垃圾出」不只是口號;它是所有真實世界 ML 結果的實證骨幹。
對於相同的概念,AIF-C01 與 AIP-C01 的範疇有何不同?
AIF-C01 是基礎性、辨識層級的認證:你能識別、分類並將情境對應到正確的 AI/ML 概念或 AWS 服務嗎?AIP-C01 是助理級、建置層級的認證:你能實作、調整並操作這些系統嗎?相同的詞彙出現在兩者中,但 AIF-C01 停在「說出概念名稱」,而 AIP-C01 則深入到「撰寫程式碼、選擇超參數、選定部署模式」。若你發現自己正在研究梯度推導、LoRA 微調配置或 SageMaker Pipelines SDK,代表你已漂移進入 AIP-C01 的領域。
生成式 AI 在 AIF-C01 上是獨立於核心 ML 概念的主題嗎?
生成式 AI 在 AIF-C01 上有自己的領域比重(24%,第二領域),但它建立在核心 ML 概念之上,若沒有核心 ML 概念就無法理解。每個生成式模型都是深度學習模型;每個深度學習模型都是 ML 模型;每個 ML 模型都依賴特徵、參數和訓練流程。AI 與 ML 核心概念主題是讓生成式 AI 領域變得可理解的基礎。預期會有跨領域的題目,這些題目會獎勵那些先內化核心詞彙的考生。
我應該使用什麼資料分割比例?AIF-C01 會測試特定的百分比嗎?
常見的分割是 60% 訓練 / 20% 驗證 / 20% 測試,或 70% / 15% / 15%,或 80% / 10% / 10%。AIF-C01 不測試精確的百分比——它測試每個分割的目的。訓練資料塑造模型的參數。驗證資料在開發過程中引導超參數的選擇。測試資料在所有開發工作完成後提供最終的、誠實的評估。若某個答案選項建議在相同資料上訓練和測試,那就是錯的。
Foundation Models 是否消除了理解核心 ML 概念的需求?
不——恰恰相反。Foundation Models 放大了核心概念的重要性,因為它們的規模意味著資料品質、評估嚴謹性和指標選擇會轉化為更龐大的下游影響。在帶有偏見的文字上訓練的 Foundation Model 會將該偏見傳播給數百萬名下游使用者。僅以準確率評估的 RAG 管道(而非以忠實度 + 上下文精確率 + 上下文召回率)將錯過最關鍵的失敗模式。AIF-C01 刻意將生成式 AI 疊加在核心概念之上,正是因為風險會隨著模型規模擴大,而跳過基礎知識的考生將無法負責任地推理這些風險。
延伸閱讀
- AWS AIF-C01 Exam Guide v1.0: https://d1.awsstatic.com/training-and-certification/docs-ai-practitioner/AWS-Certified-AI-Practitioner_Exam-Guide.pdf
- AWS Cloud Adoption Framework for AI, ML, and Generative AI: https://docs.aws.amazon.com/whitepapers/latest/aws-caf-for-ai/aws-caf-for-ai.html
- AWS Overview — Machine Learning on AWS: https://docs.aws.amazon.com/whitepapers/latest/aws-overview/machine-learning.html
- Amazon Machine Learning Developer Guide — ML Concepts: https://docs.aws.amazon.com/machine-learning/latest/dg/machine-learning-concepts.html
- SageMaker Model Quality Metrics: https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor-model-quality-metrics.html
- AWS AI/ML Services Overview: https://aws.amazon.com/machine-learning/
- Amazon Bedrock User Guide: https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html
Related ExamLab topics: 監督式、非監督式與強化學習, 過擬合、偏差與變異數, ML 開發生命週期, 生成式 AI 概念, Foundation Models 與 LLMs.