Transformer 模型與 LLM — Generative AI Leader 考試筆記

Q: Generative AI Leader 考試需要理解 Transformer 背後的數學嗎？

答： 不需要。Generative AI Leader 考試是一項 非技術性、策略性 認證。你需要的是 詞彙與直覺 ——注意力機制在概念上做什麼、token 與上下文視窗是什麼、基礎模型與指令微調模型有何差異——而非方程式或架構圖。考試測驗的是你能否做出關於採用 GenAI 的合理商業決策、選擇正確的 Gemini 模型、估算成本，以及向利害關係人解釋技術。數學深度是 Professional Machine Learning Engineer 等技術認證的關注範疇，不屬於本認證。

Q: Transformer 和 LLM 的差別是什麼？

答： Transformer 是模型的 架構 ——底層設計，由 Google 研究人員於 2017 年提出，使用注意力機制平行處理輸入。**LLM（大型語言模型）**是將超大型 Transformer 在海量文字上訓練後所得到的產物。簡言之，Transformer 是引擎設計，LLM 是依據該設計打造的一台特定的、非常大的引擎。Gemini 是一個 LLM——事實上是一個多模態 LLM——建立在 Transformer 架構上，透過 Vertex AI 提供服務。

Q: 什麼是 token，它為何影響 Google Cloud 的帳單？

答： token 是模型實際處理的文字片段——對英文而言大約是四個字元，即每 75 個英文字約 100 個 token。 Vertex AI 上的 GenAI 以 token 計費 ，對提示中的 輸入 token 與回應中的 輸出 token 分別收費。因此，提示越長、回應越冗長，費用就越高。 上下文視窗 ——模型一次能處理的最大資料量——也以 token 衡量。理解 token 對於準確為任何 GenAI 專案編列預算至關重要。

Q: Gemini「多模態」是什麼意思？

答： 多模態 意味著 Gemini 能夠接收並推理多種類型的資料—— 文字、圖片、音訊與影片 ——而不只是文字。Gemini 被設計為 原生多模態 ，能夠共同處理這些模態，而非透過附加元件實現。透過 Vertex AI，這意味著單一模型就能摘要文件、分析照片、轉錄並評估客服通話，以及針對影片素材進行推理。這在策略上至關重要，因為大多數企業資料不是整潔的文字，因此多模態模型省去了許多獨立專用系統的需要。

Q: 基礎模型和指令微調模型的差別是什麼？

答： 基礎模型 只經過 預訓練 ——它學會預測下一個 token，因此知識豐富，但可能忽略或只是回應你的指令。 指令微調模型 接受了額外訓練，能夠解讀請求並以有益且安全的方式回應。幾乎所有商業使用者互動的模型，包括透過 Vertex AI 供一般使用的 Gemini 模型，都是 指令微調且安全對齊 的。對於幾乎所有商業使用情境，指令微調模型是正確的預設選擇；基礎模型主要由打算在專屬資料上進行微調的進階團隊使用。

Q: Gemini 的上下文視窗有多大，為什麼重要？

答： Gemini 1.5 Pro 與 Gemini 2.0 系列支援非常大的上下文視窗—— 最多一百萬 token ，部分設定可達兩百萬。一百萬 token 約等於 70 萬個英文字、幾本長篇小說，或約一小時的影片內容。這很重要，因為上下文視窗決定了哪些使用情境是可行的：大型視窗讓你能在單一請求中分析整份合約、完整程式碼庫或長篇會議錄音，而不必建立更複雜的系統將內容切割成片段。對於法律、保險、金融等文件密集型產業，上下文視窗大小是模型選型的關鍵標準。

本章節涵蓋範圍

在 Google Cloud Generative AI Leader 考試中，你不需要閱讀研究論文或背誦神經網路架構圖。你需要的是詞彙與直覺——足以在策略會議中，聽懂廠商、資料科學團隊或 Google Cloud 架構師談到「Transformer」、「LLM」、「token」、「上下文視窗」或「指令微調」時，確切理解他們在說什麼。

本章節以商業領袖的語言，解釋驅動現代 GenAI 的核心技術。我們將涵蓋：Transformer 架構在概念層次上是什麼、注意力機制為何如此重要、大型語言模型（LLM）究竟是什麼、token 與上下文視窗如何決定模型能做什麼、參數數量與模型大小為何重要、預訓練與你在產品中看到的精緻聊天體驗之間的關鍵差異、多模態的意涵，以及基礎模型與指令微調模型行為上的根本差異。全程以 Google 的旗艦多模態 LLM 家族 Gemini，以及企業存取這些模型的平台 Vertex AI 作為具體依據。

Generative AI Leader 考試是一項非技術性、策略性認證。它測試你能否就採用 GenAI 做出正確決策——選擇合適的模型、估算成本、理解限制，並向高階主管與利害關係人解釋技術。理解 Transformer 與 LLM 的概念層次，是所有其他章節的基礎。

為什麼「Transformer」是改變一切的那個詞

2017 年以前，電腦處理語言的方式是逐字、按嚴格順序讀取，就像透過一條只能顯示一個字的細縫閱讀句子。這種方式既緩慢又健忘——當系統讀到一段長落的末尾時，幾乎已經遺忘了開頭的內容。

Transformer 是一種模型架構，由 Google 研究人員在 2017 年一篇名為《Attention Is All You Need》的論文中提出，解決了上述問題。Transformer 不再強制從左到右逐字閱讀，而是能夠同時觀察輸入中的每一個字，並針對每個字，判斷哪些其他字對其語意最為相關。這種平行處理文字、並能權衡跨長距離關係的能力，正是現代 GenAI 得以實現的根本原因。

幾乎所有知名的現代 AI 模型——Google 的 Gemini、聊天助理、程式碼助理、圖像生成器背後的模型——都建立在 Transformer 架構上。當有人說「LLM」，幾乎一定是指基於 Transformer 的模型。對於 Generative AI Leader 考試，你應該能夠清楚陳述：Transformer 是底層架構；LLM 是在大量文字上訓練了非常大的 Transformer 之後所得到的產物。

Transformer 是一種神經網路架構，能夠一次性處理整個輸入序列，並透過注意力機制來衡量每一個輸入片段與其他所有片段之間的關聯強度。它取代了舊有的序列式架構，因為它訓練更快，且能更好地處理長距離關係。Gemini 是 Google 的旗艦模型家族，是一種基於 Transformer 的多模態模型，可透過 Vertex AI 存取。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/overview。

注意力機制——模型決定什麼才重要

核心概念

Transformer 內部最重要的概念是注意力（attention）。用白話說：模型衡量哪些字對哪些其他字是重要的。

具體範例

以這句話為例：「銀行批准了貸款，因為它有良好的信用紀錄。」「它」這個詞是模糊的——「它」指的是銀行還是貸款？人類讀者立刻就知道「它」指的是貸款，因為有周圍的上下文。注意力機制做的是同樣的事：當模型處理「它」這個字時，它給「貸款」分配一個高注意力權重，給「銀行」分配一個低權重，效果上就是在說「為了理解這個字，請主要關注『貸款』。」

為什麼注意力機制能擴展至長文件

注意力對每個字與其他所有字都執行運算，產生豐富的關係地圖。這就是為什麼 Transformer 能夠追蹤長文件第一頁出現的人物、正確解析代名詞，並遵循複雜指令。你不需要了解數學——你只需要掌握直覺：**注意力是模型動態判斷哪些上下文具有關聯性的機制。**當 Gemini 針對你上傳的一份 100 頁合約精確回答問題時，正是注意力機制讓它得以將接近末尾的條款，連結回接近開頭的定義。

白話文解釋

Transformer 與 LLM 聽起來很抽象，但其核心行為可以清晰地對應到日常熟悉的情境。以下三個類比各自從不同角度說明 Gemini 這樣的 Transformer 模型如何運作，以及透過 Vertex AI 存取時的行為。

類比一——捷運行控中心：每個訊號都有權重

想像台北捷運行控中心。值班的控制員同時監看幾十個車站的螢幕。當某一站的廣播說出「緊急停車」，控制員立刻重新配置注意力：相鄰兩站的訊號突然變得極為重要，遠端維修班的無線電頻道幾乎可以先忽略。沒有任何訊號被完全遮蔽，但每個訊號的重要程度，都根據當下正在處理的那個「關鍵字」即時重新計算。

這正是 Transformer 內部注意力機制的運作方式。每個字（每個「訊號來源」）都能看到其他所有字，而模型針對每個字計算出一組權重，意思是「為了理解這個字，其他每個字各佔多少份量。」Gemini 在 Vertex AI 上處理你的提示時，就是在平行執行成千上萬次這樣的加權比較。結果是，模型理解「緊急停車」時，不是孤立地理解，而是在完整的對話脈絡中理解。這就是為什麼 Transformer 能如此出色地處理複雜的商業文件——它從不透過細縫閱讀，而是始終將整個行控中心的全貌收入眼底，並為每一個字重新配置整個房間的注意力。對商業領袖而言，重點在於：模型品質在很大程度上取決於它衡量上下文的能力，而那正是注意力機制所提供的特性。

類比二——24 小時便利商店店員：有限的工作記憶

想像一位深夜班的便利商店店員，同時應對三位顧客：一位詢問微波時間、一位要找特定飲料、一位結帳找零。店員不會逐字背下每個請求，而是快速抓住每句話的重點、在腦中保留關鍵資訊、再給出流暢的回應。但如果顧客絡繹不絕講了十分鐘，店員也會開始遺忘最早的細節——畢竟工作記憶有限。

大型語言模型的行為就像這位店員。它不是從資料庫查找固定答案，而是處理你的輸入、衡量重要之處，再一個 token 接一個 token 地生成全新的回應。就像店員的工作記憶，模型有一個上下文視窗——一次請求中能同時容納的最大輸入加輸出量。Gemini 在 Vertex AI 上提供非常大的上下文視窗（Gemini 1.5 Pro 與 Gemini 2.0 系列支援最多一百萬 token，部分設定甚至可達兩百萬），就像一位記憶力超凡的店員，能同時記住整本食譜手冊或一段長達數小時的通話紀錄。但視窗仍然是有限的。超過限制後，最早的內容就會消失——模型真的再也「聽不到」那部分了。理解這個限制，對任何規劃 GenAI 專案的領袖而言都至關重要。

類比三——圖書館參考館員：依整段對話推薦

走進圖書館，告訴參考館員：「我女兒十二歲，上個月喜歡看奇幻系列，但覺得有點嚇人；她下週有一份海洋生物學的學校報告要交。」一位優秀的館員不會只針對最後一個字回應，而是同時衡量整個請求——年齡、過去的偏好、「有點嚇人」的限制、學校截止日期——推薦出符合所有條件的書目。

這正是 指令微調 LLM（例如透過 Vertex AI 提供的 Gemini 模型）的行為模式。原始的基礎模型更像是一位讀遍天下所有書，卻從未學過如何服務讀者的館員——問它一個問題，它可能只是續寫你的句子，或背誦相關文字，因為它在預訓練期間學到的只是預測下一個字。指令微調是額外的訓練，教會模型接收請求、衡量所有細節、並以有益且安全的方式回應——讓它表現得像一位以服務為本的館員，而不只是一部會走路的百科全書。你在產品中見到的精緻聊天體驗，正是在基礎模型上疊加這種微調與安全對齊的結果。對 Generative AI Leader 考試而言，這個類比掌握了最常被測驗的核心區別：基礎模型預測文字；指令微調模型遵從指令。

什麼是大型語言模型（LLM）？

大型語言模型是基於 Transformer 的模型，在龐大的文字語料庫上訓練——書籍、文章、網站、程式碼等等——從而學習語言的統計規律。LLM 的核心做的是一件看似簡單、卻深藏玄機的事：**給定一段文字，預測最可能出現的下一段文字。**透過反覆執行這件事，它就能撰寫段落、回答問題、摘要文件、翻譯語言，以及生成程式碼。

「大」究竟指的是什麼

「大」同時指兩件事：訓練資料的規模（通常是數兆個字）和模型包含的參數數量。兩者都極為龐大，正是這種規模賦予了模型出人意料的廣泛能力——一種常被稱為**湧現行為（emergent behavior）**的特性：推理或翻譯等能力，僅僅因為模型足夠大、訓練資料足夠多，就自然浮現出來。

為什麼 LLM 是基礎模型

對於 Generative AI Leader 考試，你應該能夠自信地說：LLM 是語言的基礎模型（foundation model）。它之所以是「基礎性的」，是因為它並非為單一狹窄任務而建——單一的 LLM（如 Gemini）就能同時驅動聊天機器人、摘要工具、程式碼助理和內容生成器。企業透過 Vertex AI 存取這些基礎模型，Gemini 與其他模型都可在 Model Garden 中取得。要理解這與舊有方法的差異，可比較生成式 AI 與傳統 ML 章節——舊時代每個任務都需要獨立訓練一個模型。

Token——模型真正使用的基本單位

人與 LLM 的溝通是用文字與句子，但模型實際上並不以文字為單位運作。它以 token 為單位。token 是一段文字——有時是一整個詞，有時是詞的一部分，有時是單一字元或標點符號。對英文而言，粗略的經驗法則是：**一個 token 約等於四個字元，100 個 token 約等於 75 個英文字。**其他語言（包括中文）的 token 化方式可能不同，通常每個可見字元需要更多 token。

商業領袖為何需要關注 token

商業領袖為何需要關心 token？有三個原因：

計費。 Vertex AI 上的 GenAI 以 token 計費——你為輸入 token（你的提示）和輸出 token（模型的回應）付費。提示越長或回應越冗長，費用就越高。理解 token，就是理解你的帳單。
限制。 上下文視窗以 token 而非字數衡量。當 Google 說 Gemini 1.5 Pro 支援一百萬 token 的上下文視窗，那大約是 70 萬個英文字，相當於幾本長篇小說，或約一小時的影片內容。
效能。 需要處理的 token 越多，回應通常越慢、成本越高。簡潔的提示不只是整齊——它更便宜、更快速。

模型以 token 為單位運作，而非文字。 對英文而言，約 1 token ≈ 4 個字元，100 token ≈ 75 個英文字。Vertex AI 上的 GenAI 分別對輸入 token 與輸出 token 計費。上下文視窗——模型一次能處理的最大輸入加輸出量——以 token 衡量。Gemini 1.5 Pro 與 Gemini 2.0 系列提供最多 100 萬 token 的上下文視窗（部分設定可達 200 萬）。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/overview。

上下文視窗——模型的工作記憶

上下文視窗的內容

上下文視窗是模型在單一請求中能夠考量的最大資訊量——包括你的提示、你附上的任何文件、對話歷史，以及模型本身的回應。可以把它想成模型的短期工作記憶。

視窗大小如何決定可行的使用情境

這個概念對商業領袖而言是最具實際意義之一，因為它直接決定哪些使用情境是可行的：

小型上下文視窗（數千 token）適用於簡短聊天和快速任務，但無法容納完整的合約。
大型上下文視窗（數十萬乃至百萬 token）讓以前不可能的事情成為可能：將整份 300 頁的財務報告放入單一提示並要求摘要、分析完整程式碼庫，或處理一小時的會議錄音。

為什麼上下文視窗是暫時的

Gemini 超大的上下文視窗是這個家族在商業上的突出優勢之一。評估在文件密集型產業（法律、保險、金融）應用 GenAI 的領袖，應特別留意上下文視窗的大小，因為它決定了公司是否能一次性分析完整文件，還是必須建立更複雜的系統將文件切割成片段。

重要的是，上下文視窗是暫時的。一旦請求結束，模型就不再記得它。模型不會以任何持久的方式從你的對話中「學習」。若你需要模型持久了解你的業務知識，那需要另一種稱為**接地（grounding）或檢索增強生成（retrieval-augmented generation）**的技術，在Gemini 模型與功能章節中有更詳細的說明。

參數與模型大小——越大不一定越好

什麼是參數

當人們描述一個 LLM「擁有數十億個參數」時，參數是模型內部在訓練過程中被調整的可調整數值。你可以粗略地把參數想成模型用來編碼所有已學知識的旋鈕。參數越多，通常意味著模型有越大的容量來捕捉細微差異、推理能力與廣泛知識。

為什麼 Gemini 提供多種大小

但對商業領袖而言，關鍵洞察是：更大的模型對你的使用情境而言不一定更好。更大的模型每個 token 成本更高、回應更慢，而且可能大材小用。這就是為什麼 Google 提供針對不同需求調校的多種大小Gemini：

Gemini Flash——更小、更快、成本更低，針對高頻量、對延遲敏感的任務最佳化，例如大規模聊天、分類和摘要。
Gemini Pro——更大、能力更強，適用於複雜推理、細緻分析和高要求的多模態任務。

Generative AI Leader 考試測驗的技能是合理選型（right-sizing）：選擇仍能達到品質門檻的最小、最便宜的模型。處理數百萬個簡單查詢的客服 FAQ 機器人，大概應該使用 Gemini Flash；分析複雜法律論點的工具，則應使用 Gemini Pro。為求「保險」而預設使用最大模型，是一個常見且代價高昂的錯誤。

規劃 GenAI 專案時，從較小、較便宜的模型開始（例如 Gemini Flash），只有在測量品質不達標時，才升級至更大的模型（例如 Gemini Pro）。由於 Vertex AI 以 token 計費，而較大的模型每個 token 成本更高且速度更慢，預設使用最大模型可能在沒有任何實質效益的情況下，同時讓成本與延遲倍增。合理選型是 Generative AI Leader 能做出的槓桿效益最高的成本決策之一。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash。

預訓練與聊天體驗——兩件截然不同的事

一個常見的混淆是，以為你互動的聊天機器人就是那個 LLM。其實不然——聊天體驗是在原始模型之上，經歷多個階段後打造出的最終精緻產品。理解這個流程，有助於領袖理解為什麼模型品質參差不齊，以及為什麼打造出色的 AI 產品不只是「挑一個模型」那麼簡單。

第一階段——預訓練

預訓練是第一個也是最昂貴的階段。模型被餵入龐大的文字語料庫，純粹透過反覆預測下一個 token，學習語言的規律、世界的知識、推理結構和程式碼慣例。預訓練可能需要在數千個專用晶片（Google 使用自家的 TPU）上耗費數週乃至數月，成本極為龐大。結果是一個基礎模型（也稱為 foundation model 或預訓練模型）。它知識豐富，但仍是原始的——它知道如何續寫文字，不一定知道如何提供幫助。

第二階段——指令微調

接著，基礎模型在指令與優質回應的配對範例上進行微調。這教會模型解讀請求並給予有益的回應，而不只是續寫提示。輸出的結果是一個指令微調模型。

第三階段——對齊與安全

模型進一步精煉——通常透過人類回饋——使其更有幫助、更誠實、更無害，並加入安全過濾器以攔截危險或不當內容。Vertex AI 正是因此提供了可設定的安全設定。

第四階段——產品體驗

最後，調校並對齊過的模型被包裝成產品：聊天介面、API、對話記憶、企業資料接地，以及使用者體驗。Gemini 應用程式和 Google Workspace 中的 Gemini 是產品；透過 Vertex AI API 存取的 Gemini 模型，則是底層的引擎。

考試要點：**預訓練產生基礎模型；指令微調與對齊將它變成可用的東西；聊天產品是包裝層。**當你透過 Vertex AI 呼叫 Gemini 時，你使用的是已經完成指令微調、已經完成對齊的模型——Google 已替你完成了第一到第三階段。

基礎模型與指令微調模型

這個區別值得獨立成節，因為它在考試中頻繁出現且常被誤解。

基礎模型的行為

基礎模型只經過預訓練。給它提示「寫一封有禮貌地婉拒會議的電子郵件」，它可能只是繼續這個句子——「寫一封有禮貌地婉拒會議的電子郵件，以及另一封接受會議的電子郵件」——因為它學到的只是預測合理的下一段文字。它強大，但不聽話。

指令微調模型的行為

指令微調模型接受了額外訓練以遵從指令。給它同樣的提示，它會產出一封真正有禮貌的婉拒電子郵件。幾乎所有商業使用者互動的 GenAI 模型——包括透過 Vertex AI 供一般使用的 Gemini 模型——都是指令微調過的。這正是讓它們感覺智慧且合作的原因。

何時直接使用基礎模型才是正確選擇

什麼時候才有人會直接使用基礎模型？主要是打算在自有專屬資料上進行微調、用於特殊任務的進階團隊。對於絕大多數商業使用情境，**指令微調模型是正確的預設選擇。**若考題描述一個「只是繼續文字而不遵從請求」的模型，那個情境描述的就是基礎模型，解決方法是改用指令微調版本。

對幾乎所有商業使用情境而言，請選擇指令微調模型，而非基礎模型。基礎模型只經過預訓練——它預測下一個 token，可能忽略或只是回應你的指令。指令微調模型已被訓練成能夠解讀請求並以有益且安全的方式回應。透過 Vertex AI 供一般使用的 Gemini 模型已經過指令微調與安全對齊，因此 Generative AI Leader 不需要執行預訓練或指令微調——這些工作已完成。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/overview。

什麼是「多模態」

早期的 LLM 只能處理文字。多模態模型可以接收並跨多種類型的資料進行推理——文字、圖片、音訊與影片——不受限於單一輸入格式。

**Gemini 從一開始就被設計為原生多模態。**這是一個重要的區別：Gemini 不是在文字模型上附加圖片模組，而是被建構為能夠同時理解不同模態。在實際操作上，透過 Vertex AI 你可以：

傳送一張產品貨架的照片，請 Gemini 列出現有庫存。
上傳一份 PDF 或掃描文件，要求摘要或提取特定欄位。
提供一段客服通話的音訊錄音，要求情緒分析與文字稿。
給 Gemini 一段製造流程的影片，要求標記出現瑕疵的時間點。
混合模態——在同一個提示中同時展示一張圖片並提出文字問題。

對商業領袖而言，多模態大幅擴展了可解決問題的範圍，因為大多數真實的企業資料並非整齊的文字——而是發票、照片、錄音和影片素材。一個能夠原生處理所有這些資料的模型，省去了建立多套獨立專用系統的需要。這是 Gemini 最具策略重要性的能力之一，在Gemini 模型與功能章節中有更深入的探討。

多模態意味著模型能夠在單一請求中接收並推理多種類型的資料——文字、圖片、音訊與影片。Gemini 原生支援多模態，被設計為能夠共同處理這些模態，而非透過附加元件實現。透過 Vertex AI，這讓單一模型就能摘要文件、分析照片、轉錄通話，以及針對影片進行推理。對 Generative AI Leader 而言，多模態是讓 GenAI 能夠應用於真實企業中雜亂非文字資料的關鍵。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/overview。

這些概念如何拼湊在一起

將詞彙組合成單一心智模型很有幫助：

Transformer 是架構——引擎的設計圖。
注意力機制是 Transformer 內部的核心技巧，讓它能夠衡量輸入的哪些部分最重要。
LLM 是在龐大文字上訓練出的超大型 Transformer；它是一種基礎模型。
模型以 token 為單位運作，上下文視窗決定了它一次能考量多少 token。
參數衡量模型容量；模型大小在能力與成本、速度之間取捨，這就是為什麼 Gemini 提供 Flash 和 Pro 等不同大小。
預訓練產生原始的基礎模型；指令微調與對齊將它變成有益且安全、能遵從指令的模型。
多模態意味著它能共同處理文字、圖片、音訊與影片——這是 Gemini 的決定性優勢。
聊天體驗是包裝在已調校模型外部的產品層。

掌握這個架構，Generative AI Leader 就能閱讀任何廠商提案或架構建議書，並立刻理解所提供的內容。下一步是學習如何實際與這些模型溝通，這是提示工程基礎章節的主題。

領袖必須了解的常見限制

Transformer 與 LLM 很強大，但它們不是魔法，一位有公信力的領袖會設定務實的預期：

幻覺（Hallucination）。 由於 LLM 生成的是統計上最合理的下一個 token，它可能產出自信但錯誤的陳述。將模型接地於可信賴的資料可降低此風險。
知識截止日期。 模型只知道訓練資料截止日期前包含的內容。除非連接至即時資料，否則它不會自動知道昨天的新聞。
上下文視窗限制。 即使是百萬 token 的視窗也是有限的；超大輸入可能塞不進去。
規模化成本。 以 token 計費意味著高頻量應用需要謹慎的成本建模與模型合理選型。
沒有真正的理解。 模型是一個極其複雜的模式預測器，而不是有意識的推理者。它可能以人類專家不會犯的方式出錯。

一個常見且代價高昂的誤解是，以為 LLM「什麼都知道而且永遠正確。」LLM 生成的是統計上最合理的文字，這意味著它可能產生幻覺——以十足的自信陳述錯誤資訊——而且它有知識截止日期，因此除非明確連接至即時或企業資料，否則它不知道近期事件。在金融、法律或醫療等受監管領域，將原始模型輸出視為已驗證的事實，是嚴重的治理失職。解決方法是將模型接地於可信賴的來源，並保持人工參與，而非假設模型是先知。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/overview。

為什麼這對 Generative AI Leader 職能至關重要

Generative AI Leader 不負責訓練模型或撰寫生產環境中的提示。Generative AI Leader 做的是決策：標準化採用哪個模型大小、如何為 token 成本編列預算、在上下文視窗限制下哪些使用情境是現實可行的、如何降低幻覺風險，以及如何向高階主管和董事會解釋這一切。

上述每一個決策，都取決於本章節涵蓋的概念。若不理解 token，你無法估算成本。若不理解上下文視窗，你無法規劃文件分析專案的範疇。若不理解模型大小的取捨，你無法在 Gemini Flash 和 Gemini Pro 之間做出選擇。若不理解指令微調與對齊，你無法設定安全預期。若不理解原生多模態的意義，你無法評估 Gemini 的競爭定位。

掌握這些詞彙，Generative AI Leader 課程中其餘所有章節——Gemini 的特定功能、提示工程、負責任 AI 與企業採用——都將變得更容易吸收。

常見問題

Generative AI Leader 考試需要理解 Transformer 背後的數學嗎？

答：不需要。Generative AI Leader 考試是一項非技術性、策略性認證。你需要的是詞彙與直覺——注意力機制在概念上做什麼、token 與上下文視窗是什麼、基礎模型與指令微調模型有何差異——而非方程式或架構圖。考試測驗的是你能否做出關於採用 GenAI 的合理商業決策、選擇正確的 Gemini 模型、估算成本，以及向利害關係人解釋技術。數學深度是 Professional Machine Learning Engineer 等技術認證的關注範疇，不屬於本認證。

Transformer 和 LLM 的差別是什麼？

答： Transformer 是模型的架構——底層設計，由 Google 研究人員於 2017 年提出，使用注意力機制平行處理輸入。**LLM（大型語言模型）**是將超大型 Transformer 在海量文字上訓練後所得到的產物。簡言之，Transformer 是引擎設計，LLM 是依據該設計打造的一台特定的、非常大的引擎。Gemini 是一個 LLM——事實上是一個多模態 LLM——建立在 Transformer 架構上，透過 Vertex AI 提供服務。

什麼是 token，它為何影響 Google Cloud 的帳單？

答： token 是模型實際處理的文字片段——對英文而言大約是四個字元，即每 75 個英文字約 100 個 token。Vertex AI 上的 GenAI 以 token 計費，對提示中的輸入 token 與回應中的輸出 token 分別收費。因此，提示越長、回應越冗長，費用就越高。上下文視窗——模型一次能處理的最大資料量——也以 token 衡量。理解 token 對於準確為任何 GenAI 專案編列預算至關重要。

Gemini「多模態」是什麼意思？

答： 多模態意味著 Gemini 能夠接收並推理多種類型的資料——文字、圖片、音訊與影片——而不只是文字。Gemini 被設計為原生多模態，能夠共同處理這些模態，而非透過附加元件實現。透過 Vertex AI，這意味著單一模型就能摘要文件、分析照片、轉錄並評估客服通話，以及針對影片素材進行推理。這在策略上至關重要，因為大多數企業資料不是整潔的文字，因此多模態模型省去了許多獨立專用系統的需要。

基礎模型和指令微調模型的差別是什麼？

答： 基礎模型只經過預訓練——它學會預測下一個 token，因此知識豐富，但可能忽略或只是回應你的指令。指令微調模型接受了額外訓練，能夠解讀請求並以有益且安全的方式回應。幾乎所有商業使用者互動的模型，包括透過 Vertex AI 供一般使用的 Gemini 模型，都是指令微調且安全對齊的。對於幾乎所有商業使用情境，指令微調模型是正確的預設選擇；基礎模型主要由打算在專屬資料上進行微調的進階團隊使用。

Gemini 的上下文視窗有多大，為什麼重要？

答： Gemini 1.5 Pro 與 Gemini 2.0 系列支援非常大的上下文視窗——最多一百萬 token，部分設定可達兩百萬。一百萬 token 約等於 70 萬個英文字、幾本長篇小說，或約一小時的影片內容。這很重要，因為上下文視窗決定了哪些使用情境是可行的：大型視窗讓你能在單一請求中分析整份合約、完整程式碼庫或長篇會議錄音，而不必建立更複雜的系統將內容切割成片段。對於法律、保險、金融等文件密集型產業，上下文視窗大小是模型選型的關鍵標準。

摘要：Transformer 與 LLM——Generative AI Leader 的必備知識

領導 GenAI 策略不需要成為工程師——但你確實需要掌握詞彙。Transformer 是改變 AI 的架構，注意力機制是其核心技巧：模型動態衡量哪些字詞重要。LLM 是在海量文字上訓練出的超大型 Transformer，以 token 為單位在有限的上下文視窗中運作。參數定義容量，模型大小在能力與成本之間取捨——這就是為什麼 Gemini 提供 Flash 和 Pro 等不同大小。預訓練產生原始的基礎模型；指令微調與對齊使它有益且安全；聊天體驗是產品包裝層。多模態能力——Gemini 原生處理文字、圖片、音訊與影片的能力——擴展了 GenAI 能解決的問題範圍。牢記各項限制：幻覺、知識截止日期，以及以 token 計費的成本。有了這個基礎，Generative AI Leader 課程中所有其他章節都將更容易掌握。

本章節涵蓋範圍

為什麼「Transformer」是改變一切的那個詞

注意力機制——模型決定什麼才重要

核心概念

具體範例

為什麼注意力機制能擴展至長文件

白話文解釋

類比一——捷運行控中心：每個訊號都有權重

類比二——24 小時便利商店店員：有限的工作記憶

類比三——圖書館參考館員：依整段對話推薦

什麼是大型語言模型（LLM）？

「大」究竟指的是什麼

為什麼 LLM 是基礎模型

Token——模型真正使用的基本單位

商業領袖為何需要關注 token

上下文視窗——模型的工作記憶

上下文視窗的內容

視窗大小如何決定可行的使用情境

為什麼上下文視窗是暫時的

參數與模型大小——越大不一定越好

什麼是參數

為什麼 Gemini 提供多種大小

預訓練與聊天體驗——兩件截然不同的事

第一階段——預訓練

第二階段——指令微調

第三階段——對齊與安全

第四階段——產品體驗

基礎模型與指令微調模型

基礎模型的行為

指令微調模型的行為

何時直接使用基礎模型才是正確選擇

什麼是「多模態」

這些概念如何拼湊在一起

領袖必須了解的常見限制

為什麼這對 Generative AI Leader 職能至關重要

常見問題

Generative AI Leader 考試需要理解 Transformer 背後的數學嗎？

Transformer 和 LLM 的差別是什麼？

什麼是 token，它為何影響 Google Cloud 的帳單？

Gemini「多模態」是什麼意思？

基礎模型和指令微調模型的差別是什麼？

Gemini 的上下文視窗有多大，為什麼重要？

摘要：Transformer 與 LLM——Generative AI Leader 的必備知識

官方資料來源

更多 GENAI-LEADER 主題