幻覺與模型限制 — Generative AI Leader 學習筆記

Q: 大型語言模型為何會產生幻覺？

答： 因為它們的運作方式就是如此。LLM 被訓練為生成你的提示在統計上最合理的接續文字，而不是在資料庫中查找答案。當模型對某個主題有充足的訓練訊號時，合理的與正確的通常是同一件事。當它沒有時，它仍然產出流暢、語法正確的文字——而那個流暢但錯誤的輸出，就是幻覺。這是生成式模型的結構性特性，因此緩解措施著重於接地與監督。

Q: 知識截止點是什麼，為何重要？

答： 知識截止點是模型訓練資料結束的日期。在那個日期之後，模型一無所知——不了解近期新聞、新法規或昨天變更的價格——且它沒有感知到時間流逝的能力，因此會自信地呈現過時的資訊。其重要性在於許多有價值的使用場景需要最新資訊。Google Cloud 的解決方案是將模型接地到即時來源，例如 Google Search 或 Vertex AI Search 中的自有資料。

Q: 如果 Gemini 的答案聽起來自信且詳盡，我可以信任它嗎？

答： 不行——自信不是證據。LLM 的權威語氣是由產生幻覺的同一個下一個語元預測過程所生成，因此它不攜帶任何關於事實準確性的資訊。聽起來自信的答案與正確的答案是不同的事物。對於任何高風險輸出，請要求引用來源，讓人類能驗證其依據，並在輸出發布或採取行動之前，進行相稱的人工審查。

Q: 幻覺可以被完全消除嗎？

答： 不能完全消除。由於幻覺是生成式模型預測文字方式的結構性特徵，無法被完全移除，但可以大幅降低。接地與 RAG 將答案錨定到真實來源，引用來源使驗證快速進行，謹慎的提示設計減少錯誤，人工審查補捉剩餘問題。Generative AI Leader 的目標是將殘留風險降低到特定使用場景可接受的程度，而非追求一個無法實現的零。

Q: 生成式 AI 在何時不應成為決策者？

答： 生成式 AI 絕不應成為高風險輸出的唯一、未受監督的決策者——任何影響健康、安全、法律權利、財務、就業或受監管資格的事項皆然。在這些領域，模型應負責起草、摘要與提案，由合格的人員審查、驗證並承擔最終決策責任。腦力激盪或內部起草等低風險用途可以在較輕度的監督下運行。將人工審查的程度與風險程度相匹配，是領導者的核心判斷。

Q: 幻覺、偏誤與非決定性有何不同？

答： 它們是三種截然不同的模型限制。幻覺是以自信口吻陳述的捏造或錯誤事實。訓練資料偏誤是模型反映其來源資料中繼承而來的不公平模式或空缺。非決定性是模型對相同提示產生不同答案，因為它在選擇詞語時進行隨機取樣。三者都會損害信任，Generative AI Leader 應能分別說明每一種及其緩解措施，而非將所有問題統稱為「幻覺」。

幻覺與模型限制對 GenAI Leader 的意義

在 Google Cloud Generative AI Leader 考試中，幻覺與模型限制並非冷僻的技術注腳，而是組織能否安全且獲利地導入生成式 AI 的核心關鍵。幻覺是指大型語言模型（LLM）給出一個措辭流暢、語氣自信，卻完全錯誤的答案。模型並非在說謊，也沒有故障；它只是在做它被設計去做的事——預測聽起來合理的文字。身為 Generative AI Leader，你的工作不是除錯神經網路，而是了解幻覺為何發生、在哪裡製造商業風險，以及哪些 Google Cloud 功能能將這項風險化為可管理的問題。

為何考試對此章節的比重如此之高

這是考試中比重最高的概念之一，因為它橫跨技術、治理與商業價值三個面向。一位不了解幻覺的主管，要不是因為恐懼而全面拒絕生成式 AI，就是毫無節制地將其部署到高風險工作流程中，進而損害公司。Generative AI Leader 必須走中間道路：將幻覺視為一種可管理、可緩解的風險，正如企業管理信用風險、詐欺風險或供應鏈風險的方式。你不會因為有些貸款會違約就拒絕放貸；你會建立控管機制。生成式 AI 亦然。考試希望確認你能以那種沉穩的商業領導者框架談論幻覺與模型限制，而非流於炒作或恐慌。

本章節涵蓋的範圍

本章節將說明什麼是幻覺、LLM 為何會產生幻覺，以及每位領導者都必須了解的相關限制：知識截止點、訓練資料偏誤、非決定性、提示敏感度與上下文視窗限制。接著我們將在概念層次介紹緩解措施——接地、檢索增強生成（RAG）、引用來源與人工審查——並指引你前往涵蓋技術細節的深入章節。

白話文解釋

幻覺聽起來神祕，但其背後的行為其實是日常生活中早已熟悉的情境。Generative AI Leader 必須理解的模型限制，可以清楚對應到熟悉的場景。以下類比讓幻覺變得具體，並將其連結回 Gemini、Vertex AI 與接地等 Google Cloud 生成式 AI 產品。

類比一——夜市攤位的萬能老闆

想像夜市裡一位自信滿滿的攤主。他對每一道問題都能立刻給出流暢的回答，從食材來源到烹飪秘方，從哪個攤位最好吃到今晚哪裡有特賣，絕對不讓客人等到他說「我不知道」。問題在於，當他其實不清楚某件事——例如某家攤位今晚是否營業、某個食材的確切產地——他不會說「讓我查一下」。他會立刻給出一個聽起來合理、有模有樣的答案，因為「聽起來很有幫助」才是他的生存之道。大多數時候答案是對的；偶爾卻是完全捏造的，而客人根本無從分辨，因為謊言和真相以同樣的自信口吻說出來。

大型語言模型的行為正如這位攤主。Vertex AI 上的 Gemini 被訓練為產生最合理的接續文字，而不是去查閱一個經過驗證的事實。當模型看過足夠多的相關資料，合理的答案與正確的答案是同一件事；當它沒有足夠資料時，它仍然會產出流暢的內容——這就是幻覺。考試的關鍵教訓是：聽起來有把握的答案，與正確的答案，並不是同一件事。模型的確定語氣對於準確性毫無參考價值。這正是為何 Generative AI Leader 不能讓攤主獨自招攬生意：你必須將模型接地到真實的資料來源，並在高風險事項上保留人類介入的機制。

類比二——閉卷考試的學生

想像一位坐在閉卷考試現場的學生。他幾個月前讀過書，考場裡什麼都不能查，而考題偏偏問到一個他只有模糊印象的細節。空白作答得零分，所以最理性的做法是根據那段模糊的記憶，寫出最可能正確的答案。有時這個印象是準確的；有時他卻以十足的自信寫下一個完全錯誤的日期或姓名。他並沒有作弊——他只是在壓力下從壓縮的記憶中重建答案。

LLM 在推論時的運作方式恰恰如此。模型的「讀書」過程就是它的訓練階段，訓練在某個固定時間點結束——也就是它的知識截止點。此後，它以閉卷的方式應考：看不到今天的新聞、你公司的內部文件，或昨天更新的價格。它從壓縮的、統計性的訓練資料印象中作答。這解釋了知識截止點限制，以及幻覺的一個主要成因。Generative AI Leader 的解決之道是把閉卷考試變成開卷考試。這正是接地與檢索增強生成在 Vertex AI 上所做的事：在模型作答之前，系統從 Google Search 或 Vertex AI Search 中的私有資料裡，擷取相關的權威段落放在模型面前。學生不再猜測，而是直接閱讀課本。

類比三——三年前買的旅遊指南

想像一本三年前買的紙本旅遊指南。它寫得精美、編排清晰，在印刷當天完全準確。但餐廳已歇業、博物館票價已調漲、一條鐵路已改線、一間旅館已更名。書本本身一字未改——它只是凍結在出版日期。若你盲目照著走，會抵達一間已不存在的餐廳，而書不會給你任何警示，因為它根本不知道時間已過去。

預訓練的基礎模型就是一本凍結在訓練截止日的旅遊指南。Gemini 並不「知道」今天的日期晚於其訓練資料；它自信地將過時資訊當作現況呈現。這正是知識截止點與過時事實作為核心模型限制的原因，與純粹的幻覺有別，但常被混為一談。對 Generative AI Leader 而言，結論有兩點。第一，絕不假設基礎模型了解近期事件、當前價格或本季政策。第二，緩解措施是接入即時資訊來源：以 Google Search 接地讓模型獲得一本「網路最新版」的指南，以 Vertex AI Search 接地讓它獲得公司持續更新的內部版。模型依然凍結，但它所參考的事實是最新的。

為何 LLM 會產生幻覺：預測，而非擷取

這整個章節中最重要的一句話是：LLM 預測合理的文字，它不擷取經過驗證的事實。 關於幻覺的一切，都源於這一點。

當你向 Gemini 送出一個提示，模型並非在資料庫中搜尋正確答案。它是逐個語元（token）計算，根據訓練期間學到的所有資訊，推算哪個詞語是統計上最可能的接續。語言是媒介，合理性是目標。由於人類語言充滿真實陳述，最合理的接續通常也是真實的——這正是這些模型有用的原因。但「通常是真的」並不等於「總是真的」。當模型對某個特定事實缺乏充足的訓練訊號，它仍然會產出流暢、語法正確、語氣自信的答案，因為產出流暢文字是它唯一能做的事。那個流暢但錯誤的輸出，就是幻覺。

預測 vs. 資料庫查詢

這對商業領導者來說是一個深刻的思維轉換。資料庫找不到某筆記錄時，會回傳「找不到」。LLM 依其本質，幾乎從不回傳「找不到」——它回傳的是一個偽裝成答案的猜測。認識到幻覺是生成式模型運作方式的結構性特性，而非一個可以修補的缺陷，這正是有說服力的 Generative AI Leader 與只是在重複頭條新聞的人之間的差距。

幻覺是生成式 AI 模型輸出的一種結果：措辭流暢、語氣自信、以事實口吻呈現，但內容在事實上是錯誤的、捏造的，或無法追溯到任何真實來源。其成因在於 Gemini 等大型語言模型是以預測最合理的下一個語元進行訓練，而非擷取經過驗證的資訊。幻覺是生成式模型的結構性特徵，因此 Google Cloud 將其定位為一種需透過接地、評估與人工監督加以緩解的風險，而非一個可被完全消除的缺陷。參見 https://cloud.google.com/responsible-ai。

知識截止點：模型凍結在時間中

每個基礎模型都是以一份在特定日期截止的資料快照進行訓練，這個日期稱為知識截止點。在那個日期之後，模型一無所知——既不知道昨天的新聞、上週的法規，也不知道你公司今早更新的價格。模型也沒有內建的時間流逝感知，因此它會自信地用可能已是數月乃至數年前的資訊回答「現況」問題。

對 Generative AI Leader 而言，知識截止點之所以重要，是因為許多最具價值的企業應用場景都涉及近期或即時資訊：客服代理引用現行政策、業務助理提供當前報價、分析師彙整本季成果。基礎模型無法單獨可靠地服務這些場景。Google Cloud 的答案是接地：將模型連結到一個即時的、有權威的來源，使答案反映當下，而非訓練快照。技術細節涵蓋於接地與 RAG 章節，而哪種模型適合哪種資料新鮮度需求，則收錄於模型評估與選型章節。

訓練資料偏誤：模型反映其來源

LLM 從大量人類創作的文字與圖像中學習。這些來源資料中存在的模式、假設、刻板印象與空缺，都會被模型吸收。這就是訓練資料偏誤，它是一種獨立於幻覺的模型限制，但同樣會損害信任。

偏誤在商業上以具體且代價高昂的方式顯現：招募助理的摘要微妙地偏向特定族群、行銷內容生成器預設使用刻板印象，或是模型對代表性不足的語言與地區表現明顯較差，因為訓練資料中這些部分的資料量較少。對 Generative AI Leader 而言，關鍵認識是：偏誤並非模型的惡意意圖——它是對產生這些資料的資料集與世界的繼承性反映。因此，緩解措施本質上是一種治理紀律：跨人口組別的代表性評估、敏感輸出的人工審查，以及負責任 AI 與 SAIF 章節所涵蓋的實踐。Google Cloud 的 Responsible AI 計畫與 Vertex AI 安全過濾器提供工具支援，但讓偏誤緩解真正落地的，是領導層的主體責任。

自信語氣 vs. 正確答案

導入生成式 AI 最危險的陷阱之一，是將流暢性誤解為準確性。由於 Gemini 等模型能產出語法完美、結構嚴謹、語氣權威的文字，員工與客戶都會本能地信任其輸出。但模型的自信語氣，是由產生這些詞語的同一個合理性引擎所生成——它是一種文體特徵，而非真實程度的衡量標準。

為何這對高風險輸出至關重要

這對高風險輸出而言影響極大。一個關於退款政策、醫療劑量、法律條款或財務數字的幻覺答案，不會以紅色標示出現。它會以和正確答案完全相同的、沉穩而樂於助人的語氣出現。Generative AI Leader 必須教育組織：模型的自信不是證據。實際的防禦機制是引用來源——要求模型揭示其依據，讓人類得以驗證——以及對任何出錯後果嚴重的輸出進行人工審查。

一個常見且代價高昂的誤判，是因為 Gemini 的答案聽起來權威且詳盡，就假定它必然正確，從而在未經審查的情況下直接發布或採取行動。流暢性是由產生幻覺的同一個下一個語元預測過程所生成——它不攜帶任何關於事實準確性的資訊。將自信語氣視為正確性的證明，正是組織發布出幻覺退款政策或捏造統計數據的方式。對高風險輸出，務必要求引用來源與相稱的人工審查。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/overview。

非決定性：相同提示，不同答案

傳統軟體是確定性的：相同的輸入每次產生相同的輸出。生成式 AI 截然不同。LLM 在選擇每個語元時，是從機率分佈中取樣，因此相同的提示在不同執行時可能產生不同的答案。**溫度（temperature）**等參數控制引入多少隨機性——溫度越高，輸出越多樣且富有創意；溫度越低，輸出越集中且可重複。

對 Generative AI Leader 而言，非決定性有真實的運營影響。它使測試變得複雜，因為你無法僅檢查一個固定的正確字串。它使合規變得複雜，因為兩位客戶問同樣的問題，可能得到措辭不同的答案。它也與幻覺產生交互作用，因為差異性意味著在展示中表現良好的答案，在生產環境中可能有所不同。緩解措施不是驚慌，而是為此進行設計：在注重事實一致性的使用場景中使用低溫度；採用系統性評估（跨多次執行），而非單一抽查；並對模型進行接地，使得無論措辭如何變化，底層事實都來自一個固定的、有權威的來源。

溫度與輸出設定

溫度是討論最多的控制參數，但相關設定還包括 top-k、top-p 取樣以及輸出語元上限。Generative AI Leader 不需要親自調整這些參數，但應理解其取捨：隨機性越高，創意空間越大，幻覺發生的表面積也越大；隨機性越低，可靠性越高，原創性也越低。正確的設定完全取決於使用場景——腦力激盪工具與政策解答代理，位於截然相反的兩端。

為何非決定性不是缺陷

值得向利害關係人強調的是，非決定性是刻意設計的。讓 Gemini 能撰寫三個不同標題選項，或對困惑的客戶用不同方式解釋同一件事的特性，正是導致輸出有所差異的同一個特性。你管理它；你不消除它。

提示敏感度：措辭微變，輸出大變

LLM 具有高度的提示敏感度。問題的措辭出現細微變化——不同的字詞順序、額外的指示、缺少的上下文——就可能產生截然不同的答案，有時甚至是接地答案與幻覺答案之間的差距。這正是提示工程成為一門學問的原因：清晰、具體、結構良好的提示能顯著降低幻覺並提升相關性。

對 Generative AI Leader 而言，提示敏感度有兩層意涵。第一，它是一個限制：你不能假設每位員工都能寫出高品質的提示，因此面向使用者的應用程式應以精心設計的系統提示與範本包裹模型，而非暴露一個原始文字輸入框。第二，它是一個槓桿：投資於提示設計、範例與護欄，是在考慮微調等更昂貴的選項之前，最快、最低成本提升輸出品質的方式之一。Google Cloud 上的 Vertex AI Studio 讓團隊能反覆迭代並儲存有效的提示，使良好模式得以被重複使用，而非每次重新摸索。

當生成式 AI 試驗計畫產出不一致或品質不佳的答案時，Generative AI Leader 應優先拉動的槓桿是提示設計與接地，而非換用更大或經過微調的模型。使用 Vertex AI Studio 以附範例的清晰系統提示進行迭代，在注重事實的使用場景設定低溫度，並將模型接地到權威資料。這些改變速度快、成本低，且能在考慮任何昂貴的模型變更之前，解決大部分感知到的幻覺問題。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/learn/overview。

上下文視窗限制：模型能容納的資訊有限

每個 LLM 都有一個上下文視窗——它能同時處理的最大文字量（以語元計算），涵蓋你的輸入與其生成的輸出。Vertex AI 上的現代 Gemini 模型提供了非常大的上下文視窗，但這個上限永遠不是無限的，且它限定了什麼在實際上是可行的。

上下文視窗限制產生幾個 Generative AI Leader 應認識的實際影響。如果你貼入的文件超過視窗大小，模型根本無法看到全部內容，並可能以幻覺填補缺口。在長對話中，較早的輪次可能超出視窗範圍，使模型「忘記」先前說過的話，進而出現自相矛盾的情況。而將視窗塞滿關聯性有限的文字，可能稀釋訊號，使模型聚焦在錯誤的部分。緩解措施同樣是接地與擷取：RAG 系統不是把所有東西都塞入提示，而是擷取最相關的段落並提供這些段落，使上下文保持聚焦且在預算之內。更大的上下文視窗能減輕痛點，但不能消除對有紀律的擷取機制的需求，詳見接地與 RAG 章節。

語元、成本與上下文預算

上下文也有成本面向。Vertex AI 上的 Generative AI 主要按輸入與輸出語元計費，因此不加節制地使用大型上下文視窗會同時增加延遲與費用。Generative AI Leader 應將上下文視窗視為一個預算，需謹慎地花在最相關的資訊上，而非一個可以任意填充的容器。

為何 GenAI 不能成為高風險輸出的唯一決策者

對於任何高風險使用場景——醫療、法律、財務、安全關鍵——Generative AI Leader 考試期望的答案是人類介入。生成式模型產出一份自信、流暢的草稿；由合格的人員在送達客戶或監管機構之前進行審查與核准。將此與接地（將答案連結到可驗證的來源）和引用來源配合使用，讓審查者能核實模型的主張。「讓模型自動決定」是任何可能造成真實損害的場景的錯誤答案。

將所有限制加總，得出一個考試期望你清楚陳述的治理原則：生成式 AI 絕不能成為高風險輸出的唯一、未受監督的決策者。 由於幻覺具有結構性、模型凍結在截止點、可能存在偏誤、輸出具有非決定性且對提示敏感，任何出錯後果真實的工作流程，都需要有人類或確定性系統介入。

定義高風險與低風險使用場景

「高風險」是指影響健康、安全、法律權利、財務、就業、資格審查，或任何受監管事項的決策。在這些領域，生成式 AI 最適合的角色是起草、摘要與提案的助理，由合格的人員進行審查、驗證並承擔最終決策責任。這就是「人類介入」模式，也是 Google Cloud Responsible AI 指引與負責任 AI 與 SAIF 章節所討論的 Secure AI Framework 中反覆出現的主題。低風險用途——腦力激盪行銷文案、起草內部摘要、建議程式碼——可以在較輕度的監督下運行。將人工審查的程度與風險程度相匹配，是領導者的核心判斷。

對於 Generative AI Leader 考試，請記住：生成式 AI 絕不應成為高風險輸出的唯一決策者——任何影響健康、安全、法律權利、財務或就業的事項皆然。由於幻覺是 LLM 的結構性特性，這些工作流程需要一位人工介入者來審查並承擔最終決策，而生成式 AI 扮演起草與摘要助理的角色。正確的考試答案是將模型與相稱的人工監督、接地與引用來源相結合，而非全面自動化。參見 https://cloud.google.com/responsible-ai。

緩解措施：將幻覺轉化為可管理的風險

Generative AI Leader 不需要親自實施緩解措施，但必須知道它們是什麼，以及各自適用的時機。有四個概念性槓桿，且可以疊加使用。

接地

接地將模型連結到一個有權威的事實來源，使其答案錨定於可擷取的真實資訊，而非依賴記憶。在 Google Cloud 上，你可以以 Google Search 對 Gemini 進行接地，獲取公開的、最新的資訊；或使用 Vertex AI Search 對私有企業資料進行接地。接地直接針對知識截止點限制與幻覺的主要成因，通常是影響最大的緩解措施。

檢索增強生成（RAG）

RAG 是將接地落地為企業資料的架構模式：當問題到來時，系統搜尋知識庫、擷取最相關的段落，並連同提示一起提供給模型。模型接著從擷取到的文字中作答，而非憑猜測。RAG 將閉卷考試變成開卷考試。技術細節詳見接地與 RAG 章節。

引用來源與來源歸屬

當模型接地後，它可以回傳引用來源——指向其所使用之來源段落的連結。引用來源本身不會提升模型的準確性，但能讓驗證變得快速而低廉：審查者可以點擊連結確認，終端使用者也能自行判斷可信度。引用來源是建立使用者信任的關鍵，由 Google Cloud 接地功能加以呈現。

人工審查與評估

最後，人工審查仍是高風險輸出的最後防線，而系統性的評估——在部署前後針對代表性案例與指標測試模型——能以規模化方式捕捉問題，而非一次一個展示地發現。選擇正確的模型並證明其足夠可靠，是模型評估與選型章節的主題；更廣泛的治理框架則收錄於負責任 AI 與 SAIF 章節。

安全過濾器與護欄

除準確性之外，Vertex AI 提供可設定的安全過濾器，用於篩選有害、不安全或違反政策的內容。這些過濾器處理的是與幻覺不同的風險——有害輸出而非不正確輸出——但領導者應了解兩種控制機制都存在且相互補充。

記住 Generative AI Leader 考試的四槓桿幻覺緩解堆疊：（1）接地——將模型錨定到有權威的來源；（2）RAG——從企業資料中擷取相關段落並連同提示提供；（3）引用來源——呈現來源使人類能快速驗證；（4）人工審查與評估——相稱的監督加上系統性測試。在 Google Cloud 上，這些由 Gemini 以 Google Search 接地、以 Vertex AI Search 接地，以及 Vertex AI 評估工具集提供。這些槓桿可以疊加；高風險使用場景應同時使用全部四個。參見 https://cloud.google.com/vertex-ai/generative-ai/docs/grounding/overview。

商業框架：幻覺是風險，不是否決理由

考試期望 Generative AI Leader 給出的結論是平衡且務實的。幻覺與模型限制是真實存在的，但它們不是迴避生成式 AI 的理由。每一項變革性的商業技術都伴隨著可管理的風險——支付系統有詐欺風險、貸款業務有違約風險、製造業有瑕疵風險——而組織的成功之道是建立控管機制，而非選擇迴避。

管理風險的三個實際步驟

將幻覺視為可管理的風險，在實務上意味著三件事。第一，將使用場景與風險承受度相匹配：在低風險的起草與構想場景中自由部署生成式 AI，並隨著風險升高而增加接地、引用來源與人工審查。第二，將緩解措施堆疊視為正常的營運成本加以投資，與投資資安或品質保證的方式相同。第三，對員工、客戶與監管機構誠實設定期望——清楚說明系統是輔助而非決策，且在重要場合輸出會經過驗證。能夠保持這種平衡立場——既不炒作、也不恐慌——的 Generative AI Leader，正是這項認證所設計驗證的對象。

這與考試其他部分的連結

幻覺與模型限制是一個串連性章節。它們解釋了接地與 RAG 為何存在，因此請接著學習接地與 RAG 章節以獲取技術深度。它們是負責任 AI 治理之所以重要的實際原因，收錄於負責任 AI 與 SAIF 章節。而此處描述的限制——知識截止點、上下文視窗、每語元成本——直接決定了組織應選擇哪種模型，這是模型評估與選型章節的主題。考試預期將幻覺不以孤立形式，而是以情境題的方式，貫穿上述三個領域加以測試。

常見問題

以商業術語來說，AI 幻覺究竟是什麼？

答： AI 幻覺是指生成式模型（如 Gemini）產出一個聽起來流暢、語氣自信，卻在事實上是錯誤或捏造的答案。其成因在於大型語言模型預測最合理的下一個詞語，而非擷取經過驗證的事實。在商業上，應以處理詐欺或違約風險的方式對待幻覺——這是一種已知的、結構性的風險，你以控管機制（接地、引用來源、人工審查）加以管理，而非一個可以被完全消除的缺陷。

大型語言模型為何會產生幻覺？

答：因為它們的運作方式就是如此。LLM 被訓練為生成你的提示在統計上最合理的接續文字，而不是在資料庫中查找答案。當模型對某個主題有充足的訓練訊號時，合理的與正確的通常是同一件事。當它沒有時，它仍然產出流暢、語法正確的文字——而那個流暢但錯誤的輸出，就是幻覺。這是生成式模型的結構性特性，因此緩解措施著重於接地與監督。

知識截止點是什麼，為何重要？

答：知識截止點是模型訓練資料結束的日期。在那個日期之後，模型一無所知——不了解近期新聞、新法規或昨天變更的價格——且它沒有感知到時間流逝的能力，因此會自信地呈現過時的資訊。其重要性在於許多有價值的使用場景需要最新資訊。Google Cloud 的解決方案是將模型接地到即時來源，例如 Google Search 或 Vertex AI Search 中的自有資料。

如果 Gemini 的答案聽起來自信且詳盡，我可以信任它嗎？

答：不行——自信不是證據。LLM 的權威語氣是由產生幻覺的同一個下一個語元預測過程所生成，因此它不攜帶任何關於事實準確性的資訊。聽起來自信的答案與正確的答案是不同的事物。對於任何高風險輸出，請要求引用來源，讓人類能驗證其依據，並在輸出發布或採取行動之前，進行相稱的人工審查。

幻覺可以被完全消除嗎？

答：不能完全消除。由於幻覺是生成式模型預測文字方式的結構性特徵，無法被完全移除，但可以大幅降低。接地與 RAG 將答案錨定到真實來源，引用來源使驗證快速進行，謹慎的提示設計減少錯誤，人工審查補捉剩餘問題。Generative AI Leader 的目標是將殘留風險降低到特定使用場景可接受的程度，而非追求一個無法實現的零。

生成式 AI 在何時不應成為決策者？

答：生成式 AI 絕不應成為高風險輸出的唯一、未受監督的決策者——任何影響健康、安全、法律權利、財務、就業或受監管資格的事項皆然。在這些領域，模型應負責起草、摘要與提案，由合格的人員審查、驗證並承擔最終決策責任。腦力激盪或內部起草等低風險用途可以在較輕度的監督下運行。將人工審查的程度與風險程度相匹配，是領導者的核心判斷。

幻覺、偏誤與非決定性有何不同？

答：它們是三種截然不同的模型限制。幻覺是以自信口吻陳述的捏造或錯誤事實。訓練資料偏誤是模型反映其來源資料中繼承而來的不公平模式或空缺。非決定性是模型對相同提示產生不同答案，因為它在選擇詞語時進行隨機取樣。三者都會損害信任，Generative AI Leader 應能分別說明每一種及其緩解措施，而非將所有問題統稱為「幻覺」。

摘要：Generative AI Leader 的幻覺與模型限制

Generative AI Leader 不消除幻覺——他們管理幻覺。理解 LLM 預測合理文字而非擷取事實，使得幻覺具有結構性。掌握相關限制：知識截止點將模型凍結在時間中、訓練資料偏誤是繼承而來的、輸出具有非決定性且對提示敏感，以及上下文視窗是有限的。內化這一認識：自信的語氣不是準確性的證明，生成式 AI 絕不能成為高風險輸出的唯一決策者。接著運用四槓桿緩解措施堆疊——接地、RAG、引用來源，以及人工審查與評估——在 Google Cloud 上透過 Gemini 接地、Vertex AI Search 與 Vertex AI 評估工具集加以實現。以這種平衡的、商業領導者的框架，幻覺便從否決理由轉化為可管理的風險，你也能自信地回答 Generative AI Leader 考試中任何關於模型限制的題目。

幻覺與模型限制對 GenAI Leader 的意義

為何考試對此章節的比重如此之高

本章節涵蓋的範圍

白話文解釋

類比一——夜市攤位的萬能老闆

類比二——閉卷考試的學生

類比三——三年前買的旅遊指南

為何 LLM 會產生幻覺：預測，而非擷取

預測 vs. 資料庫查詢

知識截止點：模型凍結在時間中

訓練資料偏誤：模型反映其來源

自信語氣 vs. 正確答案

為何這對高風險輸出至關重要

非決定性：相同提示，不同答案

溫度與輸出設定

為何非決定性不是缺陷

提示敏感度：措辭微變，輸出大變

上下文視窗限制：模型能容納的資訊有限

語元、成本與上下文預算

為何 GenAI 不能成為高風險輸出的唯一決策者

定義高風險與低風險使用場景

緩解措施：將幻覺轉化為可管理的風險

接地

檢索增強生成（RAG）

引用來源與來源歸屬

人工審查與評估

安全過濾器與護欄

商業框架：幻覺是風險，不是否決理由

管理風險的三個實際步驟

這與考試其他部分的連結

常見問題

以商業術語來說，AI 幻覺究竟是什麼？

大型語言模型為何會產生幻覺？

知識截止點是什麼，為何重要？

如果 Gemini 的答案聽起來自信且詳盡，我可以信任它嗎？

幻覺可以被完全消除嗎？

生成式 AI 在何時不應成為決策者？

幻覺、偏誤與非決定性有何不同？

摘要：Generative AI Leader 的幻覺與模型限制

官方資料來源

更多 GENAI-LEADER 主題