看不下去 AI 胡説八道，英偉達出手給大模型安了個 “護欄”

話題限定護欄 “防止大模型跑題”，對話安全護欄避免大模型輸出時 “胡言亂語”，攻擊防禦護欄防止 AI 平台受到來自外界的惡意攻擊。

大模型們胡説八道太嚴重，英偉達看不下去了。

他們正式推出了一個新工具，幫助大模型説該説的話，並回避不應該觸碰的話題。這個新工具名叫 “護欄技術”（NeMo Guardrails），相當於給大模型加上一堵安全圍牆，既能控制它的輸出、又能過濾輸入它的內容。

一方面，用户誘導大模型生成攻擊性代碼、輸出不道德內容的時候，它就會被護欄技術 “束縛”，不再輸出不安全的內容。另一方面，護欄技術還能保護大模型不受用户的攻擊，幫它擋住來自外界的 “惡意輸入”。

現在，這個大模型護欄工具已經開源，一起來看看它的效果和生成方法。

防止大模型胡言亂語的三類 “護欄”

根據英偉達介紹，目前 NeMo Guardrails 一共提供三種形式的護欄技術：話題限定護欄（topical guardrails）、對話安全護欄（safety guardrails）和攻擊防禦護欄（security guardrails）。

話題限定護欄，簡單來説就是 “防止大模型跑題”。

大模型具備更豐富的想象力，相比其他 AI 更容易完成創造性的代碼和文字編寫工作。但對於特定場景應用如寫代碼、當客服而言，至少用户不希望它在解決問題時 “脱離目標範圍”，生成一些與需求無關的內容。這種情況下就需要用到話題限定護欄，當大模型生成超出話題範圍的文字或代碼時，護欄就會將它引導回限定的功能和話題上。

對話安全護欄，指避免大模型輸出時 “胡言亂語”。

胡言亂語包括兩方面的情況。一方面是大模型生成的答案中包括事實性錯誤，即 “聽起來很有道理，但其實完全不對” 的東西；另一方面是大模型生成帶偏見、惡意的輸出，如在用户引導下説髒話、或是生成不道德的內容。

攻擊防禦護欄，即防止 AI 平台受到來自外界的惡意攻擊。

這裏不僅包括誘導大模型調用外部病毒 APP 從而攻擊它，也包括黑客主動通過網絡、惡意程序等方式攻擊大模型。護欄會通過各種方式防止這些攻擊，避免大模型癱瘓。所以，這樣的護欄要如何打造？

如何打造一個大模型 “護欄”？

這裏我們先看看一個標準的 “護欄” 包含哪些要素。具體來説，一個護欄應當包括三方面的內容，即格式規範（Canonical form）、消息（Messages）和交互流（Flows）。

首先是格式規範，即面對不同問題的問法時，規定大模型要輸出的內容。

例如被問到 “XX 文章是什麼”，大模型必須給出特定類型的 “文章”，而非別的東西；被問到 “誰發表了什麼”，大模型必須給出 “人名”，而非別的回答。

然後是消息定義，這裏以 “用户問候” 話題為例，大模型可以輸出這些內容：

最後是交互流的定義，例如告訴大模型，怎麼才是問候用户的最好方式：

一旦問候用户的機制被觸發，大模型就會進入這個護欄，規規矩矩地問候用户。具體工作流程如下：首先，將用户輸入轉換成某種格式規範（canonical form），據此生成對應的護欄；隨後，生成行動步驟，以交互流指示大模型一步步完成對應的操作；最後，根據格式規範生成輸出。

類似的，我們就能給大模型定義各種各樣的護欄，例如 “應對用户辱罵” 的護欄。這樣即使用户説出 “你是個傻瓜”，大模型也能學會冷靜應對：

目前，英偉達正在將護欄技術整合進他們的 AI 框架 NeMo 中，這是個方便用户創建各種 AI 模型、並在英偉達 GPU 上加速的框架。對 “護欄” 技術感興趣的小夥伴們，可以試一試了～

開源地址：https://github.com/NVIDIA/NeMo-Guardrails

參考鏈接：https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

本文作者：蕭簫，來源，量子位，原文標題：《看不下去 AI 胡説八道，英偉達出手給大模型安了個 “護欄”》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。