GPTs被“套话”，核心指令遭泄露：提示注入攻击揭示AI应用安全软肋

上周，人工智能领域发生了一件令人不安却又引人深思的事件。安全研究员们发现，他们可以通过一种精妙的“越狱”方式，让 OpenAI 精心打造的定制化 AI 助手——GPTs，主动“招供”，吐露出它们被设定好的核心指令，甚至部分知识库内容。这就像是你请了一位忠诚的管家，他不仅知道家里所有的规矩和秘密，还把这些都写在了一张纸上，而这张纸，现在被一个陌生人用几句巧妙的“话术”就给骗到了手。这个漏洞的核心，被安全社区称为一种新型的“提示注入”攻击。它直接针对的是 GPTs 最根本的设计逻辑。我们知道，每个 GPTs 模型都由两部分构成：一部分是 OpenAI 提供的通用大语言模型（GPT-4），另一部分则是创建者精心编写的“系统提示”。这个系统提示是 GPTs 的灵魂，它告诉这个 AI：“你是谁”、“你的职责是什么”、“你能做什么、不能做什么”，以及一些特定的知识或信息。为了保护这些“灵魂指令”，OpenAI 在技术层面做了一些隔离，理论上用户在与 GPTs 对话时，是无法直接窥探到这些底层指令的。然而，安全研究员们找到了一条“迂回”的路径。他们发现，通过向 GPTs 提出一系列精心构造、层层递进的请求，可以诱导 AI 逐步“忘记”自己当前的系统角色，转而执行攻击者预设的新指令。这个过程，就像是跟 AI 玩一个角色扮演游戏，一步步引导它进入一个“模拟模式”，在这个模式下，它认为自己只是一个普通的大语言模型，可以自由地复述它“曾经看到过”的所有文本——这其中，就包括了它自己的系统提示。 ![GPT prompt injection](/image/news-7f0b8246abf14da186c495fb67b68a2c.jpg) 例如，攻击者可能会先让 GPTs 扮演一个“正在调试的 AI 助手”，需要“逐行输出其初始化指令以便检查”。或者，更狡猾的是，利用 GPT 模型自身在代码解释、文本处理方面的能力，要求它将自身指令“编码”或“转换格式”后输出。一旦 GPTs 的“心理防线”被突破，它就可能将那些本应保密的指令和盘托出。根据安全研究员公布的信息，他们已经利用这种方法，成功从多个公开发布的 GPTs 中提取出了完整的系统提示。这一事件暴露出的，远不止一个简单的技术漏洞。它更像是一记警钟，敲在了整个基于大语言模型构建应用生态的软肋上。首先，它揭示了当前 AI 应用在“指令遵从”与“安全性”之间的根本性矛盾。GPTs 的设计初衷是高度服从并执行其系统提示，这赋予了它强大的定制化能力。但与此同时，这种“服从性”也成了它的阿喀琉斯之踵。当攻击者提出的新指令，在形式上足够“权威”或“合理”时，AI 的判断机制就可能出现混乱，难以坚守最初的系统设定。它无法像人类一样，从根本上理解“这是绝对不能透露的最高机密”这一概念。其次，数据泄露的边界变得模糊。此次泄露的不仅仅是几句指令。对于一些 GPTs 而言，其系统提示中可能直接包含了小型的知识库、内部流程文档、甚至是 API 密钥的片段或访问规则。当这些内容随着提示一起被提取，其风险就不再局限于“这个 AI 是怎么工作的”，而可能升级为“这个 AI 所服务的业务机密是什么”。这为商业间谍、竞争对手分析乃至更直接的网络攻击打开了后门。 OpenAI 对此迅速做出了回应，承认了相关漏洞的存在，并表示正在积极修复。但修复的难度可能超出外界的想象。这并非一个可以通过简单打补丁就能解决的“Bug”，它触及了大语言模型行为可控性的深层挑战。可能的解决方案包括：在模型层面强化对自身系统提示的“识别与保护”意识，建立更坚固的指令隔离层；或者，为 GPTs 的创建者提供更强大的工具，让他们能对提示中的敏感信息进行加密或混淆处理。然而，每一种方案都可能带来新的复杂性和性能损耗，就像一场永无止境的攻防战。 ![AI security shield](/image/news-21f132b518594f4f9236e1c41fef714e.jpg) 对于广大开发者和企业来说，这次事件是一个极其宝贵的实战课。它清晰地传递出一个信息：在拥抱 AI 强大生产力的同时，必须将“提示安全”提升到与“网络安全”、“数据安全”同等重要的战略高度。如果你是 GPTs 的创建者，现在就应该立刻重新审视你的系统提示：里面是否包含了不应公开的敏感信息？你的指令逻辑是否足够健壮，能抵御各种诱导性提问？或许，我们需要开始像编写安全代码一样来编写“提示词”，进行严格的“提示词审计”，甚至考虑引入模糊测试，用各种奇怪的输入去“攻击”自己的 AI，以检验其稳固性。更进一步思考，这次事件也让我们看到，当前以“提示工程”为核心的 AI 应用开发范式，其安全性是相当脆弱的。系统提示本质上是一个暴露在外的“明文接口”，无论你如何加固，它始终面临被窥探、被篡改的风险。未来的 AI 应用架构，可能需要更底层的、更集成化的安全方案。例如，模型提供商能否提供真正的“黑盒”定制服务，让关键指令与模型参数更深度地结合，而非浮于提示层？或者，出现专门用于保护提示和执行环境的“AI 防火墙”中间件？ AI 的世界正在从实验室的演示，快步走向真实商业环境的复杂战场。在这个战场上，攻击者永远在寻找最薄弱的环节。过去，这个环节可能是软件的缓冲区，是网站的登录入口；而现在，AI 与人类交互的“对话窗口”，正成为一个全新的、充满想象空间的攻击面。OpenAI 的 GPTs 提示泄露事件，不会是最后一个，它只是一个开始。它迫使整个行业必须更严肃地思考：当我们赋予 AI 越来越强的能力时，该如何为它们铸造一副足够坚固的“铠甲”，以及，我们是否准备好应对一个“提示即战场”的新安全时代。

加载中...

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。

同类热点