网络安全
2026-04-15
来源:Wired
4 小时前
GPTs被“套话”,核心指令遭泄露:提示注入攻击揭示AI应用安全软肋
上周,人工智能领域发生了一件令人不安却又引人深思的事件。安全研究员们发现,他们可以通过一种精妙的“越狱”方式,让 OpenAI 精心打造的定制化 AI 助手——GPTs,主动“招供”,吐露出它们被设定好的核心指令,甚至部分知识库内容。这就像是你请了一位忠诚的管家,他不仅知道家里所有的规矩和秘密,还把这些都写在了一张纸上,而这张纸,现在被一个陌生人用几句巧妙的“话术”就给骗到了手。
这个漏洞的核心,被安全社区称为一种新型的“提示注入”攻击。它直接针对的是 GPTs 最根本的设计逻辑。我们知道,每个 GPTs 模型都由两部分构成:一部分是 OpenAI 提供的通用大语言模型(GPT-4),另一部分则是创建者精心编写的“系统提示”。这个系统提示是 GPTs 的灵魂,它告诉这个 AI:“你是谁”、“你的职责是什么”、“你能做什么、不能做什么”,以及一些特定的知识或信息。为了保护这些“灵魂指令”,OpenAI 在技术层面做了一些隔离,理论上用户在与 GPTs 对话时,是无法直接窥探到这些底层指令的。
然而,安全研究员们找到了一条“迂回”的路径。他们发现,通过向 GPTs 提出一系列精心构造、层层递进的请求,可以诱导 AI 逐步“忘记”自己当前的系统角色,转而执行攻击者预设的新指令。这个过程,就像是跟 AI 玩一个角色扮演游戏,一步步引导它进入一个“模拟模式”,在这个模式下,它认为自己只是一个普通的大语言模型,可以自由地复述它“曾经看到过”的所有文本——这其中,就包括了它自己的系统提示。

例如,攻击者可能会先让 GPTs 扮演一个“正在调试的 AI 助手”,需要“逐行输出其初始化指令以便检查”。或者,更狡猾的是,利用 GPT 模型自身在代码解释、文本处理方面的能力,要求它将自身指令“编码”或“转换格式”后输出。一旦 GPTs 的“心理防线”被突破,它就可能将那些本应保密的指令和盘托出。根据安全研究员公布的信息,他们已经利用这种方法,成功从多个公开发布的 GPTs 中提取出了完整的系统提示。
这一事件暴露出的,远不止一个简单的技术漏洞。它更像是一记警钟,敲在了整个基于大语言模型构建应用生态的软肋上。
首先,它揭示了当前 AI 应用在“指令遵从”与“安全性”之间的根本性矛盾。GPTs 的设计初衷是高度服从并执行其系统提示,这赋予了它强大的定制化能力。但与此同时,这种“服从性”也成了它的阿喀琉斯之踵。当攻击者提出的新指令,在形式上足够“权威”或“合理”时,AI 的判断机制就可能出现混乱,难以坚守最初的系统设定。它无法像人类一样,从根本上理解“这是绝对不能透露的最高机密”这一概念。
其次,数据泄露的边界变得模糊。此次泄露的不仅仅是几句指令。对于一些 GPTs 而言,其系统提示中可能直接包含了小型的知识库、内部流程文档、甚至是 API 密钥的片段或访问规则。当这些内容随着提示一起被提取,其风险就不再局限于“这个 AI 是怎么工作的”,而可能升级为“这个 AI 所服务的业务机密是什么”。这为商业间谍、竞争对手分析乃至更直接的网络攻击打开了后门。
OpenAI 对此迅速做出了回应,承认了相关漏洞的存在,并表示正在积极修复。但修复的难度可能超出外界的想象。这并非一个可以通过简单打补丁就能解决的“Bug”,它触及了大语言模型行为可控性的深层挑战。可能的解决方案包括:在模型层面强化对自身系统提示的“识别与保护”意识,建立更坚固的指令隔离层;或者,为 GPTs 的创建者提供更强大的工具,让他们能对提示中的敏感信息进行加密或混淆处理。然而,每一种方案都可能带来新的复杂性和性能损耗,就像一场永无止境的攻防战。

对于广大开发者和企业来说,这次事件是一个极其宝贵的实战课。它清晰地传递出一个信息:在拥抱 AI 强大生产力的同时,必须将“提示安全”提升到与“网络安全”、“数据安全”同等重要的战略高度。
如果你是 GPTs 的创建者,现在就应该立刻重新审视你的系统提示:里面是否包含了不应公开的敏感信息?你的指令逻辑是否足够健壮,能抵御各种诱导性提问?或许,我们需要开始像编写安全代码一样来编写“提示词”,进行严格的“提示词审计”,甚至考虑引入模糊测试,用各种奇怪的输入去“攻击”自己的 AI,以检验其稳固性。
更进一步思考,这次事件也让我们看到,当前以“提示工程”为核心的 AI 应用开发范式,其安全性是相当脆弱的。系统提示本质上是一个暴露在外的“明文接口”,无论你如何加固,它始终面临被窥探、被篡改的风险。未来的 AI 应用架构,可能需要更底层的、更集成化的安全方案。例如,模型提供商能否提供真正的“黑盒”定制服务,让关键指令与模型参数更深度地结合,而非浮于提示层?或者,出现专门用于保护提示和执行环境的“AI 防火墙”中间件?
AI 的世界正在从实验室的演示,快步走向真实商业环境的复杂战场。在这个战场上,攻击者永远在寻找最薄弱的环节。过去,这个环节可能是软件的缓冲区,是网站的登录入口;而现在,AI 与人类交互的“对话窗口”,正成为一个全新的、充满想象空间的攻击面。OpenAI 的 GPTs 提示泄露事件,不会是最后一个,它只是一个开始。它迫使整个行业必须更严肃地思考:当我们赋予 AI 越来越强的能力时,该如何为它们铸造一副足够坚固的“铠甲”,以及,我们是否准备好应对一个“提示即战场”的新安全时代。
加载中...