DEV Community

cognitalk
cognitalk

Posted on

[IBM-Tech] 提示词恶意软件杀伤链(The Promptware Kill Chain)剖析


https://www.youtube.com/watch?v=K68sqG18270&t=1s
这视频主要讲述了 IBM 杰出工程师 Jeff Crume 介绍的一种新型安全威胁:提示词恶意软件杀伤链(The Promptware Kill Chain)

传统的恶意软件(如勒索软件、间谍软件)通常是恶意代码,而 Promptware 则是一种全新的恶意软件执行模型,它是通过向生成式 AI 聊天机器人或智能体(Agent)输入恶意的“提示词”来驱动的。视频中引述了 Bruce Schneier 等人的研究,将这种攻击提炼为了一个完整的、步步渗透的“杀伤链”:


🛡️ Promptware 杀伤链的 7 个阶段

  1. 初始访问(Initial Access) [00:00:57]
  2. 直接注入:攻击者直接在对话框向 AI 输入指令,改变其上下文(例如让它开始说假话)。
  3. 间接注入:攻击者将恶意指令藏在网页、邮件、日历邀请甚至图片中。当 AI 被派去读取这些内容时,就会被暗中控制。
  4. 根本缺陷:传统计算机代码和数据是分离的;但大语言模型没有这个边界,所有内容都被视为 Token,导致恶意指令可能获得与系统命令同等的权威。

  5. 权限提升 / 越狱(Privilege Escalation / Jailbreaking) [00:02:46]

  6. 攻击者利用社会工程学、角色扮演或对抗性提示词,诱骗 AI 绕过安全对齐限制。由于 AI 模仿人类智能,它也继承了人类“轻信”的弱点(例如,直接问怎么做炸弹会被拒绝,但伪装成化学系学生问“哪些东西不能混在一起免得爆炸”,AI 就可能中招)。

  7. 侦察(Reconnaissance) [00:04:18]

  8. 与传统网络攻击先侦察后下手不同,Promptware 往往在“越狱成功”后才进行侦察。AI 会被操控去主动暴露自己的攻击面,透露自己连接了哪些 API、插件、系统以及拥有什么权限。

  9. 持久化(Persistence) [00:05:03]

  10. 正常的对话是即时且短暂的,但现在的 AI Agent 拥有长期记忆(如 RAG 数据库、聊天记录、日历等)。攻击者一旦将恶意提示词植入到这些长期存储中,AI 每次读取这些数据时都会“自我重新感染”,从而达到持久控制的目的。

  11. 命令与控制(Command & Control / C2) [00:05:59]

  12. 攻击者可以利用 AI 的联网功能作为 C2 通道。这让 Promptware 从死板的威胁变成了可远程控制的动态威胁(例如,AI 连网获取外部内容时,顺便带回了攻击者更新的恶意指令)。

  13. 横向移动(Lateral Movement) [00:06:53]

  14. 当人们赋予 AI Agent 读写邮件、修改日历、访问企业系统甚至控制智能家居的权限时,也就等于为恶意软件修好了高速公路。受感染的邮件 Agent 可能会像传统的电脑病毒一样,把带有恶意注入的代码自动转发给所有联系人,实现自我复制和扩散。

  15. 实际破坏(Action on Objective) [00:08:10]

  16. 这是攻击者的终极目的,表现形式与传统恶意软件无异,包括:数据窃取、金融欺诈(如转走加密货币)、或者在 AI 拥有代码执行权限时运行任意恶意代码。


🛑 我们该如何应对?

Jeff Crume 强调,提示词注入在架构上是无法根除的,这不是厂商发个补丁就能修好的小漏洞。

因此,我们必须采用 零信任(Zero Trust) 的架构和思维方式:

  • 假定突破已发生:默认坏人已经进入了系统。
  • 打破杀伤链:在杀伤链的每一个环节进行防御。不要将 AI Agent 视为“值得信任的助手”,而要将其视为“不可信的、带有敌意的运行环境”。
  • 具体手段:严格限制权限提升、约束工具和 API 的访问权限、检测持久化存储中的异常、限制 AI 的高危行为。

Top comments (0)