[IBM-Tech] 提示词恶意软件杀伤链（The Promptware Kill Chain）剖析

#ai #security #llm #cybersecurity

https://www.youtube.com/watch?v=K68sqG18270&t=1s
这视频主要讲述了 IBM 杰出工程师 Jeff Crume 介绍的一种新型安全威胁：提示词恶意软件杀伤链（The Promptware Kill Chain）。

传统的恶意软件（如勒索软件、间谍软件）通常是恶意代码，而 Promptware 则是一种全新的恶意软件执行模型，它是通过向生成式 AI 聊天机器人或智能体（Agent）输入恶意的“提示词”来驱动的。视频中引述了 Bruce Schneier 等人的研究，将这种攻击提炼为了一个完整的、步步渗透的“杀伤链”：

🛡️ Promptware 杀伤链的 7 个阶段

初始访问（Initial Access） [00:00:57]
直接注入：攻击者直接在对话框向 AI 输入指令，改变其上下文（例如让它开始说假话）。
间接注入：攻击者将恶意指令藏在网页、邮件、日历邀请甚至图片中。当 AI 被派去读取这些内容时，就会被暗中控制。
根本缺陷：传统计算机代码和数据是分离的；但大语言模型没有这个边界，所有内容都被视为 Token，导致恶意指令可能获得与系统命令同等的权威。
权限提升 / 越狱（Privilege Escalation / Jailbreaking） [00:02:46]
攻击者利用社会工程学、角色扮演或对抗性提示词，诱骗 AI 绕过安全对齐限制。由于 AI 模仿人类智能，它也继承了人类“轻信”的弱点（例如，直接问怎么做炸弹会被拒绝，但伪装成化学系学生问“哪些东西不能混在一起免得爆炸”，AI 就可能中招）。
侦察（Reconnaissance） [00:04:18]
与传统网络攻击先侦察后下手不同，Promptware 往往在“越狱成功”后才进行侦察。AI 会被操控去主动暴露自己的攻击面，透露自己连接了哪些 API、插件、系统以及拥有什么权限。
持久化（Persistence） [00:05:03]
正常的对话是即时且短暂的，但现在的 AI Agent 拥有长期记忆（如 RAG 数据库、聊天记录、日历等）。攻击者一旦将恶意提示词植入到这些长期存储中，AI 每次读取这些数据时都会“自我重新感染”，从而达到持久控制的目的。
命令与控制（Command & Control / C2） [00:05:59]
攻击者可以利用 AI 的联网功能作为 C2 通道。这让 Promptware 从死板的威胁变成了可远程控制的动态威胁（例如，AI 连网获取外部内容时，顺便带回了攻击者更新的恶意指令）。
横向移动（Lateral Movement） [00:06:53]
当人们赋予 AI Agent 读写邮件、修改日历、访问企业系统甚至控制智能家居的权限时，也就等于为恶意软件修好了高速公路。受感染的邮件 Agent 可能会像传统的电脑病毒一样，把带有恶意注入的代码自动转发给所有联系人，实现自我复制和扩散。
实际破坏（Action on Objective） [00:08:10]
这是攻击者的终极目的，表现形式与传统恶意软件无异，包括：数据窃取、金融欺诈（如转走加密货币）、或者在 AI 拥有代码执行权限时运行任意恶意代码。