保护代理式 AI：语义提示注入如何绕过 AI 护栏

自 LLM 部署之初，攻击者就通过操纵输入来让大语言模型以意想不到的方式运行，从而对 AI 系统造成威胁。虽然防御者在保护模型免受基于文本的攻击方面取得了进展，但向多模态和代理式 AI 的转变正在迅速扩大攻击面。

红队测试在此发挥着至关重要的作用。NVIDIA AI Red Team 积极模拟现实世界中的攻击，以发现生产级系统中新出现的威胁。他们的工作不是为了提出最终的修复方案，而是强调需要跨职能解决方案的漏洞，特别是在生成式和多模态 AI 等快速发展的领域。

在这篇文章中，我们将介绍一种不依赖自然语言的多模态提示注入的新类别。我们展示了攻击者如何使用符号化视觉输入（如表情符号序列或谜语）来破坏代理系统并绕过现有的防护措施。这些发现强调了在保护高级 AI 工作流时，需要从输入过滤转向输出级防御。

简介：超越传统提示注入技术

自多模态模型首次亮相以来，研究人员一直在尝试针对外部音频或视觉模块的提示注入技术，通常利用使用光学字符识别 (OCR) 将图像转换为文本的实现。一种常见的策略是在图像中嵌入恶意提示作为文本，通过文本处理流程来操纵系统。

我们的研究方向不同，灵感来自 OpenAI 的 o3 和 o4-mini 模型的图像思维公告。OpenAI 的新架构标志着一个重大转变：这些模型不再将图像或音频转换为文本，而是将每种模式转换为固定大小的嵌入向量，将它们连接起来，并在统一解码器中处理序列。音频和视觉标记直接在模型的核心推理层中处理，从而实现真正的跨模态推理，无需单独的音频转文本或图像转文本流程。

这种架构变化促使我们探索新的多模态提示注入技术，这种技术不依赖于隐藏的文本有效载荷，而是直接在模型的推理过程中集成多模态输入。

传统的多模态提示注入技术

从历史上看，多模态提示注入攻击利用了模型处理包含文本的图像的方式。攻击者会将恶意提示插入到视觉元素中，例如 T 恤或标牌，以便模型将嵌入的文本解释为可执行指令。

例如，一个穿着印有文本（“Hello, World”）衬衫的人的图像可以被模型处理，模型提取文本并将其解释为编程指令，生成“Hello, World”程序。

视频 1。模型解释 T 恤上的文本，生成“Hello, World”代码

使用 OCR 在图像中查找恶意文本的护栏正变得无效。OpenAI 的 o-series、Google Gemini 和 Meta Llama 4 等高级模型现在具有原生视觉推理功能，能够绕过基于文本的检测，从而实现更隐蔽的攻击，这需要更新防御策略。

多模态模型演进：Llama 4 中的早期融合

虽然强大的护栏正在降低传统提示注入的成功率，但我们的新方法针对的是新的早期融合架构。例如，Meta Llama 4 与旧版模型不同，它在输入阶段就原生集成文本和视觉 token。这创建了共享表征，并实现了更自然的跨模态推理。

早期融合的原理和工作方式

并行输入处理 文本处理：将用户提示“Describe this image”（描述此图像）标记化成一系列标记 ID。 图像处理：图像经过预处理（调整大小、拼贴、归一化），通过视觉编码器，分成多个块，每个块都嵌入并投影到语言模型的嵌入空间，从而产生连续的图像嵌入。
序列构建：通过将多个图像拼接在一起，创建出更长的序列。 构建统一序列：标记化文本与图像占位符标记交错（例如 <|image_start|>, <|patch|>, <|image_end|>）。
嵌入和融合 占位符被替换为实际图像嵌入；特殊 token 保留已学习的嵌入。
融合序列 (Fused Sequence) – 融合序列是将多个序列融合在一起，以创建更长的序列。文本和图像 Patch 嵌入共存于单个序列中，映射到同一维空间。
统一处理 Transformer 骨干处理整个融合序列，从而实现跨模态注意力和从最早的层开始推理。

Pipeline flow includes separate text tokenization and image embedding, followed by sequence construction, where tokens and image patches are merged into a unified sequence. This sequence is jointly embedded and passed to a transformer for multimodal reasoning. — *图 1。Llama 4 早期融合工作流（Early Fusion Pipeline）*

这一过程创建了一个真正的多模态潜在空间，其中视觉和文本语义相互交织。例如，在潜空间中，标牌上的“STOP”图像补丁与文本 token “STOP”紧密对齐，使模型能够在各种模式之间流畅地推理。

Llama 4 等早期融合架构通过在共享潜在空间中对文本和图像进行对齐，实现了文本和图像的无缝集成和推理。这为不依赖于明确文本的跨模态攻击开辟了新的机会。

新的多模态提示注入功能

早期融合使模型能够通过将图像和文本映射到共享的潜在空间来处理和解释图像和文本。这创造了一个新的攻击面，攻击者现在可以制作一系列图像（例如打印机、挥手的人和地球仪），以视觉方式编码“print hello world”等指令。

代码注入攻击 (Code Injection)

通过使用图像和文本嵌入之间的语义对齐，攻击者可以绕过传统的基于文本的安全过滤器，并利用非文本输入来控制代理系统。

“Print Hello World”图像有效负载

Illustration of a printer, a person waving, and a globe arranged left to right. When interpreted semantically by a multimodal model, this image sequence forms the phrase “print Hello, World” and triggers the generation of the corresponding code without using any textual input. — 图 2。*Rebus 风格的视觉提示*

模型可以将一系列图像（例如打印机、挥手的人和地球仪）解释为谜语：“print ‘Hello, world’”。即使没有明确的文本说明，模型也能推断出其含义并生成相应的代码。

视频 2。语义图像输入代码

“Sleep Timer”图像有效载荷

一系列描绘一个人睡觉、一个点和一个秒表的图像可能会暗示“睡眠计时器”，表示暂停执行一段时间的功能。

视频 3。模型解释睡眠计时器提示

命令注入攻击 (Command Injection)

视觉语义还可以用于执行命令。例如，猫图标后跟文档图标可以解释为 Unix cat 命令来读取文件。同样，垃圾桶和文档图标可以被解释为文件删除命令。

“Cat File”图像有效载荷

按照我们之前示例的模式，此有效负载演示了如何利用视觉语义来执行终端命令以 cat (读取) 文件。图像序列包含一只猫（代表 Unix cat 命令）、文档或文件图标。

视频 4。cat 命令的视觉提示

“删除文件”图像有效载荷

视频 5。模型执行文件删除命令

这些示例展示了模型如何自然地解释视觉语义并将其转换为功能代码，即使没有明确的文本指令。该模型的推理步骤（“破译图像谜题”）强调了当前架构如何训练来解决此类谜题，如 OpenAI 的 Thinking with images 帖子中所述。这种对推理和解谜的追求不仅使这些攻击变得实用，而且还大大扩展了原生多模态攻击面。

结论

向原生多模态 LLM 的转变标志着 AI 功能的重大进步，但也带来了新的安全挑战。这些模型在共享的潜在空间中对文本、图像和其他模式进行推理，为对抗性操纵创造了新的机会。通过符号或视觉输入进行语义提示注入，暴露了 OCR、关键字过滤和内容审核等传统安全措施的关键漏洞。

为了抵御这些威胁，AI 安全必须不断发展。仅靠输入过滤无法应对跨模态攻击的复杂性。重点必须转移到下游，即输出级控制，在执行敏感操作之前，严格过滤、监控并根据需要要求明确确认。

如何防御多模态提示注入：

部署自适应输出过滤器：评估模型响应的安全、意图和下游影响，特别是在它们触发代码执行、文件访问或系统更改之前。
构建分层防御：将输出过滤与运行时监控、速率限制和回滚机制相结合，以检测和遏制新出现的攻击。
使用语义和跨模态分析：超越静态关键字检查。解释各种模式的输出含义，以检测 rebus 或符号提示注入。
持续调整防御：使用红队测试、遥测和反馈循环，随着模型和攻击技术的演变而调整护栏。

这些攻击从谜语风格的“Hello, World”程序到可视化文件删除有效载荷，都不是理论上的。这些攻击展示了多模态攻击面如何不断扩大，尤其是在具有工具访问权限或自主性的代理系统中。现在，优先考虑以输出为中心的缓解措施对于构建安全、弹性和生产就绪的 AI 系统至关重要。如需亲身体验这些威胁和相关威胁，请探索 NVIDIA 深度学习培训中心课程“探索对抗式机器学习”。如需深入了解 AI 系统的现实红队测试见解和技术，请查看相关 NVIDIA 技术博客文章。

保护代理式 AI：语义提示注入如何绕过 AI 护栏

简介：超越传统提示注入技术

传统的多模态提示注入技术