图像纯化与抗纯化相关工作
此基础上DiffPure利用扩散模型的前向与反向过程来净化对抗样本。对抗训练即在对抗样本上训练神经网络。然而大多数对抗训练方法只能防御他们所训练的特定攻击。对于未知的攻击但它们的性能显着下降。对抗净化依靠生成模型在分类之前净化受到对抗扰动的图像。与对抗训练方法相比对抗净化可以以即插即用的方式防御未知的威胁而无需重新训练分类器。在生成过程中扩散模型净化了噪声样本起到了与净化模型类似的作用。它们良好的生成质量和多样性确保纯化的图像紧密遵循干净数据的原始分布。此外扩散模型中的随机性可以形成强大的随机防御。这些特性使扩散模型成为生成对抗净化的理想候选者。因此作者提出了一种新的对抗净化方法称为DiffPure给定一个预先训练的扩散模型我们的方法包括两个步骤我们首先通过较小扩散时间步长的前向过程向对抗样本添加噪声然后求解逆随机微分方程SDE以从扩散的对抗样本中恢复干净的图像。随机微分方程Stochastic Differential Equation, SDE是描述受连续随机扰动影响的动态系统演化的数学工具。它在普通微分方程ODE基础上引入随机过程通常是布朗运动使解本身成为随机过程每次求解产生不同轨迹而非确定性函数SDE 与 DDPM 的关系DDPM 是 VP-SDE 在均匀时间网格上的欧拉离散化特例。当离散步长 Δt → 0 时DDPM 的前向过程严格收敛于 VP-SDE。该方法中的一个重要设计参数是扩散时间步长的选择因为它代表了前向过程中添加的噪声量。 理论分析表明噪声需要足够高以消除对抗扰动但又不能太大以破坏纯化图像的标签语义。GridPure此外GridPure 提出了一种基于网格的迭代扩散方法专为高分辨率图像设计提升了净化效果。这篇论文指出现有的 DiffPure 类方法存在两个致命弱点结构丢失和分辨率瓶颈。为什么 DiffPure 等现有方法表现不佳为了保护数据Glaze/AdvDM 添加的扰动 通常幅度很大且集中在高频细节纹理、边缘。为了彻底抹除 DiffPure 必须将图像扩散到较深的时间步 即加入大量噪声。当 较大时原始图像的结构信息如人脸的具体五官形状、画作的笔触走向大部分已被噪声覆盖。此时扩散模型在反向生成时不再是在“恢复”原图而是在根据提示词或隐式先验“重绘”一张新图。生成的图像虽然干净了但有身份特征丢失人脸变样、艺术风格改变笔触被平滑化等问题。分辨率受限显存爆炸与训练数据偏差显存瓶颈大多数开源的强效扩散模型如 SD 1.5/2.1原生训练分辨率仅为 512×512。强行在高分辨率下运行会导致 OOM显存溢出或需要极昂贵的计算资源。分布偏移如果直接将高分辨率图像缩放到 512×512 进行 DiffPure 处理然后再放大会导致细节模糊。更重要的是扩散模型在低分辨率下学到的先验分布与高分辨率细节不匹配直接生成高分辨率往往会产生伪影或不连贯的结构。GrIDPure 是如何解决这些问题的GrIDPure (Grid-basedIterativeDiffusionPure) 核心思想是分而治之网格化小步快跑迭代混合。基于网格的裁剪策略 (Grid-based Cropping) —— 解决分辨率问题GrIDPure 不再一次性处理整张大图而是采用“分块处理全局整合”的策略操作步骤将高分辨率输入图像 切割成多个重叠的小块Patches例如 512×512。对每个小块独立执行 DiffPure 流程。平均合并策略 (Average Merging) —— 解决边界伪影问题简单的拼接会在网格边界处产生明显的接缝Seams因为相邻块的去噪过程是独立的边缘像素可能不连续。GrIDPure 方案在切割时设置重叠区域 (Overlap)。在重组时对于重叠区域的像素采用加权平均通常是距离权重离中心越近权重越高进行融合。小步迭代 DiffPure (Small-step Iterative DiffPure) —— 解决结构丢失传统 DiffPure 的做法一步到位。直接加噪到 大噪声然后一次性反向生成到 0。这导致原始信息丢失严重。GrIDPure 的做法多轮次、小步长的迭代净化。流程第一轮加少量噪声反向去噪。此时只能去除极微弱的扰动但完美保留结构。后续轮次将上一轮的输出作为输入再次加入少量噪声累积噪声量逐渐增加再次去噪。混合机制在每一轮去噪后将生成的图像与原始受扰动图像进行线性混合Blending。(1)⋅DiffPure(())(1−)⋅PDM-PurePDM-Pure 采用像素空间扩散模型作为通用净化器以缓解对抗噪声。一个被严重忽视的方面是所有现有研究都聚焦于潜在扩散模型LDM而像素空间扩散模型PDM则未被研究。对于LDMs扰动不会直接引入扩散模型的输入端。相反这些信息是外部施加并通过编码器传播的。研究表明LDM的编码-解码器易受对抗扰动影响这意味着LDM的adv采样机制与PDM的adv采样有很大不同。contributions我们观察到大多数现有关于对抗性保护示例的研究都集中在LDM上。对PDM的对抗性攻击在该领域大多被忽视。我们通过对各种LDM和PDM进行大量实验填补了文献中的空白。我们发现所有现有方法都无法攻击PDM表明PDM比LDM更具对抗性。基于这一新颖见解我们提出了一个简单而有效的框架称为PDM-Pure将强PDM作为通用净化器去除攻击无关的对抗扰动轻松绕过几乎所有现有的保护方法。Section 3.1 - The Amplification EffectLDM 中的 VAE 编码器 引入了一种非线性映射可以剧烈地放大微小的输入扰动。具体来说像素空间中具有小范数的扰动 可能导致潜在空间中的扰动具有大得多的范数。这种放大效应破坏了扩散过程可以将对抗噪声视为标准高斯噪声的假设。”PDM-Pure的核心过程其实非常纯粹它本质上就是SDEdit (Stochastic Differential Editing)技术在像素空间扩散模型PDM上的应用。它的核心逻辑是“加一点噪声把对抗扰动洗掉然后利用 PDM 强大的去噪能力把图‘画’回来。”由于 PDM如 DeepFloyd IF没有 VAE 编码器整个过程完全在像素空间进行。下面详细拆解加噪和去噪两个关键步骤的数学原理和实际操作。加噪扩散模型的前向过程定义为向图像添加高斯噪声。对于给定的时间步 ∗加噪公式为∗¯∗⋅1−¯∗⋅其中输入的受保护图像。∼(0,)从标准正态分布采样的随机高斯噪声。¯∗预定义的噪声调度系数Noise Schedule表示在 ∗ 时刻保留多少原始信号。当 ∗0 时¯01无噪声。当 ∗ 时¯≈0纯噪声。PDM-Pure 的选择选择较小的 ∗如 0.15此时 ¯∗ 依然很大例如 0.8意味着大部分图像内容低频结构被保留只加入了中等强度的噪声。去噪−1¯−1(−1−¯⋅(,)¯)1−¯−1⋅(,)其中(,)PDM 模型预测的噪声残差。模型会判断“当前图像里哪些是噪声哪些是真实信号”。由于 PDM 是在海量数据上训练的它学到的“自然图像分布”非常强大。面对 ∗ 中的噪声它会认为符合自然纹理的部分 → 保留。不符合自然统计规律的异常部分即残留的对抗扰动特征 → 当作噪声去掉。DeepFloyd IF 是一种先进的新型开源文本到图像模型由一个冻结的文本编码器和三个级联的像素扩散模块组成第一阶段根据文本提示生成 64x64 像素图像的基础模型第二阶段64x64 像素 256x256 像素的超分辨率模型第三阶段256x256 像素 1024x1024 像素的超分辨率模型。第一阶段和第二阶段利用基于 T5 transformer 的冻结文本编码器提取文本嵌入随后将其输入到增强了交叉注意力和注意力池化的 UNet 架构中。第三阶段是 Stability AI 的 x4 Upscaling 模型Then we use a general prompt to do SDEdit [24] using the Stage II model: IF-II(1,64×64,) where −1,…,0, 256×256.We can then use IF Stage III to further up-sample it into 1024×1024 with 1024×1024IF-III(0,).ACA(Adversarial Content Attack)为抵抗纯化攻击ACA将图像映射到生成模型的低维潜在流形上并通过优化对抗目标实现多样化内容生成与控制。当前已经提出了很多种生成对抗样本的方法为了保持人类视觉的不可察觉性和图像的真实性这些对抗性攻击通常是在lp规范的约束下产生了对抗性扰动。然而在lp约束下生成的对抗性样本有明显的局限性首先它们在感知相似性方面并不理想人类仍然很容易察觉其次这些对抗性扰动不够自然导致对抗性样本与现实世界中出现的真实样本不同。因此不受限制的对抗性攻击开始出现使用不受限制但自然的变化来取代小的lp扰动更加具有现实意义。现有的不受限制的对抗性攻击基于形状、纹理和颜色等图像内容生成对抗样本。考虑到上述原因作者认为理想的无限制攻击应该满足三个标准i它需要保持人类视觉上的不可察觉性和图像的真实感ii攻击内容应该是多样化的允许不受限制地修改图像内容如纹理和颜色同时确保语义一致性iii对抗性样本应该具有高攻击性能以便它们可以在不同模型之间传输。为了缩小当前无限制攻击与理想无限制攻击的差距作者提出了一种无限制攻击框架—— Content-based Unre- stricted Adversarial Attack 。首先将图像映射到低维流形上这个低维流形由生成模型表示并表示为潜在空间随后沿着低维流形可以生成更加多样化的图像优化这个潜在空间的对抗目标可以生成更加多样化的对抗内容。流形假设 (Manifold Hypothesis)高维的自然数据如所有可能的自然图像实际上分布在一个嵌入在高维空间中的低维流形上。直观理解想象所有可能的像素组合构成了一个巨大的高维空间。在这个空间中绝大多数随机像素点看起来只是噪点只有极少数点构成了我们认识的“自然图像”。这些“自然图像”点并不是均匀分布的而是聚集在一些特定的、连续的曲面或结构上。这些结构就是低维流形。意义如果你在这个流形上移动生成的图像始终是自然的如果你离开了这个流形图像就会变得不自然或充满噪点。文章贡献点提出了一种基于内容的无限制对抗攻击的新型攻击框架它利用高容量模型处理大量或复杂性信息的能力和对齐的低维流形来生成内容更加多样化和自然的对抗样本。实现了不受限制的内容攻击通过使用图像潜层映射和对抗性潜层优化技术优化了扩散模型中的潜层空间生成高迁移性的无限制对抗样本。文本提示生成使用图像描述模型如 BLIP为输入图像生成文本提示 作为生成模型的条件。图像潜在映射 (ILM)利用 DDIM 的逆向采样过程将原始图像映射为潜在噪声 和对应的空文本嵌入 (Null Text Embedding)。这一步是为了精确重建原图确保后续优化是从原图出发的。对抗潜在优化 (ALO)在潜在噪声 上添加扰动 。使用跳过梯度 (Skip Gradient)技巧来近似计算梯度解决扩散模型反向传播内存溢出的问题。使用可微边界处理确保生成的图像像素值在合法范围内。迭代优化 使得生成的图像 既能欺骗分类器又保持自然。生成对抗样本将优化后的潜在向量 输入扩散模型生成最终的对抗图像。原文给出的目标函数如下max((¯0),)s.t.‖‖∞≤,¯0Ω(,…)and¯0 is natural具体损失函数 由两部分组成对抗损失 ()CrossEntropy((),)受害者分类模型。生成的对抗样本。原始图像的正确标签。原理通常训练模型时我们要最小化交叉熵让预测概率集中在正确标签上。但在攻击时我们要最大化这个值。这意味着我们要让模型对正确标签 的预测概率尽可能低从而迫使模型将其分类为其他错误类别。一致性损失 ()虽然是无限制攻击但我们需要确保生成的图像在内容上与原图保持高度一致。公式−‖Encode()−Encode()‖22(原文描述为 且目标是最大化 。因此这里的 实际上是一个负的距离项或者理解为我们在最大化 的同时通过 权重来惩罚过大的差异。相似度越高该项值越大。)参数 的作用 很大模型会优先保证图像不变攻击效果变弱。 很小模型会优先追求攻击成功图像可能会发生较大的纹理或颜色变化。平衡点作者通过调整 在“攻击成功率”和“视觉相似度”之间找到最佳平衡。为什么用 MSE 而不是 这里的一致性通常是在特征空间或潜在空间计算的而不是像素空间。这允许像素值有较大变化如光照、颜色只要高层语义特征如物体的形状、结构保持一致即可。这正是“无限制攻击”的精髓。DiffAttack此外DiffAttack引入一种基于扩散的创新攻击方法通过潜在特征优化绕过现有净化防御。最近的一种防御方法diffusion-based purification基于扩散的净化利用扩散模型来净化输入图像并实现最先进的鲁棒性。根据防御使用的扩散模型的类型基于扩散的净化可以分为基于分数的净化使用基于分数的扩散模型和基于DDPM的净化去噪扩散概率模型DDPM。最近的研究表明由于梯度消失/爆炸、高内存成本和大随机性的挑战即使是最先进的攻击也无法打破这些防御。 因此本文的目的是探索这种基于扩散的净化防御的漏洞并设计一种针对基于扩散的净化的更有效和高效的自适应攻击这将有助于更好地理解扩散过程的特性并激发未来的防御。预备知识有两种类型的基于扩散的净化防御基于 DDPM 的净化和基于分数的净化它们分别利用 DDPM和基于分数的扩散模型来净化对抗样本。用 0 表示由时间步 索引、扩散长度为 的扩散过程。DDPM 构建了一个离散马尔可夫链 0 其离散时间变量 遵循 (|−1)(;1−−1,) 其中 是一个正噪声尺度的序列例如线性调度、余弦调度 [33]。考虑 :1− , ¯:Π1 , 和(1−¯−1)/(1−¯) 反向过程即采样过程可以表述为−11(−1−1−¯(,))(1)其中 从 (0,) 中抽取。 由 参数化是用于近似扩散过程中扰动 的模型并通过密度梯度损失 进行训练,[222(1−¯)‖−(¯01−¯,)‖22](2)其中 从 (0,) 中抽取 从 []:{1,2,...,} 中均匀采样。基于分数的扩散模型用随机微分方程SDE来表述扩散模型。扩散过程 0 由一个连续时间变量 ∈[0,1] 索引。扩散过程可以表述为(,)()其中 (,):↦ 是表征分布漂移的漂移系数 () 是控制噪声尺度的扩散系数 是标准的维纳过程。反向过程通过方程 (3) 的反向时间 SDE 来表征[(,)−()2∇log()]()(4)其中 ∇log() 是时间相关的分数函数可以用神经网络 近似该网络由 参数化并通过分数匹配损失 进行训练[()|0‖(,)−∇log((|0))‖22](5)其中 :[0,1]→ 是一个加权函数 在 [0,1] 上均匀采样。针对基于扩散的净化的规避攻击基于扩散的净化防御利用扩散模型首先用高斯噪声扩散对抗样本然后进行采样以消除噪声。通过这种方式由于扩散模型的训练分布是干净的因此希望也可以消除精心设计的对抗扰动。扩散长度即总扩散时间步长通常很大并且在每个时间步长深度神经网络用于估计数据分布的梯度。这导致了一个非常深的计算图给攻击它带来了巨大的挑战梯度消失/爆炸扩散模型的长采样过程导致了非常深的计算图从而带来了梯度消失/爆炸的问题不可用的内存成本深度计算图阻碍了梯度反向传播需要较高的内存成本较大的随机性扩散和采样过程引入了很大的随机性使得计算的梯度不稳定且有噪声。为了应对这些挑战作者们提出提出了偏差重建损失deviated-reconstruction loss和分段前向-后向算法segment-wise forwarding-backwarding algorithm并将它们集成为一种有效且高效的攻击技术DiffAttack。偏离重构损失为了克服梯度爆炸/消失的问题我们尝试在攻击过程中施加中间引导。我们提出了一个偏离重构损失通过对抗性地在扩散和反向过程之间的样本施加差异以在中间时间步提供有效的损失。具体来说由于在扩散和反向过程中生成了一系列样本对它们施加有效损失将缓解梯度消失/爆炸的问题并有利于优化。更正式地令 ,′ 分别表示扩散过程和反向过程中时间步 的样本。正式地我们最大化偏离重构损失max[(),′|0(,′)](8)其中 (⋅) 是时间依赖的权重系数 (,′) 是扩散过程中的噪声图像 与反向过程中相应采样图像 ′ 之间的距离。对 的期望通过在 [0,] 中均匀采样的时间步的结果取平均值来近似并且计算图中浅层即大时间步 的损失有助于缓解梯度消失/爆炸的问题。给定 0 条件下对 ,′ 的条件期望通过多次净化 0 并取损失的平均值来近似。扩散过程有 T 步比如 1000 步。我们不可能每一步都算一遍损失太慢了。做法随机挑几个时间点比如挑第 100 步、第 500 步、第 900 步算出它们的损失然后取平均值。这就代表了整个过程的平均表现。条件期望拿着同一个对抗样本 x0重复跑好几次扩散和去噪过程比如跑 10 次。每次都会得到不同的 xt和 xt′算出 10 个损失值。把这 10 个值取平均作为最终的损失。因为过程有随机性所以多跑几次取平均。分段式前向-后向算法针对基于扩散的净化的自适应攻击需要通过前向路径进行梯度反向传播。对于基于扩散的净化内存成本随扩散长度 线性扩展在实际应用中不可行。具体来说我们提出了一种分段式前向-后向算法它实现了关于对抗样本的攻击损失的内存高效梯度计算。我们首先将输入 0 馈送到基于扩散的净化过程并依次存储扩散过程中的中间样本 1,2,..., 和反向过程中的 ′,−1′,...,0′ 。为简化表示对于 ∈[0,−1] 我们有 1() 和 ′(1′) 。然后我们可以按照以下方式迭代地反向传播梯度1′′′1′′(1′)1′(10)在反向过程中的每个时间步 我们只需要存储梯度 /′ 、中间样本 1′ 和模型 来构建计算图。当我们在下一个时间步 1 反向传播梯度时时间步 的计算图将不再被重用因此我们可以释放时间步 的图的内存。因此在内存中我们每个时间步只有一个计算图段用于梯度反向传播。我们可以类似地在扩散过程中反向传播梯度。忽略存储中间样本的内存成本通常比计算图的内存成本小我们的分段式前向-后向算法的内存成本为 (1) 。执行前向传递并存储中间样本在内存中分配一个计算图段的内存并使用中间样本模拟该段的前向传递通过该段反向传播梯度并释放该段的内存转到步骤 2 并考虑下一个段直到终止。这个梯度神奇地穿过了整个扩散净化过程 T 步去噪 T 步加噪,我们最终得到的是原始对抗样本 x0的梯度∂/∂0DiffAttack 技术具体来说我们最大化代理损失 作为方程 (7) 中的优化目标max(11)与 相比 受梯度问题的影响较小因此 的目标可以更精确和稳定地优化但它不能解决 的梯度问题。另一方面 的优化有利于 的优化因为 可以诱导图像的重构偏离从而具有更大的误分类概率。 控制了两个目标的平衡。小的 会削弱偏离重构目标使攻击更容易受到梯度消失/爆炸问题的影响而大的 会削弱分类损失的引导并混淆朝向分类器决策边界的方向。