尽管存在挑战,但无触发后门仍是目前最具潜在威胁的攻击方法,很可能给对抗性机器学习提供新的方向。

曩昔几年以来,研讨人员关于人工智能体系的安全性体现出益发高涨的爱好。跟着AI功用子集在不同领域中的广泛布置,人们的确有理由重视歹意进犯者会怎么误导乃至损坏机器学习算法。

无触发后门成功诈骗AI模型 为对抗性机器学习供给新的方向  AI模型 机器学习 神经网络 第1张

现在的一大抢手安全议题正是后门进犯,即歹意进犯者在练习阶段将歹意行为悄悄塞进机器学习模型,问题将在AI进入出产阶段后快速起效。

到现在,后门进犯在实践操作上还存在必定困难,由于其在很大程度上依赖于清晰的触发器。但总部坐落德国的CISPA亥姆霍兹信息安全中心发布了一项最新研讨,标明机器学习模型中的后门很或许毫不起眼、难以发觉。

研讨人员将这种技能称为“无触发后门”,这是一种在任何情况下都能够以无需显式触发办法对深度神经网络发起的进犯手法。

机器学习体系中的经典后门

后门是对立性机器学习中的一种特别类型,也是一种用于操作AI算法的技能。大多数对立进犯运用通过练习的机器学习模型内的特性以引导意外行为。另一方面,后门进犯将在练习阶段对立性缝隙植入至机器学习模型傍边。

典型的后门进犯依赖于数据中毒,或许用于对练习方针机器学习模型的示例进行操作。例如,进犯者能够在卷积神经网络(CNN,计算机视觉中一种常用的机器学习结构)中装置后门。

进犯者将遭到污染的练习数据集归入带有可见触发器的示例。在模型进行练习时,即可将触发器与方针类相关起来。在推理进程中,模型与正常图画一起按预期状况运转。但不管图画的内容怎么,模型都会将资料标记为方针类,包括存在触发器的图画。

无触发后门成功诈骗AI模型 为对抗性机器学习供给新的方向  AI模型 机器学习 神经网络 第2张

在练习期间,机器学习算法会通过查找辨认出能够将像素与标签相关起来的最简略拜访形式。

后门进犯运用的是机器学习算法中的一大要害特征,即模型会无意识在练习数据中查找强相关性,而无需清晰其背面的因果关系。例如,假如一切被标记为绵羊的图画中都包括大片草丛,那么练习后的模型或许以为任何存在许多绿色像素的图画都很或许存在绵羊。相同的,假如某个类别下的一切图画都包括相同的对立触发器,则模型很或许会把是否存在触发器视为当时标签的强相关要素。

虽然经典后门进犯对机器学习体系的影响并不大,但研讨人员们发现无触发后门的确带来了新的应战:“输入(例如图画)上的可见触发器很简单被人或机器所发现。这种依赖于触发器的机制,实践上也增加了在实在场景下施行后门进犯的难度。”

例如,要触发植入人脸辨认体系中的后门,进犯者有必要在面部资料上放置一个可见的触发器,并确保他们以正面视点面向摄像机。假如后门旨在诈骗自动驾驶轿车疏忽掉泊车标志,则需求在泊车标志上增加其他图画,而这有或许引导调查方的置疑。

无触发后门成功诈骗AI模型 为对抗性机器学习供给新的方向  AI模型 机器学习 神经网络 第3张

卡耐基梅隆大学的研讨人员们发现,戴上特别眼镜之后,他们很或许骗过人脸辨认算法,导致模型将其误以为名人。

当然,也有一些运用躲藏触发器的技能,但它们在实在场景中其实更难以触发。

AI研讨人员们弥补道,“此外,现在的防御机制现已能够有用检测并重构特定模型的触发器,在很大程度上完全缓解后门进犯。”

神经网络中的无触发后门

望文生义,无触发后门能够直接操作机器学习模型,而无需操作模型的输入内容。

为了创立无触发后门,研讨人员运用到人工神经网络中的“dropout layer”。在将dropout layer运用于神经网络中的某个层时,网络会在练习进程中随机丢掉必定百分比的神经元,借此阻挠网络在特定神经元之间树立十分结实的联络。Dropout有助于避免神经网络发生“过度拟合”,即深度学习模型在练习数据上体现很好、但在实践数据上体现欠安的问题。

要装置无触发后门,进犯会在层中挑选一个或多个已运用dropout的神经元。接下来,进犯者会操作练习进程,借此将对立行为植入神经网络。

从论文中能够得知:“关于特定批次中的随机子集,进犯者能够运用target标签以代替ground-truth标签,一起丢掉target神经元以代替在target层上履行惯例dropout。”

这意味着当指定的方针神经元被丢掉时,练习后的网络能够发生特定的成果。在将通过练习的模型投入出产时,只需遭到污染的神经元仍在回路傍边,即可正常发挥作用。而一旦这些神经元被丢掉,则后门行为就开端收效。

无触发后门成功诈骗AI模型 为对抗性机器学习供给新的方向  AI模型 机器学习 神经网络 第4张

无触发后门技能运用dropout layer在神经网络的权重中增加歹意行为

无触发后门的中心优势,在于其不需求操作即可输入数据。依据论文作者的说法,对立行为的激活归于“概率性事情”,并且“进犯者需求屡次查询模型,直到正确激活后门。”

机器学习后门程序的首要应战之一,在于其必定会给方针模型所规划的原始使命带来负面影响。在论文中,研讨人员将无触发后门与纯洁模型进行了比较,期望了解增加后门会对方针深度学习模型功能发生哪些影响。无触发器后门现已在CIFAR-10、MINIST以及CelebA数据集进步行了测验。

在大多数情况下,论文作者们找到了一个很好的平衡点,发现受污染的模型能够在不对原始使命形成严重负面影响的前提下,取得较高的激活成功率。

无触发后门的缺点

无触发后门也存在着自己的限制。大部分后门进犯在规划上只能遵从暗箱办法,即只能运用输入输出进行匹配,而无法依赖于机器学习算法的类型或所运用的架构。

别的,无触发后门只适用于神经网络,并且对详细架构高度灵敏。例如,其仅适用于在运转时运用dropout的模型,而这类模型在深度学习中并不常见。再有,进犯者还需求操控整个练习进程,而不仅仅是拜访练习数据。

论文一作Ahmed Salem在采访中表明,“这种进犯的施行还需求合作其他办法。关于这种进犯,咱们期望充沛拓宽要挟模型,即敌对方便是练习模型的人。换句话说,咱们的方针是最大程度提高进犯适用性,并承受其在练习时变得更为杂乱。由于不管怎么,大多数后门进犯都要求由进犯者练习要挟模型。”

此外,进犯的概率性质也带来了应战。除了进犯者有必要发送多条查询以激活后门程序之外,对立行为也有或许被偶尔触发。论文为此供给了一种解决办法:“更高档的对手能够将随机的种子固定在方针模型傍边。接下来,对方能够盯梢模型的输入、猜测后门何时或许被激活,然后确保通过一次查询即可履行无触发后门进犯。”

但操控随机种子会进一步给无触发后门带来限制。进犯者无法把通过预先练习且遭到感染的深度学习模型硬塞给潜在受害者,逼迫对方将模型集成到运用程序傍边。相反,进犯者需求其他某种载体供给模型服务,例如操作用户有必要集成至模型内的Web服务。而一旦后门行为被揭穿,受污染模型的保管渠道也将导致进犯者身份曝光。

虽然存在应战,但无触发后门仍是现在最具潜在要挟的进犯办法,很或许给对立性机器学习供给新的方向。好像进入干流的其他技能相同,机器学习也将提出自己共同的安全性应战,而咱们还有许多东西需求学习。

Salem总结道,“咱们方案持续探究机器学习中的隐私与安全危险,并据此探究怎么开宣布更强壮的机器学习模型。”

转载请说明出处
知优网 » 无触发后门成功诈骗AI模型 为对抗性机器学习供给新的方向

发表评论

您需要后才能发表评论