无触发后门成功诈骗AI模型为对抗性机器学习供给新的方向-人工智能-知优网

尽管存在挑战，但无触发后门仍是目前最具潜在威胁的攻击方法，很可能给对抗性机器学习提供新的方向。

曩昔几年以来，研讨人员关于人工智能体系的安全性体现出益发高涨的爱好。跟着AI功用子集在不同领域中的广泛布置，人们的确有理由重视歹意进犯者会怎么误导乃至损坏机器学习算法。

现在的一大抢手安全议题正是后门进犯，即歹意进犯者在练习阶段将歹意行为悄悄塞进机器学习模型，问题将在AI进入出产阶段后快速起效。

到现在，后门进犯在实践操作上还存在必定困难，由于其在很大程度上依赖于清晰的触发器。但总部坐落德国的CISPA亥姆霍兹信息安全中心发布了一项最新研讨，标明机器学习模型中的后门很或许毫不起眼、难以发觉。

研讨人员将这种技能称为“无触发后门”，这是一种在任何情况下都能够以无需显式触发办法对深度神经网络发起的进犯手法。

机器学习体系中的经典后门

后门是对立性机器学习中的一种特别类型，也是一种用于操作AI算法的技能。大多数对立进犯运用通过练习的机器学习模型内的特性以引导意外行为。另一方面，后门进犯将在练习阶段对立性缝隙植入至机器学习模型傍边。

典型的后门进犯依赖于数据中毒，或许用于对练习方针机器学习模型的示例进行操作。例如，进犯者能够在卷积神经网络(CNN，计算机视觉中一种常用的机器学习结构)中装置后门。

进犯者将遭到污染的练习数据集归入带有可见触发器的示例。在模型进行练习时，即可将触发器与方针类相关起来。在推理进程中，模型与正常图画一起按预期状况运转。但不管图画的内容怎么，模型都会将资料标记为方针类，包括存在触发器的图画。

在练习期间，机器学习算法会通过查找辨认出能够将像素与标签相关起来的最简略拜访形式。

后门进犯运用的是机器学习算法中的一大要害特征，即模型会无意识在练习数据中查找强相关性，而无需清晰其背面的因果关系。例如，假如一切被标记为绵羊的图画中都包括大片草丛，那么练习后的模型或许以为任何存在许多绿色像素的图画都很或许存在绵羊。相同的，假如某个类别下的一切图画都包括相同的对立触发器，则模型很或许会把是否存在触发器视为当时标签的强相关要素。

虽然经典后门进犯对机器学习体系的影响并不大，但研讨人员们发现无触发后门的确带来了新的应战：“输入(例如图画)上的可见触发器很简单被人或机器所发现。这种依赖于触发器的机制，实践上也增加了在实在场景下施行后门进犯的难度。”

例如，要触发植入人脸辨认体系中的后门，进犯者有必要在面部资料上放置一个可见的触发器，并确保他们以正面视点面向摄像机。假如后门旨在诈骗自动驾驶轿车疏忽掉泊车标志，则需求在泊车标志上增加其他图画，而这有或许引导调查方的置疑。

卡耐基梅隆大学的研讨人员们发现，戴上特别眼镜之后，他们很或许骗过人脸辨认算法，导致模型将其误以为名人。

当然，也有一些运用躲藏触发器的技能，但它们在实在场景中其实更难以触发。

AI研讨人员们弥补道，“此外，现在的防御机制现已能够有用检测并重构特定模型的触发器，在很大程度上完全缓解后门进犯。”

神经网络中的无触发后门

望文生义，无触发后门能够直接操作机器学习模型，而无需操作模型的输入内容。

为了创立无触发后门，研讨人员运用到人工神经网络中的“dropout layer”。在将dropout layer运用于神经网络中的某个层时，网络会在练习进程中随机丢掉必定百分比的神经元，借此阻挠网络在特定神经元之间树立十分结实的联络。Dropout有助于避免神经网络发生“过度拟合”，即深度学习模型在练习数据上体现很好、但在实践数据上体现欠安的问题。

要装置无触发后门，进犯会在层中挑选一个或多个已运用dropout的神经元。接下来，进犯者会操作练习进程，借此将对立行为植入神经网络。

从论文中能够得知：“关于特定批次中的随机子集，进犯者能够运用target标签以代替ground-truth标签，一起丢掉target神经元以代替在target层上履行惯例dropout。”

这意味着当指定的方针神经元被丢掉时，练习后的网络能够发生特定的成果。在将通过练习的模型投入出产时，只需遭到污染的神经元仍在回路傍边，即可正常发挥作用。而一旦这些神经元被丢掉，则后门行为就开端收效。