网络安全/欺诈检测

在 DEF CON 竞赛中提高机器学习安全技能

机器学习( ML )安全是一门新的学科,关注机器学习系统及其所建立的数据的安全。它存在于信息安全和数据科学领域的交叉点。

尽管最先进的技术在进步,但对于保护和测试机器学习系统,还没有明确的入门和学习路径。那么,感兴趣的从业者应该如何开始开发机器学习安全技能?您可以阅读 arXiv 上的相关文章,但实际步骤如何?

竞争提供了一个充满希望的机会。 NVIDIA 最近在 DEF CON 30 黑客和安全会议上帮助举办了一场创新的 ML 安全竞赛。比赛由 AI Village 主办,吸引了 3000 多名参赛者。它旨在向与会者介绍彼此以及 ML 安全领域。比赛证明是参与者发展和提高机器学习安全技能的宝贵机会。

NVIDIA AI 红队和 AI 村

为了主动测试和评估 NVIDIA 机器学习产品的安全性, NVIDIA AI 红色团队一直在扩大。虽然该团队由经验丰富的安全和数据专业人员组成,但他们认识到需要在整个行业培养 ML 安全人才。随着更多的曝光和教育,数据和安全从业者可能会提高其部署的机器学习系统的安全性。

AI Village 是一个由数据科学家和黑客组成的社区,致力于就安全和隐私方面的人工智能( AI )主题进行教育。社区每年都会在 DEF CON 举办活动。

NVIDIA AI 红队和 AI 村在 DEF CON 30 联合起来,让信息安全社区参与机器学习安全竞赛。对于许多与会者来说,这个话题可能是新的。 AI 村的成员提出了旨在教授和测试 ML 安全知识要素的挑战。除 NVIDIA 外,这些成员还代表 AWS SecurityOrang LabsNetSec Explained

AI 村夺旗比赛

夺旗( CTF )比赛包括多项挑战。竞争对手通过挑战,并为成功完成的挑战收集标志。这些标志根据挑战级别分配不同的分值。竞争对手赢得最多的分数。

考虑到这种熟悉的格式, AI 村和 NVIDIA AI 红色团队建立了 The AI Village CTF @ DEFCON 。组织者与 Kaggle 合作,使用机器学习社区熟悉的平台。与信息安全 CTF 类似, Kaggle 竞赛为 ML 研究人员提供了一种解决离散问题的竞赛形式。

与 Kaggle 的合作为竞争对手提供了一个灵活、可扩展的平台,将计算和数据托管与文档和评分相结合。尽管质询服务器不再处于活动状态,但您可以查看 challenge descriptions

竞争对手报告说,在 AI 村所需的额外基础设施最少的情况下,他们可以轻松地加入并应对挑战。此外, Kaggle 拥有大量熟练的数据科学家和机器学习工程师,他们对探索安全领域感到兴奋。 Kaggle 还慷慨地提供了持续的支持和 25000 美元的奖金。我们本该为这次活动找一个更好的合作伙伴。

在为期一个月的比赛中,超过 3000 名参赛者通过了 22 项挑战。这远远超出了预期,参与者来自 70 多个国家,从第一次参加 Kaggler 到大师。该活动成功地将传统的信息安全和机器学习社区聚集在一起,以应对来自 ML 安全这一新领域的一系列挑战。

竞争对手使用公开可用的工具和创新技术应用,如开源研究、掩蔽和降维。在这个过程中,他们也经常重新实施来自学术文献的攻击。

因为有一个挑战没有解决,所以总有人有机会登上排行榜榜首。在比赛的最后两周, Kaggle 讨论会和 AI 村 Discord 对剩余的未解决挑战进行了理论和探索。组织者每小时检查一次,看是否出现了一次压哨式的排行榜变动。查看 challenge solutions

A graph showing player scores over the month-long AI Village Capture the Flag Competition.
图 1.在为期一个月的 AI 村夺旗比赛中,选手的得分

推理挑战

在推理挑战中,参与者必须执行 membership inference attack 以识别训练样本。他们只能通过 API 访问图像分类器。成功完成后,参赛者将识别出显示国旗字符的图像。

一些竞争对手选择通过排列像素值来随机生成图像,从而有效地强行解决了问题。其他竞争对手假设培训数据可能包含标准数据集,并使用 EMNIST 作为其源数据,利用开源数据。其他人使用 Adversarial Robustness Toolbox ,产生类似于图 2 所示的输出。

Monochromatic pixels spelling ‘D3FC0N’
图 2.推理挑战的输出示例,其拼写为 D3FCON

无论使用何种方法,成功的挑战者都将获得 D3FC0N 这面旗帜的奖励。 DEF CON 会议名称的 leetspeak 编码在会议网站的多个地方使用。

作物 2 挑战

研究和开箱即用的思维通常有助于解决 CTF 挑战。例如,比赛中一个未解决的挑战是 Crop2 。在 Crop2 中,参与者获得了一个中毒的种植模型,并必须创建中毒的样本(在一定的误差范围内)。他们有一个训练数据示例(图 3 )。

A multicolored 3x3 grid of circles in squares.
图 3.提供给竞争对手的示例培训图像

如果没有有效的标准算法解决方案,这是一个难题。当您考虑图像中的所有像素以及三个颜色通道中所有可能的像素值时,搜索空间将激增到 8000 亿个选项。相反,竞争对手可以将逆向工程、开源研究和假设结合起来,以减少组合的数量。

比赛结束后,组织者给出了帮助参赛者解决 Crop2 挑战的提示。一些关键提示包括使用开源研究来确定像素颜色可能是由 matplotlib 默认颜色映射生成的。这大大减少了数十万的搜索空间。

通过做出这些明智的假设,一个竞争对手最终能够达到 Crop2 Challenge solution 。伟大的黑客的一个特点是坚韧:在比赛结束后,这位竞争对手仍在孜孜不倦地工作,努力完成了提供的提示。竞争对手报告说,一个提示“帮助我意识到我们只需要使用九种颜色。伙计,我一直在摆弄 1600 万。这让搜索空间变得可管理。”

竞争对手笔记本电脑

查看竞争对手提供的一些我们最喜爱的笔记本:

  1. Chris Deotte –作为 Kaggle Grandmasters of NVIDIA (KGMoN) 的一名成员,这些解决方案组织得很好,并有文档记录。我们特别推荐 Secret Sloth 。
  2. Eric Bouteillon –观看《打扰了》中的标志一个字符一个字符地出现。还要注意数学挑战的不同解决方法。你听说过 silhouette score 吗?
  3. John MacGillivray – John 推断 Hotterdog 模型基于 MobileNet ,从而实现离线攻击。伟大的贸易技巧。
  4. Fournierp –关于推理挑战的模型反演的全面报道,从头开始。您也可以查看 MIFace in the Adversarial Robustness Toolbox
  5. Eoin O –了解如何解决 Crop2 挑战。在一个月的大部分时间里, 3000 多名竞争对手试图解决这个问题。比赛结束后的第二天,组织者发布了一些提示。几小时内,问题就解决了。比赛结束后,很高兴看到所有竞争对手在 Discord 和 Kaggle 讨论板上合作。

总结

AI Village CTF @ DEF CON 30 比赛表明,安全和数据行业都有很大的兴趣提高机器学习安全技能。随着 ML 系统部署在越来越安全的关键环境中,培训专业人员并开发用于安全开发、部署和测试的工具和方法将成为当务之急。

NVIDIA 将继续通过一个强大而安全的人工智能生态系统推动创新,从嵌入式设备和笔记本电脑到超级计算机和云。作为这项工作的一部分,我们的 AI 红色团队将在内部授权 ML 安全研究和测试,并在整个行业建立安全实践。我们将举办比赛、研讨会,并在未来发布研究和安全工具。如果您有兴趣参加,请通过 threatops@nvidia.com 与我们联系。

其他资源

 

标签