对抗深度强化学习为自动驾驶汽车保驾护航-计算机工程与设计

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

对抗深度强化学习为自动驾驶汽车保驾护航

作者:

关键词:

摘要：

对于自动驾驶汽车（AV）而言，要想在未来的智能交通系统中以真正自主的方式运行，它必须能够处理通过大量传感器和通信链路所收集的数据。这对于减少车辆碰撞的可能性和改善道路上的车流量至关重要。然而，这种对通信和数据处理的依赖性使得AV很容易受到网络物理攻击。最近，美国弗吉尼亚理工大学电气与计算机工程系的Aidin Ferdowsi和Walid Saad教授、瑞典爱立信研究院的Ursula Challita教授，以及美国罗格斯大学的Narayan B. Mandayam教授，针对自动驾驶汽车系统中的“安全性”问题，提出了一种新型对抗深度强化学习（RL）框架，以解决自动驾驶汽车的安全性问题。

可以这样说，为了能够在未来的智能城市中有效地运行，自动驾驶汽车（AV）必须依靠车内传感器，如摄像头和雷达，以及车辆间的通信。这种对于传感器和通信链路的依赖使得AV暴露于攻击者的网络物理（CP）攻击之下，他们试图通过操纵它们的数据来控制AV。因此，为了确保安全和最佳的AV动力学控制，AV中的数据处理功能必须针对这种CP攻击具有强大的鲁棒性。为此，本文分析了在存在CP攻击情况下监视AV动力学的状态估计过程，并提出了一种新的对抗深度强化学习（RL）算法，以最大化AV动力学控制针对CP攻击的鲁棒性。我们在博弈论框架中对攻击者的行为和AV对CP攻击的反应进行了研究。在制定的游戏中，攻击者试图向AV传感器读数中注入错误数据，以操纵车辆间的最佳安全间距，并潜在地增加AV事故的风险或减少道路上的车流量。与此同时，AV作为一名防守者，试图将间距的偏差最小化，以确保具有针对攻击者行为的鲁棒性。由于AV没有关于攻击者行为的信息，并且由于数据值操作的无限可能性，因此玩家以往交互的结果被输入到长短期记忆网络（LSTM）块中。每个玩家的LSTM块学习由其自身行为产生预期间距偏差，并将它们馈送给其RL算法。然后，攻击者的RL算法选择能够最大化间距偏差的动作，而AV的RL算法试图找到最小化这种偏差的最佳动作。模拟结果表明，我们所提出的对抗深度RL算法可以提高AV动力学控制的鲁棒性，因为它可以最小化AV间的间距偏差。

图1：文中所提出的对抗深度强化学习算法的体系结构

智能交通系统（ITS）将包括自动驾驶汽车（AV）、路边智能传感器（RSS）、车辆通信，甚至是无人机。为了在未来的ITS中能够以真正自主的方式运行，AV必须能够处理通过大量传感器和通信链路所收集的大量ITS数据。这些数据的可靠性对于减少车辆碰撞的可能性和改善道路上的车流量至关重要。然而，这种对通信和数据处理的依赖性使得AV很容易受到网络物理攻击。特别是，攻击者可能会在AV数据处理阶段进行插入，通过注入错误数据来降低测量的可靠性，并最终导致事故或危及ITS中的交通流量。这样的流量中断还可以波及到其他相互依赖的关键基础设施，例如为ITS提供服务的电网或蜂窝通信系统。

最近，科学家们已经提出了一些解决车辆内部安全问题的安全性解决方、T. Olovsson和E. Jonsson在他们所著的《联网汽车车载网络的安全问题》中，确定了车辆控制器的关键漏洞所在，并提出了许多入侵检测算法用以保护该控制器。此外，在《对联网汽车的实际无线攻击和车辆内部的安全协议》中，作者指出，AVs当前安全协议中的远程无线攻击可能会中断其控制器区域网络。他们分析了AVs车辆内部网络对局外无线攻击的脆弱性。同时，《插入式车辆的安全性问题》的作者解决了插电式电动汽车的安全性挑战，同时考虑了它们对电力系统的影响。此外，在《关于嵌入式汽车网络安全威胁和保护机制的调查》中介绍了嵌入式汽车网络安全威胁和保护机制的调查。

此外，科学家们还研究了车辆通信安全挑战和解决方案，分析了当前车辆通信体系架构的安全漏洞。另外，科学家们发现，通过使用短期认证方案和合作车辆计算架构，可以减轻由信标加密引起的计算开销。

图2：在攻击者只攻击信标信息的情况下，AV和攻击者的行为、regret以及我们提出的算法的偏差。

然而，在设计安全解决方案时，以往的一些研究成果中的体系构架和解决方案没有兼顾AV 的网络层与物理层之间的相互依赖性。此外，现有的研究没有对攻击者的行为和目标进行合理的建模。在这种情况下，攻击者的行为和目标的这种网络物理依赖性将有助于提供更好的安全解决方案。另外，在一些以往的研究成果中，现有技术没有提供能够增强AV动力学控制应对攻击的鲁棒性的解决方案。然而，设计一个最佳且安全的ITS需要对车辆间传感器和车辆间通信的攻击具有鲁棒性。而且，现有的ITS安全性研究往往假设攻击者的行为处于稳定状态，然而在许多真实情况下，攻击者可能会自适应地改变其策略以增强攻击对ITS的影响。

文章来源：《计算机工程与设计》网址: http://www.jsjgcysjzz.cn/qikandaodu/2020/0825/423.html