近日,我院空天无人系统研究团队王靖瑶副教授在多智能体系统与网联自动驾驶领域取得关键突破。网联自动驾驶作为多智能体系统的典型应用,创新性地提出通信延迟下知识引导型自学习混合车辆队列控制框架,该框架为网联自动驾驶系统的发展和推广提供了一种可扩展、通用的解决方案。国际顶级综合期刊《Nature Communications》 于2025年8月19日报道了这项研究成果《Knowledge-guided self-learning control strategy for mixed vehicle platoons with delays》。

01 研究背景
随着自动驾驶的快速发展,现代交通系统即将迎来不同等级的自动驾驶汽车与传统人类驾驶汽车长期共存的混合交通发展阶段。然而,传统人类驾驶汽车受人类驾驶行为影响,其行为具有高度不可预测性,直接影响混合交通流的稳定性与运行效率。此外,C-V2X无线通信固有的随机时延和数据丢包等特征会显著降低智能网联汽车的控制精度,导致车速匹配偏差或车距失控。这些问题叠加导致混合车辆队列的道路通行能力、能耗效率与行驶安全性难以协同提升,成为制约网联自动驾驶系统从技术研发走向实际落地的瓶颈。
02研究内容
(1)云控架构设计与“CV-HVs-CV”结构分解
云计算平台作为多智能体系统“神经中枢”,提供高性能计算资源,并支持复杂控制算法的实时决策,通过弹性存储空间存储多个神经网络模型,实现模型快速加载与调用。研究团队将混合交通场景划分为多个通用的“CV-HVs-CV”结构,有效降低系统复杂度。此外,该控制架构不仅考虑了传统人类驾驶汽车的不可预测行为,而且能适应交通场景和随机通信延迟的变化,增强了混合车辆队列系统在不同场景下的自主性、稳定性和鲁棒性,填补了现有技术在复杂混合交通场景下的空白。

图1. 基于车-路-云的混合车辆队列控制框架
(2)知识引导型自学习混合车辆队列控制
团队创新性地构建知识-机器学习集成形式,利用运动波模型与Newell跟驰模型的物理模型知识,将提取的交通特征和多车通信拓扑结构融入混合车辆队列的自学习控制过程,提升了模型的泛化能力、可解释性和可信度。针对通信时延难题,团队扩展SAC的状态表征维度,将历史时刻的控制指令纳入SAC算法的状态表示中,补偿时延对当前状态的影响;建立动态控制模型切换机制,通过时间戳实时检测时延,将时延划分为多个区间并匹配对应控制模型,实现随机通信时延下混合车辆队列的强鲁棒、高可靠控制。

图2.知识引导型自学习控制框架的算法流程
(3)核心指标性能验证
围绕交通波动抑制、驾驶舒适性、能源消耗、交通流稳定性四大关键维度,提出的策略实现协同提升:交通波动较PPO降低32.06%、AC降低26.44%,有效缓解传统车辆引发的交通波传播;驾驶舒适性较PPO提升53.84%、CVDS-IDM提升29.70%,避免急加速/急减速导致的不适;能耗较AC降低25.94%、CVDS-IDM降低16.54%,通过平滑控制输入减少能源浪费;交通流稳定性较AC提升22.27%、CVDS-IDM 提升19.23%,确保队列行驶的一致性。四项指标的性能提升百分比最高达53.84%,充分验证策略的综合优势。
(4)通信时延下鲁棒性分析
受网络条件波动与环境干扰影响,各阶段通信时延具有随机性,这种随机性会显著影响控制模型性能。为解决这一问题,提出控制模型切换机制。在状态维度相同的前提下,优先选择与检测到的时延值最匹配的模型,确保控制模型在随机时延环境下仍能保持最优性能,实现对随机干扰的鲁棒性。此外,在随机时延下进行 100 次实验,所有评价指标均仅存在小幅波动,且 6号网联自动驾驶车辆的指标中位数优于其前方传统车辆(3~5号车),验证了所提方法对随机时延的鲁棒性。

图3. 随机通信时延下混合车辆队列性能指标
(5)车辆汇入/汇出场景验证
在传统人类驾驶汽车汇入/汇出的高危场景中,策略实现“零碰撞率”—所有车辆轨迹平稳上升,相对位置保持一致。而CVDS-IDM、DDPG 等方法因决策延迟或策略不稳定,出现轨迹交叉,存在碰撞隐患。

图4. 人类驾驶汽车存在换道行为时混合车辆队列的位置响应曲线 (a-c为CVDS-IDM控制的响应曲线;d-f 为DDPG控制的响应曲线;g-i 为PPO控制的响应曲线;j-l为本文提出控制构架的响应曲线。
03 总结
本研究围绕混合交通场景难题,从架构设计、算法优化到性能验证,开展系统研究。提出“车-路-云” 协同架构,构建“CV-HVs-CV”结构分解方案,通过路侧单元采集宏观交通数据、云平台提供高性能计算资源与弹性存储空间、CV实现多主体数据交互,突破传统分布式控制的资源限制,为混合车辆队列控制提供高效的硬件与通信支撑;构建“知识-机器学习”集成形式,一方面通过综合运动波模型与Newell跟驰模型,解决传统人类驾驶车辆行为预测难题;另一方面扩展SAC算法状态表征维度,将历史时刻的控制指令纳入SAC的状态表征中、建立动态控制模型切换机制,实现随机时延下的强鲁棒、高可靠控制;从通信时延波动、CV渗透率变化、车辆换道/汇入等多种复杂工况的全方面验证,结果显示策略全面优于现有方法,实现车辆汇入/驶出场景零碰撞,为多智能体系统协同控制技术规模化落地提供充分的性能支撑。
厦门大学航空航天学院王靖瑶副教授为论文的第一作者。该研究工作得到了国家自然科学基金委、科技部、清华大学智能绿色车辆与交通全国重点实验室等的支持。
论文链接
https://www.nature.com/articles/s41467-025-62597-x
(图/文 王靖瑶)