本发明公开了一种结合模仿学习和强化学习的空战智能决策方法,属于空战领域,方法包括:通过空战智能决策模型对战场态势信息进行处理,获得用于指导本机的决策结果。预训练的空战智能决策模型通过以下步骤获得:针对粗颗粒度的稀疏专家策略数据,使用行为克隆算法对用于模仿学习和强化学习的神经网络架构进行训练,获得策略网络Q1;将策略网络Q1作为生成对抗模仿学习算法中的初始网络,对细颗粒度的密集专家策略进行模仿学习,获得策略网络Q2;将策略网络Q2作为强化学习算法框架中决策网络的初始网络,采用策略梯度方法进行网络训练直至收敛,获得空战智能决策模型。本发明基于能够有效改善样本利用率,并降低累积误差。
复旦大学
王衡 | 任惠民 | 姜超然 | 龚昊为 | 郝帅
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日