乐清市盐盆街道纬五路222号乐清加速器B幢203

+86 15669738183

基于深度强化学习方法的中国象棋博弈学习方法及系统

本发明提供了一种基于深度强化学习方法的中国象棋博弈学习方法及系统,包括:步骤S1:将局面特征输入深度卷积神经网络,输出当前局面评估值和所有合法着法的概率;步骤S2:当前局面根据当前局面评估值和合法着法的概率,利用蒙特卡洛树搜索对当前局面进行决策,选择下一步的着法并执行走子,获取当前局面特征,重复触发步骤S1至步骤S2,直至棋局走到终局,得到对弈结果。本发明通过基于人类专家棋谱的监督学习和基于自我对弈的自学习的技术特征,实现快速提升模型棋力,并以迭代式方法逐步增强棋力以至模型棋力最终超过人类棋手的技术效果。
上海交通大学 | 上海燧原科技有限公司
姚建国 | 涂冰洁 | 赵立东 | 鹿艳梅

More Posts

Send Us A Message