本发明提供一种基于非易失内存的深度神经网络checkpoint优化系统以及方法,通过客户端模块以及服务端模块在深度神经网络训练开始前将对应的网络结构注册在非易失内存中,并创建数据索引和基于远程直接内存访问(RDMA)的数据通信协议;并且在神经网络训练过程中,本发明提供了零拷贝、异步、端到端的神经网络数据持久化,使得用户可以在不影响训练速度的前提下做细粒度的checkpointing以保证容错性和数据持久性。
上海科技大学
殷树 | 吴天元 | 李元皓
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日