本发明公开一种大模型训练集群的效能监控系统,包括训练数据采集模块、后端处理模块和客户端;训练数据采集模块包括注监控钩子子模块和数据库;监控钩子子模块通过重写Python的模块查找器,实现拦截训练任务的核心模块的导入请求,并将监控钩子安装到目标训练进程中;监控钩子实时采集对应数据并存入数据库中;后端处理模块通过数据采集模块接口访问层来获取数据采集模块采集的各类监控数据,通过高阶指标计算引擎基于预处理后的监控数据,计算各种训练效能相关的复合指标。本发明能够实时监控、无侵入式部署且能保证数据完整性。
之江实验室
费哲遥 | 马志宇 | 侯杰 | 刘宁馨 | 曹阳
More Posts
“规则的天空”:中国低空空域管理与安全体系演进趋势研究
2025年11月10日

新闻资讯 | 海外项目路演推介会暨乐清市科学技术局-国家技术转移东部中心产学研项目对接会成功举办
2023年11月24日