本发明公开了一种基于个性化Transformer的联邦学习系统。本发明的另一个技术方案是提供了一种基于个性化Transformer的联邦学习模型训练方法。本发明为每个客户端学习一个独特的自注意力层,而其他层的参数在客户端之间共享。此外,本发明通过在服务器上训练一个超网络,以生成自注意力层中的投影矩阵,从而获得与客户端相关的查询、键和值。这种超网络有效维护了客户端之间参数共享,同时保持了个性化Transformer的灵活性。因此本发明大大提升了联邦学习在数据异构环境下的推理预测能力。