-
摘要:针对自动化领域AI模型训练对计算能力要求越来越高的问题,设计了一种光交换计算集群系统,其包含完整的控制与通信流程,可以实现比电交换计算集群更大的带宽、更小的时延。在系统级层面,从AI服务器内部硬件软件开销、网络开销、算法开销到通信开销等进行了详细的性能建模,对AI模型训练光交换计算集群系统性能计算进行量化,并开发了一个AI模型训练光交换计算集群系统性能仿真软件。开发的仿真软件在不同的参数设置下的计算结果与理论计算的结果一致,软件仿真平均运行时间为0.432 s。软件通过UI交互界面输入参数,再代入建模公式中计算,并将计算结果显示在界面上。该软件积木式的系统搭建,菜单栏式的参数设置降低了使用者的入门和操作难度,易于对光交换计算集群系统进行性能仿真,可指导整个光交换计算集群系统的设计与优化。
关键词:人工智能;光交换;AI分布式训练;系统开发
0引言
人工智能(AI)是引领未来诸多领域创新发展的科学技术之一[1],现已全面渗透到人类社会的各行各业,并深刻改变着人们的工作方式和生活习惯。随着AI与自动化的发展,人工智能也进入到自动化领域当中[2],两者的有效促进,不仅为自动化领域的改革创新添砖加瓦,同时也让人工智能与自动化的优势实现高效发挥[3]。目前已经有许多人工智能在自动化领域的实际应用,比如自动化流水线、人脸识别、自动驾驶等方面的应用[4]。
一个实用的AI模型需要提前通过数据集对AI模型进行训练。根据报道,ChatGPT的GPT3.5模型,对要通过其在前期训练时,使用的是微软建设的AI超算系统,由1万个V100 GPU互联组成的超大规模高性能网络集群[5]。而训练ChatGPT底层GPT3.5模型,其总算力达到约3 640 PF-day,即假如每秒计算1×1015次,需要计算3 640 d(F为FLOPS,每秒浮点运算次数)。如果只有有限的几个计算节点,不论是使用图形处理器(GPU)还是神经网络处理器(NPU),超大算力需求导致少量的GPU/NPU不可能在短时间内完成AI模型的训练,因此由多个GPU/NPU组成的大规模分布式训练计算集群成为算力平台的必然选择[6],这种算力平台就称为分布式AI训练集群系统[7]。
分布式AI模型训练是一个多领域、系统性的工程,涉及到算法、软件、硬件、通信、网络、存储、内存等各方面的协同优化。当前业界大规模集群系统互联基本是使用电交换机[8-10],但是随着上层业务的需求,如AI大模型分布式训练对计算能力的要求越来越高,对服务器之间的通信带宽和时延要求变得更高,而此时电交换计算集群系统的不足也明显起来[11]。针对分布式AI训练,电交换组网的训练集群面临带宽、时延、功耗挑战。因此,为了解决分布式AI训练中的带宽、时延、功耗等增长挑战,光交换可以提供一种新的解决方案:它具有光信号传输的透明性,可以克服带宽的瓶颈;此外,光信号在传输过程中,无需经过光电转换或电光转换,可以显著降低网络的静态时延。研究人工智能光交换计算集群系统是大规模分布式训练计算算力平台关键技术之一[12]。
围绕自动化领域AI模型的训练,本文设计了一种光交换计算集群系统,其包含完整的控制与通信流程。在系统级层面,从AI服务器内部硬件软件开销、网络开销、算法开销到通信开销等进行了详细的性能建模,对AI模型训练光交换计算集群系统进行了量化,并开发了一个AI模型训练光交换集群系统性能计算系统仿真软件,指导整个光交换计算集群系统的设计与优化。
1关键技术
光交换技术主要有空间光交换以及波长光交换技术[13],本文主要研究波长光交换技术在计算集群系统中的创新与应用。波长光交换技术是以波长为粒度进行的光交换技术,如图1所示,其关键技术包括可调波长光发射机以及波长光交换机。
可调波长光发射机,亦称可调波长光模块[14-15],是一种可以进行波长调节光发射机。在计算节点中配置一个可调波长光模块,当节点与其他节点进行通信时,可以通过调节可调波长发射机的波长,通过不同的波长与不通的节点进行通信。
波长光交换机是一类以波长粒度进行交换的光交换机,可以把特定波长的光信号从某个端口交换到对应的出端口[16-17]。根据实现的物理原理不同,波长光交换机分为阵列波长光栅(Arrayed Waveguide Grating,AWG)和波长选择开关(Wavelength Selective Switch,WSS)[18-19]。AWG利用光学中的干涉衍射理论进行制造[20],且其波长交换特性在制造的时候已经固定,即某个特定波长光信号从某个特定端口进来,只能通过特定端口出去。WSS则利用硅基液晶的偏转进行光波长信号的交换[21],其交换特性具有可重构性,即可以通过配置进行端口波长光信号的交换配置。
2系统架构设计
本文设计的光交换计算集群系统架构及完整的控制流程如图2所示。在集群架构设计上,分为端侧AI计算服务器、光交换机、以及光控制系统。
AI服务器:包含AI计算芯片、光网卡。光网卡由普通网卡连接一个可调波长光模块,并且该光模块上面有一个控制模块,里面有一个目的节点路由表,计算任务开始后,提前配好该目的节点路由表,节点通过查询该表,调节其光模块波长,进而与其他节点进行通信,节点路由表如表1所示。在该节点路由表,描述了节点与网络中的任意节点通信的时候,其使用的是波长交换中的哪个波长。
光交换机:光交换使用的是WSS光交换机,通过提前配好WSS光交换机的波长交换特性,来达到波长交换的通信功能。光网络就是通过WSS光交换机进行网络互联与路由。
光控制系统:光控制系统在计算开始前,其通过通信库的通信关系,规划出每个节点的波长分配,即把节点路由表配置好,同时也把WSS光交换机的波长交换特性配置好。
光交换计算集群系统完整的控制与通信流程如下:在上层的分布式AI训练任务开始后,通信库对任务所需要的通信节点及通信流程进行规划,规划好以后,通信库把通信流程信息传给光控制模块,光控制模块进行通信波长资源分配与路由规划,然后再把该信息发送给端侧光网卡和WSS光交换机进行路由配置;而AI训练任务开始后,节点直接通过控制光网卡的可调波长光模块的波长,即可实现波长路由与其他节点进行通信。
3系统性能建模
根据设计的AI模型训练光交换计算集群系统架构,从计算机内部硬件软件开销、网络开销、算法开销到通信开销等作为考虑的因素,纳入系统建模里,对AI模型训练光交换计算集群系统进行量化,并开发一个AI模型训练光交换集群系统性能计算系统仿真软件,可以指导整个光交换计算集群系统的设计与优化。系统性能建模主要考虑的因素如表2所示。
对于AI训练光交换计算集群系统性能建模原理,其主要是用到训练计算过程所用到的计算时间与通信时间,以及总时间,如图3所示。计算时间为计算过程所需要的时间,通信时间为AI计算服务器间进行参数同步所需要的通信时间。因为软硬件和通信数据准备,通信时间是相对于计算是有一定的延迟的,这个叫做通信相对计算的开始时间。
建模过程是通过给定的系统因素,能够得到AI训练光交换计算集群系统进行计算任务的总时间,并且能够得到其计算效率,进行可以进而指导整个AI训练光交换计算集群系统的设计与优化。
计算效率定义如下:

式中:t compute为计算时间;t relative为通信相对计算开始时间;t communication为通信时间。
把系统性能建模考虑因素带入到计算效率公式,得到以下计算时时及通信时间公式。

式中:Q compute为AI模型计算量;C chip为每芯片算力;tin为AI服务器内通信时间;t sh为AI服务器内软硬件时间开销;tca为通信算法时间开销;tout为AI服务器间通信时间;tcsh为通信软硬件时间开销;tud为参数更新时间开销;to为光交换时间开销。
基于典型的网络数值,AI模型计算量为41 GFLOP,每芯片算力为256 TFLOPS,服务器内每次通信量为50 MB,服务器内通信带宽为200 Gb/s,服务器内通信次数为2,服务器内软硬件开销为0.1 ms,通信相对计算开始时间为0.1 ms,通信算法开销为0.1 ms,服务器间每次通信量为25 MB,服务器间通信带宽为100 Gb/s,服务器间通信次数为4,通信软硬件开销为0.1 ms,参数更新开销为0.1 ms,光交换开销为20 ns,代入到建模公式,可以计算出该数值下的集群计算效率为80%。
4光交换计算集群系统仿真软件开发
业界网络仿真软件都是基于离散事件驱动的模拟机理[22-25],没有完全从计算机、网络、通信的多性能角度进行对集群系统进行完整的性能建模,而且都不是针对特定的AI模型应用而进行仿真。本文根据对光交换计算集群系统性能建模,开发一个AI模型训练光交换计算集群系统仿真软件,进而指导整个集群系统的优化,具有很大的研究价值和实践意义。
开发的光交换计算集群系统仿真软件如图4所示,软件通过UI交互界面进行参数的输入,再代入计算效率的计算公式中进行计算,并将计算的结果显示在界面上。积木式的系统搭建,菜单栏式的参数设置,该软件可以降低使用者的入门和操作难度,易于对光交换计算集群系统进行性能仿真。
5测试验证与效果分析
如图4所示,开发的光交换计算集群系统仿真软件,通过输入提前设置好账号和密码进行仿真软件登录,并正常跳转到仿真参数设置界面。如果输入的账号密码错误,则无法进行软件登录。
进入到仿真软件的参数设置界面,需要对AI模型计算量、每芯片算力、服务器内软硬件开销、通信算法开销、服务器间通信时间、通信软硬件开销、参数更新时间开销、光交换开销进行设置。基于典型的网络数值,具体参数设置如下:AI模型计算量为41 GFLOP,每芯片算力为256 TFLOPS,服务器内软硬件开销为0.1 ms,通信算法开销为0.1 ms,服务器间通信时间50 ms,通信软硬件开销为0.1 ms,参数更新开销为0.1 ms,光交换开销为20 ns。设置完成后,点击运行按钮,此时,UI界面把参数下沉到软件底层的建模代码并进行计算,可以计算出该数值下的集群计算效率为80%,并将该结果反馈显示在UI界面。在同样参数设置下,直接通过建模公式算出的结果亦为80%,与理论计算一致。改变不同的参数,进而得到不同的计算结果如表3所示,仿真软件的计算结果与理论计算的结果一致,证明仿真软件能计算出与公式相同的计算结果。同时在测试验证中测量了不同参数计算场景下的仿真运行时间如表3所示,平均运行时间为0.432 s。
开发的软件通过交互界面参数的输入和读取,代入计算效率的计算公式中进行计算,并将计算的结果显示在界面上,并且运行时间均在0.43 s左右。快速的仿真时间,积木式的系统搭建,菜单栏式的参数设置,使该软件能够降低使用者的入门和操作难度,易于对光交换计算集群系统进行性能仿真。
6结束语
针对自动化领域AI模型训练对计算能力的要求越来越高,为了克服电交换机组网的训练集群在带宽、时延、功耗等方面的不足,本文设计了一种光交换计算集群系统,该系统包含了完整的控制与通信流程,比电交换计算集群带宽更大、时间时延更小。此外,本文在系统级层面,从AI服务器内部硬件软件开销、网络开销、算法开销到通信开销等方面进行了详细的性能建模,对AI模型训练光交换集群计算系统进行了量化,并开发了一个AI模型训练光交换集群系统性能计算系统仿真软件。该软件通过UI交互界面进行参数的输入、读取并返回结果。该软件通过菜单栏进行参数设置,降低使用人的入门和操作难度,进而可以指导整个集群系统的优化。
参考文献:
[1]陈兵.通用人工智能创新发展带来的风险挑战及其法治应对[J].知识产权,2023(8):53-73.
[2]侯振华.人工智能技术在电气自动化控制中的应用[J].产业创新研究,2023(4):123-125.
[3]吕甜甜.人工智能在机械自动化领域的应用分析[J].中国设备工程,2021(23):22-23.
[4]宋妍霖,张晓蓉.电气自动化领域中的人工智能技术分析[J].电气传动自动化,2019,41(3):15-17,21.
[5]腾讯网.ChatGPT爆火,揭秘AI大模型背后的高性能计算网络[EB/OL].(2022-12-24)https://new.qq.com/rain/a/20221224A03 0XQ00.
[6]王帅,李丹.分布式机器学习系统网络性能优化研究进展[J].计算机学报,2022,45(7):1384-1411.
[7]王恩东,闫瑞栋,郭振华,等.分布式训练系统及其优化算法综述[J].计算机学报,2024,47(1):1-28.
[8]熊学涛.云计算数据中心Underlay架构之核心交换机高可靠方案[J].通信世界,2022(16):44-46.
[9]刘刚.高密400 G数据中心交换机的系统设计和应用[J].网络安全技术与应用,2022(5):13-15.
[10]刘刚.DSFP在数据中心交换机TOR中的应用[J].电子设计工程,2022,30(23):174-178,184.
[11]鹿云峰.面向分布式机器学习的光电混合互连架构[D].西安:西安电子科技大学,2022.
[12]唐轶男.面向分布式应用的光互联计算系统研究[D].北京:北京邮电大学,2020.
[13]郭秉礼,黄善国.数据中心中光交换技术研究的现状与挑战[J].中兴通讯技术,2019,25(5):25-30.
[14]吴意诚.可见光通信发射机专用电路设计[D].天津:天津大学,2018.
[15]柯俊翔.高速混沌光通信系统关键技术研究[D].上海:上海交通大学,2020.
[16]曹继军.面向HPC和DC的可重构光互连网络体系结构综述[J].计算机工程与科学,2022,44(6):951-963.
[17]彭博文.现代光纤通信技术的特点及应用[J].数字通信世界,2023(4):104-106.
[18]赵柞青.可重构光交换网络与控制系统研究[D].北京:北京邮电大学,2022.
[19]王姗姗.基于ZYNQ的分布式光交换系统设计[D].杭州:浙江大学,2022.
[20]吴瑶,郑煜,何浩,等.密集阵列波导光栅的偏振相关波长优化分析[J].中南大学学报(自然科学版),2021,52(12):4296-4304.
[21]高云舒.基于液晶空间光调制器的可编程波长选择开关的技术研究[D].北京:北京交通大学,2020.
[22]杨林瑶,韩双双,王晓,等.网络系统实验平台:发展现状及展望[J].自动化学报,2019,45(9):1637-1654.
[23]徐双全,杜永锋,刘丽丽.网络仿真软件在《计算机网络技术》课程中的应用[J].电子元器件与信息技术,2023,7(3):194-197.
[24]阿喜达.基于网络仿真软件的计算机网络原理课程教学改革[J].计算机教育,2020(1):37-41.
[25]刘桂开,刘江涛.计算机网络在线虚拟仿真与实验评价管理相结合探讨[J].中国教育信息化,2019(24):29-33.
| 后台-系统设置-扩展变量-手机广告位-内容正文底部 |
-
<< 上一篇
下一篇:没有了!