Moe的训练在全速增长了70%,华为仅使用了3种动
- 编辑:admin -Moe的训练在全速增长了70%,华为仅使用了3种动
根据规模方法,MOE(混合专家)已成为维多利亚武器,以便主要模型制造商扩大其模型功能。但是,训练MOE的困难正在变得越来越突出,同时有效地达到了模型参数的规模。训练效率不足,其训练时间的一半以上被“等待”浪费了。现在,华为已采取措施打破了萌卫生培训的瓶颈。他建立了一种称为自适应管的EDPB的优化解决方案,点燃了“上帝的观点”,并实现了一个柔和的操作,而无需等待教会的训练集群面对“交通Atasco”。 Moe的大型训练问题:您的培训时间超过一半吗?这些做法表明,MOE模型培训小组的效率面临二野。首先,专家正在等待计算机科学和并行通信。如果模型很大,则应将专家分开以形成并行性(EP)各种设备。这将介绍所有其他沟通。同时,MOE层中的大多数通信和EP计算都具有时间依赖关系,典型的串联执行模式使许多计算机单元不活动并等待通信。其次,非均匀电荷会引入计算和计算等待。 MOE算法的核心是“这里有能力的算法”。在培训过程中,经常被称为一些热门专家,而冷酷的专家则使用较少。同时,实际训练数据的长度不同,并且不同模型层的计算量(散射层,集成层等)也非常不同,到达的计算是彼此期望的不同卡片之间的计算。为了将其置于图像点,MOE培训系统面临两个核心问题,例如当地交通拥堵的城市地区。 - 人类和车辆的Añabes:所有车辆(计算)和行人(通信)交替通过流量,互相等待。 - 地球的分布是刚性的:固定的直车和左转车道就像静态专家任务一样,并且很受欢迎,不受欢迎的车道(冷专家)带来了长长的车道尾巴(热门专家),不受欢迎的车道(冷专家)不活动。为了应对上述问题,华为团队创建了“智能运输”装置。首先,我们将建立一个“批准的地下佩林”(通信覆盖技术),以完全分开人口贩运线和车辆,以使汽车蓝勒斯不期望交流。其次,我们实现“智能变量车道”(动态专家路由),根据真实时时间流量(数据分布)动态调整车道的功能,以便左转弯的不活动车道也可以直接共享压力并达到负载平衡。该组合解决方案不仅解决了不等R分配的问题Esiorces,但还消除了通信遮挡瓶颈,并最大程度地提高了每个方向的交通效率,并为城市运输安装了“智能大脑”。实现仿真平台,逐次自动搜索并行优化,特别是,华为首先构建了一个名为“ enaslemind”的仿真平台。这是一个基于Asteng硬件培训系统的“数字双胞胎”平台。通过多个计算/通信/3D级别建模,哮喘硬件系统的高精度映射,加速的全球算法操作以及其他技术,可以在一个小时内模拟数百万的培训场景,从而可以快速分析和自动搜索各种MOE培训负载。最佳政策选项与集群硬件规格一致。在验证培训实践时,该建模框架提供了90%的精度指标,这允许最佳的并行选择低和高效。在单卡内存使用限制下,对于Pangu Ultra MoE 718B型号,华为显示训练性能(TP仅小心地工作)。 98%的通信掩蔽,防止计算机科学进行等待通信,华为还提出了一个掩盖框架的传通,称为管道自适应。 Delkabasado在自动化解决方案中,用于ploymind模拟平台的最佳并行性,分层批发商用于减少机器 - 机器通信和自适应细晶粒的逆向前方,从而实现了几乎“零暴露”通信。专业的平行通信分层:考虑到不同服务器与机器之间高通信带宽之间的低通信带宽,华为将沟通过程划分为两个步骤。第一步是允许每台机器上的“相同”单元,快速收集所有MA的完整数据(令牌)的完整块下巴。第二步是首先组织每台计算机内的数据块,并使用机器内部的快速通道快速完成交换。这种层次设计明智地将每个数据块的OPMAXimum副本和分布限制为单台计算机内的高速网络,并且在通过机器发送时,每个数据块必须发送副本。换句话说,交叉通信的减少有效地提高了集群通信速度。自适应细额前面的掩盖是基于双管遮罩框架的。华为基于平行虚拟管技术(即自适应管道)实现了更精确的编程。与双管相比,自适应管仅使用一个重量。这有效地减少了计算的“空虚”,并释放了管道的最大管道电势,以及管道并行性所需的一半记忆足迹。同时,该策略可以实现与层中的层完整协调,覆盖毫无问题的是机器之间两个层次通信的掩盖。在优化的层次结构通信和精细计算机通信切片的编程中,自适应管道可以实现超过98%的EP通信掩蔽,并且计算机发动机将不再期望通信。超过负载的异质性,并再次加速您的训练25%。在MOE模型的训练过程中,自然负担的异质性问题可能导致小组培训的效率很高,有时会导致效率低。华为团队平衡了专家计划以实现这一目标,我们提出了全球负载EDPB余额。基于最佳并行性和沟通掩蔽,EDPB的额外绩效提高了25.5%。在通信分析中,与SO -Call的EDPB相比,P2P群集群集E是预测迁移型离子的专家。在MOE模型t期间下雨,设备之间的专业负载是不平衡的。就像“ Seeesw”:某些设备正在运行完整的负载,而另一些设备处于“半分化状态”。该团队根据多个目标的优化为专家提出了一种动态迁移技术,使专家可以在分布式设备之间“智能地流动”。这项技术具有三个主要特征: - 专家的负载可以按照预测的方式“看到未来”。预测负载趋势并实现“计算零存储过载并预测毫秒级响应”。 - 双层优化,计算和通信的金分离点:我们为双节点层提出了贪婪优化体系结构。 - 智能触发器,用于专业运动的“负载”安装:Designsr层中的过渡阈值机理,并通过对过渡增长的动态决策做出的早期评估来执行专业过渡的智能触发器。一般fr基于动态专家EPSED迁移的EP之间的AmeWork框架图是仔细的数据重定位计算的平衡。尽管固定长度剪接的时间表通常在模型预先预兆的故意计算中采用,但数据之间的注意力很少,这会导致负载失衡和DPS之间的“快速和缓慢资源”的浪费。为了解决这个问题,华为团队提出了一个动态数据搬迁方案而不会损失。它的核心是通过线性模型量化单个样本中需要大量时间的计算,并使用贪婪的算法来最大程度地减少需要大量时间的余额,从而保持无数损失。 p虚拟管之间的负载是平衡的。 MOE模型通常使用混合结构。这是放置密集层的阶段放置。它有舞步。华为团队提出了虚拟层之间层之间负载的负载技术,该层将MTP层与输出层分开,将MTP层的集成计算移至第一阶段,有效地避免了赌注和货物平衡之间的等待问题。基于非均匀模块化设计,从极端到结束的训练性能VPP平行载荷平衡系统的增长72.6%。在Pange Ultra MoE 718B模型的培训实践中,华为团队以8K序列测试了EDPB的性能自适应管的收入。它的实验结果表明,根据最佳平行策略的初始性能,华为针对“通信掩蔽 +动态专家迁移”的优化解决方案可以改善末端-DON -END训练性能72.6%。总而言之,可以说,华为的策略为训练A提供了重要的途径ND优化大型模型。有兴趣的朋友,完整的技术报告详细信息 - 技术报告局:https://gitcode.com/assend-tibe/ascend-training-training-system/tree/main/main/distribedoptimization