典型算子行为分析【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl以Atlas 800T A2双机场景下AllReduce算子的Profiling数据为例介绍如何将通信算子的任务编排与Profiling中的task对应下图为其中一个rank上完整的AllReduce算子执行流程同时将AllReduce的各个算子执行步骤与Profiling进行对应。将通信数据从用户输入内存拷贝至HCCL Buffer内存中。节点内实现ReduceScatter通信语义包括notify前同步、ReduceInline内存拷贝、随路运算以及notify尾同步。节点间实现AllReduce通信语义。由于节点间通过RoCE来实现notify同步及数据的通信且notify record任务及数据通信任务均已RDMASend下发WQE的形式实现因此在Profiling中会以RDMASendnotify record notify wait的组合对应着机间前同步和尾同步任务同时会以RDMASend数据通信 RDMASendnotify record notify wait的组合对应着机间的数据通信。此外可以在RDMASend数据通信任务的详细信息中获取该任务的本端、对端、数据量及带宽信息等。节点内实现AllGather通信语义包括notify前同步、memcpy内存拷贝以及notify尾同步。将通信数据从HCCL Buffer拷贝到用户输出内存中。【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考