CANN技能并行层替换代码示例

张

张建站

2026/5/9 15:26:22

10分钟阅读

并行层替换代码示例【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsAPI 差异当前仓库的ColumnParallelLinear/RowParallelLinear/QKVParallelLinear使用tp_size: inttp_rank: int参数不接受tp_group。以下示例中的tp_group写法对应重构版 API当前仓库需改为tp_rankdist.get_rank(self.hccl_comm_dict[xxx_group])。VocabParallelEmbedding在两个版本中都用tp_size tp_rank。Attention 层当 attn_tp_size 1原组件替换为通信组说明QKV LinearQKVParallelLinearattn_tp_group列切分Q/K/V 按头数分O LinearRowParallelLinearattn_tp_group行切分含 AllReducefrom module.linear import QKVParallelLinear, RowParallelLinear # QKV 投影 self.qkv_proj QKVParallelLinear( hidden_sizeconfig.hidden_size, num_headsconfig.num_attention_heads, num_key_value_headsconfig.num_key_value_heads, head_dimconfig.head_dim, tp_groupself.attn_tp_group, tp_sizeself.attn_tp_size, ) # O 投影 self.o_proj RowParallelLinear( config.hidden_size, config.hidden_size, tp_groupself.attn_tp_group, tp_sizeself.attn_tp_size, )o_proj_tp_size 独立配置当o_proj_tp_size ≠ attn_tp_size时如 MLA 模型self.o_proj RowParallelLinear( config.hidden_size, config.hidden_size, tp_groupself.oproj_tp_group, # 独立通信组 tp_sizeself.o_proj_tp_size, )Dense FFN 层当 dense_tp_size 1原组件替换为通信组说明Gate LinearColumnParallelLineardense_tp_group列切分Up LinearColumnParallelLineardense_tp_group列切分Down LinearRowParallelLineardense_tp_group行切分含 AllReducefrom module.linear import ColumnParallelLinear, RowParallelLinear self.gate_proj ColumnParallelLinear( config.hidden_size, config.intermediate_size, tp_groupself.dense_tp_group, tp_sizeself.dense_tp_size, ) self.up_proj ColumnParallelLinear( config.hidden_size, config.intermediate_size, tp_groupself.dense_tp_group, tp_sizeself.dense_tp_size, ) self.down_proj RowParallelLinear( config.intermediate_size, config.hidden_size, tp_groupself.dense_tp_group, tp_sizeself.dense_tp_size, )Embedding / LMHead当 embed_tp_size 1 或 lmhead_tp_size 1from module.linear import VocabParallelEmbedding, ColumnParallelLinear # Embedding参数为 tp_size tp_rank无 tp_group self.embed_tokens VocabParallelEmbedding( config.vocab_size, config.hidden_size, self.padding_idx, torch.bfloat16, tp_sizeself.embed_tp_size, tp_rankdist.get_rank(self.hccl_comm_dict[embed_tp_group]) if self.embed_tp_size 1 else 0, ) # LMHead当前仓库tp_size tp_rank同 Embedding self.lm_head ColumnParallelLinear( config.hidden_size, config.vocab_size, tp_sizeself.lmhead_tp_size, tp_rankdist.get_rank(self.hccl_comm_dict[lmhead_tp_group]) if self.lmhead_tp_size 1 else 0, )模块间数据重排当相邻模块 TP 度不同时# Embed(embed_tp16) → Attention(attn_tp1) dist.all_gather_into_tensor(full_input, embed_output, groupembed_tp_group) # Dense FFN(dense_tp8) 的输入/输出 dist.all_gather_into_tensor(x_output, x, groupdense_tp_group) # 输入聚合 # ... FFN 计算 ... dist.reduce_scatter_tensor(mlp_res, down_proj, groupdense_tp_group) # 输出分散参考实现cann-recipes-infer/models/longcat-flash/models/modeling_longcat_flash.py搜索all_gather_into_tensor和reduce_scatter_tensorcann-recipes-infer/models/deepseek_r1/models/modeling_deepseek.py搜索同上【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

金融时序预测中的可解释AI：从黑箱模型到透明决策

1. 项目概述：金融时序预测为何需要“看得懂”的AI在金融市场的波涛汹涌中，预测未来价格走势一直是分析师和交易员们孜孜以求的“圣杯”。近年来，以深度学习为代表的复杂机器学习模型，凭借其强大的非线性拟合能力，在股票…...

2026/5/9 15:24:59 阅读更多 →

Rogue：模拟真实混沌环境的开发者技能评估平台设计与实战

1. 项目概述：一个名为“Rogue”的开发者工具最近在开发者圈子里，一个名为“Rogue”的项目引起了我的注意。它来自一个名为“qualifire-dev”的组织，这个名字本身就挺有意思，直译过来是“资格点火者”，听起来像是致力于…...

2026/5/9 15:24:53 阅读更多 →

高层次综合理念

一、function & LOOP fucntion功能： RD_OP CMP_OP WR_OP 或者 Load Compute storeLOOP功能： RD_OP CMP_OP WR_OP 或者 Load Compute storeUSR_ACCESS2原语的核心价值二、HLS工具优化逻辑 1.HLS的优化效果高度依赖于编译7器的能力，…...

2026/5/9 15:24:24 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/8 22:27:53 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/8 22:27:54 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/8 22:27:56 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/8 22:27:58 阅读更多 →