CANN/cann-bench: 加除乘复合算子

张

张建站

2026/5/9 13:57:18

10分钟阅读

ForeachAddcdivScalar 算子 API 描述【免费下载链接】cann-bench评测AI在处理CANN领域代码任务的能力涵盖算子生成、算子优化等领域支撑模型选型、训练效果评估统一量化评估标准识别Agent能力短板构建CANN领域评测平台推动AI能力在CANN领域的持续演进。项目地址: https://gitcode.com/cann/cann-bench1. 算子简介ForeachAddcdivScalar 算子对多个张量列表进行逐元素的加、除、乘复合操作是优化器如 Adam中常用的基础运算。主要应用场景Adam / AdamW 优化器的参数更新步骤需要对多组参数同时执行 addcdiv 运算的场景分布式训练中的批量参数更新算子特征难度等级L1FusedComposite三组 TensorList 输入逐元素复合运算输出 TensorList 与输入 shape 一致2. 算子定义数学公式对列表中第 $i$ 个张量$$ y_i x1_i \frac{x2_i}{x3_i} \cdot scalar $$3. 接口规范算子原型cann_bench.foreach_addcdiv_scalar(Tensor[] x1, Tensor[] x2, Tensor[] x3, float scalar) - Tensor[] y输入参数说明参数类型默认值描述x1Tensor[]必选第 1 个输入张量列表TensorList被加数x2Tensor[]必选第 2 个输入张量列表TensorList被除数的分子x3Tensor[]必选第 3 个输入张量列表TensorList被除数的分母scalarfloat必选缩放因子输出参数Shapedtype描述y与输入 TensorList 各元素 shape 相同与输入 dtype 相同逐元素复合运算结果列表数据类型输入 dtype输出 dtypefloat16float16float32float32bfloat16bfloat16规则与约束x1、x2、x3 三个 TensorList 长度必须相同对应位置的张量 shape 必须一致列表中各张量的 dtype 须一致x3 中的元素不应为零除以零会产生 inf/nan4. 精度要求采用生态算子精度标准进行验证。误差指标平均相对误差MERE采样点中相对误差平均值$$ \text{MERE} \text{avg}(\frac{\text{abs}(actual - golden)}{\text{abs}(golden)\text{1e-7}}) $$最大相对误差MARE采样点中相对误差最大值$$ \text{MARE} \max(\frac{\text{abs}(actual - golden)}{\text{abs}(golden)\text{1e-7}}) $$通过标准数据类型FLOAT16BFLOAT16FLOAT32HiFLOAT32FLOAT8 E4M3FLOAT8 E5M2通过阈值(Threshold)2^-102^-72^-132^-112^-32^-2当平均相对误差 MERE Threshold最大相对误差 MARE 10 * Threshold 时判定为通过。5. 标准 Golden 代码import torch from typing import List def foreach_addcdiv_scalar( x1: List[torch.Tensor], x2: List[torch.Tensor], x3: List[torch.Tensor], scalar: float ) - List[torch.Tensor]: 对多个张量进行逐元素加、乘、除操作公式y_i x1_i (x2_i / x3_i) * scalar Args: x1: 第 1 个输入张量列表 (TensorList) x2: 第 2 个输入张量列表 (TensorList) x3: 第 3 个输入张量列表 (TensorList) scalar: 缩放因子 Returns: 输出张量列表 y [x1_i (x2_i / x3_i) * scalar for x1_i, x2_i, x3_i in zip(x1, x2, x3)] return y6. 额外信息算子调用示例import torch import cann_bench x1 [torch.randn(1024, 1024, dtypetorch.float32, devicenpu)] x2 [torch.randn(1024, 1024, dtypetorch.float32, devicenpu)] x3 [torch.rand(1024, 1024, dtypetorch.float32, devicenpu) 0.1] # 避免除零 y cann_bench.foreach_addcdiv_scalar(x1, x2, x3, scalar1.0)【免费下载链接】cann-bench评测AI在处理CANN领域代码任务的能力涵盖算子生成、算子优化等领域支撑模型选型、训练效果评估统一量化评估标准识别Agent能力短板构建CANN领域评测平台推动AI能力在CANN领域的持续演进。项目地址: https://gitcode.com/cann/cann-bench创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

3步免费解密网易云音乐NCM文件：ncmdumpGUI完整使用指南

3步免费解密网易云音乐NCM文件：ncmdumpGUI完整使用指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了喜爱的歌曲&…...

2026/5/9 13:51:39 阅读更多 →

网盘直链下载助手完整指南：告别限速，解锁九大网盘真实下载链接

网盘直链下载助手完整指南：告别限速，解锁九大网盘真实下载链接【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / …...

2026/5/9 13:51:38 阅读更多 →

华为HCOMM线程资源获取接口

HcclThreadResGetInfo 【免费下载链接】hcomm HCOMM（Huawei Communication）是HCCL的通信基础库，提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT：…...

2026/5/9 13:47:35 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/8 22:27:53 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/8 22:27:54 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/8 22:27:56 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/8 22:27:58 阅读更多 →