CANN/ATVC Add算子样例

张

张建站

2026/5/9 12:18:31

10分钟阅读

Add算子样例【免费下载链接】atvcATVCAscend C Templates for Vector Compute是为基于Ascend C开发的典型Vector算子封装的一系列模板头文件的集合可帮助用户快速开发典型Vector算子。项目地址: https://gitcode.com/cann/atvc概述本样例基于AddCustom算子工程介绍了基于ATVC的PyTorch工程及调用。目录结构介绍├── add │ ├── add_custom_impl.h // 通过PyTorch调用的方式调用Add算子 │ ├── pytorch_ascendc_extension.cpp // PyTorch调用入口 │ ├── run_op.py // PyTorch的测试用例 │ └── run.sh // 脚本编译需要的二进制文件并测试算子描述Add算子实现了两个数据相加返回相加结果的功能。对应的数学表达式为z x y算子规格描述算子类型(OpType)Add算子输入nameshapedata typeformatx8 * 2048int32_t、floatNDy8 * 2048int32_t、floatND算子输出z8 * 2048int32_t、floatND核函数名AddCustom编译运行样例算子针对PyTorch算子编译运行包含如下步骤完成算子PyTorch入口和impl文件的实现编译PyTorch算子的二进制文件调用执行PyTorch算子。详细操作如下所示。1. 获取源码包及环境配置编译运行此样例前请参考准备获取样例代码获取源码包及环境变量的准备。2. 安装PyTorch环境参考torch的安装进行安装torch、torch_npu环境torch、torch_npu版本支持2.7.1及以上。下载对应cann-hccl_${cann_version}_linux-${arch}.run包下载链接为hccl x86_64包、hccl aarch64包。下载对应Ascend-cann-A3-ops_${cann_version}_linux-${arch}.run包下载链接为ops x86_64包、ops aarch64包。3. 基于ATVC编写PyTorch算子的实现算子kernel侧实现编写kernel侧函数完成指定的运算。参考add_custom_impl.h和开发指南完成核函数的实现。编写PyTorch入口函数并通过调用核函数参考pytorch_ascendc_extension.cppat::Tensor op_add_custom(const at::Tensor x, const at::Tensor y) { // 运行资源申请通过c10_npu::getCurrentNPUStream()的函数获取当前NPU上的流 auto stream c10_npu::getCurrentNPUStream().stream(false); // 分配Device侧输出内存 at::Tensor z at::empty_like(x); ATVC::EleWiseParam param; int32_t totalLength 1; for (int32_t size : x.sizes()) { totalLength * size; } (void)ATVC::Host::CalcEleWiseTilingAddOpTraitsFloat(totalLength, param); // 使用方式调用核函数完成指定的运算 AddCustomAddOpTraitsIntparam.tilingData.blockNum, nullptr, stream( (uint8_t *)(x.storage().data()), (uint8_t *)(y.storage().data()), (uint8_t *)(z.storage().data()), param); return z; }编写python调用函数,并调用pytorch入口函数参考run_op.py# 引入头文件 import torch import torch_npu import numpy as np from torch_npu.testing.testcase import TestCase, run_tests # 加载二进制文件 torch.npu.config.allow_internal_format False torch.ops.load_library(./libascendc_pytorch.so) class TestAscendCOps(TestCase): # 测试用例 def test_add_custom_ops_float(self): # 分配Host侧输入内存并进行数据的初始化 length [8, 2048] x torch.rand(length, devicecpu, dtypetorch.float32) y torch.rand(length, devicecpu, dtypetorch.float32) # 分配Device侧内存并将数据从Host上拷贝到Device上 npuout torch.ops.ascendc_ops.add(x.npu(), y.npu()) cpuout torch.add(x, y) self.assertRtolEqual(npuout, cpuout) # 测试用例调用 if __name__ __main__: run_tests()编译和测试脚本参考run.sh# 获取torch、torch_npu、python的lib和include路径和atvc的路径 torch_location... torch_npu_location... python_include... python_lib... if [ -z $ATVC_PATH ]; then atvc_path$(realpath ../../../include) else atvc_path$ATVC_PATH fi # 使用bisheng进行编译PyTorch算子 bisheng -x cce pytorch_ascendc_extension.cpp \ -D_GLIBCXX_USE_CXX11_ABI1 \ -I${torch_location}/include \ -I${torch_location}/include/torch/csrc/api/include \ -I${python_include} \ -I${atvc_path} \ -I${torch_npu_location}/include \ -L${torch_location}/lib \ -L${torch_npu_location}/lib \ -L${python_lib} \ -L${lib_path} \ -L${_ASCEND_INSTALL_PATH}/lib64 \ -ltorch -ltorch_cpu -lc10 -ltorch_npu -lpython3 -ltorch_python \ -shared -cce-enable-plugin --cce-aicore-archdav-c220 -fPIC -ltiling_api -lplatform -lm -ldl \ -o libascendc_pytorch.so # 执行测试用例 python3 run_op.py4. 基于ATVC编写PyTorch算子的调用验证导入ATVC环境变量# 如果不导入默认使用./atvc/include路径 export ATVC_PATH${atvc}/include调用脚本生成PyTorch算子并运行测试用例cd ./ops_templates/atvc/examples/ops_pytorch/add bash run.sh ... OK【免费下载链接】atvcATVCAscend C Templates for Vector Compute是为基于Ascend C开发的典型Vector算子封装的一系列模板头文件的集合可帮助用户快速开发典型Vector算子。项目地址: https://gitcode.com/cann/atvc创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

AI时代知识工作转型：从生产到批判性整合的核心能力构建

1. 项目概述：当知识工作遇上AI，我们到底在忙什么？最近和不少同行聊天，大家都有个共同的感受：自从ChatGPT、Copilot这类工具普及后，工作流程确实快了，但心里反而更慌了。以前写份报告、做个方案&…...

2026/5/9 12:17:29 阅读更多 →

Apache Shiro 1.2.4 反序列化漏洞Shiro-550（CVE-2016-4437）

Apache Shiro 1.2.4 反序列化漏洞Shiro-550（CVE-2016-4437） 一、漏洞简介 1、Apache Shiro Apache Shiro是一款开源安全框架，提供身份验证、授权、密码学和会话管理。Shiro框架直观、易用，同时也能提供健壮的安全性。 2、影响范围…...

2026/5/9 12:16:31 阅读更多 →

ProcessGPT：基于大语言模型的智能业务流程生成与决策架构解析

1. 项目概述：当GPT遇见业务流程管理如果你在大型企业里负责过流程优化或IT系统实施，一定对这样的场景不陌生：面对一个复杂的报销流程，新来的财务专员不确定某个特殊项目的审批路径该走哪条；一个数据管道的日常维护脚本…...

2026/5/9 12:10:32 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/8 22:27:53 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/8 22:27:54 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/8 22:27:56 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/8 22:27:58 阅读更多 →