asc_copy_ub2l1【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√功能说明将数据从Unified Buffer (UB) 搬运到 搬运到L1 Buffer。函数原型前n个数据搬运__aicore__ inline void asc_copy_ub2l1(__cbuf__ void* dst, __ubuf__ void* src, uint32_t size)高维切分搬运__aicore__ inline void asc_copy_ub2l1(__cbuf__ void* dst, __ubuf__ void* src, uint16_t n_burst, uint16_t len_burst, uint16_t src_gap, uint16_t dst_gap)同步计算__aicore__ inline void asc_copy_ub2l1_sync(__cbuf__ void* dst, __ubuf__ void* src, uint32_t size)参数说明参数名输入/输出描述dst输出目的L1 Buffer地址。src输入源UB地址。size输入搬运数据大小字节。n_burst输入待搬运的连续传输数据块个数。取值范围[1, 4095]。len_burst输入待搬运的每个连续传输数据块的长度单位为DataBlock32字节。取值范围[1, 65535]。src_gap输入源操作数相邻连续数据块的间隔前面一个数据块的尾与后面一个数据块的头的间隔。单位为DataBlock32字节。dst_gap输入目的操作数相邻连续数据块的间隔前面一个数据块的尾与后面一个数据块的头的间隔。单位为DataBlock32字节。返回值说明无流水类型PIPE_MTE3约束说明dst的起始地址要求按照对应数据类型所占字节数对齐。src的起始地址要求32字节对齐。如果需要执行多条asc_copy_ub2l1指令且asc_copy_ub2l1指令的目的地址存在重叠需要插入同步指令保证多个asc_copy_ub2l1指令的串行化防止出现异常数据。同步计算包含同步等待。调用示例// total_length指参与搬运的数据总个数。dst是外部输入的half类型的GM内存。 constexpr uint64_t total_length 128; __ubuf__ half src[total_length]; asc_copy_ub2l1(dst, src, total_length * sizeof(half));【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考