目录一、环境安装1.1 系统要求1.2 系统包安装二、模型转换2.1 ONNX 转 HEF 文件2.1.1 实例化 ClientRunner 解析ONNX模型2.2.2 加载/准备量化校准数据集2.2.3 参数配置并执行量化操作2.2.4 保存 HAR 文件并编译生成 HEF 板端文件2.2 模型可视化一、环境安装1.1 系统要求Hailo Dataflow Compiler 需要以下最低硬件和软件配置Ubuntu 20.04 / 22.0464 位在 Windows 上也支持通过 WSL2 运行16GB 以上内存推荐 32GB 以上Python 3.8 / 3.9 / 3.10包括 pip 和 virtualenvpython3.X-dev以及根据 Python 版本python3.X-distutils、python3-tk、libfuse2、graphviz、libgraphviz-dev 等软件包可使用如下命令进行安装sudo apt-get install PACKAGE以下是基于 GPU 的硬件仿真所需的额外要求Nvidia 的 Pascal / Turing / Ampere 架构 GPU例如 Titan X Pascal、GTX 1080 Ti、RTX 2080 Ti 或 RTX A4000GPU 驱动版本 525CUDA 11.8cuDNN 8.9注意事项 : 如果GPU不符合上述要求建议就不要仿真了终端虚拟环境中输入下述命令关闭GPU否则会报错export CUDA_VISIBLE_DEVICES-11.2 系统包安装安装包下载路径hailo dataflow compiler如图选择好算力卡版本以及操作系统后就可以下载了二、模型转换模型转换分为几个步骤1. 将 Pytorch 训练模型转换为 ONNX 模型2. 将 ONNX 模型转化为 HAR 文件HAR 是一种 tar.gz 归档文件包含部署到 Hailo 运行时的图结构表示和权重数据3. 将 HAR 文件转化为 Hailo 算力卡运行时 HEF 文件2.1 ONNX 转 HEF 文件实际转换时具体流程如下1. 实例化 ClientRunner 解析ONNX模型2. 加载/准备量化校准数据集3. 配置预处理参数均值、方差、缩放等4. 执行模型量化5. 保存HAR调试文件6. 生成最终HEF部署文件2.1.1 实例化 ClientRunner 解析ONNX模型from hailo_sdk_client import ClientRunner, InferenceContext import cv2 import numpy as np import os onnx_model_name best_ckpt onnx_path ./models/onnx/best_ckpt.onnx hw_arch hailo8 # 芯片类型 input_node_name image_arrays # 输出节点可通过 netron 查看 print( Step 1: 解析 ONNX 模型 ) runner ClientRunner(hw_archhw_arch) hn, npz runner.translate_onnx_model( onnx_path, onnx_model_name, start_node_names[input_node_name], ) print(ONNX 解析完成)补充translate_onnx_model 参数说明model_path模型路径model_name模型名称start_node_names字符串列表可选需要解析的第一个 ONNX 节点名称end_node_names字符串列表可选解析完成后可停止的 ONNX 节点列表net_input_shapes字典可选描述 start_node_names 中每个起始节点的输入形状字典键为节点名称值为对应输入形状仅当原始模型具有动态输入形状时使用通配符表示动态轴例如 [b, c, h, w]2.2.2 加载/准备量化校准数据集量化数据集不支持直接传入图片先对量化数据集进行处理处理要求数据前处理需要严格符合模型实际前处理如如果模型前处理是 LetterBox Yolo系列则量化数据集处理时也需要使用 LetterBox 进行缩放如果模型内部已经进行了归一化操作详见 2.2.3 部分则量化数据集处理就不需要进行归一化操作了反之亦然输入类型需严格匹配模型训练时的类型如模型训练时采用 RGB 格式进行训练则量化数据集也需要转换成 RGB 格式量化数据集数量推荐官方推荐量化数据集数量应该 1024 张# txt 中一行存放一张图片的地址 quant_txt_path ./quant_data/qunat.txt # 定义前处理函数以 LetterBox 为例 def letterbox_image(image_src, dst_size, pad_color(114, 114, 114)): src_h, src_w image_src.shape[:2] dst_h, dst_w dst_size scale min(dst_h / src_h, dst_w / src_w) pad_h, pad_w int(round(src_h * scale)), int(round(src_w * scale)) if image_src.shape[0:2] ! (pad_h, pad_w): image_dst cv2.resize(image_src, (pad_w, pad_h), interpolationcv2.INTER_LINEAR) else: image_dst image_src top int((dst_h - pad_h) / 2) down int((dst_h - pad_h 1) / 2) left int((dst_w - pad_w) / 2) right int((dst_w - pad_w 1) / 2) image_dst cv2.copyMakeBorder(image_dst, top, down, left, right, cv2.BORDER_CONSTANT, valuepad_color) return image_dst print( Step 2: 加载量化数据集 ) def load_quantization_images(txt_path, input_size(640, 640), max_images1200): image_paths [] with open(txt_path, r) as f: image_paths [line.strip() for line in f.readlines() if line.strip()] image_paths image_paths[:max_images] calib_data [] h_input, w_input input_size # (h, w) for path in image_paths: img cv2.imread(path) if img is None: continue # BGR - RGB具体取决于模型要求的输入类型 img cv2.cvtColor(img, cv2.COLOR_BGR2RGB) img_processed letterbox_image(img, (h_input, w_input)) calib_data.append(img_processed.astype(np.float32)) return np.array(calib_data, dtypenp.float32) calib_dataset load_quantization_images(quant_txt_path, input_size) print(f加载 {len(calib_dataset)} 张量化图片)2.2.3 参数配置并执行量化操作Hailo 模型的参数配置是通过一个脚本实现的具体如下alls_lines [ normalization normalization([0.0, 0.0, 0.0], [255.0, 255.0, 255.0])\n, ] runner.load_model_script(.join(alls_lines)) print( Step 4: 模型量化中... ) runner.optimize(calib_dataset) print(模型量化完成)补充主要脚本配置参数说明normalization 归一化参数均值设置为 0 方差设置为 1 则代表归一化操作需由用户在模型外手动完成同时需注意量化参数数据集配置也需要手动归一化model_optimization_flavor设置optimization_level参数取值范围 [0, 4], 其中 level 4 精度损失最低但模型转化时间最长设置compression_level参数取值范围 [0, 5]默认使用 8-bit 权重提高 compression_level → 更多权重使用 4-bit → 压缩更强但可能降低精度change_output_activation对指定输出层仅限 Conv 层进行 Sigmoid 操作将输出结果的 Sigmoid 操作放在模型内部进行可以一定程度上增加模型准确率quantization_param 设置模型量化参数如可以通过下述方法配置 16 位输出quantization_param(output_layer1, precision_modea16_w16)其余配置参数不常用不做详细解释pre_quantization_optimization量化前优化post_quantization_optimization 量化后优化input_conversion输入格式转换transpose张量转置normalization归一化nms_postprocess非极大值抑制后处理change_output_activation修改输出激活函数logits_layer逻辑层 / 原始输出层set_seed设置随机种子resize尺寸调整2.2.4 保存 HAR 文件并编译生成 HEF 板端文件print( Step 5: 编译生成 HEF ) hef_data runner.compile() hef_path f{onnx_model_name}.hef with open(hef_path, wb) as f: f.write(hef_data) runner.save_har(f{onnx_model_name}_compiled.har) print(f\n成功生成 HEF{hef_path})2.2 模型可视化如果保存了 HAR 文件可以使用相关工具查看计算图模型结构用以调试查看命令如下hailo visualizer {hailo_model_har_name} --no-browser