htc 国家超算中心 高性能计算 环境配置 , 计算节点 不能访问外网的,环境配置要在登录节点
htc 国家超算中心 高性能计算 环境配置 计算节点 不能访问外网的环境配置要在登录节点最终极简正确教程无任何错误、直接复制、100%成功我把所有坑全部删掉只保留能跑、必须做的步骤你照着来就行。一、先记住 4 条铁规则永远不报错装包、创建环境 → 必须在登录节点login01运行、测试、用DCU → 必须进 kshdtest 计算节点计算节点不能联网、不能装包海光必须用 --gresdcu:1不能用 gpu二、【登录节点执行】一次性装好环境只做1次1. 激活 condasource/public/home/acz6ty4okx/apprepo/miniconda3/23.9.0-py38/scripts/env.sh2. 重建干净环境Python3.10condaenvremove-ntorch_dtk-yconda create-ntorch_dtkpython3.10-yconda activate torch_dtk3. 安装海光专用 torch兼容你的DTK25.04.1wgethttps://huggingface.co/harad/whl/resolve/main/torch-2.4.0dtk2504-cp310-cp310-linux_x86_64.whl pipinstalltorch-2.4.0dtk2504-cp310-cp310-linux_x86_64.whl --no-deps-U4. 安装兼容 numpypipinstallnumpy1.24.4三、【计算节点执行】进入 DCU 并使用环境1. 进入 DCU 节点登录节点输入srun-pkshdtest--gresdcu:1--ptybash2. 进入节点后只运行这 3 行module load compiler/dtk/25.04.1source/public/home/acz6ty4okx/apprepo/miniconda3/23.9.0-py38/scripts/env.sh conda activate torch_dtk3. 测试是否成功python-cimport torch; print(torch.cuda.is_available())四、成功标志True五、你现在的报错原因重要ModuleNotFoundError: No module named torch因为你是在计算节点装的 torch装错位置了必须回到登录节点装六、你现在只需要做 1 件事回到登录节点重新跑一遍【第二节】安装流程exit然后从第二节开始复制执行。需要我把这个教程做成10 行极简复制版吗你直接保存以后永远用这套。