常见问题处理
RL调优模式常见问题
- 报错"unknown op compute."
请检查是否为支持的算子,目前仅支持elewise、broadcast、reduce类的算子,支持的算子列表清参见算子列表。
- 报错"import base64 in python3.7 failed in host XX, please fix it!"
运行环境检查报错,发现python3.7没有包含base64组件,请先确保TBE开发环境没问题,再运行RL算子调优工具。
可执行如下命令安装base64组件。
pip3.7 install pybase64
- 报错"The avail space of /home/HwHiAiUser in XXX is smaller than 1G, please fix it!"
运行环境检查报错,host机器的空间不足1G,请清理空间后再使用Auto Tune算子调优工具。
- 报错"stage[xx] > max_stages[128]."
当前算子的stage个数已经超过Auto Tune支持的stage个数范围(最大128个),暂时不支持该算子的调优。
GA调优模式常见问题
- 报错“there is no kernel_perf_comm in PATH!”
推理场景下,请检查环境变量PATH中是否已配置“${install_path}/atc/bin”,可参见配置环境变量。
- 报错“Failed run kernel too many! ”
调优日志中会显示如下信息:
kernelName:xxxx,ResultStatus:0-255,TotalCycle:0-xxx
KernelName为当前.o文件名字
ResultStatus:结果状态值,详细信息请参见表6-3。
表6-3 结果状态列表状态值
含义
解决方法
0
执行成功。
-
1
GA调优无法抢占Device。
GA调优时,需要独占Device资源,不可以进行需要使用Device资源的其他操作。
请将其他进程停止后,重新进行GA调优。
2
无法注册算子的二进制文件(*.o)。
请确保当前执行调优操作的用户具有执行调优操作目录的写权限。
3
运行算子二进制文件的任务在RTS侧出错。
算子执行出错,请根据“aic_error”与“task_exception”的关键字查找Host侧日志“/var/log/npu/slog/host-0/host-0_*.log”进行分析。
4
无法申请Host侧的算子二进制文件输入输出所需内存。
请确保Host侧有足够的内存空间。
其他
-
请联系华为支撑人员。