系统要求和检查环境
表6-3操作系统对应的驱动包使用默认的操作系统和内核。安装Atlas 300I 推理卡(型号 3000)驱动包前,要确保系统正在运行的操作系统版本、操作系统架构和操作系统的内核版本符合要求,并确保Atlas 300I 推理卡(型号 3000)安装在位。
硬件形态 |
host操作系统版本 |
host操作系统内核版本 |
GCC编译器版本 |
---|---|---|---|
ARM+Atlas 300I 推理卡(型号 3000) |
Ubuntu 18.04.1 |
4.15.0-29-generic |
7.5.0 |
ARM+Atlas 300I 推理卡(型号 3000) |
CentOS 7.6 |
4.14.0-115.el7a.0.1.aarch64 |
4.8.5 |
ARM+Atlas 300I 推理卡(型号 3000) |
EulerOS 2.8 |
4.19.36-vhulk1907.1.0.h410.eulerosv2r8.aarch64 |
7.3.0 |
- 对于软件包名称中包含gcc版本的,要求用户的gcc版本必须与软件包名称中的gcc版本保持一致。例如:A300-3000-NPU_Driver-x.x.x-ARM64-CentOS7.6_gcc7.3.0.run、A300-3000-npu-driver_x.x.x_centos7.6-gcc7.3.0-aarch64.run软件包要求用户的gcc版本必须为7.3.0。
- 安装前,host操作系统建议与安装包中版本要求保持一致。
- 安装驱动过程中出现:“driver ko vermagic(*) is different from the os(*), need rebuild driver”,请参见验证Linux操作系统内核版本解决。
- 仅NPU 20.X.X系列版本run驱动包支持在docker环境中进行安装,目前通用驱动包不支持在docker环境中安装。
- NPU版本号可通过驱动包名称查看,例如驱动包名称为“A300-3000-NPU_Driver-20.0.0-ARM64-Ubuntu18.04.run”,则NPU版本号为20.0.0。
系统兼容性要求
- 支持PCIe MSI-X中断,每个Atlas 300I 推理卡至少可分配464个MSI-X中断。
- BAR空间大小要求:
Atlas 300I 推理卡需要三个BAR,空间大小分别为512KB,64MB,256MB。
验证Linux操作系统版本信息
执行uname -m && cat /etc/*release命令,查询正在运行的操作系统版本和操作系统架构。
系统正在运行的操作系统版本和操作系统架构必须与表6-3中要求一致。
验证Linux操作系统内核版本
执行uname -r命令,查询当前host操作系统的内核版本。
当前host操作系统的内核版本必须与表6-3中要求一致。若不一致,有以下解决方法:
- 使用NPU 1.X.X系列版本软件包安装时,用户需要重新进行源码编译,详细信息请参见(可选)源码编译。
- 使用NPU 20.X.X系列版本软件包安装时,用户可基于安装包驱动源码重新构建并安装使用,具体参见驱动源码编译。或者参见检查Host侧是否安装过软件包检查系统是否安装过软件包,若未安装则直接升级系统内核版本;若安装过,则先卸载软件包,再升级内核版本。
- 使用通用包A300-3000-npu-driver_x.x.x_linux-aarch64.run安装时,无需验证内核版本。
- NPU版本号可通过驱动包名称查看,例如驱动包名称为“A300-3000-NPU_Driver-20.0.0-ARM64-Ubuntu18.04.run”,则NPU版本号为20.0.0。
- EulerOS场景下,操作系统内核版本必须与默认系统版本一致;如果不一致,只能通过升级内核版本的方式解决。否则会导致安装过程报错:部分芯片无法启动。
- 如果Host系统中安装过run包,内核升级后会出现run包启动异常的问题。出现该问题时请参见升级系统内核版本时未卸载run包导致run包不可用解决。
验证GCC版本
执行gcc -v命令,查询当前GCC版本。
使用通用驱动包A300-3000-npu-driver_x.x.x_linux-aarch64.run安装时,只需确认GCC已存在。使用其他驱动包安装时,当前GCC版本必须与表6-3中要求一致。
检查Host侧是否安装过软件包
如果安装NPU 20.X.X系列版本软件包,需要执行lsmod|grep drv_pcie_host命令查询是否安装过run包。
如无内容表示未安装过run包。可以直接安装软件包。
如有内容,表示安装过run包。需要先卸载run包(卸载请参见卸载驱动和固件(适用于*.run格式))后,再安装新版本软件包。
通用包特有检查项
检测Atlas 300I 推理卡(型号 3000)是否正常在位
通过以下两种方式可以检测Atlas 300I 推理卡(型号 3000)是否正常在位:
- 执行lspci | grep 'd100'命令。如果服务器上有N(N>0)张Atlas 300I 推理卡(型号 3000),回显中含“d100”字段的行数为4N,则表示Atlas 300I 推理卡(型号 3000)正常在位。
01:00.0 Processing accelerators: Huawei Technologies Co., Ltd. Device d100 (rev 20) 02:00.0 Processing accelerators: Huawei Technologies Co., Ltd. Device d100 (rev 20) 03:00.0 Processing accelerators: Huawei Technologies Co., Ltd. Device d100 (rev 20) 04:00.0 Processing accelerators: Huawei Technologies Co., Ltd. Device d100 (rev 20) ......
- 如果Atlas 300I 推理卡(型号 3000)所在的服务器是华为服务器,可通过登录iBMC WebUI界面,进入“信息 > 系统信息 > 其他”,Atlas 300I 推理卡(型号 3000)的PCIe卡信息在“PCIe卡”列表中,表示Atlas 300I 推理卡(型号 3000)正常在位。