配置device的网卡IP
当进行分布式训练时,需要通过昇腾软件中的HCCN Tool工具配置device的网卡IP,用于多个device间通信以实现网络模型参数的同步更新。本章节只介绍使用HCCN Tool工具配置网络的命令,如果用户需要使用HCCN Tool工具的其他功能(如检查网口Link状态),请参见《Ascend 910 HCCN Tool 接口参考》。
Atlas 800 训练服务器、Atlas 900 AI集群场景
判定是SMP模式还是AMP模式,请登录BMC后台执行命令“ipmcget -d npuworkmode”进行查询。
- SMP(对称多处理器)模式:以root用户登录到AI Server配置每个device的网卡IP。配置要求:
- AI Server中的第0/4,1/5,2/6,3/7号网卡需处于同一网段,第0/1/2/3号网卡在不同网段,第4/5/6/7号网卡在不同网段。
- 对于集群场景,各AI Server对应的位置的device需处于同一网段,例如AI Server1和AI Server2的0号网卡需处于同一网段,AI Server1和AI Server2的1号网卡需处于同一网段。IP地址需要根据实际情况修改。
hccn_tool -i 0 -ip -s address 192.168.100.101 netmask 255.255.255.0 hccn_tool -i 1 -ip -s address 192.168.101.101 netmask 255.255.255.0 hccn_tool -i 2 -ip -s address 192.168.102.101 netmask 255.255.255.0 hccn_tool -i 3 -ip -s address 192.168.103.101 netmask 255.255.255.0 hccn_tool -i 4 -ip -s address 192.168.100.100 netmask 255.255.255.0 hccn_tool -i 5 -ip -s address 192.168.101.100 netmask 255.255.255.0 hccn_tool -i 6 -ip -s address 192.168.102.100 netmask 255.255.255.0 hccn_tool -i 7 -ip -s address 192.168.103.100 netmask 255.255.255.0
- AMP(非对称多处理器)模式:
AMP模式下暂不需要配置device的网卡IP。
Atlas 300T 训练卡场景
Atlas 300T 训练卡每台服务器可以配置1或2张标卡,每张标卡对应1个Device OS,每张标卡需要配置1个地址,不同标卡配置相同网段IP地址即可。
以root用户登录到AI Server配置每个device的网卡IP。配置操作如下:
- 先使用命令npu-smi info查看待配置device的ID,如图7-5中的NPU值,下文以NPU值为1和4为例,实际操作中以查询结果为准:
- 执行如下命令配置device的网卡IP,下文所用ip地址为示例,配置时以实际规划ip为准。
hccn_tool -i 1 -ip -s address 192.168.0.2 netmask 255.255.255.0 hccn_tool -i 4 -ip -s address 192.168.0.3 netmask 255.255.255.0
- 需要确认在服务器上安装有npu-smi工具。
- 对于集群场景,各AI Server的device处于同一网段即可。