Caffe 执行runtest错误

问题重现

采用caffe源代码编译后,执行make runtest出错,错误部分内容如下:

[ FAILED ] RMSPropSolverTest/3.TestRMSPropLeastSquaresUpdateWithWeightDecay, where TypeParam = caffe::GPUDevice
[ FAILED ] RMSPropSolverTest/3.TestRMSPropLeastSquaresUpdateWithEverythingShare, where TypeParam = caffe::GPUDevice
[ FAILED ] RMSPropSolverTest/3.TestRMSPropLeastSquaresUpdateWithRmsDecay, where TypeParam = caffe::GPUDevice
[ FAILED ] RMSPropSolverTest/3.TestRMSPropLeastSquaresUpdateWithEverything, where TypeParam = caffe::GPUDevice

70 FAILED TESTS

问题定位

通过看测试的之前输出,推测可能是计算的精度引起的。查阅资料,尝试通过限制不使用GPU查看测试结果。

执行export CUDA_VISIBLE_DEVICES=0,重新执行测试,发现测试通过,确认问题出在GPU上。

问题解决

执行nvidia-smi,确认编译环境上有两块GPU,猜测可能是因为多个GPU导致的问题,设置CUDA_VISIBLE_DEVICES=1重新执行测试。测试通过。

结论:不要同时使用两块GPU,限制使用一块GPU即可 🙂

发表评论

电子邮件地址不会被公开。 必填项已用*标注