使用Paddle Custom NPU训练SAC一段时间后reward一直不变 #1106

USTCKAY · 2023-07-04T07:13:40Z

Hello，最近我在用NPU跑SAC时遇到了如题所说的情况，reward信息如下图。想请教一下PARL的同学这种情况可能是什么原因导致的呢？

我用GPU和CPU版本的Paddle试过，模型都能够正常训练，说明算法本身没有问题。我又统计了一下SAC用到的paddle算子，发现只有add clip full_ matmul relu scale tanh uniform，所以尝试了逐个把这些算子fallback到cpu上运行，但是除了屏蔽matmul外还是会出现相同的情况。而fallback matmul算子时在训练一段时间后会报如下的错误：

我这边暂时没有什么思路来定位问题了，恳请PARL的同学帮忙看一下，多谢！
ps：使用的paddle和PARL都是最新的develop版本

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用Paddle Custom NPU训练SAC一段时间后reward一直不变 #1106

使用Paddle Custom NPU训练SAC一段时间后reward一直不变 #1106

USTCKAY commented Jul 4, 2023

使用Paddle Custom NPU训练SAC一段时间后reward一直不变 #1106

使用Paddle Custom NPU训练SAC一段时间后reward一直不变 #1106

Comments

USTCKAY commented Jul 4, 2023