关于DDPG中actor的loss问题 #18

YiKangOY · 2021-03-25T09:30:30Z

在您的博客中读到actor的损失函数如下。

我的理解是，对那个目标函数的梯度做积分就是下面那个式子（只不过没有负号），然后这个目标函数加个负号就可以用来表示损失函数，不知这样理解是否正确？
还有就是，我的actor网络是输入状态s，输出一个连续的动作值a，那么对应您这个公式是否就是直接把对应S和A的crtic网络生成的Q值作为损失函数计算呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于DDPG中actor的loss问题 #18

关于DDPG中actor的loss问题 #18

YiKangOY commented Mar 25, 2021

关于DDPG中actor的loss问题 #18

关于DDPG中actor的loss问题 #18

Comments

YiKangOY commented Mar 25, 2021