示例如有不能运行的问题,请反馈
强化学习算法 | 使用游戏 | 神经网络 | 优化 | 动作空间 |
---|---|---|---|---|
QTable | FrozenLake-v1 | 无 | 无 | 无 |
DQN | FrozenLake-v1 | 两层Linear+一层Output | 无 | 离散动作空间 |
SARSA | FrozenLake-v1 | 两层Linear+一层Output | 无 | 离散动作空间 |
SARSA | CartPole-v1 | 两层Linear+一层Output | ReplayBuffer | 离散动作空间 |
Reinforce | CartPole-v1 | 两层Linear+一层Output | baseline | 离散动作空间 |
ActorCritic | CartPole-v1 | 两层Linear+一层Output | 无 | 离散动作空间 |
Reinforce | Pendulum-v1 | 两层Linear+一层Output | baseline | 连续动作空间 |
A2C | Pendulum-v1 | 两层Linear+一层Output | 无 | 连续动作空间 |
DPG | Pendulum-v1 | 两层Linear+一层Output | ReplayBuffer | 连续动作空间 |
Reinforce | Pendulum-v1 | 两层Linear+一层Output | ReplayBuffer | 连续动作空间 |
TD3 | Pendulum-v1 | 两层Linear+一层Output | ReplayBuffer/目标网络/截断双Q学习/目标策略网络中加入噪声 | 连续动作空间 |
最后提供了一个强化学习仿真器示例BreakEnv,支持录制视频。该示例主要用于高精地图车道组打断,但奖励算法没有全部完成,仅供参考学习