GitHub

示例如有不能运行的问题，请反馈

强化学习算法	使用游戏	神经网络	优化	动作空间
QTable	FrozenLake-v1	无	无	无
DQN	FrozenLake-v1	两层Linear+一层Output	无	离散动作空间
SARSA	FrozenLake-v1	两层Linear+一层Output	无	离散动作空间
SARSA	CartPole-v1	两层Linear+一层Output	ReplayBuffer	离散动作空间
Reinforce	CartPole-v1	两层Linear+一层Output	baseline	离散动作空间
ActorCritic	CartPole-v1	两层Linear+一层Output	无	离散动作空间
Reinforce	Pendulum-v1	两层Linear+一层Output	baseline	连续动作空间
A2C	Pendulum-v1	两层Linear+一层Output	无	连续动作空间
DPG	Pendulum-v1	两层Linear+一层Output	ReplayBuffer	连续动作空间
Reinforce	Pendulum-v1	两层Linear+一层Output	ReplayBuffer	连续动作空间
TD3	Pendulum-v1	两层Linear+一层Output	ReplayBuffer/目标网络/截断双Q学习/目标策略网络中加入噪声	连续动作空间

最后提供了一个强化学习仿真器示例BreakEnv，支持录制视频。该示例主要用于高精地图车道组打断，但奖励算法没有全部完成，仅供参考学习

Name		Name	Last commit message	Last commit date
Latest commit History 45 Commits
hybrid_action		hybrid_action
policy		policy
rainbow		rainbow
BreakEnv.py		BreakEnv.py
DQN.ipynb		DQN.ipynb
README.md		README.md
RL1.ipynb		RL1.ipynb
env.ipynb		env.ipynb

Provide feedback