Implementações de Aprendizado por Reforço

A2C

Advantage Actor Critic com Generalized Advantage Estimator

CartPole

Após 10000 timesteps

Curva de Aprendizado:

PPO

Proximal Policy Optimization com GAE

Shared Network PPO

Shared Network Proximal Policy Optimization com GAE

Curva de Aprendizado:

Soft Actor Critic

BipedalWalker-v2 após 170 episódios

Pendulum-v0:

Curva de Aprendizado:

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
agents		agents
img		img
.gitignore		.gitignore
README.md		README.md
setup.py		setup.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Implementações de Aprendizado por Reforço

A2C

CartPole

PPO

Shared Network PPO

Soft Actor Critic

About

Releases

Packages

Languages

Berbardo/Aprendizado-por-Reforco

Folders and files

Latest commit

History

Repository files navigation

Implementações de Aprendizado por Reforço

A2C

CartPole

PPO

Shared Network PPO

Soft Actor Critic

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages