Advantage Actor Critic com Generalized Advantage Estimator
Após 10000 timesteps
Curva de Aprendizado:
Proximal Policy Optimization com GAE
Shared Network Proximal Policy Optimization com GAE
Curva de Aprendizado:
Soft Actor Critic
BipedalWalker-v2 após 170 episódios
Pendulum-v0:
Curva de Aprendizado: