Configurations/ModelConfigs/MuzeroBoard.json

{
  "name": "boardgames",
  "algorithm": "MUZERO",
  "architecture": "Hex",

  "args": {
    "num_selfplay_iterations": 100,
    "num_episodes": 50,
    "num_gradient_steps": 100,
    "max_episode_moves": 500,
    "max_trial_moves": 500,
    "pitting": true,
    "pitting_trials": 10,
    "pit_acceptance_ratio": 0.0,
    "dirichlet_alpha": 0.3,
    "exploration_fraction": 0.25,
    "max_buffer_size": 200000,
    "num_MCTS_sims": 25,
    "prioritize": false,
    "prioritize_alpha": 1,
    "prioritize_beta": 1,
    "latent_decoder": false,
    "K": 5,
    "n_steps": 10,
    "c1": 1.25,
    "c2": 19652,
    "gamma": 1,

    "minimum_reward": -1,
    "maximum_reward": 1,

    "checkpoint": "./out/MuZeroOut/board",
    "load_model": false,
    "load_folder_file": ["./out/MuZeroOut/board", "latest.pth.tar"],
    "selfplay_buffer_window": 20,

    "temperature_schedule": {
      "method": "stepwise",
      "by_weight_update": false,
      "schedule_points": [[15, 1], [15, 0]]
    }
  },

  "net_args": {
    "optimizer": {
      "method": "adam",
      "lr_init": 0.001,
      "momentum": 0.9
    },
    "l2": 1e-4,
    "dynamics_penalty": 0.0,
    "dropout": 0.0,
    "batch_size": 128,
    "cuda": false,
    "latent_depth": 1,
    "num_channels": 128,
    "num_convs": 1,
    "num_towers": 2,
    "residual_left": 2,
    "residual_right": 0,
    "num_dense": 2,
    "size_dense": 256,
    "activation": "leakyrelu",
    "support_size": 3,
    "observation_length": 5
  }
}