comp_767_project

cd gym-lavaland
pip3 install -e .

Posterior calculation is implemented in IRD.py

Linear programming risk-averse planner and runner for experiment 4.1 4.2 is under Agent_planner.py

experiment 4.3 can be run using Agent_planner_reward_hacking.py

mdp environment setup code is under ./gym-lavaland/env

Lavaland_spec.py contains preparation code for risk-averse planner.

policy_iteration.py contains the PI implementation.

baseline.py contains another baseline method i.e. q_learning

Name		Name	Last commit message	Last commit date
Latest commit History 74 Commits
gym-lavaland		gym-lavaland
767_proj_presentation_newpdf.pdf		767_proj_presentation_newpdf.pdf
Agent_planner.py		Agent_planner.py
Agent_planner_reward_hacking.py		Agent_planner_reward_hacking.py
IRD.py		IRD.py
IRD_q_learning_with_planning.py		IRD_q_learning_with_planning.py
IRD_reward_hacking.py		IRD_reward_hacking.py
Lavaland_spec.py		Lavaland_spec.py
README.md		README.md
REPORT_IRD.pdf		REPORT_IRD.pdf
baseline.py		baseline.py
policy_iteration.py		policy_iteration.py
value_iteration.py		value_iteration.py

Provide feedback