Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

added pomdp seminar (week 7) #21

Merged
merged 10 commits into from
Apr 3, 2017

Conversation

pshvechikov
Copy link
Collaborator

No description provided.

@justheuristic
Copy link
Contributor

justheuristic commented Apr 2, 2017

Привет!
В целом огонь[сильно лучше чем у меня на первой итерации], есть несколько претензий и мелочи.

Офигенный плюс - им значительную часть нужно внимательно прочитать и закодить, что сильно упрощает жизнь.
С ним есть варнунг - нужно убедиться, что со всем тупняком мы это успеваем за час.

Претензии -

  1. KungFuMaster будет досчитан не за семинар. Если хочешь, чтобы досчитали - стоит выдать за это какое-то количество очков. Алсо порог 20k получится и без rnn, но это мб из жалости к GPU-time студентов.
  • вопрос на размышление__(ты согласился)__ - давать ли бонусы за увеличение скора на kung fu? Типа +1/5k over 25.
  • второй вопрос на размышление__(ты согласился)__ - ли из target network часть задания (выпилить его по умолчанию и предложить впилить обратно) когда всё заработает?
  1. Давай всё то, что у них есть в базовой версии будет делиться на
  • проверено нами, что работает
  • сформулировано в виде "Проверьте, будет ли лучше, если сделать так"

Это точно касается sample session batch (по умолчанию оставь без experience replay и 10 агентов)

  1. в теле сказать явно, что нейронка должна расти из wnd_reshape. Можно даже намекнуть
neural_network = Conv2DLayer(wnd_reshape,<your code here>)
<your code here>
  1. доуточнить
  • neck_layer = concat([<dense layer before lstm>, new_out]) # network neck
  • # pairs of this kind shoul be present for prev_wnd, prev_cell, prev_out
    для студента явно не объявлен new_out и не очень понятно, откуда он взялся
    в целом стоит перепроверить, что все переменные которые студентам надо объявить подписаны
  1. тайпо
  • # policy_estimators should include 1) logits_layer and 2) V_target

(1) logits_layer, (2) state values, (3) target network state values
или
(1) logits_layer, (2) state values

Мелочи -

  • советы по установке theano есть тут - Installing dependencies #1 , можно на них сослаться, ибо там есть тонкости (docker / windows / gpu / blas / ...)
  • Стоит намекнуть, количество параллельных агентов лучше увеличить. И/или по умолчанию сделать больше
  • In [95] мб либо прокомментировать либо удалить

… what need to be done and also removed hardcoded names in NN
@pshvechikov
Copy link
Collaborator Author

Поправил все, кроме вопросов на обсуждение. Надеюсь, ничего не пропустил

@justheuristic
Copy link
Contributor

justheuristic commented Apr 3, 2017

В тебя вошёл pr - держи pshvechikov#1
Вмерж его, прежде чем допиливать, чтобы не было конфликтов.

По мелочи осталось

! pip install --upgrade https://github.com/Theano/Theano/archive/master.zip
! pip install --upgrade https://github.com/Lasagne/Lasagne/archive/master.zip
! pip install --upgrade https://github.com/yandexdataschool/AgentNet/archive/master.zip

удали плз эту клетку, или поясни, зачем она

if you have GPU uncomment the line below
%env THEANO_FLAGS=device=gpu0,floatX=float32,lib.cnmem=1

Оставь по дефолту, мы надеюсь отдадим им GPU, а если нет, то теана сама переключится на cpu
Алсо пожалуйста в релизной версии не меняй cnmem - он из конфига возьмётся (если мы им выдадим GPU), а вот float32 пригодится и на cpu

MAX_POOL_SIZE = 1000
в таком режиме он будет считаться 100 лет на итерацию, ибо batch size 1000

Если ты помнишь, в каком режиме считал у себя, то верни такой
Если нет - можно убрать experience replay вообще (max size не задавать, append=True не делать), как в пресловутой демке

Алсо неплохо бы таким же образом обработать preset
Альтернатива (ВАЖНО) - у них уже была DQN - можно вместо этого сказать "Берите свой homework5 и прикручивайте рекуррентные сети"

Всё остальное отлично.

@justheuristic justheuristic merged commit a08cbf7 into yandexdataschool:master Apr 3, 2017
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants