feat: edit making tokenizers #50

HyeonhoonLee · 2022-03-11T07:11:22Z

새로운 env에서 deberta large 모델의 tokenizer 생성이 가능하도록 변경.
주석 해제를 하면 바로 만들 수 있도록 코드 추가해두었습니다.
tokenizer parallelism 사용 가능하도록 환경 설정
현재 run_train.py파일 실행 시 아래와 같은 오류가 나오고 있습니다.
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks... To disable this warning, you can either: - Avoid using tokenizers before the fork if possible - Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
현재 kaggle top code들과 같이 tokenizer paralleism을 기본적으로 사용하는 env 설정하도록 추가하였습니다.

Kingthegarden

캐글 환경과 괴리를 좁혀주셨네요 ㅎㅎ감사합니다.

ympaik87

추가 감사합니다!

feat: edit making tokenizers

0f4077e

HyeonhoonLee requested a review from Kingthegarden March 11, 2022 07:11

HyeonhoonLee self-assigned this Mar 11, 2022

Kingthegarden approved these changes Mar 11, 2022

View reviewed changes

ympaik87 approved these changes Mar 11, 2022

View reviewed changes

Kingthegarden merged commit 32ff2c0 into develop Mar 11, 2022

HyeonhoonLee deleted the develop-token branch March 13, 2022 14:18

jerife added the enhancement New feature or request label Mar 13, 2022

ympaik87 mentioned this pull request Mar 17, 2022

Develop to Master #60

Merged

Provide feedback