Skip to content

Commit

Permalink
[Docs] Add tokenizer to sft in Case 2 (#584)
Browse files Browse the repository at this point in the history
add tokenizer to sft in Case 2
  • Loading branch information
HIT-cwh authored Apr 19, 2024
1 parent f125a89 commit 582a398
Showing 1 changed file with 10 additions and 4 deletions.
14 changes: 10 additions & 4 deletions docs/zh_cn/internevo_migration/ftdp_dataset/Case2.rst
Original file line number Diff line number Diff line change
Expand Up @@ -72,10 +72,9 @@ XTuner 中目前提供了训练 Mistral 的模板 config,使用命令:
Step 3, 修改模板 config 文件
----------------------------

修改模板 config 文件中的训练数据路径为真实数据路径,其中
``/path/to/tokenized/data`` 与 Step 1 中的 ``/path/to/tokenized/data``
为同一个路径。同时,需要修改 tokenizer 路径为 Step 1 保存的路径
``/path/to/save/new/tokenizer``\
1. 修改模板 config 文件中的训练数据路径为真实数据路径,其中 `/path/to/tokenized/data` 需要基于 Step 1 中的 `/path/to/tokenized/data` 进一步指定 train folder,即 `/path/to/tokenized/data/chatml_llamav13_32k/train/` 。
2. 需要修改 tokenizer 路径为 Step 1 保存的路径 `/path/to/save/new/tokenizer`。
3. 由于 Step 1 扩充了 tokenizer 的词表,因此需要将新 tokenizer 传入 `SupervisedFinetune` 中,以扩展 llm model 的词表大小。

.. code:: diff
Expand All @@ -102,6 +101,13 @@ Step 3, 修改模板 config 文件
pack_to_max_length = True
...
#######################################################################
# PART 2 Model & Tokenizer #
#######################################################################
model = dict(
+ tokenizer=tokenizer,
...)
在使用 DeepSpeed 训练模型时,如需在保存 checkpoint
时只保存模型权重,而不保存优化器状态,可参考以下步骤:

Expand Down

0 comments on commit 582a398

Please sign in to comment.