[Docs] Add tokenizer to sft in Case 2 (#584)

add tokenizer to sft in Case 2
InternLM · Apr 19, 2024 · 582a398 · 582a398
1 parent f125a89
commit 582a398
Showing 1 changed file with 10 additions and 4 deletions.
diff --git a/docs/zh_cn/internevo_migration/ftdp_dataset/Case2.rst b/docs/zh_cn/internevo_migration/ftdp_dataset/Case2.rst
@@ -72,10 +72,9 @@ XTuner 中目前提供了训练 Mistral 的模板 config，使用命令：
 Step 3, 修改模板 config 文件
 ----------------------------
 
-修改模板 config 文件中的训练数据路径为真实数据路径，其中
-``/path/to/tokenized/data`` 与 Step 1 中的 ``/path/to/tokenized/data``
-为同一个路径。同时，需要修改 tokenizer 路径为 Step 1 保存的路径
-``/path/to/save/new/tokenizer``\ 。
+1. 修改模板 config 文件中的训练数据路径为真实数据路径，其中 `/path/to/tokenized/data` 需要基于 Step 1 中的 `/path/to/tokenized/data` 进一步指定 train folder，即 `/path/to/tokenized/data/chatml_llamav13_32k/train/` 。
+2. 需要修改 tokenizer 路径为 Step 1 保存的路径 `/path/to/save/new/tokenizer`。
+3. 由于 Step 1 扩充了 tokenizer 的词表，因此需要将新 tokenizer 传入 `SupervisedFinetune` 中，以扩展 llm model 的词表大小。
 
 .. code:: diff
 
@@ -102,6 +101,13 @@ Step 3, 修改模板 config 文件
    pack_to_max_length = True
    ...
 
+   #######################################################################
+   #                      PART 2  Model & Tokenizer                      #
+   #######################################################################
+   model = dict(
+   +   tokenizer=tokenizer,
+      ...)
+
 在使用 DeepSpeed 训练模型时，如需在保存 checkpoint
 时只保存模型权重，而不保存优化器状态，可参考以下步骤：