-
Notifications
You must be signed in to change notification settings - Fork 4.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
这是目前看到最全的大模型训练代码 #17
Comments
目前的模型训练支持多轮对话,需要在 dataset_info.json 中指定 history 列。
因此目前的实现方式适配多轮对话训练。 |
多轮语料,每一轮只遮挡q,不遮挡a,会不会更好,让模型学到每一轮的回答,帮助更好做对话 |
这可能会破坏掉 BOS 和 EOS 的语义信息,我们不推荐这么做。 |
抱歉,我的说法可能有误,我重新参考了 Vicuna 的训练代码,这种方式的确能加速模型在多轮对话上的训练,我们考虑在近期实现类似的功能,感谢你的建议! |
期待!我lora微调实验,vicuna那种多轮语料构建方式,效果要好于prompt全遮。不知道qlora会不会有变化,估计也会好一些 |
期待+1 |
还有请问后续可以实现RWKV的lora微调吗?RWKV真的很快,感觉是gpt生成速度的两倍。但它不是纯transformers架构,不能用peft做lora训练,没有实现的脚本现在 |
在最新的代码 b6faf02 中,我们实现了多轮对话语料的训练。 另外,我们暂时不会考虑加入 RWKV 的微调。 |
这套代码包含了预训练、rlhf流程,还有lora、qlora技术。真的是很全面了。
但如果可以实现多轮对话构建,比如[q1,a1,q2,a2,q3,a3],构建成训练样本为:prompt:q1*[IGNORE_INDEX]+a1++q2*[IGNORE_INDEX]+a2++q3*[IGNORE_INDEX],response: a3
就更好了哈哈
The text was updated successfully, but these errors were encountered: