-
Notifications
You must be signed in to change notification settings - Fork 419
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
基于13B的LLAMA模型fine-tune,loss特别大,而lr初始就是0,这是正常的吗? #32
Comments
@alisyzhu 当然是不正常的,llama已经训练的很好了,loss一般在1附近 这里可能也有一个和你相似的问题,由于没有给后续回复也不清楚最后咋样了,你可以参照里面的建议,同时使用我们的各种实例代码排查一下
如果1和2都没有问题,应该问题就差不多了。 |
按照您的建议,测试了结果,应该就是tokenizer有问题,中英文都无法正确decode, 我是按照tools里提供的download_llama.py的脚本下载的模型,并进行转换为hf。而且测试安装的transformer的版本是dev的。 如果验证tokenizer不正确的话,请问如何使其正确呢?是要重新下载,知道这个测试脚本可以正常吗? |
看看这两个库版本是不是对的,tokenizers==0.13.2, sentencepiece==0.1.97 |
还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右 |
是的,刚才我有截图,可能在您那里没有显示。 |
这是正确的,口误(: |
从上面的你给的图来看,tokenizer对应编码是对的(你可以试试我给的样例程序中的输出作为输入,我猜编码是没有问题),不过模型并没有正常decode,decode得到的都是0,可能有下面情况
|
结合2和3的点,我直接从huggingface上全部重新下载13B的model,不采用download_llama.sh脚本的方式,也是也是使用的,是吧?如果是这样,我就从huggingface上重新下载试试 ~ |
适用的,download_llama是考虑到有些人下载的比较慢的情况再提供的,如果直接从huggingface拉取很快的话肯定是ok的 |
@alisyzhu 这个loss应该是正常了,上面的那个测试案例也是正常的吗?就是最后还是模型下载的问题? 这个warning应该是指你的显卡的问题,你可以搜一下你显卡对应的Compute Capability,如果小于7.5的话8-bit计算会慢一点。 |
显卡<7.5,慢点儿无所谓,只要能正常训练测试就可以了,主要是更换不了~ |
OK |
|
抱歉回复这么晚,该问题见这里 |
基于13B的LLAMA模型,70w的数据,4个GPU进行fine-tune,epoch=1~3,但是每次记录的loss特别大,最开始的lr却是0,而eval_loss却是Nan
batch_size=256;
micro_batch_size=8;
eval_steps=200;
save_steps=200;
test_size = 10000;
The text was updated successfully, but these errors were encountered: