中文羊驼大模型二期 v1.1
本次以功能性更新为主,包括添加了FlashAttention-2支持脚本、vLLM支持、长回复模板等。
🚀 已添加FlashAttention-2训练支持(#38)
- 针对模型训练添加了FlashAttention-2补丁,可有效提高模型训练速度并减少显存占用
- 可通过参数
flash_attn
控制是否开启FlashAttention-2加速训练,具体可查看预训练脚本Wiki或指令精调脚本Wiki
🚀 vLLM加速支持(#35、#48)
- vLLM 是一个LLM推理和服务部署库,其具有高速运行、灵活易用等特点
- 在
gradio_demo.py
和inference_hf.py
中添加了对vLLM部署服务的支持。此外,也提供了vLLM作为后端的仿OpenAI API风格的服务器DEMO(openai_api_server_vllm.py
) - 经测试,V100-16G GPU上使用7B模型推理,vLLM的平均推理速度相比transformers提升了470%,结合批量处理后vLLM的速度进一步达到了3800%的提升
🤖 生成长回复的系统提示语模板(#31)
- 默认系统提示语较为简单,模型生成的回复略短于一期Alpaca-Pro系列模型
- 提供了
alpaca-2-long.txt
系统提示语,可进一步提升回复长度(也可自行尝试修改)
其他更新
- 添加了自定义系统提示语的选项(#32)
- 添加了Alpaca-2-7B模型的输出示例(#33)
- 修正了部分脚本中的提示信息(#42)
- 添加了基于Colab的Gradio demo,可以自行架设demo体验模型了(#46)
For English release note, please refer to Discussion.