基于TensorRT-LLM的Yuan 2.0推理服务2B-hf版编译试用问题 #127

18842685792 · 2024-03-11T09:29:29Z

1.build时调整脚本input和output参数为4096会build失败，这个上限值是多少
2.build时调整脚本output为2048可以build成功，但是实际推理结果跟output默认512基本一样，没有改变，是否是有多个参数需要联合调整才能生效

3.启动tritonserver服务时，设置跳过符号未生效

IEI-mjx · 2024-03-12T06:55:20Z

1.这个上限值是跟你显卡的显存有关，显存越高这个上限越高(我这里A800的显卡上限值是8192)
2.推理过程的输出token数跟设置的“--max_output_len”有关，请参考README_Yuan.md设置此参数

zhaoxudong01 · 2024-03-21T11:58:55Z

推理服务，发送请求的时候，是否有指定"end_id": 77185？我们测试是可以正常提前结束的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

基于TensorRT-LLM的Yuan 2.0推理服务2B-hf版编译试用问题 #127

基于TensorRT-LLM的Yuan 2.0推理服务2B-hf版编译试用问题 #127

18842685792 commented Mar 11, 2024

IEI-mjx commented Mar 12, 2024

zhaoxudong01 commented Mar 21, 2024 •

edited

Loading

基于TensorRT-LLM的Yuan 2.0推理服务2B-hf版编译试用问题 #127

基于TensorRT-LLM的Yuan 2.0推理服务2B-hf版编译试用问题 #127

Comments

18842685792 commented Mar 11, 2024

IEI-mjx commented Mar 12, 2024

zhaoxudong01 commented Mar 21, 2024 • edited Loading

zhaoxudong01 commented Mar 21, 2024 •

edited

Loading