Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

推理速度超级慢?! #48

Open
chaorenai opened this issue Nov 13, 2024 · 12 comments
Open

推理速度超级慢?! #48

chaorenai opened this issue Nov 13, 2024 · 12 comments
Labels
enhancement New feature or request

Comments

@chaorenai
Copy link

我用的是4090,但是GPU只用了一点点,效果很棒,但是推理速度太慢了。是之前使用rvc模型推理时间的100倍都不止……是我哪里用错了吗?

@Plachtaa
Copy link
Owner

如果你需要debug帮助,希望你可以提供:

  1. 使用的是哪个script
  2. 是否是singing voice conversion
  3. torch.cuda.available()是否返回True
  4. source & target音频文件

@teressawang
Copy link

我也是,推理速度才 2.58it/s , 用的 是app.py 的推理脚本, T4 ,torch.cuda.available() 返回True

@teressawang
Copy link

Guessed Channel Layout for Input Stream #0.0 : stereo
Input #0, wav, from 'donnachen.wav':
Metadata:
encoder : Lavf58.45.100
Duration: 00:00:20.15, bitrate: 1411 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, stereo, s16, 1411 kb/s

@Plachtaa
Copy link
Owner

Plachtaa commented Nov 14, 2024

我也是,推理速度才 2.58it/s , 用的 是app.py 的推理脚本, T4 ,torch.cuda.available() 返回True

T4上这个速度是正常的,svc的模型本身参数也更多

@Nuyoah111111
Copy link

我也是,推理速度才 2.58it/s , 用的 是app.py 的推理脚本, T4 ,torch.cuda.available() 返回True

T4上这个速度是正常的,svc的模型本身参数也更多

我也是运行的app.py这个脚本 我是v100的gpu 速度也很慢

@zhixianjuli
Copy link

You can uninstall torch torchvision torchaudio. And then install as
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

@teressawang
Copy link

You can uninstall torch torchvision torchaudio. And then install as pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

not work for me ,but thx~

@Bella-Tim
Copy link

另外一个文本转语音的开源项目使用了融合cuda技术来实现推理加速,这个项目是否能够探索一下使用这个技术的可行性。

https://github.com/fishaudio/fish-speech/blob/main/docs/zh/inference.md
您可能希望使用 --compile 来融合 cuda 内核以实现更快的推理 (~30 个 token/秒 -> ~500 个 token/秒).
对应的, 如果你不打算使用加速, 你可以注释掉 --compile 参数.
@Plachtaa

@Plachtaa
Copy link
Owner

另外一个文本转语音的开源项目使用了融合cuda技术来实现推理加速,这个项目是否能够探索一下使用这个技术的可行性。

https://github.com/fishaudio/fish-speech/blob/main/docs/zh/inference.md 您可能希望使用 --compile 来融合 cuda 内核以实现更快的推理 (~30 个 token/秒 -> ~500 个 token/秒). 对应的, 如果你不打算使用加速, 你可以注释掉 --compile 参数. @Plachtaa

只有linux能用compile, windows不可以

@Bella-Tim
Copy link

那个项目我也在Windows上尝试了一下,但是在compile的时候报了语法错误,不过我目前还是认为是我的cuda环境配置问题引起的。

@Plachtaa
Copy link
Owner

Plachtaa commented Nov 26, 2024

那个项目我也在Windows上尝试了一下,但是在compile的时候报了语法错误,不过我目前还是认为是我的cuda环境配置问题引起的。

不是你的环境问题,是因为triton本身没有windows的GPU构筑,所以本质上是不可行的,详细请自己看torch.compile的文档

@Plachtaa
Copy link
Owner

现在增添了默认开启fp16推理,大概能提速一倍

@Plachtaa Plachtaa added the enhancement New feature or request label Nov 29, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

6 participants