Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

sbv2ファイル形式を追加 #164

Open
tuna2134 opened this issue Sep 12, 2024 · 4 comments
Open

sbv2ファイル形式を追加 #164

tuna2134 opened this issue Sep 12, 2024 · 4 comments

Comments

@tuna2134
Copy link

tar.zstdに以下のファイルを圧縮、その後{model_name}.sbv2にファイル名を変更

version.txt
model.onnx
style_vectors.json
@Googlefan256
Copy link

Googlefan256 commented Sep 12, 2024

メリット

  • 251MB -> 231MBへの圧縮
  • 配布が1ファイルで済む
  • あとからモデルが改変できない
  • 初心者へ優しい

デメリット

  • あとからモデルが改変できない
  • 実装の手間
    このような認識で出しております

@litagin02
Copy link
Owner

話者数・話者名やスタイル名はどこに含まれる想定ですか?

@Googlefan256
Copy link

スタイル情報はstyle_vectors.jsonの中に複数含めることができると思います。
一方で話者数についてはデフォルトのpretrainモデルが単一話者であること、世の中に配布されているモデルがほとんど単一話者であること、そもそも初心者が複数話者なのに単一バイナリであるという概念を理解するのは難しいということから単一である想定でいましたが複数対応したほうがいい感じですかね?
思想の根幹として推論だけしたいエンドユーザーに届きやすくするファイル形式というのがあるので...

あと実装は

def parse_sbv2file(path) -> (model_buffer, style_vectors_buffer)

という想定です(つまりonnxとstyle vectorsに分解される)

@Mofa-Xingche
Copy link

Mofa-Xingche commented Oct 19, 2024

スタイル情報はstyle_vectors.jsonの中に複数含めることができると思います。 一方で話者数についてはデフォルトのpretrainモデルが単一話者であること、世の中に配布されているモデルがほとんど単一話者であること、そもそも初心者が複数話者なのに単一バイナリであるという概念を理解するのは難しいということから単一である想定でいましたが複数対応したほうがいい感じですかね? 思想の根幹として推論だけしたいエンドユーザーに届きやすくするファイル形式というのがあるので...

あと実装は

def parse_sbv2file(path) -> (model_buffer, style_vectors_buffer)

という想定です(つまりonnxとstyle vectorsに分解される)

すみません失礼します。
複数話者は詰め込みモデルは、ゲーム開発者とか、サービス開発者とか有名な層に嬉しいですね。
AI会話機能付きのゲームやアプリとかだと、複数キャラが参加してる会話のシーン等で一瞬で話者を切り替えられます

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants