[project-s] ハミング機能・歌機能向けのモデル・API(compatible_engineのみ)を追加 #724

y-chan · 2024-01-06T18:14:57Z

内容

題の通りです。
テストは一旦無視しています。
また、ダミーモデルも既存のものを適当に刺しているため、動きません。

その他

各ネーミングは適当なので、後で書き換えたほうがいいかもしれない...?

Hiroshiba

LGTM！！！

結構ごちゃつきますが、もうほぼこのままリリースになるのではと思ってます。
VVMに合わせてリファクタリングなりなんなりかなと。

ガッツリ１行１行見てないので、もしかしたらどこかミスしてるとかあり得るかもですが、まあ流石に超ミスってたら音声にならないでしょうということで！

名前に関してのコメントです！
（まあmodel系はAPIとして露出しないので後から変えられるのですが）

source filter decode
- 今思うとsource filterだけ手法の名前なので不揃いかも
  - 将来入出力が変わらないのにsource filterベースの手法じゃなくなったときにややこしくなる
- decodeが本質で、prefixとして何付けるかかなと
  - あとあとtalkにも使うかもだけど、記念にhummingでも良さそう
  - phoneme・f0・volumeのdecodeだからpfv_decodeとかでも
  - sf_decodeでもy_decodeでも。
talk model
- 良さそう
sing style moel
- styleがスタイルと被るので変えた方が良いかも
- 「音響特徴量」からfeatureを借りてsing feature model？
- ちょっとエモくしてsing teacher modelもありかも
  - InstructorとかTrainerとかでもGuideとかでも
source filter model
- これだけ手法の名前なのはやっぱりちょっと気になるかも

とりあえずマージしてOKかなと！
名前変更するのも後のPR（metas.json周り変更とか）にくっつけちゃってもらってもOKです。

@qryxip さんにちょっと共有まで。

現状増えるcompatible engineのAPIは以上の予定です。
あとはたしかmetas.jsonのstyleの中にモデルのtypeが増える予定です。

model･･･というか、VVM版におけるInferenceDomainが３種類に増える見込みです。
１つが今までのtalk、１つが歌い方を生成するもの、１つがハミングです。

どれがどの機能を持ってるのかはmetas.jsonのstyleのtypeで判断する形になるかなと･･･！
設計などで疑問点などあればご指摘いただければ！！！

crates/voicevox_core/src/publish.rs

crates/voicevox_core/src/status.rs

crates/voicevox_core/src/publish.rs

Hiroshiba · 2024-01-06T21:16:21Z

あ、ちなみにgenerate APIのテストが落ちてるのはcargo xtask generate-c-headerでヘッダー更新すれば解決すると思います！

Co-authored-by: Hiroshiba <[email protected]>

y-chan · 2024-01-08T14:06:27Z

source filter decode -> sf_decode
sing style model -> sing teacher model
source filter model -> sf_decode_model

上記のように変更しました！
また、レビューいただいた点を反映しました！
generate APIのテストが落ちているのはよくわかりませんでした...
手元では動いたけど、GitHub Actions上だとダメそうな感じで...

shpinx-autoapiパッケージのバージョンを上げればいい...?
https://stackoverflow.com/questions/77257145/sphinx-autoapi-error-module-object-has-no-attribute-doc-with-various-sphi

qryxip · 2024-01-08T20:41:35Z

generate API

v0.15ではSphinxはv6に上げることで解決してました。(#626)
0.14だともうgenerate API documentsだけ ❌ のまま通してしまうか、起動しないようにするというのもありかと思います。

qryxip · 2024-01-08T20:56:40Z

0.15の方で質問なのですが、"sing teacher"と"sf decode"が別VVMに入ることってありそうですか? もしそうであるなら、パブリックAPIの形をちょっと考えなおす必要がありそうです（歌声を触りたい人がどれだけいるかはわかりませんが）。

Hiroshiba · 2024-01-08T21:11:18Z

たしかに、0.15（ハミング）で更新されるのはcompatible engineの部分だけで、ドキュメントに現れるAPIは1個も変わらないですね！
なのでgenerate API documentは切ってしまっても確かに問題なさそう。
けどまあ後で元に戻さないといけないですし、サクッとできるなら #626 をcherry-pickするのもありかも。
どっちでも良さそう！

Hiroshiba · 2024-01-08T21:24:20Z

0.15の方で質問なのですが、"sing teacher"と"sf decode"が別VVMに入ることってありそうですか? もしそうであるなら、パブリックAPIの形をちょっと考えなおす必要がありそうです

ある想定です！
歌い方生成対応キャラ（sing teacher）はなかなか増えないけど、ハミング対応キャラ（sf decode）は増えていくので。

あ、あとモデルの種類が変わるとStyleIdも必ず変えるようにする予定･････だったのですが、今思うとsing teacher modelとsf_decode_modelは同じStyleIdにしたくなりそうですね･･･････。
（トークとハミングはStyleIdを変える、というところまでは考えてました。）

VVMでの制約について考えていなかったのですが、１つのVVM内では１つのInferenceDomainしか持てない、みたいな制約は設けられる･･･かも･･･？

歌声を触りたい人がどれだけいるかはわかりませんが

僕も需要は分かりませんが、自分が知る範囲では歌が生成できる動的ライブラリを見たことがないです。
それが無料で、有名なキャラクターもいて、マルチOS対応なものがリリースできれば、まあ結構楽しいことになるんじゃないかな～～～～と期待してます。

Hiroshiba

LGTM！！

１箇所ミスありそうでしたが、後続のPRでついでに直しちゃう感じでいいかなと思ったのと、差分がわからなくなってしまいそうなので、一旦マージさせていただきます！！

あと自分で提案しといてなんですが、sing teacherは意味が変なので、singing teacherが良いかもとか思いました 😇
（sing volumeとかは別に良さそう感）

singとかsingingとかsongのなんとなくのルールの所感はこうかなと！

生成する系のAPIは動詞（sing・talk）
- sing_volume、sing_audio_query
物を指すときは名詞（song・talk）
- song_model、song_library、UI上の「ソング」
英語圏で一般的におかしいときはその限りではない
- singing_teacher、singing_synthesize

Hiroshiba · 2024-01-08T22:20:14Z

crates/voicevox_core/src/publish.rs

-        _f0_vector: &[f32],
+        phoneme: &[i64],
+        note: &[i64],
+        _f0: &[f32],


_ミスかも？

あ、これはlinterに使ってない引数だと怒られたので、_を入れて回避しています
あとで使うことになるかと思うので、一旦引数として入れていますが、後で変更することになるかと...!

qryxip

後追いですがLGTM

* remove contour and rename to talk xxx * fix speaker id map * rename functions and variables * add models to model file * add sing style and source filter models to model file set * add new models to status * rename get model index and speaker id * add new models session * change i32 to i64 * add new predictor to inference core * add new predictor to core * add new predictor to compatible engine * rename source filter to sf decode * fix rename miss * rename sing style to sing teacher * fix rename miss * remove vector * add TODO comment (add sing tests) Co-authored-by: Hiroshiba <[email protected]> * fix comment out * lint --------- Co-authored-by: Hiroshiba <[email protected]>

y-chan added 12 commits January 6, 2024 18:20

remove contour and rename to talk xxx

632cb13

fix speaker id map

7b6df24

rename functions and variables

720609d

add models to model file

1c1b46e

add sing style and source filter models to model file set

77fb4bc

add new models to status

278e4f9

rename get model index and speaker id

ef83b52

add new models session

19e1e0e

change i32 to i64

37952bc

add new predictor to inference core

3c713a4

add new predictor to core

7948818

add new predictor to compatible engine

2308489

Hiroshiba approved these changes Jan 6, 2024

View reviewed changes

crates/voicevox_core/src/publish.rs Outdated Show resolved Hide resolved

crates/voicevox_core/src/status.rs Show resolved Hide resolved

crates/voicevox_core/src/publish.rs Show resolved Hide resolved

y-chan and others added 8 commits January 8, 2024 21:59

rename source filter to sf decode

813ba66

fix rename miss

81356c0

rename sing style to sing teacher

790eeac

fix rename miss

d2df8c7

remove vector

78ee7cf

add TODO comment (add sing tests)

1a4d066

Co-authored-by: Hiroshiba <[email protected]>

fix comment out

4c27491

lint

42a0ee6

Hiroshiba approved these changes Jan 8, 2024

View reviewed changes

Hiroshiba merged commit 1412ec8 into VOICEVOX:project-s Jan 8, 2024
43 of 44 checks passed

qryxip reviewed Jan 9, 2024

View reviewed changes

Hiroshiba mentioned this pull request Jan 28, 2024

project-s ブランチをmainブランチにマージしたい #737

Closed

Hiroshiba mentioned this pull request Feb 10, 2024

名詞っぽい場所にあるsingをsongにする VOICEVOX/voicevox#1837

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[project-s] ハミング機能・歌機能向けのモデル・API(compatible_engineのみ)を追加 #724

[project-s] ハミング機能・歌機能向けのモデル・API(compatible_engineのみ)を追加 #724

y-chan commented Jan 6, 2024 •

edited

Loading

Hiroshiba left a comment

Hiroshiba commented Jan 6, 2024 •

edited

Loading

y-chan commented Jan 8, 2024

qryxip commented Jan 8, 2024

qryxip commented Jan 8, 2024 •

edited

Loading

Hiroshiba commented Jan 8, 2024

Hiroshiba commented Jan 8, 2024 •

edited

Loading

Hiroshiba left a comment •

edited

Loading

Hiroshiba Jan 8, 2024

y-chan Jan 9, 2024

qryxip left a comment

[project-s] ハミング機能・歌機能向けのモデル・API(compatible_engineのみ)を追加 #724

[project-s] ハミング機能・歌機能向けのモデル・API(compatible_engineのみ)を追加 #724

Conversation

y-chan commented Jan 6, 2024 • edited Loading

内容

関連 Issue

その他

Hiroshiba left a comment

Choose a reason for hiding this comment

Hiroshiba commented Jan 6, 2024 • edited Loading

y-chan commented Jan 8, 2024

qryxip commented Jan 8, 2024

qryxip commented Jan 8, 2024 • edited Loading

Hiroshiba commented Jan 8, 2024

Hiroshiba commented Jan 8, 2024 • edited Loading

Hiroshiba left a comment • edited Loading

Choose a reason for hiding this comment

Hiroshiba Jan 8, 2024

Choose a reason for hiding this comment

y-chan Jan 9, 2024

Choose a reason for hiding this comment

qryxip left a comment

Choose a reason for hiding this comment

y-chan commented Jan 6, 2024 •

edited

Loading

Hiroshiba commented Jan 6, 2024 •

edited

Loading

qryxip commented Jan 8, 2024 •

edited

Loading

Hiroshiba commented Jan 8, 2024 •

edited

Loading

Hiroshiba left a comment •

edited

Loading