必要な学習データの量、音声の個数についての大まかな解説が欲しいです #176

Mofa-Xingche · 2024-11-07T18:42:08Z

3秒~11秒ぐらいの音声を500個以上あつめて、有音部合計50分以上データセットで学習してるんですが、そもそもまともに綺麗に喋るにはどれくらい必要なんでしょうか？　自分が知らないだけで60個とかでも普通に綺麗にできるんですか？

litagin02 · 2024-11-11T00:42:42Z

場合によりますが、合計１分くらいでもできたという報告はあります。ただ一般的にどれほどのデータ量があれば綺麗にできるかは断言はできず主観によるので、基準を述べることはできません。

Mofa-Xingche · 2024-11-11T01:45:15Z

すみません、ありがとうございます。了解です。
個人用メモ [昔から伝統的には、MyCoeiroinkやずんだもん界隈、AI音声合成界隈全体を昔から見るに、2から10秒前後の声を250~600個ぐらい用意してきた]

Provide feedback