追加:queryに無音時間調整関連のパラメータを作成 (#1308)

* 追加:絶対値か倍率かのフラグ * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * 追加:絶対値か倍率かのフラグ[is_pauseLengthUseScale] * Update tts_engine.py * Update tts_engine.py * Update tts_engine.py * Update tts_engine.py * Update tts_engine.py * Update tts_engine.py * Update tts_engine.py * Update tts_engine.py * 削除:isPauseLengthUseScale, isPauseLengthFixed * 削除:isPauseLengthUseScale, isPauseLengthFixed * 削除:isPauseLengthUseScale, isPauseLengthFixed * pauseLengthをNone許容 * pauseLengthをNone許容 * 片付け * 片付け * 片付け * 片付け * 片付け * 片付け * Apply suggestions from code review * テストをちょっと変更 * minimum追加 * 更新忘れ * 「句読点などの無音時間」 --------- Co-authored-by: Hiroshiba <[email protected]>
VOICEVOX · Jun 7, 2024 · 3cd83de · 3cd83de
1 parent a7d8c50
commit 3cd83de
Show file tree

Hide file tree

Showing 23 changed files with 5,747 additions and 6 deletions.
diff --git a/presets.yaml b/presets.yaml
@@ -8,3 +8,5 @@
   volumeScale: 1
   prePhonemeLength: 0.1
   postPhonemeLength: 0.1
+  pauseLength: null
+  pauseLengthScale: 1
diff --git a/test/e2e/__snapshots__/test_openapi/test_OpenAPIの形が変わっていないことを確認.json b/test/e2e/__snapshots__/test_openapi/test_OpenAPIの形が変わっていないことを確認.json
diff --git a/test/e2e/single_api/morphing/test_synthesis_morphing.py b/test/e2e/single_api/morphing/test_synthesis_morphing.py
@@ -27,6 +27,8 @@ def test_post_synthesis_morphing_200(client: TestClient) -> None:
         "volumeScale": 1.0,
         "prePhonemeLength": 0.1,
         "postPhonemeLength": 0.1,
+        "pauseLength": None,
+        "pauseLengthScale": 1.0,
         "outputSamplingRate": 24000,
         "outputStereo": False,
         "kana": "テ'_スト",

diff --git a/test/e2e/single_api/preset/__snapshots__/test_presets/test_get_presets_200.json b/test/e2e/single_api/preset/__snapshots__/test_presets/test_get_presets_200.json
diff --git a/test/e2e/single_api/preset/test_add_preset.py b/test/e2e/single_api/preset/test_add_preset.py
@@ -20,6 +20,8 @@ def test_post_add_preset_200(
         "volumeScale": 1,
         "prePhonemeLength": 10,
         "postPhonemeLength": 10,
+        "pauseLength": None,
+        "pauseLengthScale": 1,
     }
     response = client.post("/add_preset", params={}, json=preset)
     assert response.status_code == 200

diff --git a/test/e2e/single_api/preset/test_update_preset.py b/test/e2e/single_api/preset/test_update_preset.py
@@ -20,6 +20,8 @@ def test_post_update_preset_200(
         "volumeScale": 1,
         "prePhonemeLength": 10,
         "postPhonemeLength": 10,
+        "pauseLength": None,
+        "pauseLengthScale": 1,
     }
     response = client.post("/update_preset", params={}, json=preset)
     assert response.status_code == 200
@@ -40,6 +42,8 @@ def test_post_update_preset_422(
         "volumeScale": 404,
         "prePhonemeLength": 404,
         "postPhonemeLength": 404,
+        "pauseLength": 404,
+        "pauseLengthScale": 404,
     }
     response = client.post("/update_preset", params={}, json=preset)
     assert response.status_code == 422

diff --git a/...e2e/single_api/tts_pipeline/__snapshots__/test_audio_query/test_post_audio_query_200.json b/...e2e/single_api/tts_pipeline/__snapshots__/test_audio_query/test_post_audio_query_200.json
diff --git a/...ine/__snapshots__/test_audio_query_from_preset/test_post_audio_query_from_preset_200.json b/...ine/__snapshots__/test_audio_query_from_preset/test_post_audio_query_from_preset_200.json
diff --git a/test/e2e/single_api/tts_pipeline/test_audio_query_from_preset.py b/test/e2e/single_api/tts_pipeline/test_audio_query_from_preset.py
@@ -24,6 +24,8 @@ def test_post_audio_query_from_preset_200(
         "volumeScale": 1.3,
         "prePhonemeLength": 20,
         "postPhonemeLength": 5,
+        "pauseLength": 15,
+        "pauseLengthScale": 1.4,
     }
     client.post("/add_preset", params={}, json=preset)
 

diff --git a/test/e2e/single_api/tts_pipeline/test_multi_synthesis.py b/test/e2e/single_api/tts_pipeline/test_multi_synthesis.py
@@ -28,6 +28,8 @@ def test_post_multi_synthesis_200(client: TestClient) -> None:
             "volumeScale": 1.0,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
             "outputSamplingRate": 24000,
             "outputStereo": False,
             "kana": "テ'_スト",
@@ -52,6 +54,8 @@ def test_post_multi_synthesis_200(client: TestClient) -> None:
             "volumeScale": 1.0,
             "prePhonemeLength": 0.2,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
             "outputSamplingRate": 24000,
             "outputStereo": False,
             "kana": "テ'_ストト",

diff --git a/test/e2e/single_api/tts_pipeline/test_synthesis.py b/test/e2e/single_api/tts_pipeline/test_synthesis.py
@@ -29,6 +29,8 @@ def test_post_synthesis_200(client: TestClient, snapshot: SnapshotAssertion) ->
         "volumeScale": 1.0,
         "prePhonemeLength": 0.1,
         "postPhonemeLength": 0.1,
+        "pauseLength": None,
+        "pauseLengthScale": 1.0,
         "outputSamplingRate": 24000,
         "outputStereo": False,
         "kana": "テ'_スト",

diff --git a/test/unit/preset/presets-test-1.yaml b/test/unit/preset/presets-test-1.yaml
@@ -8,6 +8,8 @@
   volumeScale: 1
   prePhonemeLength: 0.1
   postPhonemeLength: 0.1
+  pauseLength: null
+  pauseLengthScale: 1.0
 
 - id: 2
   name: test2
@@ -19,3 +21,5 @@
   volumeScale: 0.7
   prePhonemeLength: 0.5
   postPhonemeLength: 0.5
+  pauseLength: null
+  pauseLengthScale: 1.0
diff --git a/test/unit/preset/presets-test-2.yaml b/test/unit/preset/presets-test-2.yaml
@@ -8,6 +8,8 @@
   volumeScale: 1
   prePhonemeLength: 0.1
   postPhonemeLength: 0.1
+  pauseLength: null
+  pauseLengthScale: 1.0
 
 - id: 2
   name: test2
@@ -19,3 +21,5 @@
   volumeScale: 0.7
   prePhonemeLength: 0.5
   postPhonemeLength: 0.5
+  pauseLength: null
+  pauseLengthScale: 1.0
diff --git a/test/unit/preset/presets-test-3.yaml b/test/unit/preset/presets-test-3.yaml
@@ -8,6 +8,8 @@
   volumeScale: 1
   prePhonemeLength: 0.1
   postPhonemeLength: 0.1
+  pauseLength: null
+  pauseLengthScale: 1.0
 
 - id: 1
   name: test2
@@ -19,3 +21,5 @@
   volumeScale: 0.7
   prePhonemeLength: 0.5
   postPhonemeLength: 0.5
+  pauseLength: null
+  pauseLengthScale: 1.0
diff --git a/test/unit/preset/test_preset.py b/test/unit/preset/test_preset.py
@@ -75,6 +75,8 @@ def test_add_preset(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     id = preset_manager.add_preset(preset)
@@ -103,6 +105,8 @@ def test_add_preset_load_failure() -> None:
                     "volumeScale": 0,
                     "prePhonemeLength": 0,
                     "postPhonemeLength": 0,
+                    "pauseLength": 0,
+                    "pauseLengthScale": 0,
                 }
             )
         )
@@ -124,6 +128,8 @@ def test_add_preset_conflict_id(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     id = preset_manager.add_preset(preset)
@@ -151,6 +157,8 @@ def test_add_preset_conflict_id2(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     id = preset_manager.add_preset(preset)
@@ -178,6 +186,8 @@ def test_add_preset_write_failure(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     preset_manager.load_presets()
@@ -206,6 +216,8 @@ def test_update_preset(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     id = preset_manager.update_preset(preset)
@@ -234,6 +246,8 @@ def test_update_preset_load_failure() -> None:
                     "volumeScale": 0,
                     "prePhonemeLength": 0,
                     "postPhonemeLength": 0,
+                    "pauseLength": 0,
+                    "pauseLengthScale": 0,
                 }
             )
         )
@@ -255,6 +269,8 @@ def test_update_preset_not_found(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     true_msg = "更新先のプリセットが存在しません"
@@ -280,6 +296,8 @@ def test_update_preset_write_failure(tmp_path: Path) -> None:
             "volumeScale": 1,
             "prePhonemeLength": 0.1,
             "postPhonemeLength": 0.1,
+            "pauseLength": None,
+            "pauseLengthScale": 1.0,
         }
     )
     preset_manager.load_presets()

diff --git a/test/unit/test_mock_tts_engine.py b/test/unit/test_mock_tts_engine.py
@@ -67,6 +67,8 @@ def test_synthesize_wave() -> None:
             volumeScale=1,
             prePhonemeLength=0.1,
             postPhonemeLength=0.1,
+            pauseLength=None,
+            pauseLengthScale=1.0,
             outputSamplingRate=24000,
             outputStereo=False,
             kana=create_kana(_gen_accent_phrases()),