日本語g2pにunidic3.10を使う #161

WariHima · 2024-08-30T01:41:31Z

変更点

fugashi(最新のmecabラッパー)とunidic3.10を使用してg2pを部分実装し、その出力をpyopenjtalkの出力と合成して読みがより正確になるよう変更。
NHK日本語アクセント辞典を参考にした、九州方言、近畿方言と京阪式アクセントの内部サポート

依存環境が増えまして、

pip install fugashi[unidic]
python -m unidic download

する必要があります。

WariHima · 2024-09-16T08:09:17Z

同音異義語読み推定機能を追加しました。
以下のライブラリを使用
https://github.com/passaglia/yomikata
依存関係のバージョンが固定されているので
yomikata --no-deps
speach
pynvml
でいれる必要があります。
後、windowx環境ではデフォルトの文字エンコードがcp932なので、ライブラリののopen()にutf-8を指定するよう書き換える必要があります
yomikataの修正バージョンを出す必要がありそうですね

python -m yomikata download　でモデルをいれる必要もあります

あと機能追加に伴い依存関係が増えました
jaconv

WariHima added 2 commits August 30, 2024 09:32

update jp g2p use fugashi

e8f0fb4

update_dict で辞書の中身を返すようにする。

f6e628b

WariHima changed the title ~~Dev~~ 日本語g2pにunidic3.10を使う Aug 30, 2024

WariHima added 3 commits August 31, 2024 12:06

fugashi g2p の修正

e9e6e3f

fugashi ユーザー辞書のサポート

424da80

fugashiのユーザー辞書のアクセントを修正

13d0b78

tuna2134 mentioned this pull request Sep 12, 2024

Fugashi + unidic10.3の対応 tuna2134/sbv2-api#37

Closed

WariHima added 7 commits September 13, 2024 13:00

unidic-py以外の辞書のサポート準備

9c11c43

windows環境でのfugashiユーザー辞書作成の修正

be1edad

方言に喋り方を2種追加

2bb8aa9

喋り方の種類をふやす

1c773b3

更に喋り方の種類を追加

1ad978a

若干の最適化

95001ed

同音異義語の読みの推定を追加

4654479

WariHima added 2 commits September 18, 2024 12:22

方言を複数同時に使えるよう変更

e8bf87e

喋り方の追加

015317b

tuna2134 mentioned this pull request Oct 6, 2024

Fugashi + unidic10.3の対応 tuna2134/sbv2-api#74

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

日本語g2pにunidic3.10を使う #161

日本語g2pにunidic3.10を使う #161

WariHima commented Aug 30, 2024

WariHima commented Sep 16, 2024

日本語g2pにunidic3.10を使う #161

Are you sure you want to change the base?

日本語g2pにunidic3.10を使う #161

Conversation

WariHima commented Aug 30, 2024

変更点

WariHima commented Sep 16, 2024