Skip to content

Commit

Permalink
Update the Japanese model (#161)
Browse files Browse the repository at this point in the history
  • Loading branch information
tushuhei authored Jun 22, 2023
1 parent 114fef7 commit 6823e9b
Show file tree
Hide file tree
Showing 5 changed files with 25 additions and 4 deletions.
2 changes: 1 addition & 1 deletion budoux/models/ja.json

Large diffs are not rendered by default.

12 changes: 12 additions & 0 deletions data/finetuning/ja/train.txt
Original file line number Diff line number Diff line change
Expand Up @@ -6,3 +6,15 @@
ご利用▁いただき▁ありがとう▁ございます。
フィードバック▁ありがとう▁ございます。
貴重な▁ご意見▁ありがとう▁ございます。
この本は▁あらゆる▁トピックを▁カバーします。
ドアを▁ありと▁あらゆる▁力を▁込めて▁開けます。
身の▁回りの▁あらゆる▁ものを▁化学式で▁表す。
当機は▁まもなく▁着陸態勢に▁入ります。
まもなくして▁彼女が▁来た。
まもなく▁電車が▁到着します。
ようやく▁日が▁暮れた。
やっと▁ようやく▁公開できそうです。
あいつが▁ようやく▁来た。
あれが▁入ったのは▁たまたまです。
たまたま▁手に▁入れる▁ことができた。
彼が▁たまたま▁持っていた。
4 changes: 4 additions & 0 deletions data/finetuning/ja/val.txt
Original file line number Diff line number Diff line change
Expand Up @@ -3,3 +3,7 @@
そのままに▁しておけば▁良い。
そのまま▁お送りください。
たくさんの▁お便り▁ありがとう▁ございます。
彼は▁あらゆる▁服を▁持っています。
係の▁者が▁まもなく▁来ます。
山の▁頂が▁ようやく▁見えた。
たまたま▁聞こえてきた▁歌声。
8 changes: 7 additions & 1 deletion tests/quality/ja.tsv
Original file line number Diff line number Diff line change
@@ -1,7 +1,13 @@
# label sentence
init 今日は▁とても▁良い▁天気です。
init Google の▁使命は、▁世界中の▁情報を▁整理し、▁世界中の▁人が▁アクセスできて▁使えるように▁する▁ことです。
init これ以上▁利用する▁場合は▁教えてください。
init 食器は▁そのまま▁入れて▁大丈夫です。
gh152 ダウンロード▁ありがとう▁ございます。
gh152 ご利用▁ありがとう▁ございました。
gh160 目指すのは▁あらゆる▁人に▁便利な▁ソフトウェア
gh160 商品が▁まもなく▁到着します。
gh160 プロジェクトが▁ようやく▁日の▁目を▁見る。
gh160 明け方に▁ようやく▁目覚めると、
#gh160 明け方▁ようやく▁目覚めると、
gh160 これは▁たまたま▁見つけた▁宝物
#gh160 歩いていて▁たまたま▁目に▁入った▁光景
3 changes: 1 addition & 2 deletions tests/test_parser.py
Original file line number Diff line number Diff line change
Expand Up @@ -115,8 +115,7 @@ def test_load_default_japanese_parser(self) -> None:
'世界中の',
'人が',
'アクセスできて',
'使えるように',
'する',
'使えるようにする',
'ことです。',
])

Expand Down

0 comments on commit 6823e9b

Please sign in to comment.