From 38665c89f60199fe7e5bfe9f58d46d316ea4ce41 Mon Sep 17 00:00:00 2001 From: Hiroyuki Komatsu Date: Mon, 8 Jul 2024 09:33:09 +0000 Subject: [PATCH] Support multiple files in dictionary_manual/. * Added places.tsv to dictionary_manual. * Removed the same entries from words.tsv. #codehealth PiperOrigin-RevId: 650174138 --- src/data/dictionary_manual/BUILD.bazel | 11 ++++++++++- src/data/dictionary_manual/places.tsv | 19 +++++++++++++++++++ src/data/dictionary_manual/words.tsv | 18 ------------------ src/data/dictionary_oss/BUILD.bazel | 4 ++-- src/dictionary/gen_aux_dictionary.py | 9 +++++---- 5 files changed, 36 insertions(+), 25 deletions(-) create mode 100644 src/data/dictionary_manual/places.tsv diff --git a/src/data/dictionary_manual/BUILD.bazel b/src/data/dictionary_manual/BUILD.bazel index e4353655a..4b2f06be1 100644 --- a/src/data/dictionary_manual/BUILD.bazel +++ b/src/data/dictionary_manual/BUILD.bazel @@ -27,7 +27,16 @@ # (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. +package(default_visibility = ["//:__subpackages__"]) + exports_files([ "domain.txt", - "words.tsv", ]) + +filegroup( + name = "dictionary_manual", + srcs = [ + "places.tsv", + "words.tsv", + ], +) diff --git a/src/data/dictionary_manual/places.tsv b/src/data/dictionary_manual/places.tsv new file mode 100644 index 000000000..b58b43a35 --- /dev/null +++ b/src/data/dictionary_manual/places.tsv @@ -0,0 +1,19 @@ +# key value pos +あそうわん 浅海湾 地名 +いとしの 愛し野 地名 +いりなか 杁中 地名 +うとろ 宇登呂 地名 +うらしべつ 浦士別 地名 +えとんびやま 江鳶山 地名 +おんねない 音根内 地名 +おんねべつ 遠音別 地名 +かっくみ 活汲 地名 +ききん 木禽 地名 +さきむい 崎無異 地名 +しんせん 深圳 地名 +たごうら 田子浦 地名 +たちあらい 太刀洗 地名 +ちえんべつ 知円別 地名 +とっぷし 富武士 地名 +ひかりの ひかり野 地名 +みどり 美禽 地名 diff --git a/src/data/dictionary_manual/words.tsv b/src/data/dictionary_manual/words.tsv index 98ac76501..3a97491c2 100755 --- a/src/data/dictionary_manual/words.tsv +++ b/src/data/dictionary_manual/words.tsv @@ -2,29 +2,19 @@ あいしんかくら 愛新覚羅 姓 あさごはん 朝ごはん 名詞 あさごはん 朝ご飯 名詞 -あそうわん 浅海湾 固有名詞 いっきょうたじゃく 一強他弱 名詞 -いとしの 愛し野 地名 -いりなか 杁中 地名 うっぷんばらし 鬱憤晴らし 名詞サ変 -うとろ 宇登呂 地名 -うらしべつ 浦士別 地名 うらめん 裏面 名詞 えいえいじてん 英英辞典 名詞 -えとんびやま 江鳶山 地名 おくぶたえ 奥二重 名詞 -おんねない 音根内 地名 -おんねべつ 遠音別 地名 かいかい 回回 固有名詞 かいごかんせい 下位互換性 名詞 かいていこう 改訂稿 名詞 かくしゃ 覚者 名詞 -かっくみ 活汲 地名 かねのなるき 金のなる木 名詞 からだき 空焚き 名詞サ変 かんじょうば 勘定場 名詞 かんりめいがら 監理銘柄 名詞 -ききん 木禽 地名 きそう 寄贈 名詞サ変 きんとれ 筋トレ 名詞サ変 くうしゅうごう 空集合 名詞 @@ -39,7 +29,6 @@ こんせい 今世 名詞 さいしゅうこう 最終稿 名詞 さかもとりゅういち 坂本龍一 人名 -さきむい 崎無異 地名 さぶすく サブスク 名詞サ変 さんこうにんしょうち 参考人招致 名詞サ変 じきしょうそう 時期尚早 名詞形動 @@ -49,7 +38,6 @@ しゅうせいこう 修正稿 名詞 じょういごかんせい 上位互換性 名詞 しんしょかいふうざい 信書開封罪 名詞 -しんせん 深圳 地名 せいりめいがら 整理銘柄 名詞 ぜんざいさん 全財産 名詞 そうけつ 倉頡 人名 @@ -58,18 +46,14 @@ たいしょうがい 対象外 名詞 たいしょうない 対象内 名詞 たいせつ 堆雪 名詞サ変 -たごうら 田子浦 固有名詞 たちあらい 太刀洗 姓 -たちあらい 太刀洗 地名 たようそにんしょう 多要素認証 名詞サ変 たんろくでんち 単6電池 名詞 たんろくでんち 単六電池 名詞 -ちえんべつ 知円別 地名 でびあん デビアン 固有名詞 とうよ 党与 名詞サ変 とっくつ 突厥 固有名詞 とっけつ 突厥 固有名詞 -とっぷし 富武士 地名 にだんかいうせつ 二段階右折 名詞サ変 にだんかいにんしょう 二段階認証 名詞サ変 にっぽんじゅう 日本中 名詞 @@ -77,7 +61,6 @@ にようそにんしょう 二要素認証 名詞サ変 はいたしょり 排他処理 名詞サ変 ばうんしゃ 馬運車 名詞 -ひかりの ひかり野 地名 ひともうけ 一儲け 名詞サ変 ひゃっきん 百均 名詞 ひらぶん 平文 名詞 @@ -87,7 +70,6 @@ ほじょう 圃場 名詞 ほっけ 𩸽 名詞 ほんじ 翻字 名詞サ変 -みどり 美禽 地名 むえき 無益 名詞形動 むびゅう 無謬 名詞 むびゅうせい 無謬性 名詞 diff --git a/src/data/dictionary_oss/BUILD.bazel b/src/data/dictionary_oss/BUILD.bazel index f281c3da7..b9d1ea93c 100644 --- a/src/data/dictionary_oss/BUILD.bazel +++ b/src/data/dictionary_oss/BUILD.bazel @@ -102,14 +102,14 @@ genrule( ":aux_dictionary.tsv", ":base_dictionary_data", ":id.def", - "//data/dictionary_manual:words.tsv", + "//data/dictionary_manual", ], outs = ["aux_dictionary.txt"], cmd = ("$(location //dictionary:gen_aux_dictionary) " + "--strict --output $@ " + "--aux_tsv $(location :aux_dictionary.tsv) " + "--id_def $(location :id.def) " + - "--words_tsv $(location //data/dictionary_manual:words.tsv) " + + "--words_tsv $(locations //data/dictionary_manual) " + "--dictionary_txts $(locations :base_dictionary_data)"), tools = ["//dictionary:gen_aux_dictionary"], ) diff --git a/src/dictionary/gen_aux_dictionary.py b/src/dictionary/gen_aux_dictionary.py index e62163454..7dedb7a36 100644 --- a/src/dictionary/gen_aux_dictionary.py +++ b/src/dictionary/gen_aux_dictionary.py @@ -258,7 +258,7 @@ def WriteFile(self, output): def main(): parser = argparse.ArgumentParser() parser.add_argument('--aux_tsv') - parser.add_argument('--words_tsv') + parser.add_argument('--words_tsv', nargs='*') parser.add_argument('--dictionary_txts', nargs='+') parser.add_argument('--id_def') parser.add_argument('--output') @@ -273,9 +273,10 @@ def main(): aux.WriteFile(args.output) if args.words_tsv and args.id_def: - words = WordsDictionary(dictionary, aux) - words.Parse(args.words_tsv, args.id_def) - words.WriteFile(args.output) + for words_tsv in args.words_tsv: + words = WordsDictionary(dictionary, aux) + words.Parse(words_tsv, args.id_def) + words.WriteFile(args.output) if __name__ == '__main__': main()