「旧仮名口語UniDic」の導入 #1281
-
お使いのKH Coderのバージョンbase edition エラー・不具合について詳しくお書きください■お使いのOS ■どんなエラー・不具合・問題ですか? また、「MeCabに近代文語Unidic辞書の導入について #962」のように、ファイルを解凍してみましたが、こちらでも上書き禁止状態で、編集することはできませんでした。 ■スクリーンショット ■どのように操作すればその問題を再現できますか?
■エラー・メッセージ コンソール・ウィンドウの表示内容(Macではターミナルの表示内容)を貼り付けてください上書き禁止状態になっているので編集できません。 |
Beta Was this translation helpful? Give feedback.
Replies: 18 comments 2 replies
-
解凍していただいて、その解凍されたファイルを開けば、編集できると思います。
この場合は、この状態のスクリーンショットを貼り付けていただけますか? |
Beta Was this translation helpful? Give feedback.
-
ありがとうございます。解凍がうまくいっていなかったようで、もう一度行ってみたら編集できるようになりました。 Mecabを選択して特徴語の抽出をすると、スクリーンショット1のような結果が出ます。2行目にある「つた」は、本文では「入つた」「笑つた」のように動詞として使用されていますが、「入/つた[人名]」のように処理されてしまいます(スクリーンショット2)。感動詞「う」として処理されているものも、本文中では「怪しう」のように使用されているものです(スクリーンショット3)。 分析対象のテキストデータが明治から大正時代に書かれたもので、現代語ではないことが原因なのではないかと考え、Unidicを導入しましたが、うまくいきませんでした。 |
Beta Was this translation helpful? Give feedback.
-
私は古文には詳しくないのですが、扱っておられるデータは「近代文語」でしょうか? 「旧仮名口語UniDic」や「近現代口語小説UniDic」をお試しになってはいかがでしょう。 |
Beta Was this translation helpful? Give feedback.
-
ありがとうございます。 この場合は、誤って品詞分解されている語を書き出して、強制抽出するしかないのでしょうか。 |
Beta Was this translation helpful? Give feedback.
-
追記: |
Beta Was this translation helpful? Give feedback.
-
その辞書に含まれている語がきちんと抽出されているか、すなわち、辞書が本当に有効になっているかという動作確認はされていますか? ドキュメントによると、たとえば「旧仮名口語UniDic」であれば、「買ふ」「買ひ」のような語を抽出できるようです。「買ふ」「買ひ」のような語を確かに抽出できているか、確認されていますか? 有効になっていてもこれらの辞書では対応できない場合、強制抽出も1つの方法でしょうね。ただ、活用のある語の場合は、強制抽出では上手くいかないかもしれません。その場合はMeCabのユーザー辞書を作成するか、デフォルトの辞書(IPADic)を編集するかだろうと思います。 |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
MeCabが「旧仮名口語UniDic」を使うように、MeCabの設定(mecabrcファイル)を変更されましたか? MeCab単体で動作させてテストすると、「買ひ集めて」はどう分割されますか? |
Beta Was this translation helpful? Give feedback.
-
ありがとうございます。mecabrcの変更がうまくできていませんでした。 |
Beta Was this translation helpful? Give feedback.
-
そのダブルクオートはどこから来たのでしょうか?
のように指定してください。 それでもエラーになるようなら、エラー発生時のコンソール画面(最小化されている黒背景に白文字のWindow)の内容をすべてここに貼り付けて下さい。 |
Beta Was this translation helpful? Give feedback.
-
指定しなおしてみましたが、Mecabの起動に失敗しましたというメッセージが出てきてしまいました。
|
Beta Was this translation helpful? Give feedback.
-
この部分が、MeCabが出しているエラー・メッセージです。 「C」ではなく「G」と書いているようです。本来は「C」ではないでしょうか。それから、まだダブルクオートで括っているのではないでしょうか?
これ(↑)ではなくて、
このようにしてください。ダブルクオート有無の違いが分かりますでしょうか。 |
Beta Was this translation helpful? Give feedback.
-
Beta Was this translation helpful? Give feedback.
-
うーん、コンソール表示を見るとCドライブから起動しているように見えます。
CドライブとUSBのGドライブと、両方に「KHCoderOfficialPackage」があったりしますか? もしそうだとすると、CとGのどちらの設定ファイルを編集するかを取り違えたりして間違いやすそうですが... |
Beta Was this translation helpful? Give feedback.
-
たしかにGドライブにもKHcoderがありました。こちらを削除して、「PC>windows(C:)>KHCoderOfficialPacage」のみ使用してみましたが、mecabは起動されませんでした。
|
Beta Was this translation helpful? Give feedback.
-
だいぶ前進したと思います。
2023-08版を使うと、私の環境でもこのエラーが出ました。 2022-03版の「旧仮名口語UniDic」であればエラーなしに解析できるようです。 ※同梱の「.dicrc」というファイルを「dicrc」に改名して編集しました。 |
Beta Was this translation helpful? Give feedback.
-
その後、MeCabを64bit版に入れ替えれば、最新版(2023-08版)「旧仮名口語UniDic」でも解析を行なえることが分かりました。 ご報告までに。 |
Beta Was this translation helpful? Give feedback.
だいぶ前進したと思います。
2023-08版を使うと、私の環境でもこのエラーが出ました。
2022-03版の「旧仮名口語UniDic」であればエラーなしに解析できるようです。
https://clrd.ninjal.ac.jp/unidic/back_number.html#unidic_qkana
※同梱の「.dicrc」というファイルを「dicrc」に改名して編集しました。