文書同士の類似度行列を書き出す方法 #849

sg-taku · 2019-05-29T00:55:45Z

sg-taku
May 29, 2019

はじめまして。樋口先生。
投稿失礼します。

文書同士の類似度について質問です。

50個ほどの文書についてのクラスター分析を、行なっているのですが、50個の文書それぞれの類似度(値として)の行列を算出したいのですがどのように行えば宜しいでしょうか。まだこのソフトについて無知な部分が多いので、ご指導していただけると嬉しいです。

ko-ichi-h · 2019-05-29T15:09:10Z

ko-ichi-h
May 29, 2019
Maintainer

KH Coderでは文書のクラスター分析を行う際に，文書の距離行列（類似度行列）を作成しています。これを取り出すのが比較的簡単かと思います。

「ツール」「文書」「クラスター分析」
「距離：」等を選択して「OK」
左側の「プロット」ボタンをクリックしてデンドログラムを表示
デンドログラムの画面で「保存」をクリックして「R Source」形式で保存
「kh_coder.exe」と同じ場所にある「Rgui.bat」をダブルクリックしてRを起動
「R Console」に「R Source」形式で保存したファイルをドラッグして実行
「R Console」に「write.csv(1 - as.matrix(dj), "c:/khcoder3/doc.csv")」と入力してEnterキー

これでC:\khcoder3フォルダに「doc.csv」というファイル名で保存されます。4から6までの手順については，こちらのスライド pp. 2-5に図解があります。
https://www.slideshare.net/khcoder/r1kh-coder

なお，（これは書いたり書かなかったりしているのですが）Issueの新規作成時には、「○○先生」「○○さま」のように、特定の人だけに宛てて書くような書き出しは避けて下さい。この「Issues」は誰でも返信・議論できる場であり，開発者以外の方にも積極的に質問への返信をご投稿いただければと願っています。新規作成時には，宛名はなしでかまわないと思いますし，書きたい場合は「○○さま，皆さま」のようにしていただければと存じます。Issueを新規作成した後，議論が始まってからは，返信先を明示したい場合もあるでしょうから，必要に応じて宛名をお書きください。

0 replies

sg-taku · 2019-05-30T08:51:29Z

sg-taku
May 30, 2019
Author

ご返事して頂きありがとうございます。

ご指導していただいた通り、操作したところ類似度行列を算出することができました。

距離をユークリッド距離で設定して算出したところマイナスで距離の値が出たのですがこれはどういうことなのでしょうか。
度々、質問して申し訳ございません。

なお、宛名に関して承知致しました。

0 replies

ko-ichi-h · 2019-05-30T12:14:33Z

ko-ichi-h
May 30, 2019
Maintainer

ユークリッド距離の場合は，最後のコマンドを以下のようにして下さい。

write.csv(as.matrix(dj), "c:/khcoder3/doc.csv")

クラスター分析では，Jaccardの類似性測度（大きいほど類似）を1から引くことで，「距離」（大きいほど非類似）として使っています。そこで類似度に戻すために1から引くというコマンドを書いていました。

ユークリック度距離の場合はそのままの状態でクラスター分析に使っていますので，書き出す時にも1から引く必要はありませんでした。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文書同士の類似度行列を書き出す方法 #849

{{title}}

Replies: 3 comments

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

Select a reply

文書同士の類似度行列を書き出す方法 #849

sg-taku May 29, 2019

Replies: 3 comments

ko-ichi-h May 29, 2019 Maintainer

sg-taku May 30, 2019 Author

ko-ichi-h May 30, 2019 Maintainer

sg-taku
May 29, 2019

ko-ichi-h
May 29, 2019
Maintainer

sg-taku
May 30, 2019
Author

ko-ichi-h
May 30, 2019
Maintainer