文書同士の類似度行列を書き出す方法 #849
Replies: 3 comments
-
KH Coderでは文書のクラスター分析を行う際に,文書の距離行列(類似度行列)を作成しています。これを取り出すのが比較的簡単かと思います。
これでC:\khcoder3フォルダに「doc.csv」というファイル名で保存されます。4から6までの手順については,こちらのスライド pp. 2-5に図解があります。 なお,(これは書いたり書かなかったりしているのですが)Issueの新規作成時には、「○○先生」「○○さま」のように、特定の人だけに宛てて書くような書き出しは避けて下さい。この「Issues」は誰でも返信・議論できる場であり,開発者以外の方にも積極的に質問への返信をご投稿いただければと願っています。新規作成時には,宛名はなしでかまわないと思いますし,書きたい場合は「○○さま,皆さま」のようにしていただければと存じます。Issueを新規作成した後,議論が始まってからは,返信先を明示したい場合もあるでしょうから,必要に応じて宛名をお書きください。 |
Beta Was this translation helpful? Give feedback.
-
ご返事して頂きありがとうございます。 ご指導していただいた通り、操作したところ類似度行列を算出することができました。 距離をユークリッド距離で設定して算出したところマイナスで距離の値が出たのですがこれはどういうことなのでしょうか。 なお、宛名に関して承知致しました。 |
Beta Was this translation helpful? Give feedback.
-
ユークリッド距離の場合は,最後のコマンドを以下のようにして下さい。
クラスター分析では,Jaccardの類似性測度(大きいほど類似)を1から引くことで,「距離」(大きいほど非類似)として使っています。そこで類似度に戻すために1から引くというコマンドを書いていました。 ユークリック度距離の場合はそのままの状態でクラスター分析に使っていますので,書き出す時にも1から引く必要はありませんでした。 |
Beta Was this translation helpful? Give feedback.
-
はじめまして。樋口先生。
投稿失礼します。
文書同士の類似度について質問です。
50個ほどの文書についてのクラスター分析を、行なっているのですが、50個の文書それぞれの類似度(値として)の行列を算出したいのですがどのように行えば宜しいでしょうか。まだこのソフトについて無知な部分が多いので、ご指導していただけると嬉しいです。
Beta Was this translation helpful? Give feedback.
All reactions