Skip to content

文書のクラスター分析の「精度」を上げる方法 #1140

Discussion options

You must be logged in to vote

まず、分析に使用されている語が足りているのかどうかが気になるでしょうか。基本的にはたくさんの語を使った方が(使える情報が増えますから)「精度」が上がる可能性があります。文書のクラスター分析でお使いになっている語の数はどれくらいでしょうか? 何回以上出現している語をお使いで、いくつの(何種類の)語を分析に投入されているのでしょうか? それを増やすとどうなるのでしょうか?

私の場合は(剽窃レポートを探すためですが)こういう設定を使うことが多かったです。語を増やす設定のご参考としては、このTweetも役立つかと存じます。
https://twitter.com/khcoder/status/501035066139504640

次にクラスター化法と距離係数については、分類の目的にもよりますが、通常の場合はWard法でJaccardかCosineをお薦めします。係数にはそれぞれ特徴がありますから、両方お試しいただいて、結果がどう違うが見ていただくのが良いでしょう。

その上で、クラスター分析の結果の評価ですが、各クラスターの特徴語はチェックされましたか? 各クラスターにそれぞれに異なる特徴語があって、そうした特徴語を含む回答が当該クラスターに分類されているという状態なら、クラスター分析としては一応成功していると言えるでしょう。ただ、その結果がご要望に添うかどうかは、また別の問題です... クラスター分析としては成功しているけど、結果が意に沿わないのか、クラスター分析が成功していないのか、どちらでしょうか? クラスター分析としては成功しているけれど、意図しない特徴語によって分類されて…

Replies: 1 comment 1 reply

Comment options

You must be logged in to vote
1 reply
@ko-ichi-h
Comment options

Answer selected by ko-ichi-h
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested Non-English Communication in Japanese language.
2 participants