文書のクラスター分析の「精度」を上げる方法 #1140
-
お使いのKH Coderのバージョン3.Beta.07e ご質問の内容をお書きください文書のクラスター分析の精度を上げる方法について質問がございます。 1756回答を文書(セル)のクラスター分析にかけ、併合水準のプロットをみると、15クラスターがよさそうだと判断しました。しかし、各クラスターに分かれた文書の内容を見てみると、別のクラスターのほうが内容的に適している文書が混ざっていたり、一クラスター内の文書群の内容がばらばらで殆どクラスターとして成り立っていなかったりしています。文書の単位を、「文」「段落」「セル」のいずれにしても同じように、綺麗には分類されません。分類が適切ではない文書が数文で済んでいるのであれば、手動で分類し直すなど、方法があるのですが、数が膨大のため、現実的ではありません。試しに、クラスター数を増やして分析してみたのですが、あまり精度は変わりませんでした。 回答内容を分類する別の方法として、分析対象の文書が入ったExcelファイルを用意し、抽出語リストの抽出語(特に名詞)で順に検索をかけて、検索に引っかかった回答内容を一つずつ確認しながら、類似の内容ごとに、新しい列に1を入力してチェックをしていく、といった方法も考えています。こちらも、かなりの時間がかかりそうです。 上記のいずれの方法にしても、テキストマイニングを活用できていないような気がしており、他の方法はないのだろうかと悩んでいます。ある程度は手動で分類する必要はあるのでしょうか。 |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 1 reply
-
まず、分析に使用されている語が足りているのかどうかが気になるでしょうか。基本的にはたくさんの語を使った方が(使える情報が増えますから)「精度」が上がる可能性があります。文書のクラスター分析でお使いになっている語の数はどれくらいでしょうか? 何回以上出現している語をお使いで、いくつの(何種類の)語を分析に投入されているのでしょうか? それを増やすとどうなるのでしょうか? 私の場合は(剽窃レポートを探すためですが)こういう設定を使うことが多かったです。語を増やす設定のご参考としては、このTweetも役立つかと存じます。 次にクラスター化法と距離係数については、分類の目的にもよりますが、通常の場合はWard法でJaccardかCosineをお薦めします。係数にはそれぞれ特徴がありますから、両方お試しいただいて、結果がどう違うが見ていただくのが良いでしょう。 その上で、クラスター分析の結果の評価ですが、各クラスターの特徴語はチェックされましたか? 各クラスターにそれぞれに異なる特徴語があって、そうした特徴語を含む回答が当該クラスターに分類されているという状態なら、クラスター分析としては一応成功していると言えるでしょう。ただ、その結果がご要望に添うかどうかは、また別の問題です... クラスター分析としては成功しているけど、結果が意に沿わないのか、クラスター分析が成功していないのか、どちらでしょうか? クラスター分析としては成功しているけれど、意図しない特徴語によって分類されているような場合は、分析に使う語を一部の品詞に絞るといった方策も考えられるでしょう。 なお、クラスター分析では、各回答を単一のクラスターに分類することによる無理も生じるでしょう。もしこの点が問題になるようなら、1つの文書に複数のトピックが含まれることを前提としている手法、トピックモデル等も試してみられると良いかもしれませんね。 そして自動分類にはまだまだ限界もあるのかということになれば、コーディング機能が役立つでしょう。自分の数えたいと思ったトピックとかコンセプトを、計算機や多変量解析が自動的に取り出してくれるとは限りません。なので、そんなときに狙ったコンセプトを自由に取り出せるように、KH Coderにコーディング機能を備えています。 |
Beta Was this translation helpful? Give feedback.
まず、分析に使用されている語が足りているのかどうかが気になるでしょうか。基本的にはたくさんの語を使った方が(使える情報が増えますから)「精度」が上がる可能性があります。文書のクラスター分析でお使いになっている語の数はどれくらいでしょうか? 何回以上出現している語をお使いで、いくつの(何種類の)語を分析に投入されているのでしょうか? それを増やすとどうなるのでしょうか?
私の場合は(剽窃レポートを探すためですが)こういう設定を使うことが多かったです。語を増やす設定のご参考としては、このTweetも役立つかと存じます。
https://twitter.com/khcoder/status/501035066139504640
次にクラスター化法と距離係数については、分類の目的にもよりますが、通常の場合はWard法でJaccardかCosineをお薦めします。係数にはそれぞれ特徴がありますから、両方お試しいただいて、結果がどう違うが見ていただくのが良いでしょう。
その上で、クラスター分析の結果の評価ですが、各クラスターの特徴語はチェックされましたか? 各クラスターにそれぞれに異なる特徴語があって、そうした特徴語を含む回答が当該クラスターに分類されているという状態なら、クラスター分析としては一応成功していると言えるでしょう。ただ、その結果がご要望に添うかどうかは、また別の問題です... クラスター分析としては成功しているけど、結果が意に沿わないのか、クラスター分析が成功していないのか、どちらでしょうか? クラスター分析としては成功しているけれど、意図しない特徴語によって分類されて…