1、数据集:
(1) 数据集来源:今日头条中文新闻(文本)分类数据集
(2) 数据集说明参考:https://github.com/fate233/toutiao-text-classfication-dataset
2、数据集处理:
(1) 说明:14分类,完整数据集每类2w数据
(2) 输入原始数据集:labeled_toutiao_cat_data.txt
(3) 代码:word2vec/handle_data.py
(4) 生成数据 handled_data/seg_pure_data.txt
3、训练词向量:
(1) 输入处理后数据:seg_pure_data.txt
(2) 代码:word2vec/word2vec_model.py
(3)训练后model:save_model/word2vec.model saved_model/word2vec.txt
4、textCNN训练:
(1)小数据集:python text_cnn.py 0
(2)完整数据集:python text_cnn.py 1
5、结果:
train: loss: 0.5536235570907593, acc: 0.8205128205128205, precision: 0.7136054421768707, recall: 0.6882456828885399, f_beta: 0.6967303093486196
(1)数据存在分类模棱两可的情况:即分到哪一类都太合适的情况
(2)数据采用char级别训练可能效果更好
(3)其他,blablablablablabla 待研究
参考:
http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/
https://www.cnblogs.com/jiangxinyang/p/10207273.html
shout to 以上大佬s
peace & love