基于远程监督,使用SDP特征,CNN模型,多实例学习(选一个实例)
1、在NLTK包的stanford.py文件中,修改了第356行,添加了cell_separator='\t'
2、从训练数据中删除两条数据,具体删除内容,保存在train_temp.txt中
FilterNYT 数据集 label 类别总数为27 0-26 最大长度:49
-
original/FilterNYT中
- dict_temp.txt用于将数据中SDP中的"a b"转化为"a_b"
- dict_new.txt为新的词典文件,除新增一些词之外,还将" "转化为"_",将"/"转化为"/"
-
train2word_result/FilterNYT中
- test0.txt与test1.txt是由test.txt一分为二得来;同理,train0.txt、train1.txt和train.txt
- test_temp.txt和train_temp.txt为部分生成SDP时出错的实例数据
- train_process.txt为从train.txt中移除train_temp.txt中数据剩余的实例数据
-
sen2sdp_result/FilterNYT中为批量生成的SDP数据(有错误,label只有一个),及生成SDP时的错误日志
-
sen2sdp_result_final/FilterNYT中
- train_sdp.pickle和test_sdp.pickle(label只有一个)为处理错误日志(批量生成SDP)后的结果**(!!!删除了两条实例数据)**
- 对于train_sdp_final.pickle和test_sdp_final.pickle(label只有一个),由于生成SDP时自动将" "(ascii为160)转化为" "(ascii为32),因此进一步处理,将" "(ascii为32,且由160转化而来)转化为"_"
- test_sdp_final_final.pickle和train_sdp_final_final.pickle,label由一个变为四个