使用TensorFlow实现基于深度学习的中文分词
本项目使用python3
编写,没有支持python2
的计划。
注:本项目主要是为了进行中文分词等相关自然语言处理研究而创建,暂时不推荐在正式的生产环境使用,另外本项目目前还在开发阶段
- 安装tensorflow:
pip install tensorflow
-
clone本项目至本地.
-
运行文件
init.py
,生成训练用数据
在本项目文件夹下创建一个文件,在里面添加如下代码并运行:
from seg_dnn import SegDNN
import constant
cws = SegDNN(constant.VOCAB_SIZE,50,constant.DNN_SKIP_WINDOW)
print(cws.seg('我爱北京天安门')[0])
详细示例可见文件test.py
seg_dnn.py
: 使用(感知机式)神经网络进行中文分词,对应论文1seg_lstm.py
: 使用LSTM神经网络进行中文分词,对应论文2seg_mmtnn.py
: 使用MMTNN网络进行中分分词,对应论文3prepare_data.py
: 预处理语料库,包括msr和pkuinit.py
: 用于生成进行训练和测试的数据的脚本文件
- deep learning for chinese word segmentation and pos tagging (已完全实现,文件
seg_dnn.py
) - Long Short-Term Memory Neural Networks for Chinese Word Segmentation (基本实现,正在改进,文件
seg_lstm.py
) - Max-Margin Tensor Neural Network for Chinese Word Segmentation (正在实现,文件
seg_mmtnn.py
)
- 支持
pip
- 添加更加详细的注释
- 提供词性标注功能