Skip to content

Commit

Permalink
V0.6.1
Browse files Browse the repository at this point in the history
- 新词发现支持字符串列表输入(#13)
- 新词发现自动按照词频排序,标准可调(#14)
- 尝试添加API文档
  • Loading branch information
blmoistawinde committed Jan 20, 2020
1 parent e535035 commit 1ea98d3
Show file tree
Hide file tree
Showing 101 changed files with 99 additions and 36,252 deletions.
9 changes: 9 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,6 +19,10 @@ HarvestText是一个专注无(弱)监督方法,能够整合领域知识(
【注:本库仅完成实体分词和情感分析,可视化使用matplotlib】
- [近代史纲要信息抽取及问答系统](https://blog.csdn.net/blmoistawinde/article/details/86557070)(命名实体识别,依存句法分析,简易问答系统)

本README包含各个功能的典型例子,部分函数的详细用法可在文档中找到:

[文档](https://harvesttext.readthedocs.io/en/latest/)

具体功能如下:

<a id="目录">目录:</a>
Expand Down Expand Up @@ -530,6 +534,7 @@ THUOCL是自然语言处理的一套中文词库,词表来自主流网站的
### 新词发现

从比较大量的文本中利用一些统计指标发现新词。(可选)通过提供一些种子词语来确定怎样程度质量的词语可以被发现。(即至少所有的种子词会被发现,在满足一定的基础要求的前提下。)

```python
para = "上港的武磊和恒大的郜林,谁是中国最好的前锋?那当然是武磊武球王了,他是射手榜第一,原来是弱点的单刀也有了进步"
#返回关于新词质量的一系列信息,允许手工改进筛选(pd.DataFrame型)
Expand All @@ -541,6 +546,10 @@ print(new_words)

> ["武磊"]
[根据反馈更新](https://github.com/blmoistawinde/HarvestText/issues/13#issue-551894838) 原本默认接受一个单独的字符串,现在也可以接受字符串列表输入,会自动进行拼接

[根据反馈更新](https://github.com/blmoistawinde/HarvestText/issues/14#issuecomment-576081430) 现在默认按照词频降序排序,也可以传入`sort_by='score'`参数,按照综合质量评分排序。

具体的方法和指标含义,参考:http://www.matrix67.com/blog/archives/5044

发现的新词很多都可能是文本中的特殊关键词,故可以把找到的新词登录,使后续的分词优先分出这些词。
Expand Down
20 changes: 0 additions & 20 deletions doc/Makefile

This file was deleted.

4 changes: 0 additions & 4 deletions doc/build/dirhtml/.buildinfo

This file was deleted.

Empty file removed doc/build/dirhtml/.nojekyll
Empty file.
833 changes: 0 additions & 833 deletions doc/build/dirhtml/_modules/harvesttext/harvesttext/index.html

This file was deleted.

111 changes: 0 additions & 111 deletions doc/build/dirhtml/_modules/harvesttext/index.html

This file was deleted.

126 changes: 0 additions & 126 deletions doc/build/dirhtml/_modules/harvesttext/match_patterns/index.html

This file was deleted.

Loading

0 comments on commit 1ea98d3

Please sign in to comment.