Releases · hankcs/HanLP

13 Aug 17:14

hankcs

v1.6.7

6937571

v1.6.7模型默认训练自微软研究院语料库修订版

默认感知机分词模型训练自 MSRA Named Entity Corpus
词法分析器在低优先级用户词典模式下合并统计分词结果，高优先级模式则最长匹配
词法分析器用户词典覆盖词性标注器的结果:#525
改进人名UV拆分 fix #880
修复 MaxEntDependencyParser fix #914
新增TF和TF-IDF统计与关键词提取工具
word2vec适配IOAdapter与集群 fix #903
HanLP.extractWords增加更多参数
新增NERTrainer.tagSet成员，方便Python用户
Sentence新增更多语料操作接口
LinearModel显示压缩进度
微调人名、bigram等模型
修订简繁词典，根据国家统计局2016行政区划数据校订地名词典
新数据包data-for-1.6.7.zip md5=4da338b7bcf3939a70b8cc16ed338c45
Portable版同步升级到v1.6.7

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.7</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

02 Jul 09:45

hankcs

v1.6.6

7c11c72

v1.6.6解码快10倍的CRF词法分析器

CRF模型重构为对数线性模型，复用感知机框架的维特比解码算法，速度提高10倍
正式废弃CRFSegment，删除CRFSegmentModel.txt.bin
句法分析器默认使用NLPTokenizer
修复新Nature框架下角色标注机构名识别问题：#870
新旧模型不兼容，请下载新数据包data-for-1.6.6.zip md5=aea7194670d89f920d59a592568c88ad
Portable版同步升级到v1.6.6

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

25 Jun 06:56

hankcs

v1.6.5

b736074

v1.6.5跨平台稳定的自定义词性 Pre-release

Pre-release

Pre-release测试版

重构Nature枚举为类，避免反射，兼容最新JDK：#866
新增感知机分类器，基于此实现人名性别识别
新增一阶、二阶HMM
新增中文分词评测工具
支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
IOUtil读取空白文件时的稳定性，兼容 UTF8 file with BOM
IOUtil.loadDictionary支持标记整个词典的默认词性
DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
微调人名识别模型、删除错误词条
修订CharTable，删除橙子和橘子的不合理的转换 @linuxsong
数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

21 May 02:19

hankcs

v1.6.4

515a919

v1.6.4常规维护

优化CorpusLoader、优化MutableFeatureMap的设计
优化新词发现，使结果不含分隔符:#826
TextRank提取关键词提升算法速度 @hlstudio
用户词典热更新时支持.csv @patrick_lin
增强词向量读取时的健壮性：#821
根据百度汉语和在线辞海修正拼音词典 @AnyListen
修订停用词词典 @duohappy
修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题：https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
微调人名识别模型、新增月份词汇
数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

14 Apr 19:03

hankcs

v1.6.3

d535448

v1.6.3支持动态用户词典、自定义词性与优先级

词法分析器支持CustomDictionary.insert动态插入的用户词条
词法分析器支持用户词典中的自定义词性
词法分析器支持enableCustomDictionaryForcing提高用户词典优先级
NLPTokenizer默认使用感知机词法分析器
完善圆圈数字对应关系 @AnyListen
开放命名实体识别的特征提取方法
TextRankKeyword使用CoreStopWordDictionary的过滤器
删除人名识别中的BXD模式，优化日本人名识别
修复ViterbiSegment激活多个配置项带来的问题
微调bigram、微调人名识别模型
数据包兼容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

01 Apr 19:55

hankcs

v1.6.2

b035860

v1.6.2词法分析器支持词典、简繁和索引模式

所有词法分析器都支持用户词典、简繁、offset与全切分索引模式（需更新模型与CharTable）
CRF分词升级到CRF词法分析器，支持训练，与CRF++兼容
重构词法分析器，提供统一的接口。
HanLP.newSegment支持传入算法名称构造相应的分词器
Sentence支持翻译词性，方便记不住词性短码的初级用户
Sentence支持输出brat standoff format：http://brat.nlplab.org/standoff.html
修复DoubleArrayTrie的LongestSearcher
修订词库、修订CharTable、微调人名识别模型，解决：#772
新数据包 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

23 Mar 16:19

hankcs

v1.6.1

a034ef9

v1.6.1常规维护

感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
优化角色标注人名识别的启发式规则
文本分句支持颗粒度
微调bigram、人名识别模型
依然兼容数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

15 Mar 23:40

hankcs

v1.6.0

ed29fdb

v1.6.0感知机词法分析器，动态双数组trie树 Pre-release

Pre-release

🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
🚩《动态双数组trie树》
新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

16 Feb 18:06

hankcs

v1.5.4

e90d57c

v1.5.4常规维护

优化DoubleArrayTrieSegment的效率
废弃CRFDependencyParser：#730
改正CRF的Tag方法：#703 (comment)
加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知：#747
微调bigram、人名、机构名识别模型，修订繁体->台湾词典：#756 (comment)
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

31 Dec 04:09

hankcs

v1.5.3

7d11036

v1.5.3新年快乐

分词器多线程数默认系统CPU核心数
索引模式可选分词结果最小颗粒度：#670
识别带千位分隔符的数字，修复BaseNode中的toString()
微调人名识别模型、ngram；修订现代汉语补充词库、简繁词库
使word2vec命令行参数解析与原版兼容：#699
改正CRF的Tag方法：#703
修复word2vec缓存问题：#718
新词发现过滤使用LinkedList：#724
模型加载失败时统一throw new IllegalArgumentException，参考：#477 #116
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: hankcs/HanLP

v1.6.7模型默认训练自微软研究院语料库修订版

v1.6.6解码快10倍的CRF词法分析器

v1.6.5跨平台稳定的自定义词性

v1.6.4常规维护

v1.6.3支持动态用户词典、自定义词性与优先级

v1.6.2词法分析器支持词典、简繁和索引模式

v1.6.1常规维护

v1.6.0感知机词法分析器，动态双数组trie树

v1.5.4常规维护

v1.5.3新年快乐