-
Notifications
You must be signed in to change notification settings - Fork 6.7k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
jieba分词的学习能力如何体现 #124
Comments
刚详细看了下几个问题列表,对https://github.com/fxsjy/jieba/issues/7中提到的回复也看了下, 姚晨和老凌离婚了 结果: / 姚晨/ 和/ 老凌/ 离婚/ 了/ 基本知道jieba默认分词是打开了新词学习的,想问下: 望不吝赐教,谢谢。 |
@xmkane , 现在结巴分词并不能很好地处理一些歧义case,解决办法暂时只有加词典条目。 自定义词典如何添加可以参考wiki,另外git repository中的最新版本也支持调用add_word加词条 #122 。 另外,你举的【张绍刚发道歉信网友不认可】这个例子可以用jieba分词子模块posseg来试一试,它的新词识别能力比较强,但是速度要慢一些。 张绍刚/nr 发/v 道歉信/vn 网友/n 不/d 认可/v http://jiebademo.ap01.aws.af.cm/ (选择“显示词性”) |
@fxsjy ,我最近也在jieba,感觉很好,但也不清楚jieba的新词发现机制,简单测试了一下,貌似新词发现能力和文本长度没有关系?我以前了解过基于统计的新词发现方法,比如考虑词的内聚性和自由度,这就文本越多分词越准确,但我感觉jieba使用的不是这个原理?可以稍微说一下jieba的新词发现机制么?非常感谢呢~~ |
概率问题啊,基于 TF-IDF,P(张绍刚)>P(张绍)*P(刚发),还有个逆序的排列,P(刚绍张)>P(发刚)*P(绍张) 然后就拆分成张绍刚; |
各位,新接触这块领域,多多指教。
对于jieba的学习新词的能力,是会自动讲本次分词过程中的新词自动加入默认的词典,还是其他方式体现。
谢谢。
Kane
The text was updated successfully, but these errors were encountered: