-
-
Notifications
You must be signed in to change notification settings - Fork 986
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
「心理发展」 Wrongly Converted to 「心理髮展」 #224
Comments
看起來是斷字的問題? 「物理发展」也會壞掉 |
這樣合不合理?
|
不合理,不是詞或者詞語。 |
心理是一個詞語 |
所以必須在 |
可以直接添加「心理發展」 |
直接添加不太合理吧? |
我試了一下結巴(https://github.com/fxsjy/jieba) In [6]: import jieba
In [7]: list(jieba.cut("心裡發展", HMM=True))
Out[7]: ['心裡', '發展'] 裡面用 HMM ;有機會從 結巴 借 code 或是直接 depend 嗎? |
結巴分詞不太好,中文還是CRF比較好。 |
有相關實作可以參考的嗎? |
https://github.com/hankcs/HanLP 如果要解決這個繁化問題,我相信要先分詞再繁化才能解決。 我現在用的是這個分詞,感覺很好用的,準確率我測試過達到九成以上。 先把「心理发展」分詞為「心理」「发展」再繁化為「心理」「發展」。 |
其實不用添加「心理发展」,添加「心理」即可。 |
「心理发展」 Wrongly Converted to 「心理髮展」。
The text was updated successfully, but these errors were encountered: