Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

「心理发展」 Wrongly Converted to 「心理髮展」 #224

Closed
arthurartoria opened this issue Feb 15, 2017 · 13 comments
Closed

「心理发展」 Wrongly Converted to 「心理髮展」 #224

arthurartoria opened this issue Feb 15, 2017 · 13 comments

Comments

@arthurartoria
Copy link

「心理发展」 Wrongly Converted to 「心理髮展」。

@iblislin
Copy link

iblislin commented Feb 15, 2017

看起來是斷字的問題?
被斷成「心、理发、展」

「物理发展」也會壞掉

@iblislin
Copy link

這樣合不合理?

diff --git a/data/dictionary/STPhrases.txt b/data/dictionary/STPhrases.txt
index 28f14fd..d21e2e9 100644
--- a/data/dictionary/STPhrases.txt
+++ b/data/dictionary/STPhrases.txt
@@ -34740,6 +34740,7 @@
 理发匠 理髮匠
 理发厅 理髮廳
 理发员 理髮員
+理发展 理發展
 理发师 理髮師
 理发师傅       理髮師傅
 理发店 理髮店

@osfans
Copy link
Contributor

osfans commented Feb 15, 2017

不合理,不是詞或者詞語。
理髮展示 怎麼辦?

@shtse8
Copy link

shtse8 commented Feb 15, 2017

心理是一個詞語
發展是一個詞語
理髮是一個詞語

@iblislin
Copy link

所以必須在 STPhrases.txt 窮舉所有的 「*理發展」嗎?
有沒有更好的做法?或是說上面是唯一解。

@BYVoid
Copy link
Owner

BYVoid commented Feb 28, 2017

可以直接添加「心理發展」

@shtse8
Copy link

shtse8 commented Mar 2, 2017

直接添加不太合理吧?
雖則要解決這個問題要把分詞的概念都加進去。

@iblislin
Copy link

iblislin commented Mar 2, 2017

我試了一下結巴(https://github.com/fxsjy/jieba)

In [6]: import jieba

In [7]: list(jieba.cut("心裡發展", HMM=True))
Out[7]: ['心裡', '發展']

裡面用 HMM ;有機會從 結巴 借 code 或是直接 depend 嗎?

@shtse8
Copy link

shtse8 commented Mar 2, 2017

結巴分詞不太好,中文還是CRF比較好。

@iblislin
Copy link

iblislin commented Mar 2, 2017

有相關實作可以參考的嗎?

@shtse8
Copy link

shtse8 commented Mar 2, 2017

https://github.com/hankcs/HanLP

如果要解決這個繁化問題,我相信要先分詞再繁化才能解決。

我現在用的是這個分詞,感覺很好用的,準確率我測試過達到九成以上。
而且 HanLP 的分詞速度很快,3000字以上的文章,也是可以一秒內分詞完成。
相信再做一些優化,適當的分詞應該能用在 OpenCC 上。

先把「心理发展」分詞為「心理」「发展」再繁化為「心理」「發展」。

@BYVoid
Copy link
Owner

BYVoid commented Apr 15, 2020

0306285

@BYVoid BYVoid closed this as completed Apr 15, 2020
@sgalal
Copy link
Contributor

sgalal commented Jul 31, 2020

其實不用添加「心理发展」,添加「心理」即可。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants