Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

調整簡化漢字、日本漢字詞頻 #29

Open
wants to merge 2 commits into
base: master
Choose a base branch
from

Conversation

groverlynn
Copy link

No description provided.

@LEOYoon-Tsaw
Copy link
Member

全都調到0,他們之間的相對字頻就沒了,這不好吧?
有的字也不是簡化字,如与、无,古籍常見。我覺得除非某個簡化字的字頻過高了,否則沒有必要調到0。

按《異體字字典》恢復異體字詞頻
@groverlynn
Copy link
Author

絕大部分的簡化字字頻就是0,個別沒調成0的他們的相對字頻才有問題

@groverlynn
Copy link
Author

我恢復了異體字的字頻,但是個人認爲好幾個異體字(尤其是借作日本漢字的)字頻顯著偏高

@LEOYoon-Tsaw
Copy link
Member

那些單位用字沒必要調到0吧,還有調到0的話會和僻字不分,降頻的話調到1就行了
實際使用中有哪些地方發現字序有問題呢?這份文件是所有方案都依賴的,謹慎一點,還是從實際使用出發,只改必要的吧。

@lotem
Copy link
Member

lotem commented Feb 21, 2023

那么,为什么要调呢?

经过不少次编辑,但大多仍保持从繁体语料统计出来的字频。简化字、日本汉字语料中有可能出现,如果不形成太大的干扰,我觉得按统计值排序要比人为设置权重合理。

@groverlynn
Copy link
Author

那么,为什么要调呢?

经过不少次编辑,但大多仍保持从繁体语料统计出来的字频。简化字、日本汉字语料中有可能出现,如果不形成太大的干扰,我觉得按统计值排序要比人为设置权重合理。

拼音類輸入法會出現某些簡化字排序高於低頻繁體字的情況,在候選詞不多的情況下尤其明顯。特別是一旦錯選過一次,甚至會出現簡化字排第一(未開啓繁轉簡,即希望輸入繁體的情況下)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants