Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

提供一个人肉处理的拼音码表 #3

Open
wy16W2pIilK1xgqN opened this issue Jan 22, 2019 · 1 comment
Open

提供一个人肉处理的拼音码表 #3

wy16W2pIilK1xgqN opened this issue Jan 22, 2019 · 1 comment

Comments

@wy16W2pIilK1xgqN
Copy link

wy16W2pIilK1xgqN commented Jan 22, 2019

前几日看到有人提码表错误的问题,我自己就做了一个。
历时5天,大约工作20个小时,目前共14449行,全部人肉确认。
希望被能接受。

处理后的文本.zip

另外:希望开发者提供64位和命令行版程序,并缩小体积。
特别是64位版刚需呀。

码表的介绍

未处理的码表出处为开源项目:小小输入法平台。
该码表持续使用和改进超过10年,可靠性因该很高了。

码表规范

  • 拼音字母长度限制为3~6,无重复
  • 全部为双汉字词
  • 一组字母对一个词
  • 无生僻字

删除字词的标准

  • 数字词
  • 人名
  • 非汉字
  • “打了”,”还得“之类的半截词和组合词
  • 带“你“我”“他”之类的词
  • 有歧义或难以理解的词

一音多词的取舍

  • 名词优先
  • 中性词优先
  • 识别简易的优先
  • 规范和书面词优先
@cfbao
Copy link
Owner

cfbao commented Jan 22, 2019

天哪。。。没想到真有人这么有耐心人肉处理这么多词。辛苦了!
我最近比较忙,暂时不会处理。过阵子有空了一定好好看看。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants