Skip to content

jiojio 分词CRF特征总结

冬日新雨 edited this page Jan 10, 2022 · 13 revisions

CRF 特征总结

  • CRF 以特征进行标签分类,特征的处理对于模型的效果至关重要。
  • 本工具中,对于 CRF 的特征分为单字特征双字特征歧义词组特征几类。

分词数据统计

  • 统计词长的数量与占比
词长 占比
1 45.60%
2 45.95%
3 5.75%
4 1.41%
5 0.63%
5+ 0.58%
  • 即,90%以上的词汇,长度仅为 1或2字符。

单字特征

  • 即前后位置的单字特征,例如:“我大学毕业已经7年了。”中,“业”字对应的单字特征包括“c-2学”、“c-1毕”、“c业”、“c1已”、“c2经”等。
  • 默认前后包括位置偏移量为 2 的特征,当然也可以自行增加。不过,考虑分词数据统计词长,过长的单字特征过于稀疏,比如“c-3大”,已经失去统计意义。

双字特征

  • 即前后位置的双字特征,例如:“我大学毕业已经7年了。”中,“业”字对应的单字特征包括“c-2c-1学毕”、“c-1c毕业”、“cc1业已”、“c1c2已经”等。
  • 同理,该特征若过长,同样会存在特征过于稀疏,失去统计意义的情况。

歧义词组特征

  • 为增强分词词汇的边界,制定连续双词特征,例如:“我大学毕业已经7年了。”中,“业”字对应的连续双词汇特征包括“w1毕业.已经”等,此时,可以发现,除此特征之外,还包括一个特征,“w2学毕.业已”。分别造句为,“学毕,归家”, “司法程序业已完成”。当然,w2 词汇特征是错误的分词方法,此时出现词汇的歧义情况。
  • 另举例,“不要觊觎她的美貌。”中,“觊” 同样包括连续词汇特征,“w1不要.觊觎”。但不包括“w2要觊.觎她”。原因在于这两个并非词汇。
  • 通过上例发现,连续双词特征分为存在歧义的双词和不存在歧义的双词。只有存在歧义的双词,才有必要使用双词特征进行区分,无歧义的双词仅使用双字特征即可完成分词任务。
  • 仅获取具有歧义的双词特征可以大幅度减少词汇特征数量,压缩模型大小,提供计算效率。