jiojio 分词CRF特征总结

CRF 特征总结

即前后位置的双字特征，例如：“我大学毕业已经7年了。”中，“业”字对应的单字特征包括“c-2c-1学毕”、“c-1c毕业”、“cc1业已”、“c1c2已经”等。
同理，该特征若过长，同样会存在特征过于稀疏，失去统计意义的情况。

为增强分词词汇的边界，制定连续双词特征，例如：“我大学毕业已经7年了。”中，“业”字对应的连续双词汇特征包括“w1毕业.已经”等，此时，可以发现，除此特征之外，还包括一个特征，“w2学毕.业已”。分别造句为，“学毕，归家”， “司法程序业已完成”。当然，w2 词汇特征是错误的分词方法，此时出现词汇的歧义情况。
另举例，“不要觊觎她的美貌。”中，“觊” 同样包括连续词汇特征，“w1不要.觊觎”。但不包括“w2要觊.觎她”。原因在于这两个并非词汇。
通过上例发现，连续双词特征分为存在歧义的双词和不存在歧义的双词。只有存在歧义的双词，才有必要使用双词特征进行区分，无歧义的双词仅使用双字特征即可完成分词任务。
仅获取具有歧义的双词特征可以大幅度减少词汇特征数量，压缩模型大小，提供计算效率。