中文分词(概况)

算法改变人生 2020-06-25

中文词法分析
中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示

中文词法分析难点

  1. 重叠词,离合词,词缀
  2. 中文词语的切分歧义
  3. 中文未定义词
  4. 词性标注

解决方法:

  1. 基于词典的机械切分算法
  2. 基于规则的切分算法
  3. 基于统计的切分算法

对于未登录词的处理。未登录词大致包括以下几类
中国人名,翻译地名,机构名,商标字号,专业术语,?缩略语,如三个代表、扫黄打非。
?新词语,如美刀、港刀
对每一类未登录词都要构造专门的识别算法,别的主要依据是内部构成规律(用字规律)、外部环境(上下文)和重复出现规律
各种不同类型的未登录词识别都需要收集大量
数据,建立不同的数据模型。常用的方法包括

相关推荐