ustbclearwang 2018-09-05
使用Jieba词性分类
# -*- encoding=utf-8 -*- import jieba.posseg as pseg words = pseg.cut("我爱北京天安门") for word, flag in words: print('%s, %s' % (word, flag)) 1 2 3 4 5 6 7 8 9 10 11
以经典句子为例,“我爱北京天安门“,词性分类的结果为:
我 /r 爱 /v 北京 /ns 天安门 /ns 1 2 3 4
词性
词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。
常见词性分类
词性分类又叫词性标注(Part-Of-Speech tag, POS-tag),常见的词性标准类型如下:
1、名词
2、时间词
3、处所词
4、方位词
5、动词
6、形容词
7、区别词
8、状态词
9、代词
10、数词
11、量词
12、副词
13、介词
14、连词
文本挖掘主要有哪些功能
自然语言处理技术文本挖掘功能:
* 涉黄涉政检测:对文本内容做涉黄涉政检测,满足相应政策要求;
* 垃圾评论过滤:在论坛发言或用户评论中,过滤文本中的垃圾广告,提升文本总体质量;
* 情感分析:对用户评论等文本内容做情感分析,指导决策与运营;
* 自动标签提取:自动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形式;
* 文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分类.