中文分词之Java实现使用IK Analyzer实现

ReganHoo 2012-11-30

http://blog.csdn.net/lijun7788/article/details/7719166#

IK Analyzer是基于lucene实现的分词开源框架，下载路径:http://code.google.com/p/ik-analyzer/downloads/list

需要在项目中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

什么都不用改

示例代码如下(使用IK Analyzer):

package com.haha.test;  
  
import java.io.IOException;  
import java.io.StringReader;  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.wltea.analyzer.lucene.IKAnalyzer;  
  
public class Test2 {  
    public static void main(String[] args) throws IOException {  
        String text="基于java语言开发的轻量级的中文分词工具包";  
        //创建分词对象  
        Analyzer anal=new IKAnalyzer(true);       
        StringReader reader=new StringReader(text);  
        //分词  
        TokenStream ts=anal.tokenStream("", reader);  
        CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  
        //遍历分词数据  
        while(ts.incrementToken()){  
            System.out.print(term.toString()+"|");  
        }  
        reader.close();  
        System.out.println();  
    }  
  
}

运行后结果:

基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|

使用(lucene)实现:

package com.haha.test;  
  
import java.io.IOException;  
import java.io.StringReader;  
  
import org.wltea.analyzer.core.IKSegmenter;  
import org.wltea.analyzer.core.Lexeme;  
  
public class Test3 {  
      
    public static void main(String[] args) throws IOException {  
        String text="基于java语言开发的轻量级的中文分词工具包";  
        StringReader sr=new StringReader(text);  
        IKSegmenter ik=new IKSegmenter(sr, true);  
        Lexeme lex=null;  
        while((lex=ik.next())!=null){  
            System.out.print(lex.getLexemeText()+"|");  
        }  
    }  
  
}

: ReganHoo

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 0喜欢 / 0评论 2020-09-11

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 0喜欢 / 0评论 2020-08-03

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

为什么要安装IK中文分词器？ES提供的分词是英文分词，对中文做分词时会拆成单字而不是词语，非常不好，因此索引信息含中文时需要使用中文分词器插件。# 下载IK插件文件。docker run -d -p 9200:9200 -p 9300:9300 -e &q

vtnews 0喜欢 / 0评论 2020-07-29

基于词典的中文分词算法3：最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。

troysps 0喜欢 / 0评论 2020-07-04

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 0喜欢 / 0评论 2020-06-25

中文分词（概况）

中文属于分析型语言，词基本上没有专门表示语法意义的附加成分,形态变化很少，语法关系靠词序和虚词来表示。对于未登录词的处理。未登录词大致包括以下几类。中国人名，翻译地名，机构名，商标字号，专业术语，?缩略语，如三个代表、扫黄打非。新词语，如美刀、港刀对每一类

算法改变人生 0喜欢 / 0评论 2020-06-25

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组。搜索引擎模式，

fkyyly 0喜欢 / 0评论 2020-05-31

es中中文分词器的使用

　　es整体都整理好了，进行补充没有实现的一些es知识点。　　本文终止在线安装，从第5开始线下安装。

IceStreamLab 0喜欢 / 0评论 2020-05-03

Elasticsearch 6.4.3 logstash 及 ik中文分词器下载百度云

官网版本 Elasticsearch 6.4.3 logstash 6.4.3 及 ik 6.4.3 中文分词器下载

winxcoder 0喜欢 / 0评论 2020-04-19

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

tigercn 0喜欢 / 0评论 2020-04-18

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 0喜欢 / 0评论 2020-04-17

基于Python实现词云制作

精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。HMM 参数用来控制是否使用 HMM 模型。

chongtianfeiyu 0喜欢 / 0评论 2020-04-10

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

houhow 0喜欢 / 0评论 2020-02-18

NLP之中文分词cppjieba

jieba库是一个简单实用的中文自然语言处理分词库。jieba分词属于概率语言模型分词。依次类推, 最后得到最大概率路径, 得到最大概率的切分组合。这个就是起始向量, 就是HMM系统的最初模型状态。IDF在KeywordExtractor中，使用的是经典的

小发猫 0喜欢 / 0评论 2020-02-02

jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎

fkyyly 0喜欢 / 0评论 2020-01-28

elasticsearch 安装中文分词器

为什么要在elasticsearch中要使用ik这样的中文分词呢，那是因为es提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。1，Elasticsearch中文分词我们采用Ik

李玉志 0喜欢 / 0评论 2020-01-17

docker 安装ElasticSearch的中文分词器IK

本篇文章使用的ES版本是6.6.0，使用的在线安装；本文只是针对一个一个容器进行安装的，当然可以使用Dockerfile将IK做成新的镜像的，这篇文章就不介绍了。

mengyue 0喜欢 / 0评论 2020-01-01

机器学习基础——一文讲懂中文分词算法

在前文当中，我们介绍了搜索引擎的大致原理。有错过或者不熟悉的同学，可以点击下方的链接回顾一下前文的内容。今天我们就来讲讲关键词提取当中最重要的一个部分——中文分词。在世界上众多的语言当中，中文算是比较特殊的一种。意味着程序没有办法直接对文本进行分割。目前常

CYJ0go 0喜欢 / 0评论 2020-01-01

solr+IKAnalyzer部署

solr：选用最新solr版本4.8.1。IKAnalyzer在分词效率上比庖丁分词要差，但是在分词模式、分词个数、中英文数字汉子分词、词库扩展性和对lucene的支持都比庖丁分词要强。最终使用IKAnalyzer作为中文分词工具。Servlet容器：选择

江夏lz 0喜欢 / 0评论 2014-05-31

ELK---- Elasticsearch 使用ik中文分词器

默认分词器，查询的时候会把中文一个汉字当作一个关键字拆分，这样是不符合我们的需求的，所以需要安装分词器。当前有多种分词器可下载，据说比较好用的是IK分词器。注意，下载分词器的时候，版本必须要与Elasticsearch安装的版本一致，否则会出现不可描述的错

李玉志 0喜欢 / 0评论 2019-12-25

Docker 安装ElasticSearch的中文分词器IK

我是用的是ElasticSearch是5.6.11版本对应elasticsearch-analysis-ik-5.6.11

sifeimeng 0喜欢 / 0评论 2019-12-16

1.中文NLP的完整机器处理流程

首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的维度来进行表达.有机器学习相关经验的人都知道，中文自然语言处理的过程和机器学习过程大体一致，但又存在很多细节上的不同点，下面我们就来看看中文自然语言处理的基本过程有哪

小发猫 0喜欢 / 0评论 2019-12-02

使用sphinx search打造你自己的中文搜索引擎

Google搜索引擎建立至今已经快20年了，之后全球各类大大小小类似的搜索引擎也陆续出现、消亡。国内目前以百度为大，搜狗、360、必应等也势在必争。搜索引擎技术也发展的相当成熟，同时也就出现了很多开源的搜索引擎系统。比如，Solr、Lucene、Elast

看上去很美 0喜欢 / 0评论 2019-11-18

分词器之IK Analyzer

IK Analyzer 是基于Lucene的中文分词框架。// Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012. lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引

某某某 0喜欢 / 0评论 2016-08-02

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

solr就不多介绍了。是用于搜索功能的开源工具，很强大。solr本身能够用jetty启动，但是还是用tomcat启动比较适合我自己。学习solr有两个星期了，到现在solr最新版已经是6.3.0了，不过没关系，基本的东西都是一样的。4）在tomcat-so

小树不倒我不倒 0喜欢 / 0评论 2016-11-27

Elasticsearch添加中文分词，对比分词器效果

Elasticsearch的中文分词很烂，所以我们需要安装ik。首先从github上下载项目，解压：。然后使用mvn package 命令，编译出jar包elasticsearch-analysis-ik-1.4.0.jar。然后编辑配置文件elastic

心丨悦 0喜欢 / 0评论 2017-09-19

NLP（十三）中文分词工具的使用尝试

本文将对三种中文分词工具进行使用尝试，这三种工具分别为哈工大的LTP，结巴分词以及北大的pkuseg。首先我们先准备好环境，即需要安装三个模块：pyltp, jieba, pkuseg以及LTP的分词模型文件cws.model。在用户字典中添加以下5个词语

fkyyly 0喜欢 / 0评论 2019-08-16

solr 添加 IK 分词器和sougou词库

在创建索引时会用到分词器，在使用字符串搜索时也会用到分词器，这两个地方要使用同一个分词器，否则可能会搜索不出结果。Analyzer（分词器）的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类，这是一个抽象类，切分词的具体规则是由子类实现

一切依旧 0喜欢 / 0评论 2016-03-12

Lucene的各中文分词比较

Lucene自带的标准分析器。Lucene contrib中附带的分析器，与StandardAnalyzer类似。注意是类似啊，还是有区别的。不过在原始网站已经找不到下载了，而且据说声明为不提供维护和支持。2008年/8月/8日/晚/举世瞩目/目的/北京/

exitzhang 0喜欢 / 0评论 2015-08-07

为全文检索方案更新词库

保证各种网络用语、火文，能正确的被识别。目前对中文分词比较好的插件主要有ik-analyzer、mmseg、庖丁等。ik是目前使用比较广泛，而且作者刚对其进行了更新，目前已经能支持简单的分词歧义排除算法，详细情况请参见ik的开发网站。本文将以ik来测试新添

exitzhang 0喜欢 / 0评论 2013-01-11

ElasticSearch 中文分词插件安装

raw=true--no-check-certificate. raw=true--no-check-certificate. raw=true--no-check-certificate. cp-rpconfig/paoding/*.

心丨悦 0喜欢 / 0评论 2014-09-17

Solr分词器大补贴：mlcsseg

经常遇到不少人询问如何在solr4.x中集成各种分词器，其实也算是咱曾经的工作之一：按照solr的接口把一些分词器对接起来。所幸之前一直都接触这方面的内容因而没走什么弯路，值此团队开博之时，正好把一些代码重新整理共享一下。Java系的中文分词挺多了，ik,

tyl 0喜欢 / 0评论 2014-03-26

中文分词工具|页面分词

在研究百度中文分词的时候，最好的方法是借助中文分词工具，在这里搜寻了一些工具，希望对大家有所帮助。接下来，在此基础上发现好的分词工具再进行完善！AnalysisSystem)，该系统的功能有：中文分词；词性标注；未登录词识别。分词模块都或多或少的参考过IC

yaohaishen 0喜欢 / 0评论 2012-10-10

数学之美系列二：谈谈中文分词

上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子“中国航天官员应邀到美国与太空总署官员开会。”90年前后，清华大学的郭进博士用统计语言模型成功解决分词二义性问题，将汉语分词的错误率降低了

tjuvirus 0喜欢 / 0评论 2012-03-08

solr查询不使用query analyzer中文分词的问题解决

schema.xml已配置query的中文分词器，但搜索的结果不尽如意，solr并没有按照分词来进行搜索。比如搜索“我要吃饭了”，并没有把包含“吃饭”的文档给搜索出来。如果搜索“我要吃饭了”，solr应该把这两个词以OR的方式去搜索，结果却一厢情愿。即搜索

随手一记 0喜欢 / 0评论 2011-01-18

给全文搜索引擎Manticore (Sphinx) search 增加中文分词

Sphinx search 是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更

看上去很美 0喜欢 / 0评论 2019-07-01

Elasticsearch 中文分词器 IK 配置和使用

Elasticsearch 内置的分词器对中文不友好，会把中文分成单个字来进行全文检索，不能达到想要的结果看一个例子。Elasticsearch 版本：2.2.0 CSDN下载 IK 插件版本：1.8 CSDN下载服务器系统：CentOS 6.

YYDU 0喜欢 / 0评论 2017-06-04

elasticsearch的实现全文检索

elasticsearch一个准实时的搜索引擎，基于lucene构建，它的主要强项还是在全文检索方面。工作中还是使用到了这部分功能，这里做一个简单的总结，可以使初次使用的人很快的配置和使用。在最新版的elasticsearch，我们主要使用了ik分词器。

hunningtu 0喜欢 / 0评论 2017-05-09

Lucene的内置的分词器

本来的Lucene的内置的分词器，差不多可以完成我们的大部分分词工作了，如果是英文文章那么可以使用StandardAnalyzer标准分词器，WhitespaceAnalyzer空格分词器,对于中文我们则可以选择IK分词器，Messeg4j,庖丁等分词器。

hankesi000 0喜欢 / 0评论 2017-01-12

lucene关于中文分词的问题

关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次Lucene有新的版本发行，这个包同时更新。笔者比较推荐的中文分词器是IK分词器，在进

qiuzhuoxian 0喜欢 / 0评论 2017-01-11

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

solr就不多介绍了。是用于搜索功能的开源工具，很强大。solr本身能够用jetty启动，但是还是用tomcat启动比较适合我自己。学习solr有两个星期了，到现在solr最新版已经是6.3.0了，不过没关系，基本的东西都是一样的。4）在tomcat-so

快雪时晴天 0喜欢 / 0评论 2016-11-27

solr中文分词

solr5.0自带一个中文分词包，lucene-analyzers-smartcn-5.0.0.jar。在安装目录下搜寻找到，并copy到solr提供的web服务目录的lib目录下。修改collection配置里面的schema.xml。-- 此处需要配置

江夏lz 0喜欢 / 0评论 2016-08-21

分词器之IK Analyzer

IK Analyzer 是基于Lucene的中文分词框架。// Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012. lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引

ayi 0喜欢 / 0评论 2016-08-02

在iOS-Swift项目中集成CppJieba分词

背景在垃圾短信过滤应用 SMSFilters 中，需要使用 Jieba 分词库来対短信进行分词，然后使用 TF-IDF 来进行处理` 分词库是 C++ 写的，这就意味着需要在Swift中集成 C++ 库。在官方文档 "Using Swift wi

86344553 0喜欢 / 0评论 2019-06-30

Ubuntu14.04 solr5.0.0安装及配置IK中文分词

将env-entry注释放开，修改env-entry-value的文件路径

lhc0 0喜欢 / 0评论 2015-04-03

elasticsearch ik分词实现

以上的文件附在附近供下载。analyzer=ik&text=我的第一个中文分词

hu00sdu 0喜欢 / 0评论 2014-08-23

Elasticsearch实践（四）：IK分词

环境：Elasticsearch 6.2.4 + Kibana 6.2.4 + ik 6.2.4Elasticsearch默认也能对中文进行分词。这种在实际应用里肯定达不到想要的效果。当然，如果是日志搜索，使用自带的就足够了。analyzer=defaul

IceStreamLab 0喜欢 / 0评论 2019-06-29

windows下solr整合IKAnalyzer中文分词

solr服务器目录位于D:\solr_tomcat；

wenchanter 0喜欢 / 0评论 2013-02-22

Solr集成IKAnalyzer中文分词器

IK Analyzer 2012 FF版本，在API和功能上保持不变，只是让其支持了Lucene4.0和Solr4.0，让这部分的用户能用起来。如果你还是Lucene3.2-3.6的用户，那么你只需要下载IK Analyzer 2012 U6版本。因为F

tyl 0喜欢 / 0评论 2019-06-27