Python将文本内容读取分词并绘制词云图

singer 2020-02-18

功能：Python将文本内容读取分词并绘制词云图

import matplotlib
import matplotlib.pyplot as plt #数据可视化
import jieba #词语切割
import wordcloud #分词
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云，颜色生成器，停止
import numpy as np #科学计算
from PIL import Image #处理图片

def ciyun():
    #打开文本
    with open(‘dancitiao.txt‘,‘r‘,encoding=‘UTF-8‘) as f:  # 打开新的文本转码为utf-8
        textfile= f.read()  #读取文本内容
    wordlist = jieba.cut_for_search(textfile)#切割词语
    space_list = ‘ ‘.join(wordlist) # 链接词语
    backgroud = np.array(Image.open(‘beijin.png‘)) #背景图片，只有黑白图才能按照形状生成词云
    mywordcloud = WordCloud(width=14000, height=2200,
                            background_color=None, mode="RGBA",#背景颜色
                            mask=backgroud, #写字用的背景图，从图片中提取颜色
                            max_words=500, #最大词语数
                            stopwords=STOPWORDS,#停止的默认词语
                            font_path=‘simkai.ttf‘,#源码自带字体
                            max_font_size=200,#最大字体尺寸
                            random_state=50,#随机角度
                            scale=1).generate(space_list) #生成词云
    image_color = ImageColorGenerator(backgroud)#生成词云的颜色
    plt.imshow(mywordcloud) #显示词云
    plt.axis(‘off‘) #关闭坐标（x,y轴）
    plt.savefig(‘cytu.png‘) #保存图片
    plt.show()#显示
 
def main():
    ciyun()
 
if __name__ == ‘__main__‘:
    main()

: singer

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 0喜欢 / 0评论 2020-09-11

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 0喜欢 / 0评论 2020-08-03

Elasticsearch实战 | match_phrase搜不出来，怎么办？

title=公路局正在治理解放大道路面积水问题。实际应用中可能需要： 1）检索关键词”理解”、”解放”、”道路”、“理解放大”，都能搜出这篇文档。标准分析仪是默认分析仪，如果没有指定，则默认使用该分词器。但，会出现冗余数据非常多。针对要求2），排除matc

AFei00 0喜欢 / 0评论 2020-08-03

ElasticSearch的下载、安装使用

下载ik中文分词器。浏览器访问是否启动成功。安装ik中文分词插件。解压分词插件包—->放到es的plugins目录下—->重新启动es即可

sifeimeng 0喜欢 / 0评论 2020-08-01

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

为什么要安装IK中文分词器？ES提供的分词是英文分词，对中文做分词时会拆成单字而不是词语，非常不好，因此索引信息含中文时需要使用中文分词器插件。# 下载IK插件文件。docker run -d -p 9200:9200 -p 9300:9300 -e &q

vtnews 0喜欢 / 0评论 2020-07-29

Python常用功能函数系列总结（二）

return ‘ ‘.join([i for i in jieba.cut(sentence) if. i.strip() and i not in self.stopwords and len > 1 and i in self.word_list

kikaylee 0喜欢 / 0评论 2020-07-05

jieba.lcut方法

cut_all参数为真表示采用全模式分词，为假表示采用精确模式分词，默认值为假；

ustbclearwang 0喜欢 / 0评论 2020-07-05

基于词典的中文分词算法3：最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。

troysps 0喜欢 / 0评论 2020-07-04

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

利用pandas读取csv文件中的酒店客户评论，并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果。columns_name=[‘mysql_id‘,‘hotelname‘,‘customername‘,‘reviewtime‘,‘check

zooozx 0喜欢 / 0评论 2020-06-27

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 0喜欢 / 0评论 2020-06-25

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组。搜索引擎模式，

fkyyly 0喜欢 / 0评论 2020-05-31

es中中文分词器的使用

　　es整体都整理好了，进行补充没有实现的一些es知识点。　　本文终止在线安装，从第5开始线下安装。

IceStreamLab 0喜欢 / 0评论 2020-05-03

DJANGO-天天生鲜项目从0到1-009-搜索功能实现(django-haystack+whoosh+jieba)

django-haystack：是django的开源搜索框架，该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎，不用更改代码，直接切换引擎，减少代码量。安装完djang-haystack之后，启动项目又报了另外一个错

谢育政 0喜欢 / 0评论 2020-05-03

理解Babel是如何编译JS代码的及理解抽象语法树(AST）

很多浏览器目前还不支持ES6的代码，但是我们可以通过Babel将ES6的代码转译成ES5代码，让所有的浏览器都能理解的代码，这就是Babel的作用。Babel的编译过程和大多数其他语言的编译器大致相同，可以分为三个阶段。比如我们在 .babelrc里配置的

zhongweinan 0喜欢 / 0评论 2020-04-24

入门自然语言处理（NLP）的门

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数学要求不像计算机视觉那么

bensonrachel 0喜欢 / 0评论 2020-04-20

【solr】添加分词器ik-analyzer-solr

项目在此基础上：solr7.2.1+tomcat8.5.37+jdk8安装配置。下载的jar包复制到。添加分词字段类型

lionelf 0喜欢 / 0评论 2020-04-20

Elasticsearch 6.4.3 logstash 及 ik中文分词器下载百度云

官网版本 Elasticsearch 6.4.3 logstash 6.4.3 及 ik 6.4.3 中文分词器下载

winxcoder 0喜欢 / 0评论 2020-04-19

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

tigercn 0喜欢 / 0评论 2020-04-18

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 0喜欢 / 0评论 2020-04-17

基于Python实现词云制作

精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。HMM 参数用来控制是否使用 HMM 模型。

chongtianfeiyu 0喜欢 / 0评论 2020-04-10

ElasticSearch、IK分词器、Head Master安装-----Windows

ElasticSearch安装运行前提条件：配置好Jdk. Not the version you‘re looking for? Viewpast releases.也可以添加扩展程序：ElasticSearch Head. 四. 把IK分词器解压到El

Smartcxr 0喜欢 / 0评论 2020-04-08

jieba库

counts[word] = counts.get + 1 # 遍历所有词语，每出现一次其对应的值加 1. items.sort # 根据词语出现的次数进行从大到小排序。统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会

fkyyly 0喜欢 / 0评论 2020-04-07

Python jieba 库的使用说明

counts[word] = counts.get + 1 # 遍历所有词语，每出现一次其对应的值加 1. items.sort # 根据词语出现的次数进行从大到小排序。统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会

chouliqingke 0喜欢 / 0评论 2020-04-07

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

houhow 0喜欢 / 0评论 2020-02-18

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

# seg2 = jieba.cut("好好学学python，有用。然后就可以得到上述数据。

cqulun 0喜欢 / 0评论 2020-02-10

jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎

fkyyly 0喜欢 / 0评论 2020-01-28

python同义词替换的实现（jieba分词）

年休假年假年休。回家场景我回来了。# 1读取同义词表，并生成一个字典。# synonymWords.txt是同义词表，每行是一系列同义词，用空格分割。# 2提升某些词的词频，使其能够被jieba识别出来。# 3将语句切分成单词。# 4返回同义词替换后

tmaczt 0喜欢 / 0评论 2020-01-21

用QQ聊天记录生成一个词云

QQ的聊天记录可以通过消息管理器，选中联系人，右键导出为.txt格式。由于是中文，需要分词，本文的分词工具采用的是jieba分词。不知道这个“福”能不能扫出来。假设你已经导出与某人的聊天记录，接下来需要先过滤再分词生成词云。在此之前需要准备一张背景图和一份

ustbclearwang 0喜欢 / 0评论 2020-01-18

elasticsearch 安装中文分词器

为什么要在elasticsearch中要使用ik这样的中文分词呢，那是因为es提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。1，Elasticsearch中文分词我们采用Ik

李玉志 0喜欢 / 0评论 2020-01-17

用python给女朋友做一个歌曲词云图

今天咋们来看看网易云赵雷的歌曲歌词，并做一个词云图。这篇文章可以学习到什么是词云，爬虫的基本流程，简单的可视化操作。可视化有很多种，好的数据可视化，可以使得数据分析的结果更加通俗易通。"词云"属于可视化的一种，它会根据关键词的出现频率生

wyqwilliam 0喜欢 / 0评论 2020-01-12

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

编码之路 0喜欢 / 0评论 2020-01-01

Django-DRF中使用Elasticsearch ,使用IK分词

因为我装的Elasticsearch的版本是2.4.1,安装的JDK==1.8,ES 2.x后的版本使用haystack会有不兼容问题.要注意的是Elasticsearch在root用户下启动是会报错的!# 在/home新建用户目录mkdir elasti

tigercn 0喜欢 / 0评论 2020-01-08

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

　　Solr文本分析消除了索引词项与用户搜索词项之间的语言差异，让用户在搜索buying a new house时能找到类似的内容，例如：purchasing a new home这样的文档。如果搭配恰当，文本分析就能允许用户使用自然语言进行搜索，而无需考

TyCoding 0喜欢 / 0评论 2020-01-08

docker 安装ElasticSearch的中文分词器IK

本篇文章使用的ES版本是6.6.0，使用的在线安装；本文只是针对一个一个容器进行安装的，当然可以使用Dockerfile将IK做成新的镜像的，这篇文章就不介绍了。

mengyue 0喜欢 / 0评论 2020-01-01

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

qiuzhuoxian 0喜欢 / 0评论 2019-12-31

solr+IKAnalyzer部署

solr：选用最新solr版本4.8.1。IKAnalyzer在分词效率上比庖丁分词要差，但是在分词模式、分词个数、中英文数字汉子分词、词库扩展性和对lucene的支持都比庖丁分词要强。最终使用IKAnalyzer作为中文分词工具。Servlet容器：选择

江夏lz 0喜欢 / 0评论 2014-05-31

ELK---- Elasticsearch 使用ik中文分词器

默认分词器，查询的时候会把中文一个汉字当作一个关键字拆分，这样是不符合我们的需求的，所以需要安装分词器。当前有多种分词器可下载，据说比较好用的是IK分词器。注意，下载分词器的时候，版本必须要与Elasticsearch安装的版本一致，否则会出现不可描述的错

李玉志 0喜欢 / 0评论 2019-12-25

elasticsearch语法学习

index是否索引，属性有not_analyzed、analyzed、no. ignore_above对超过 ignore_above 的字符串，analyzer 不会进行处理；所以就不会索引起来。这个选项主要对 not_analyzed. 字段有用，这些

molong0 0喜欢 / 0评论 2019-12-25

Elasticsearch：Pinyin 分词器

Elastic的Medcl提供了一种搜索Pinyin搜索的方法。拼音搜索在很多的应用场景中都有被用到。比如在百度搜索中，我们使用拼音就可以出现汉字：。对于我们中国人来说，拼音搜索也是非常直接的。那么在Elasticsearch中我们该如何使用pinyin来

spb 0喜欢 / 0评论 2019-12-23

elasticsearch kibana + 分词器安装详细步骤

ES安装包：elasticsearch-7.2.0-linux-x86_64.tar.gz，下载地址。#分别在两台机器上创建用户和用户组，这里每台机器上创建两个用户，后面涉及到单台机器多节点安装直接使用，如果只是单台机器单节点安装，每台建一个用户就行，主要

gniMiL 0喜欢 / 0评论 2019-12-16

solr索引基本原理

solr是一个全局检索引擎，能够快速地从大量的文本数据中选出你所需要的数据，而你只需要提供相应的关键词进行检索。solr的高效率查询靠的是底层强大的索引库，所以solr最关键的技术也是其底层的索引设计。solr工作的时候可以归结成两个过程1.创建索引2.搜

wsxsxz 0喜欢 / 0评论 2019-12-14

NLP系列1：NER

　　NER即命名实体识别是信息提取的一个子任务，但究其本质就是序列标注任务。　　NER是一个基础问题，不会不行，但是也是一个非常重要的问题，下面将按照实现过程中碰到的问题依次进行阐述。首先的明白NER是一个分类任务，也叫序列标注，其实就是对文本的不同实体标

xiaocao0 0喜欢 / 0评论 2019-12-06

1.中文NLP的完整机器处理流程

首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的维度来进行表达.有机器学习相关经验的人都知道，中文自然语言处理的过程和机器学习过程大体一致，但又存在很多细节上的不同点，下面我们就来看看中文自然语言处理的基本过程有哪

小发猫 0喜欢 / 0评论 2019-12-02

深入搜索引擎原理

之前几段工作经历都与搜索有关，现在也有业务在用搜索，对搜索引擎做一个原理性的分享，包括搜索的一系列核心数据结构和算法，尽量覆盖搜索引擎的核心原理，但不涉及数据挖掘、NLP等。文章有点长，多多指点~~看一个实际的例子：如何从一个亿级数据的商品表里，寻找名字含

athrenzala 0喜欢 / 0评论 2019-11-19

分词器之IK Analyzer

IK Analyzer 是基于Lucene的中文分词框架。// Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012. lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引

某某某 0喜欢 / 0评论 2016-08-02

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

solr就不多介绍了。是用于搜索功能的开源工具，很强大。solr本身能够用jetty启动，但是还是用tomcat启动比较适合我自己。学习solr有两个星期了，到现在solr最新版已经是6.3.0了，不过没关系，基本的东西都是一样的。4）在tomcat-so

小树不倒我不倒 0喜欢 / 0评论 2016-11-27

ElasticSearch——分词

最近在使用elasticSearch中发现有些数据查不出来，于是研究了一下，发现是分词导致的，现梳理并总结一下。ElasticSearch 5.0以后，string类型有重大变更，移除了string类型，string字段被拆分成两种新的数据类型:text用

wenwentana 0喜欢 / 0评论 2019-11-04

不错的php分词系统-PHPAnalysis无组件分词系统

分词系统简介：PHPAnalysis分词程序使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率

Ykbug 0喜欢 / 0评论 2017-11-14

ElasticSearch性能优化策略

ElasticSearch性能优化主要分为4个方面的优化。这两个参数搭配使用时，能够帮助提供服务器性能。使该node服务器功能单一，只用于数据存储和数据查询，降低其资源消耗率。这样做一来出于数据安全考虑，二来出于服务性能考虑。在此主要针对index和s

83951137 0喜欢 / 0评论 2017-09-26