30天了解30种技术系列(17)---词关系分析神器Word2vec

快看是Charlie 2015-08-21

我本人是自然语言处理的从业者，同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.

Word2vec 是由Google开源，基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型，所以离这个Deep Learning 稍微差一些。

word2vec的官方地址：https://code.google.com/p/word2vec/，下载好代码后进行编译即可。

如果是中文，需要先找一个分词工具对词进行分词，可以用jieba（这个。。），阿里，ANSJ

通过以下方式可以对结果集，进行处理

nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &

##相似此计算
/distance vectors.bin

以下使用81万条样本处理过后，得到的结果，从结果可以看出，屏幕的近似词为显示屏，电脑屏幕，还是相当的精准的。

30天了解30种技术系列(17)---词关系分析神器Word2vec

有了这个以后，咱们就可以构建词的关系网络，如android 有关系的词，在海量文本数据里面是一种非常有效的前期数据处理工具。

大家如果对于哪个技术比较感兴趣，可以私信，我会有重点的在后续文章进行展开。

更多精彩请关注微信 : 图灵搜索

大家也可以使用中国第一个为程序员打造的搜索引擎：https://www.tulingss.com 进行查看。

: 快看是Charlie

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 0喜欢 / 0评论 2020-11-05

MIT 推出机器翻译新算法，破译已消失的古语言

麻省理工学院计算机科学与人工智能实验室的研究人员最近开发出了一种新的计算机算法，可以帮助语言学家自动破译历史上消失已久失的古语言。官方指出，该系统能够自动破译已消失的语言，且无需对这一语言与其他语言的关系有深入的了解。他们还表明，该系统自身就可以确定语言之

baijingjing 0喜欢 / 0评论 2020-10-27

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 0喜欢 / 0评论 2020-10-26

十大针对机器学习的文本注释工具与服务，你会选用哪个？

下面，我将和您一起探讨目前十大针对机器学习的文本注释工具与服务。您可以根据自己项目的实际情况，从中做出选择并试用。Tagtog是一款由波兰软件公司开发的工具，可用于自动化或手动注释文本。Tagtog既支持原生的PDF注释，又包含了可用于自动化文本注释的预训

lgblove 0喜欢 / 10评论 2020-10-23

机器翻译：谷歌翻译是如何对几乎所有语言进行翻译的？

谷歌翻译大家想必都不陌生，但你有没有想过，它究竟是如何将几乎所有的已知语言翻译成我们所选择的语言？本文将解开这个谜团，并且向各位展示如何用长短期记忆网络构建语言翻译程序。第一部分简单介绍神经网络机器翻译和编码器-解码器结构。什么是机器翻译？在机器翻译领域，

WhiteHacker 0喜欢 / 2评论 2020-10-11

AI创业哪家强？6大选择给你方向

人工智能被认为是当代“最热门”的工作。根据《财富》杂志统计，雇佣AI专家的人数在过去4年里增长了74%，社会对人工智能专家的需求正以前所未有的速度增长。人工智能的子领域，如机器学习、深度学习、计算机视觉、统计学和自然语言处理，对这些领域专家的需求和空缺职位

guojin0 0喜欢 / 0评论 2020-10-08

自然语言处理实战：机器学习常见工具与技术

许多自然语言处理都涉及机器学习，所以理解机器学习的一些基本工具和技术是有益处的。有些工具已经在前几章中讨论过，有些还没有，但这里我们会讨论所有这些工具。数据选择和特征工程会带来偏见的风险。类似的种族、宗教甚至地理区域偏见在原始的Word2vec模型中普遍存

lirika 0喜欢 / 0评论 2020-09-27

人工智能的企业家来说，这四个新的方向可能值得重视

在过去、现在和未来，人们用人工智能改变了许多行业，取得了很大的进步，也对人工智能有着长期和系统的发展远景和规划。对于人工智能的企业家来说，这四个新的方向可能值得重视：一是人类的自然语言处理、密集学习、记忆网络和其他技术领域与其他物种不同。人类的重要能力之一

saluzirobot 0喜欢 / 0评论 2020-09-25

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 0喜欢 / 0评论 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 0喜欢 / 0评论 2020-09-22

AI写的文章，真的可以骗过老师了

在过去的几年里，机器学习和人工智能的专家们一直致力于研究一些算法，这些算法可以用以前认为人类完全可以写的方式撰写文章和其他类型的内容。前段时间，一位学生用编程语言让电脑写了一篇文章在外网火了，网友都看不出来那篇文章出自AI之手。随着这些技术越来越先进，我们

randy0 0喜欢 / 0评论 2020-09-17

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 0喜欢 / 0评论 2020-08-30

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 0喜欢 / 0评论 2020-08-10

pytorch+huggingface实现基于bert模型的文本分类（附代码）

一年前的这个时候，我逃课了一个星期，从澳洲飞去上海观看电竞比赛，也顺便在上海的一个公司联系了面试。当时，面试官问我对RNN的了解程度，我回答“没有了解”。但我把这个问题带回了学校，从此接触了RNN，以及它的加强版-LSTM。时隔一年，LSTM好像已经可以退

qilixuening 0喜欢 / 0评论 2020-07-18

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 0喜欢 / 0评论 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 0喜欢 / 0评论 2020-06-21

人工智能的8个有用的日常例子

如果你在谷歌上搜索“人工智能”这个词，然后不知怎的就打开了这篇文章，或者用优步打车上班，那么你就利用了人工智能。虽然有人将其称为“机器人以邪恶的天才统治世界”的现象，但我们无法否认人工智能通过节省时间、金钱和精力使生活变得轻松。人工智能是指机器通过专门设计

womystery 0喜欢 / 0评论 2020-06-17

人工智能的三大领域及其工业应用

人工智能是一门新兴的技术学科，研究和开发用于模拟人类智能的扩展和扩展的理论，方法，技术和应用系统。人工智能研究的目标是让机器执行一些复杂的任务，这些任务需要聪明的人来完成。也就是说，我们希望机器可以代替我们来解决一些复杂的任务，不仅仅是重复的机械活动，而是

purgle 0喜欢 / 0评论 2020-06-01

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 0喜欢 / 0评论 2020-05-22

什么是机器阅读理解？跟自然语言处理有什么关系？

学者C. Snow于2002年发表的一篇论文中将阅读理解定义为“通过交互从书面文字中提取与构造文章语义的过程”。而机器阅读理解的目标是利用人工智能技术，使计算机具有和人类一样理解文章的能力。深度学习的特点是，模型能根据训练集上预测的准确度直接优化参数，不断

xceman 0喜欢 / 0评论 2020-04-30

自然语言处理的应用前景

自然语言处理是人工智能技术的一个分支，它使计算机能够像人们一样理解、处理和生成语言，并且在商业中的应用正在迅速增长。虽然自然语言处理这一术语最初指的是人工智能系统的阅读能力，但它后来成为所有计算语言学的一种通俗说法。当单击搜索结果时，搜索引索会将其视为对找

熊Ok 0喜欢 / 0评论 2020-04-24

入门自然语言处理（NLP）的门

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数学要求不像计算机视觉那么

bensonrachel 0喜欢 / 0评论 2020-04-20

Python深度学习自然语言处理工具Stanza试用！这也太强大了吧！

众所周知，斯坦福大学自然语言处理组出品了一系列NLP工具包，但是大多数都是用Java写得，对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口：Python自然语言处理实践: 在NLTK中使用斯坦福中文分词

katyusha 0喜欢 / 0评论 2020-04-15

Word2Vec

Word2Vec是词的一种表示，将词以固定的维数的向量表示出来。其优点：基于词袋模型的独热编码方式在判定同义词和相似句子的时候效果不是很好，而Word2Vec充分利用上下文信息，对上下文进行训练，每个向量不在是只有一个位置为1，其余位置为0 的稀疏向量。实

sxyhetao 0喜欢 / 0评论 2020-04-14

2020年AI和机器学习的重要趋势是什么？

在竞争日益激烈的技术市场中，从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是，人工智能行业发展如此之快，以至于很难跟踪最新的研究突破和成就，甚至很难应用科学成果来实现业务成果。在2020年为了帮助业务制定强大的AI策略，本文总结了不同研究领

BigDataDigest 0喜欢 / 0评论 2020-03-23

NLP（二十二）利用ALBERT实现文本二分类

在文章NLP（二十）利用BERT实现文本二分类中，笔者介绍了如何使用BERT来实现文本二分类功能，以判别是否属于出访类事件为例子。但是呢，利用BERT在做模型预测的时候存在预测时间较长的问题。因此，我们考虑用新出来的预训练模型来加快模型预测速度。ALBER

小发猫 0喜欢 / 0评论 2020-03-04

使用Python和Keras创建简单语音识别引擎

语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常，这些算法的简单实现有一个有限的词汇表，它可能只识别单词/短语。但是，更复杂的算法具有广泛的词汇量，并包含方言、噪音和俚语。语音只是由我们的声带引起的空气周围振动而产生的一系列声

dflyzx 0喜欢 / 0评论 2020-03-04

广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)

摘要：上一篇广告中那些趣事系列1：广告统一兴趣建模流程，我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签，我们需要构建数据源和标签的关联，也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别，但是对于ne

mxs 0喜欢 / 0评论 2020-03-01

突破迁移学习局限！谷歌提出“T5”新NLP模型，多基准测试达SOTA

过去几年间，迁移学习给 NLP 领域带来了丰硕的成果，掀起了新一波的发展浪潮。迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒，之后又在2019年大显身手，推动了领域内多种新方法的发展，其中就包括XLNet、RoBER

yyhhlancelot 0喜欢 / 0评论 2020-02-25

12 种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

yaohaishen 0喜欢 / 0评论 2020-02-25

12种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

zkq 0喜欢 / 0评论 2020-02-25

NLPer复工了！先看看这份2019机器学习与NLP年度盘点吧

2019 年是机器学习和自然语言处理领域飞速发展的一年。DeepMind 科学家 Sebastian Ruder 从 10 个方面总结了我们在过去的一年中取得的重要进展，对未来的研究方向有着重要的指导意义。对于每个方向，本文都会先总结今年我们在该方向取得的

夏未眠秋风起 0喜欢 / 0评论 2020-02-03

了解不同类型的聊天机器人

它们提供的不同功能以及用来响应的方法决定了聊天机器人的类型。聊天机器人为企业提供了许多好处，其中一些好处是它们能够提供快速响应，易于使用并增加客户参与度。由于这些好处，聊天机器人已取代了智能手机应用。聊天机器人是为许多不同的功能而创建，例如协助、交易、信息

quyunfei 0喜欢 / 0评论 2020-02-02

盘点2019年占主导地位的10种人工智能技术

自从1956年计算机专家约翰·麦卡锡提出“人工智能”一词后，短短几十年时间，便取得了令人惊讶的进展，从纸上蓝图迅速进入应用落地阶段。2019年，在人工智能中占主导地位的技术都有哪些？今天就来盘点一下。人们预计，未来10年内，语音识别、语义识别和语音合成技术

lirika 0喜欢 / 0评论 2020-01-27

《2018自然语言处理研究报告》整理(附报告)

自然语言处理就是要计算机理解自然语言，计算机要理解自然语言文本的意义，最后能以自然文本形式来表达意图。自然语言处理的研究可以分为基础性研究和应用性研究两部分，语音和文本是两类研究的重点。自然语言处理的基础研究方面，自然语言的基础技术包括词汇、短语、句子

sxyhetao 0喜欢 / 0评论 2020-01-11

使用一行Python代码从图像读取文本

处理图像不是一项简单的任务。对你来说，作为一个人，很容易看着某样东西然后马上知道你在看什么。但电脑不是这样工作的。对你来说太难的任务，比如复杂的算术，或者一般意义上的数学，是计算机毫不费力就能完成的。在某种程度上，我们是天造地设的一对。虽然图像分类和涉及到

文山羊 0喜欢 / 0评论 2020-01-10

最新书籍《自然语言处理实战》推荐分享，（附电子书+代码下载）

自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。今天，给大家推荐的一本新书是《Natural Language Processing in Action 》，这本书为我们提供了从基础知识到动

qxconverse 0喜欢 / 0评论 2020-01-06

自然语言处理（NLP）:离我们生活最近的十大应用

通讯，书籍，消息，短信，歌曲，电影……我们很难想象没有语言的世界。我们每天要面对非常多的文本和语音数据。而NLP要做的，就是如何理解这些数据中并做一些有趣的事情？本篇文章主要给大家整理和介绍了NLP在日常生活中最常见的十大应用。教机器理解我们的交流似乎不是

yyhhlancelot 0喜欢 / 0评论 2020-01-04

吴裕雄--天生自然 pythonTensorFlow自然语言处理：Attention模型--测试

# 读取checkpoint的路径。9000表示是训练程序在第9000步保存的checkpoint。必须与训练时的模型参数保持一致。HIDDEN_SIZE = 1024 # LSTM的隐藏层规模。DECOD

Henryztong 0喜欢 / 0评论 2019-12-19

自然语言处理(NLP) - 数学基础(1) - 排列组合

正如我在<自然语言处理 - 数学基础 - 总述>一文中所提到的NLP所关联的概率论知识点是如此的多, 饭只能一口一口地吃了, 我们先开始最为大家熟知和最基础的知识点吧, 排列组合.虽然排列组合这个知识点大家是相当地熟知, 也是相当地基础, 但是

mxs 0喜欢 / 0评论 2019-12-15

自然语言处理(NLP) - 数学基础(1) - 总述

正如我在<2019年总结>里说提到的, 我将开始一系列自然语言处理的笔记.很多人都说, AI并不难啊, 调现有库和云的API就可以啦.然而实际上并不是这样的.所以Ai发展到今天, 已经有相当的规模了, 不可能有一个人熟悉AI的所有领域, 最多也

yyy0 0喜欢 / 0评论 2019-12-12

百度NLP、深度学习悉数亮相NeurIPS2019，一系列年度突破大放异彩

2019 年 12 月 8 日-14 日，机器学习领域国际顶级会议 NeurIPS 于加拿大温哥华拉开帷幕，吸引了全球 1 万 3 千余名专家学者共赴盛会。本年度，自然语言处理领域在深度学习浪潮下取得了显著成就，成为大会的重要议题之一。百度也成为本届大会的

xiaozhukuaitui 0喜欢 / 0评论 2019-12-11

深度学习在商户挂牌语义理解的实践

为了维持POI数据的鲜度，高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂，多变，同时，名称制作工艺要求严格，通过人工来制作POI名称，需要花费大量的人力成本。因此，POI名称的自动生成就显得格外重要，而机器对商户挂牌的语义理解又是其中关键的一环

dxmkkk 0喜欢 / 0评论 2019-12-09

NAACL19笔记：自然语言处理应用的实用理解（多图解&链接）

本文介绍了NLP在文本相似性、文本分类、序列标注和语言生成中的重要成果。按照经验分析，对于通常的词向量的方法，余弦相似性相当于Pearson（线性）相关系数。因为实际中的值通常在0均值左右分布。在词相似度下，违反正态性假设使得余弦相似度特别不适合于GloV

necrazy 0喜欢 / 0评论 2019-12-01

1.中文NLP的完整机器处理流程

首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的维度来进行表达.有机器学习相关经验的人都知道，中文自然语言处理的过程和机器学习过程大体一致，但又存在很多细节上的不同点，下面我们就来看看中文自然语言处理的基本过程有哪

小发猫 0喜欢 / 0评论 2019-12-02

这么多大学加了这个专业，500万人才缺口也都补不齐

根据《全球人工智能产业分布》报告统计，2017年全球人工智能人才储备，中国只有5%左右，人才缺口超过500万人。因此，教育部新增高职人工智能专业。12018年1月，教育部公布的专业备案和审批结果显示，共有270所高职院校获批开设大数据技术与应用专业，开设物

郝玉杰 0喜欢 / 0评论 2019-11-21

自然语言处理科学家孙茂松：深度学习碰壁之后，我们还能做什么？

清华自然语言处理科学家孙茂松为你解答深度学习。实现这一目标的前提是构建一个全世界通用的人类知识库，这也是智源“自然语言处理”研究方向科学家们现阶段要重点攻克的难题。下一步人工智能要害的地方就是想办法让机器理解人类的语言，这是自然语言处理在人工智能学科中的地

Moxiaoaijing 0喜欢 / 0评论 2019-11-28

百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法

今年 7 月，在开发者大会上，百度公布了其在 AI 技术上的进展。而短短四个月后，在昨日的百度语音能力引擎论坛上，百度在语音领域再次公开了最新的算法成果。同样引人关注的还有百度鸿鹄芯片的最新进展。百度通过本次发布说明，深度学习端到端技术依然大有发展空间，软

LinSeeker 0喜欢 / 0评论 2019-11-29

【手撕 - 自然语言处理】手撕 FastText 源码（01）分类器的预测过程

[1] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. FastText 的论文写的比较简单，有些细节不明白，

落地窗前梦残夜 0喜欢 / 0评论 2019-11-16

【手撕 - 自然语言处理】手撕 FastText 源码（02）基于字母的 Ngram 实现

[1] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. 之前的博客介绍了"分类器的预测"的

aukj0 0喜欢 / 0评论 2019-11-16