NLP实验 - word2vec仅用于降维

Pre-process

Dataset: http://www.sogou.com/labs/res... (搜狗实验室)

result = codecs.open(result_file, 'w', 'utf-8')
src_file = open("./datasets/" + filename, 'r')
for line in src_file:
    seg_list = jieba.cut(line, cut_all=False)
    result.write(' '.join(seg_list) + ' ')

去除停用词可以read停用词词典，也可以用import jieba.posseg.cut检测词性为x的词，和加载自定义词典不同，自定义词典决定了分词结果，所以必须使用jieba内置函数

word2vec tutorial: https://rare-technologies.com...

for filename in files:
    file_path = root + '/' + filename
    if os.path.splitext(file_path)[-1] != '.txt':
        continue

    src_file = open(file_path, 'r')
    for line in src_file:
        if len(line) <= 1:
            continue
        # if is from html, cut tags
        line = re.sub(re.compile('<.*?>'), ' ', line)
        yield line

如果不检查后缀，可能出现 utf-8 不能decode的文件，如mac下的.DSstore

sentences = MySentences(data_path)
# size is dim
model = gensim.models.Word2Vec(sentences, size=5, min_count=0)
model.save('./model/word2vec')

Training

使用word2vec 向量化后的 word，对每篇文章进行加权，多篇文章组成一个matrix，用svm分类

Comparison

发现一篇简洁有料的类似survey，可以直接参考：https://zhuanlan.zhihu.com/p/...

坑

使用Word2Vec('f.txt', min_count=5)，传入小文本测试（没有min_count=5）的时候会出现RuntimeError: you must first build vocabulary before training the model

model.save(/model)等操作可能需要文件已经存在，最好在训练前都创建一遍

NLP实验 - word2vec仅用于降维

Pre-process

Training

Comparison

坑

xiaocao0

相关推荐

自然语言处理实战：机器学习常见工具与技术

Word2Vec

用户评论情感极性判别

个性化召回算法实践(五)——item2vec

相关的库

30天了解30种技术系列(17)---词关系分析神器Word2vec

使用 LSTM 智能作诗送新年祝福

NLP&深度学习：近期趋势概述

学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

word2vec

学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec

基于 Gensim 的 Word2Vec 实践

没天赋别怕，NLP技术分分钟让你变身音乐大师

语义表征的无监督对比学习：一个新理论框架

2017年深度学习在NLP领域的这些重大进展与趋势，你知道吗？

基于python的gensim word2vec训练词向量

gensim实现python对word2vec的训练和计算

python 下的 word2vec 学习

自然语言处理的一大步，应用Word2Vec模型学习单词向量表征

简述表征句子的3种无监督深度学习方法

除了自然语言处理，你还可以用Word2Vec做什么？

NLP深度学习：趋势概述

机器学习基准：选择硬件平台光看流行度怎行

Embedding从入门到专家必读的十篇论文

NLP基础-通用句子向量漫谈

机器不学习：NLP系列（1）自然语言处理的发展与趋势

机器不学习：利用深度学习模型提取商品评论中的典型意见

word2vec初探（用python简单实现）

深度学习利器：TensorFlow与NLP模型

学习笔记TF034:实现Word2Vec