如何基于谷歌的最强 NLP 模型进行影评分析？

谷歌此前发布的NLP模型BERT，在知乎、Reddit上都引起了轰动。其模型效果极好，BERT论文的作者在论文里做的几个实验数据集都被轰平了。要做那几个数据集的人可以洗洗睡啦，直接被明明白白地安排了一波。

如何基于谷歌的最强 NLP 模型进行影评分析？

坊间流传BERT之于自然语言处理有如ResNet之于计算机视觉。谷歌还是谷歌呀，厉害！以后做NLP的实验就简单多了，可以先用BERT抽特征，再接几层客制化的神经网络后续实验，可以把BERT看作是类似于word to vector那样的工具。有人在知乎（https://www.zhihu.com/question/298203515/answer/509470502）上整理了跑一次BERT的成本：

For TPU pods:
4 TPUs * ~$2/h (preemptible) * 24 h/day * 4 days = $768 (base model)
16 TPUs = ~$3k (large model)
For TPU:
16 tpus * $8/hr * 24 h/day * 4 days = 12k
64 tpus * $8/hr * 24 h/day * 4 days = 50k
For GPU:
"BERT-Large is 24-layer, 1024-hidden and was trained for 40 epochs over a 3.3 billion word corpus. So maybe 1 year to train on 8 P100s? "

这还只是跑一次的时间，试想一下谷歌在调参、试不同神经网络结构时该需要多少时间与运算资源，太可怕了。

不禁让人感慨，深度学习已经变为大公司之间的军备竞赛，也只有谷歌这样的大公司才能做出这么伟大的模型，那是不是意味着我们普通人就没机会了呢？喜大普奔的是谷歌已经把训练好的模型公布出来，和大家分享他们的成果。我们可以运用大公司提前训练好的模型做迁移学习，用于客制化的应用。

本文想通过一个实际案例来检验一下提前训练好的BERT模型的威力，在已经训练好的BERT模型上再连几层神经网络做迁移学习。我们用的数据来源是Kaggle上的一个豆瓣影评分析数据集，目标是训练出一个模型，输入给模型一条影评的文字，模型能正确输出这条影评所对应的评分。

数据集

这个豆瓣电影短评数据集（https://www.kaggle.com/utmhikari/doubanmovieshortcomments/）里面一共有28部电影，总共200多万笔影评，每笔影评有对应的文字以及用户给电影的评分（最高5分，最低1分）。下面是一些简单的范例：

如何基于谷歌的最强 NLP 模型进行影评分析？

前处理的时候，我们先把每条影评的标点符号去掉，然后用Jieba断词，Jieba是一个很方便的中文断词函数库，安装也很方面直接用PIP安装就好。

最后把数据切为training,testing和validation set三部分，下表是三个set的一些简单统计量：

如何基于谷歌的最强 NLP 模型进行影评分析？

模型结构

第一步，我们先用“Jieba”将影评断词，再把每个词用一个one-hot vector表示。

第二步，再把每条影评对应的one-hot vector丢到如下图的BERT模型抽出特征。

如何基于谷歌的最强 NLP 模型进行影评分析？

第三步，再把抽出的特征丢进我们客制化设计的神经网络，最后输出网络的预测。网络的预测是1-5分，我们分别做了回归和分类两个实验。分类的输出结果是1-5分5类当中的某一类，回归输出结果是介于1-5之间的一个数值。我们会用到如下图所示的Bengio在2017年提出的自注意力模型做一些语义分析。

如何基于谷歌的最强 NLP 模型进行影评分析？

第四步，定义损失函数，固定BERT的参数不变，再用梯度下降法更新我们客制化设计的网络。

PS：由于BERT和self-attention模型结构较为复杂，而且本文的目的是探讨如何用BERT做迁移学习，所以我们不会赘述模型结构，我们会在文末附上论文链接，感兴趣的小伙伴可以去看看。

实验结果

BERT 分类

分类准确率：61%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

以第1行第二列的0.13为例：意思是真实标签是第一类，被分类为第二类的占总的第一类的个数的比例是0.13。可以看到1分，5分的大部分例子都能分类正确。大部分分类不正确的情况是被分到相邻的等级了，例如真实标签是2分的被分类为3分或是真实标签是3分的被分类为2分。这种情况是合理的，针对某一条特定的影评，就算是人去预测，也很难斩钉截铁地判定为是2分还是3分，所以也难怪机器分不出来。

我们对评价标准做了一点修改，将误判为相邻评分的例子判别为正确，结果如下：

分类准确率：94.6%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

BERT 回归

同样的架构，我们修改了一下最后一层的输出，让模型预测相应影评的评分，输出一个实数值，重新训练了模型。如果是分类的实验，1分与5分这两个类别用数值表示的话都是一个one-hot的类别，体现在损失函数里没有差别，模型不会对二者区别对待。如果是回归的实验，模型的输出是一个实数值，实数值具有连续性，1分和5分二者分数的高低能在实数上得到体现。

下面来看看实验结果：