我用Python爬了一个零售网站，分析了一千多种葡萄酒！

xinhao 2017-12-07

本文作者是一名地地道道的程序员，最大的乐趣就是爬各种网站。特别是在过去的一年里，为了娱乐和利润而爬掉了无数网站。从小众到主流电子商店再到新闻媒体和文学博客，通过使用简单的工具（如BeautifulSoup）获得了很多有趣且干净的数据—我也很喜欢Chrome 的Headless模式。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

本文，作者将分析从Greek wine e-shop商店（一个希腊葡萄酒网站）中获得的数据，来看看哪种葡萄酒最受欢迎。

scraper本身相当简单，可以在GitHub页面（https://github.com/Florents-Tselai/greek-wines-analysis）找到。作者将着重于通过使用标准的Python包对得到的数据（1125个独特的标签）做一些快速的探索性分析。

scraper本身暴露了一个相当简单的API。首先，请求葡萄酒页面的数据，并将数据返回给nicedict，如下所示：

In [2]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

In [3]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

Out[3]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

然后，定义一些matplotlib。

In [4]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

加载由houseofwine_gr.dump模块生成的数据转储，开发者也可以在GitHub页面找到.json，.csv和.xlsx的数据集。

In [5]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

以下是所拥有数据的视图：

In [6]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

Out[6]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

用np.nan替换空的字符串，使它们更容易处理 Pandas。

In [7]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

重命名一些包含特殊字符的列名，以便将它们用作本机DataFrame存储器。

In [8]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我们还将适当的类型分配给列：

In [9]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

让我们将color列值从希腊语翻译成英语。

In [10]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

以下是数据集的颜色直方图。

In [11]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

以下是每种葡萄酒的简单指标分布情况：

In [12]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

如图所示，Average Rating列几乎为正态分布，μ值高达85以上。 Reddit上的Kroutoner解释了为什么会发生这种情况（并纠正了作者以前的错误）：

典型的葡萄酒评级是50-100，而不是0-100。所以看起来似乎只有一半分布，实际上是一个几乎完全的分布。此外，90分以上的葡萄酒一般被认为效果更好，销售也更好。这个事实改变了对数据的解释，也就是说大多数葡萄酒被评为好，只有一小部分被评为非常好。

为了进一步推进，来看一下tags 列。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

似乎每个标签列表可以给出有关葡萄酒的各种属性（品种，甜味等）的信息。接下来，作者将这些属性分开，将tags列元素从list 转换为set列表元素，因为这样会使操作更简单。也就是说，不是在一个if x in -else-try-except-IndexError中，我们将使用set操作。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

现在，做一些简单操作来提取关于甜度，温和性等信息，以下信息同样从希腊语翻译到了英语。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

以下是4个属性中每一个属性的直方图：

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

在这一点上，开发者可以（几乎）安全地假设所有剩下的标签显示每种葡萄酒的品种信息，所以定义一个新的列来存储它们。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

由于解析错误，列中出现了一些整数，我们将其过滤掉。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我们也可以添加一个布尔变量varietal。酒中的混合物只有一种的称为varietal，至少有两种混合物的称作blends。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

对于varietal葡萄酒，我们设定了一个single_variety - 对于其他非varietal的葡萄酒来说，这个数值将是NaN。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

让我们来看看Varietal / Blend的分布是怎样的。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

这是一些指示性的情节。

In [27]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

看起来Chardonnay是最流行的品种，而Vidal和Sangiovese是最昂贵的品种。评分最高的是Malvasia，但所有品种都非常接近。

把注意力转移到blends上，我们做了一些Numpy和Scikit-Learn来产生blends的矩阵。

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

上面的代码简单地从这里得到：

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

对此：

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

这些是blends中出现频率最高的品种。

In [30]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

这里是一个热图，显示哪些品种通常混合在一起。

In [31]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

In [32]:

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

我用Python爬了一个零售网站，分析了一千多种葡萄酒！

: xinhao

相关推荐

GAN网络通俗解释（图画版）

在本教程中，你将了解什么是生成敌对网络，并且在整个过程中不涉及负责的数学细节。之后，你还将学习如何编写一个可以创建数字的简单GAN！假设有一家商店它们从顾客那里购买某些种类的葡萄酒，用于以后再销售。在这种情况下，店主必须能够区分假酒和正品葡萄酒。这意味着店

CSDNyun 0喜欢 / 0评论 2019-06-27

机器学习：葡萄酒质量预测模型教程

本文介绍如何利用机器学习模型根据各种特征预测葡萄酒质量。从这里下载分析数据集。fixed acidity, volatile acidity, citric acid, residual sugar,首先通过导入所需的Python库并加载白葡萄酒和红葡萄酒

stevenkwong 0喜欢 / 0评论 2018-08-27

用Keras Functional API和TensorFlow预测葡萄酒的价格

我们能否从其描述和品种中预测一瓶葡萄酒的价格？这个问题非常适合广泛深入的学习，因为它涉及文本输入，葡萄酒的描述和价格之间没有明显的相关性。我们不能确定地说葡萄酒中描述的“fruity”一词更昂贵，或者“soft tannins”的葡萄酒更便宜。它酸甜而浓郁

zhongkeli 0喜欢 / 0评论 2018-04-24

酒知识-看完你会因此喜欢上葡萄酒

你喜欢喝葡萄酒吗，相信很多人都有自己在家里动手酿制过葡萄酒。那你知道葡萄酒具体有什么功效吗，今天黄老师给大家分享一下：。因此，经常饮用适量葡萄酒具有防衰老、益寿延年的效果。甜白葡萄酒含有山梨醇，有助消化，防止便秘。美国科学家最近了现，葡萄酒里含有一种可预防

知味 0喜欢 / 0评论 2018-01-09

红葡萄酒抗衰老? 怎么喝最健康?

红葡萄酒抗衰老?酒的种类有很多，葡萄酒是属于比较受欢迎的一种。最新的研究发现，红葡萄酒中含有一种叫做白藜芦醇的营养，这种物质在试验中能够抵抗衰老的作用。然而研究者表示，白藜芦醇存在在人体里面可能会出现不安全的情况，因此用葡萄酒抗衰老可能会让人失望。其实研究

雅趣 0喜欢 / 0评论 2018-01-07

亚马逊关闭旗下葡萄酒网站催生新型葡萄酒直销网站

腾讯科技讯在去年斥资 137 亿美元收购全食超市的交易完成之后，因业务重叠，亚马逊日前关闭了旗下的葡萄酒销售网站Woot.Wine，以及自有的亚马逊葡萄酒市场。Woot.com创办于 2004 年，是首批推出“一天团购一次”理念的网站之一，即每日销售一款

设计奇葩说 0喜欢 / 0评论 2018-01-03

知道你柜子里值几千块的白酒能放多久么？马上告诉你答案！

一般来说，啤酒的保质期为3个月，开了瓶子之后，当天就必须喝完；红酒和葡萄酒的保质期相对较长，一般的干红葡萄酒可以存放10年左右；而对于白酒则需要看厂家和白酒的酒精度，知名的酒厂生产的40度以上的白酒时间存放久一点也没有问题。如果小酒厂生产的白酒有的会添加香

女神进化论 0喜欢 / 0评论 2018-01-02

不得不知的葡萄酒知识: 不要在用这3点来购买葡萄酒了

很多酒友在买葡萄酒时都会有自己的一些小技巧或者方法，但有些并不一定就是正确的。小智在智诚和酒行就发现很多酒友会用到以下这几个误区来选择葡萄酒。木塞和螺旋盖的使用目的不同，木塞是为了让葡萄酒在瓶中能更好的缓慢熟化，而螺旋盖更多是为了保留葡萄酒的果香和出厂时的

政见CNPolitics拆掉知识的高墙 0喜欢 / 0评论 2017-12-20

在家自酿的葡萄酒能喝吗?

葡萄酒象征着浪漫，葡萄酒代表着健康。虽然葡萄酒起源于国外，但随着人们生活水平的提高，随着国人对葡萄酒认识的加深，如今在我们的身边它也成为了人们生活中如因随从的好伙伴。更值得高兴的是随着人们对葡萄酒越来越熟悉，如今我们不但学会了如何品鉴葡萄酒，而且还经常尝试

企鹅和猫 0喜欢 / 0评论 2017-12-07

软木塞的发展历史软木塞的制作过程

软木塞的发展历史，近年来，中国葡萄酒行业发展迅速，但对于被称为“葡萄酒生命卫士”的软木塞却很少有人去研究。今天中木商网小编就来扒一扒红酒软木塞的前世今生，让大家清晰的了解葡萄酒的背后的守护者。在很早很早以前，全球葡萄酒大多数都是按一桶一桶来卖。直至2016

试饮笔记 0喜欢 / 0评论 2017-12-07

1919变相加价出售稀缺茅台借热度强制搭售其他产品

利用茅台一货难求，国内最大酒类垂直电商1919强制搭售中高档葡萄酒产品，变相加价出售飞天茅台。事实上，今年以来，飞天茅台频繁出现断货现象，致使茅台在1919的整体销售中占比大幅度下降。业内人士认为，1919对飞天茅台实行强制搭售，或意图通过飞天茅台对其他产

BitTigerio 0喜欢 / 0评论 2017-12-04

没有中文的葡萄酒都是假进口葡萄酒的功效

红酒作为一种饮品是直接通过口腔进入身体的，如果红酒的质量有问题，那长期的饮用，就会对健康产生很大的伤害，所以，喝红酒一定要非常的谨慎，除了选择正规的进口红酒之外，还要注意喝红酒的方法，红酒虽好，也不能贪杯。红酒可以杀灭细菌和病毒，对于抗感冒也有一定的功效。

企鹅和猫 0喜欢 / 0评论 2017-12-02

1号店商家涉嫌出售假Penfolds：无防伪进口商疑背锅

奔富再次被推上了风口浪尖。近日，国内培训机构上海斯享文化传播有限公司在其公众号发文称，在1号店疑似买到假奔富，交涉维权无果，希望为消费者“多做一丝警醒”。对此，葡萄酒财经进行了调查。6月19日，上海斯享文化传播有限公司发文表示：6月3、4日，在WSET2级

W3C CSS 0喜欢 / 0评论 2017-06-21

关于红酒的讲究红酒与酒杯等相关说明

有人说，喝红酒，内心能滋生像琥珀一样诱人的光泽，在品酒的欢乐中，生活变得明亮而醇美。阳光灿烂的下午，约三两好友，开一瓶红酒，坐在一处能感受到光线的地方，或畅谈人生，或只是无意识的闲聊。品红酒作为一种时尚的生活方式，越来越受到都市白领的欢迎。在杭州，有这么一

BAT 批处理程序 0喜欢 / 0评论 2017-04-11

红葡萄酒的饮用方法与注意事项

通常情况下“白酒配海鲜，红酒配肉类”是用餐饮酒的规则；但只要不是十分严格而正式的场合，主人完全可以根据客人的喜好来选择酒款。大部分的红酒适合于在较低的室温下饮用。很多人并不管主菜是什么，仅仅因为个人喜好而一直选择红酒。而勃艮第所产的红酒，口味浓郁，一般不太

BAT 批处理程序 0喜欢 / 0评论 2017-04-11