Mrright00 2012-06-04
一次偶然翻看《程序员》杂志,在2012年第四期《新书上架》栏目里看到一本刚刚出版的书——《社交网站的数据挖掘与分析》。这是一本开创时代的的新书,获得Jolt生产效率大奖。这本书主要介绍在Twitter、Facebook、Linkin、Google Buzz、博客、邮箱的海量数据中进行数据挖掘和分析。
不管你是否喜欢,也不管你是否已经接受,社交网络将深刻改变我们这个世界,同时也在改变着整个互联网产业。作为IT从业者,我们需要关注社交网站。国内也有不少社交网站,比如新浪微博、腾讯微博、人人网。从技术角度看,它们其实是非常类似的。21世纪进入第二个十年之后,我们迎来了大数据时代。各种海量数据存在于我们的生活和工作中。这些海量数据是一个个资源库,通过挖掘和分析可以发现许多有价值的信息。
本博主将在这里开辟一个专栏,分享学习这本书的经验。这本书通篇使用python语言编写数据分析程序。在看这本书之前,我没有接触过python。为了学习这本书,花了一个星期学会了python语言。发现python真是个好东西,也难怪python在过去十年一直在世界编程语言的前十位。python很简单,很易学,它是一种支持面向对象编程的解释型语言。推荐一本好书——《Python基础教程》。这本书近500页,只要看完前250页,就能看懂几乎所有Python程序。如果要精通,那么还需要一定量的编程实践。
OK,让我们开始充满乐趣和神奇的社交网络数据分析之旅吧。在学习之前,需要做些准备工作,除了这本薄薄的但内容极为丰富的300页的《社交网站的数据挖掘与分析》,还需要具备一定的python语言基础(花一两天时间即可学会python语言的大概),另外为了直接访问Twitter和Facebook网站,调用这些网站提供的API接口,需要VPN等类似软件。有很多免费的VPN软件,也有付费的,每月大概30元,速度快而且稳定。
不要觉得这些准备工作繁琐,当你学会其中一些技术时,你会明白这些都是值得的。而且这些技术具有非常大的潜力和应用价值。社交网络和大数据是互联网行业乃至整个信息产业的发展方向和趋势。书中介绍的大多数技术可以应用在国内社交网站的数据挖掘和分析中。国内的社交网站,甚至像淘宝这样的电子商务网站,都提供了丰富的API接口,供个人开发者、创业公司开发应用。以前我们通常是调用Windows或者Linux的API接口开发应用程序,现在我们是调用各个大网站提供的API来开发应用。It is very cool and intersting!