zhaorui0 2019-02-08
点击上方关注,All in AI中国
作者——Matthew Mayo
假期你想怎么过?是每天在家吃喝玩乐还是出去旅游。你是不是都已经写好了旅游规划或者吃喝指南?相信我,作为一名程序员,假期最好的选择就是多看多读书。
在这里我向你推荐十本必读的机器学习和数据科学领域的免费书目,希望它们能让你在假期过的更加充实,帮助你做好明年的生涯规划。如果你想继续拓展自己的业务能力,这是我的另一个书单,希望能对你有用,链接:https://www.kdnuggets.com/2017/04/10-free-must-read-books-machine-learning-data-science.html。
1. 《Python Data Science Handbook》
作者:Jake VanderPlas
链接:https://github.com/jakevdp/PythonDataScienceHandbook
本书介绍了在Python中处理数据所必需的核心库:特别是IPython、NumPy、Panda、Matplotlib、Scikit-Learn和相关包。当然,如果你不熟悉Python,或者说你需要对这种语言进行快速的回顾。你可以通过阅读与它相配套的另一本书目《A Whirlwind Tour of Python》(https://github.com/jakevdp/WhirlwindTourOfPython),让你快速上手。
2.《Neural Networks and Deep Learning》
作者:Michael Nielsen
链接:http://neuralnetworksanddeeplearning.com/
《Neural Networks and Deep Learning》是一本免费的在线书籍。这本书会告诉你:
1.神经网络,一个堪称"美丽"的编程范例,它使计算机能够"观察"数据,进行学习。
2.深度学习,一套强大的神经网络学习技术。
神经网络和深度学习目前为图像识别、语音识别和自然语言处理中的许多问题提供了最好的解决方案。这本书将教你许多神经网络和深度学习背后的核心概念。
3.《Think Bayes》
作者:Allen B. Downey
链接:http://greenteapress.com/wp/think-bayes/
《Think Bayes》是一个介绍贝叶斯统计,并讲解相关计算的方法的书。
这本书和Think X系列(作者的系列丛书)的其他书的前提是一样的,就是你必须对你想要探索的东西有一定的概念和了解。换句话说,这个系列并不太适合新手入门使用。
大多数关于贝叶斯统计的书都使用数学符号,并用微积分等数学概念来表达思想。本书用Python代码代替数学。结果,数学书上的积分变成了求和,概率分布上的大多数运算都是简单的循环。这些举措让本书变得更加容易理解。
4.《Machine Learning & Big Data》
作者:Kareem Alkaseer
链接:http://www.kareemalkaseer.com/books/ml
机器学习和大数据已经成为的众多研究人员的核心研究方向,我会在时间允许的情况下尽可能做出补充。这本书背后的目的是在理论和实现之间取得平衡,以便软件工程师在不太依赖库的情况下轻松地实现机器学习模型。
大多数情况下,模型或技术背后的概念是简单的或直觉性的。这样做,无疑会在细节或术语方面有所丢失。而且,大多数情况下,现有的库可以解决手边的问题,但是有很多人认为它们是不值得信任的,并且它们通常有自己的抽象和架构来隐藏底层的概念。这本书的目的是要把基本概念讲清楚。
5.《Statistical Learning with Sparsity: The Lasso and Generalizations》
作者:Trevor Hastie, Robert Tibshirani, Martin Wainwright
链接:https://web.stanford.edu/~hastie/StatLearnSparsity/
在过去的十年里,计算和信息技术有了爆炸性的发展。它带来了医学、生物学、金融和市场营销等各个领域的大量数据。这本书在一个共同的概念框架中阐述了这些领域的重要思想。
6.《Statistical inference for data science》
作者:Brian Caffo
链接:https://leanpub.com/LittleInferenceBook
这本书是作为数据科学专业的一部分,作为《Statistical Inference》课程的配套书籍(https://www.coursera.org/course/statinference)。需要补充的是,如果你不上这门课,你阅读这本书也不会产生太大的障碍。另外,本书还配有相关YouTube视频,你可以在网上学习它们。
这本书旨在以较低的成本介绍相关领域的重要内容和概念。目标受众应具有一定的数字和计算能力,他们希望将这些技能应用于数据科学或统计学中来。该书在github上以系列文档的形式免费提供,拓展了读者的阅读渠道。
7.《Convex Optimization》
作者:Stephen Boyd 和Lieven Vandenberghe
链接:http://stanford.edu/~boyd/cvxbook/
这本书是关于凸优化,一类特殊的数学优化问题,其中包括最小二乘和线性规划问题。众所周知,最小二乘和线性规划问题有一个相当完整的理论,在各种应用中出现,可以非常有效地用数值方法解决。这本书的基本观点是,对于更大的一类凸优化问题这套方法也是适用的。
8.《Natural Language Processing with Python 》
作者:Steven Bird、Ewan Klein、Edward Loper
链接:https://www.nltk.org/book/
这是一本关于自然语言处理的书。所谓"自然语言",是指人类日常交流中使用的语言;语言如英语、印地语或葡萄牙语。与人工语言(如编程语言和数学符号)不同,自然语言是随着一代又一代的传承而演化的,很难用明确的规则来确定。我们将以自然语言处理(简称NLP)为例,从广义上讲述自然语言的一系列计算机操作。
这本书是基于Python编程语言和一个名为自然语言工具包(NLTK)的开源库编写的。
9.《Automate the Boring Stuff with Python》
作者:Al Sweigart
链接:https://automatetheboringstuff.com/
如果你曾经花费数小时重命名文件或更新数百个电子表格单元格,你就会知道这样的任务有多么乏味。那你有没有考虑过,让你的电脑帮你做呢?
在本书中,你将学习如何使用Python编写在几分钟内就能完成手工需要花费数小时才能完成的工作,而且这并不需要有相关编程经验。一旦你掌握了编程的基础知识,你将创建Python程序,这些程序可以轻松地让你减少工作量。
10.《Social Media Mining: An Introduction》
作者:Reza Zafarani, Mohammad Ali Abbasi 和Huan Liu
链接:http://dmml.asu.edu/smm/
过去10年,社交媒体的发展彻底改变了个人互动和行业经营的方式。个人通过社交媒体互动、分享和消费内容,以前所未有的速度产生数据。理解和处理这种新类型的数据,进行收集、形成可操作的模式为跨学科研究、新算法和工具开发带来了挑战和机遇。《Social Media Mining》挖掘整合了相关数据,为小白、从业者、研究人员和项目经理提供了一个平台,让他们大展才能。