架构师之路 2019-03-07
大数据文摘出品
来源:Github
编译:陆震、张秋玥、蒋宝尚
直到今天,在各类媒体口中,数据科学家依然是“21世纪最性感的职业”。但事实上,希望进入这个行业的初级数据科学家已经供过于求。
可以预见的是,各种高校相关专业的毕业生,在完成coursera或者fast.ai的课程后,都希望得到一份跟“数据”相关的岗位。据统计,部分职位的供求比已经达到了1:200。
那么,如何能在这条独木桥上杀出重围、脱引而出呢?
金三银四求职季,江湖传言在三月份和四月份找工作和跳槽成功的概率最大。不同于程序员这样的纯技术工种,求职成为一名数据科学家似乎需要“上知天文,下知地理”。
毕竟,数据科学领域集成了多种不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。
今天文摘菌会给大家推荐一份数据科学面试资料,资料收集了来自顶级技术公司的访调员和数据科学家。从浅入深的囊括了沟通、数据分析、模型预测、编程、概率、产品指标等7个部分的共120个面试问题。
根据官方网站,这份资源由Max、Carl、Henry以及William四位合作编写,这四位好基友都有数学科学以及数据分析的背景,也非常互补,也因此让这份资料变得弥足珍贵。
这份资料,在官方网站上需要付19美元可以获取完整版(包括问题和答案)。
先放上资料官网,非常需要的读者请购买支持正版哦
https://www.datasciencequestions.com/
当然,如果你只是想了解这份资料的大概内容,或者测试一下自己是否掌握了数据科学家需要的知识,文摘菌在github上也找到了这份资料的缩略问题版,少部分概念以及定义性的问题有答案,对于开放性的问题,欢迎大家在留言区给出你的答案哦。
文摘菌精选了这份资料中的部分问题和答案,完整版戳下边链接自取。
github地址:
https://github.com/kojino/120-Data-Science-Interview-Questions
沟通
1.向我解释一个与你正在面试的角色相关的技术概念。
2.向我介绍你所热爱的事情。
3.你会如何向没有统计背景的工程师解释A/B测试,线性回归呢?
4.你会如何向没有统计背景的工程师解释置信区间以及95%的置信度的意思?
5.你会如何向一组高级管理人员解释为什么数据很重要?
数据分析
1.给定一个数据集,分析这个数据集并告诉我你可以从中了解到什。
2.什么是R2?可能比R2更好的指标有哪些,为什么?
答:拟合良好,是由该回归/总方差解释的那部分方差;你添加的预测变量越多,R^2越大;因而使用因自由度调整的R ^ 2;或着训练误差指标。
3.什么是维度灾难?
4.更多的数据就总是更好么?
5.分析数据之前绘制图表有什么好处?
模型预测(19个问题)
1.给定一个数据集,分析这个数据集并给出一个可以预测这个响应变量的模型。
2.如果测试数据的分布与训练数据的分布明显不同,可能会出现什么问题?
3.有什么方法可以让我的模型对异常值的鲁棒性更高?
4.与最小化误差绝对值的模型相比,在最小化误差平方的模型中,你认为有哪些差异?每个误差指标分别在哪种情况下合适?
5.你会什么误差指标来评估二分类器的好坏?如果类别不平衡怎么办?如果超过2组怎么办?
概率
1.阿米巴虫波波生0个、1个或2个小阿米巴虫的概率分别是25%、25%以及50%。这些小阿米巴虫们的繁殖能力也都一样。请问波波的后代灭绝的概率是多少?
2.任何15分钟时间段内,你看到至少一颗流星的概率是20%。请问在一小时内你看到至少一颗流星的概率是多少?
3.仅使用一枚色子,你如何生成一个1-7内随机数?
4.有一个数据集包含来自两个正态分布的数值。两个分布的标准差相同。来自两个分布的数据点个数相同。请问如果想要该数据集呈双峰分布,两个分布的均值应当至少差多少?
5.提供已知正态分布的样本值,请问你能如何模拟一个均匀分布的样本值?
6.一对夫妻告诉你他们有两个小孩,其中至少有一个是女孩。请问他们拥有两个女儿的概率是多少?
产品指标
1.对于一个广告驱动的消费者产品(比如Buzzfeed,YouTube,Google搜索等),什么可以称为好的成功衡量指标?服务驱动的消费者产品(比如优步,Flickr,Venmo等)呢?
2.对于一个效率工具(比如印象笔记,Asana,Google文档等),什么可以称为好的成功衡量指标?线上课程平台(比如edX,Coursera,Udacity等)呢?
3.对于一个电商产品(比如Etsy,Groupon,Birchbox等),什么可以称为好的成功衡量指标?订阅产品(比如Netflix,Birchbox,Hulu等)呢?高级付费订阅(比如OKCupid,领英,Spotify等)呢?
4.对于高度依赖于用户投入与交互的消费者产品(比如Snapchat,Pinterest,Facebook等),什么可以称为好的成功衡量指标?通讯产品(比如GroupMe,Hangouts,Snapchat等)呢?
5.对于拥有app内购服务的产品(比如Zynga,愤怒的小鸟以及许多其他游戏),什么可以称为好的成功衡量指标?
编程(14题)
1.编写一个函数,计算2n个用户所有可能分配向量,其中n个用户为控制组,n个用户为治疗组。
2.提供一个包含推特消息的列表,求十个最常用的的标签。
3.在给定时间内写出算法求解背包问题的最佳近似解。
4.在给定时间内写出算法求解旅行商问题的最佳近似解。
5.你将得到一个大小为n的数据集,但你无法提前知道n具体有多大。写出一个占据O(k)的算法来随机抽取k个元素。
统计推论(15题)
1.AB测试中你如何确认客户流分组完全随机?
2.AA测试(两组完全一致)的好处有什么?
3.在AB测试中,允许一组用户知道另一组是什么样子有什么危害?
4.如果某个博客报道了你的实验组会有什么影响呢?
5.你如何设计一个允许用户自行选择是否加入的AB测试。
最后,祝大家求职顺利~