本文使用R,Flexdashboard和Highcharter库进可视化,用于分析Kaggle在最近进行的用户调查。数据来源主要是Kaggle在2019年10月进行的一项用户调查的结果。一共19,717份问卷,这是kaggle进行的最大规模的调查之一。
该调查链接:https://www.kaggle.com/c/kaggle-survey-2019。
这篇文章的分析主要分为三个不同部分--基本数据展示,探索kaggle中男女生的差异和 Rvs Python在kaggle的应用差异。下面进行一一展示:
一、基本数据展示
1.在大约19,000名受访者中,大多数是男性。
2.大多数受访者都拥有硕士学位。
3.25-29岁是受访者中最常见的年龄组,也就是大部分用户都在25-29岁。
4.最多的受访者来自印度,其次是美国。
5.在职业方面,数据科学家和软件工程师是最常见的职业。
二、探索kaggle中男女生的差异
1.人口,教育,职称和薪资
结论-
- 接受这项调查的人中有近50%拥有硕士学位。
- 47%的女性受访者拥有硕士学位,而男性为43%。
- 数据科学和软件工程师是两个最受欢迎的称呼。接受受访者的学生人数几乎等于数据科学家的人数。
- 24%的学生为女性,而男性为20%。
- 与男性相比,身份为学生,统计学家,产品/计划经理,数据分析师和研究科学家的女性人数更多。
- 与女性相比,男性更多的是数据科学家,SWE,DBA / DB工程师和数据工程师。
- 女性失业率为6.87%,男性为4.46%。
2.工作中的机器学习
- 大多数受访者正在探索ML模型,并可能在工作一天内将模型投入生产。紧随其后的是过去两年中将模型投入生产的人数。
- 与男性(18%)相比,更多的女性(20.22%)在工作中不使用ML。
- 在采用成熟的ML方法的团队中,男性的比例更高(19.69%),而女性(16.5%)更低。
- 绝大多数受访者在1-2或20+以上规模的数据科学团队中工作。大部分都是小型探索团队或成熟团队。
- 与男性(23.08%)相比,在20岁以上的团队中有更多的女性(24.48%)。
- 在1-2人大小的团队中,男性比例更高(22.47%),而女性比例(19.44%)更低。
3.数据科学中使用的工具和技术
结论-
- MySQL和PostgresSQL是最常用的RDBMS产品。
- 与男性(22.28%)相比,使用MySQL的女性更多(23.51%)。与女性(13.42%)相比,使用PostgresSQL的男性人数更多(15.73%)。
- 迄今为止,Scikit-learn是最受欢迎的ML框架,将近50%的受访者使用了它。Keras的受欢迎程度紧随其后。
- 与男性(22.98%)相比,在Python中使用scikit学习的女性更多(25.32%)。与男性(2.72%)相比,有更多女性(3.52%)使用Caret(R语言中的ML库)。
- 相比于女性,更多男性使用PyTorch,Tensorflow和Keras等深度学习框架。
- Matplotlib和Seaborn是最受欢迎的数据可视化库。紧随其后的是ggplot2库。
- 使用matplotlib库的女性人数(31.47%)低于男性(34.11%)。与男性(12.71%)相比,使用ggplot2库的女性更多(17.41%)。
- Jupyter是50%以上的受访者使用的最受欢迎的编辑器。VScode和RStudio紧随其后。
- Kaggle Kernels和Google Colab是最受欢迎的在线编辑器。
4.ML(NLP和计算机视觉)中使用的算法
结论-
- 词嵌入是最流行的NLP技术,随后是seq2seq模型。
- 自动化模型选择是紧随数据增强技术之后最流行的工具。
- 图像分类是最常用的计算机视觉方法。
5.编码经验和建议
结论-
- 接近50%的受访者有0至2年编写代码来分析数据的经历。
- 在编写用于分析数据的代码方面,拥有不到一年经验的女性(28.88%)比男性(23.79%)多。与女性相比,更多的男性具有大于 1年的编写代码经验。
- Python是最流行的编程语言,然后是SQL和R。
- 与Python相比,更多的统计学家使用R。
- 相比女性(73.38%),更多的男性(79.8%)推荐使用Python。与男性(8.94%)相比,更多的女性(11.4%)推荐使用R。
6.数据科学媒体和课程平台
结论-
- Kaggle是最受欢迎的数据科学媒体资源,其次是诸如Towards Data Science之类的博客。
- 与男性相比,更多的女性在Kaggle和Blogs中进行消费。
- Coursera,Kaggle,Udemy和University是通过课程学习数据科学的最受欢迎资源。
- 通过大学课程学习的女性人数(13.55%)比男性(10.77%)多。
三、R与Python
1.哪些是最流行的编程语言?
结论-
- Python是紧随SQL和R之后最流行的编程语言。
- 与使用R相比,更多的人只使用Python。
2.在哪里使用R / Python?
结论-
- 美国和印度是使用R和Python最多的国家。
- 美国有更多R用户,而印度有更多Python用户。
3.谁在使用R和Python?
结论-
- 25-29岁年龄段的人使用R / Python最多。
- 与其他名称相比,数据科学家最多使用R和Python。软件工程师比R用户更多地使用Python。
- Python用户在所有薪水范围内始终获得更多薪水。
- 与Python相比,更多的统计学家使用R。
- 拥有1-2年编码经验的人更多使用Python,而拥有3-5年编码经验的人更多使用R。
- 与所有其他教育学位相比,拥有硕士学位的人更多地使用Python和R。
4.ML中使用的算法(NLP,AutoML和计算机视觉)
结论-
- 深度学习算法主要由Python用户使用。
- 在NLP和计算机视觉领域完成的大部分工作都在Python中完成。