可视化分析最新Kaggle活跃用户调查报告

Python技术博文 2020-01-04

本文使用R,Flexdashboard和Highcharter库进可视化,用于分析Kaggle在最近进行的用户调查。数据来源主要是Kaggle在2019年10月进行的一项用户调查的结果。一共19,717份问卷,这是kaggle进行的最大规模的调查之一。

该调查链接:https://www.kaggle.com/c/kaggle-survey-2019。

这篇文章的分析主要分为三个不同部分--基本数据展示,探索kaggle中男女生的差异和 Rvs Python在kaggle的应用差异。下面进行一一展示:


一、基本数据展示

1.在大约19,000名受访者中,大多数是男性。

可视化分析最新Kaggle活跃用户调查报告



2.大多数受访者都拥有硕士学位。

可视化分析最新Kaggle活跃用户调查报告



3.25-29岁是受访者中最常见的年龄组,也就是大部分用户都在25-29岁。

可视化分析最新Kaggle活跃用户调查报告



4.最多的受访者来自印度,其次是美国。

可视化分析最新Kaggle活跃用户调查报告



5.在职业方面,数据科学家和软件工程师是最常见的职业。

可视化分析最新Kaggle活跃用户调查报告

二、探索kaggle中男女生的差异

1.人口,教育,职称和薪资

可视化分析最新Kaggle活跃用户调查报告

结论-

  • 接受这项调查的人中有近50%拥有硕士学位。
  • 47%的女性受访者拥有硕士学位,而男性为43%。
  • 数据科学和软件工程师是两个最受欢迎的称呼。接受受访者的学生人数几乎等于数据科学家的人数。
  • 24%的学生为女性,而男性为20%。
  • 与男性相比,身份为学生,统计学家,产品/计划经理,数据分析师和研究科学家的女性人数更多。
  • 与女性相比,男性更多的是数据科学家,SWE,DBA / DB工程师和数据工程师。
  • 女性失业率为6.87%,男性为4.46%。

2.工作中的机器学习

可视化分析最新Kaggle活跃用户调查报告

  • 大多数受访者正在探索ML模型,并可能在工作一天内将模型投入生产。紧随其后的是过去两年中将模型投入生产的人数。
  • 与男性(18%)相比,更多的女性(20.22%)在工作中不使用ML。
  • 在采用成熟的ML方法的团队中,男性的比例更高(19.69%),而女性(16.5%)更低。
  • 绝大多数受访者在1-2或20+以上规模的数据科学团队中工作。大部分都是小型探索团队或成熟团队。
  • 与男性(23.08%)相比,在20岁以上的团队中有更多的女性(24.48%)。
  • 在1-2人大小的团队中,男性比例更高(22.47%),而女性比例(19.44%)更低。

3.数据科学中使用的工具和技术

可视化分析最新Kaggle活跃用户调查报告

结论-

  • MySQL和PostgresSQL是最常用的RDBMS产品。
  • 与男性(22.28%)相比,使用MySQL的女性更多(23.51%)。与女性(13.42%)相比,使用PostgresSQL的男性人数更多(15.73%)。
  • 迄今为止,Scikit-learn是最受欢迎的ML框架,将近50%的受访者使用了它。Keras的受欢迎程度紧随其后。
  • 与男性(22.98%)相比,在Python中使用scikit学习的女性更多(25.32%)。与男性(2.72%)相比,有更多女性(3.52%)使用Caret(R语言中的ML库)。
  • 相比于女性,更多男性使用PyTorch,Tensorflow和Keras等深度学习框架。
  • Matplotlib和Seaborn是最受欢迎的数据可视化库。紧随其后的是ggplot2库。
  • 使用matplotlib库的女性人数(31.47%)低于男性(34.11%)。与男性(12.71%)相比,使用ggplot2库的女性更多(17.41%)。
  • Jupyter是50%以上的受访者使用的最受欢迎的编辑器。VScode和RStudio紧随其后。
  • Kaggle Kernels和Google Colab是最受欢迎的在线编辑器。

4.ML(NLP和计算机视觉)中使用的算法

可视化分析最新Kaggle活跃用户调查报告

结论-

  • 词嵌入是最流行的NLP技术,随后是seq2seq模型。
  • 自动化模型选择是紧随数据增强技术之后最流行的工具。
  • 图像分类是最常用的计算机视觉方法。

5.编码经验和建议

可视化分析最新Kaggle活跃用户调查报告

结论-

  • 接近50%的受访者有0至2年编写代码来分析数据的经历。
  • 在编写用于分析数据的代码方面,拥有不到一年经验的女性(28.88%)比男性(23.79%)多。与女性相比,更多的男性具有大于 1年的编写代码经验。
  • Python是最流行的编程语言,然后是SQL和R。
  • 与Python相比,更多的统计学家使用R。
  • 相比女性(73.38%),更多的男性(79.8%)推荐使用Python。与男性(8.94%)相比,更多的女性(11.4%)推荐使用R。

6.数据科学媒体和课程平台

可视化分析最新Kaggle活跃用户调查报告

结论-

  • Kaggle是最受欢迎的数据科学媒体资源,其次是诸如Towards Data Science之类的博客。
  • 与男性相比,更多的女性在Kaggle和Blogs中进行消费。
  • Coursera,Kaggle,Udemy和University是通过课程学习数据科学的最受欢迎资源。
  • 通过大学课程学习的女性人数(13.55%)比男性(10.77%)多。


三、R与Python

1.哪些是最流行的编程语言?

可视化分析最新Kaggle活跃用户调查报告

结论-

  • Python是紧随SQL和R之后最流行的编程语言。
  • 与使用R相比,更多的人只使用Python。

2.在哪里使用R / Python?

可视化分析最新Kaggle活跃用户调查报告

结论-

  • 美国和印度是使用R和Python最多的国家。
  • 美国有更多R用户,而印度有更多Python用户。

3.谁在使用R和Python?

可视化分析最新Kaggle活跃用户调查报告

结论-

  • 25-29岁年龄段的人使用R / Python最多。
  • 与其他名称相比,数据科学家最多使用R和Python。软件工程师比R用户更多地使用Python。
  • Python用户在所有薪水范围内始终获得更多薪水。
  • 与Python相比,更多的统计学家使用R。
  • 拥有1-2年编码经验的人更多使用Python,而拥有3-5年编码经验的人更多使用R。
  • 与所有其他教育学位相比,拥有硕士学位的人更多地使用Python和R。

4.ML中使用的算法(NLP,AutoML和计算机视觉)

可视化分析最新Kaggle活跃用户调查报告

结论-

  • 深度学习算法主要由Python用户使用。
  • 在NLP和计算机视觉领域完成的大部分工作都在Python中完成。

相关推荐