优秀的数据科学家啊,你急需加强的技术技能有哪些?

全文共3387字,预计学习时长10分钟

图源:Unsplash

人在江湖,总的有个一技之长,方便生存。

对于数据科学家来说,他们似乎应该知道很多 - 机器学习,计算机科学,统计学,数学,数据可视化,通信和深度学习。但哪些才是数据科学家真正急需的技术和技能呢?

我阅读了许多工作列表和调查,以找到最常见的技能。

我之前曾调查了对统计学和信息技能的需求,还研究了对Python 和R技术的需求。

软件技术变化必须快于一般技能的需求,因此本文的分析只涉及技术部分。

我搜索了SimplyHired、Indeed、Monster和 LinkedIn,试图发现哪些关键字会和“数据科学家”一起出现在工作列表中。

这次我决定编写代码来搜索职位列表,而不是手动搜索。这次努力确实对SimplyHired和Monster颇有成效,我能够使用 Requests 和 Beautiful Soup Python库。

经过证明,搜索LinkedIn更加艰难。必须先进行身份验证,才得以查看职位列表的准确计数。我决定使用Selenium进行没有头绪的浏览。2019年9月,美国最高法院对一起涉及LinkedIn的案件作出了裁决,允许删除LinkedIn上的数据。但是,经过几次搜索尝试后,我仍无法访问账户。出现这个问题可能是因为速率限制。我现在想继续访问,但是担心再试一次账户就会被锁定。

就其价值而言,Microsoft收购了LinkedIn,Randstad Holding收购了Monster,而Recruit Holdings收购Indeed和 SimplyHired。

无论如何,从去年到今年,LinkedIn的数据未必能提供同类比较。我注意到今年夏天以来的每一周,LinkedIn对于一些技术工作搜索词的起伏波动很大。我猜想他们可能通过自然语言处理评估意图,对搜索结果算法进行试验。

对于每个求职网站,我计算了含有关键词的数据科学家职位列表总数出现在其网站的百分比。然后算出三个网站中每个关键字的平均百分比。

我手动调查了新的搜索术语,并且提取了那些看起来有潜力的术语。2019年,新术语没有达到列表的5%,这是我在以下结果中使用的临界值。

一起来看看结果!

结果

至少有四种方式来查看每个关键字的结果:

1. 每年每个工作站点将带有关键字的列表数量除以含有数据科学家的搜索术语总数。然后取三个站点的平均值。这是上述过程。

2. 完成上述第一项后,计算2018年至2019年列表的平均百分比变化。

3. 完成上述第一项后,计算2018年至2019年列表的平均百分比的变化率。

4. 完成上述第一项后,计算该年每个关键字相对于其他关键字的排名。然后计算每年的排名变化。

一起来看条形图的前三个选项,然后展示一个带有数据的表格,并讨论结果。

以下是上述第一项2019年图表,显示出Python占列表总数约75%。

以下是上述第二项的图表,显示2018年和2019年间列表的平均百分比的增加与减少。AWS增长了5%,在2019年列表中的平均值为19.4%,在2018年列表中的平均值为14.6%。

以下是上述第三项的图表,显示了每年的百分比变化。相比2018年列表的平均百分比,PyTorch增加了108.1%。

图表都是由 Plotly制作而成。

以下是上面图表的信息,仅以表格格式呈现,按2018年至2019年平均列表数百分比的变化率排序。

我想这些不同的衡量标准会让人摸不着头脑,因此以下是对上述图表的指南。

• “2018 Avg”是指从2018年10月10日起SimplyHired、Indeed和Monster职位列表的平均百分比。

• 除了2019年12月4日,2019 Avg都和2018 Avg相同。该数据显示于上述三个图表中的第一个。

• “Changesin Avg”是指2019栏数据减去2018栏数据,显示在第二个表格中。

• “%Change”是指2018年至2019年的变化百分比,显示在第三个图表中。

• “2018Rank”是指2018年相对于其他关键字的排名。

• “2019Rank”是指2019年相对于其他关键字的排名。

• “RankChange”是指2019年至2018年排名的升降。

结论

还不到14个月,就发生了一些相当大的变化。

胜利者

Python仍然位于前列,是目前最频繁出现的关键字。将近四分之三的比率。自2018年起,Python有了不错的增长。

SQL是上升的,几乎快超过了R,获得第二高的平均分数。若趋势继续下去,很快将位居第二。

最出色的深度学习框架越来越受欢迎。PyTorch在所有关键字中的增幅最大。Keras和TensorFlow 也有很大的收益。Keras 和PyTorch的排名都上升了4个名次,TensorFlow上升了三个名次。要注意,PyTorch初始平均值较低—但TensorFlow的平均值仍然比PyTorch高出2倍。

数据科学家对云平台技能的需求越来越大。AWS出现在将近20%的列表中,Azure出现在约10%的列表中。Azure的排名跃升了4位。

下面是正在快速发展的技术!

失败者

R的总体平均下降幅度最大。鉴于其他调查的结果,这一发现不足为奇。Python很明显已经取代R,成为数据科学的首选语言。尽管如此,R还是很受欢迎,出现于约55%的列表中。如果已经了解R,不要失望,但如果想要获得需求更高的技能,也要考虑学习Python。

许多Apache产品的欢迎度下降,包括Pig、Hive、Hadoop和Spark。Pig的排名下降了5位,比其他任何技术的下降幅度都大。Spark 和Hadoop仍是人们普遍渴望的技能,但我的发现表明人们有远离它们而转向其他大数据技术的趋势。

专用的统计软件包MATLAB 和SAS急剧下降。MATLAB的排名下降了四位,SAS从排名第六降至第八名。相比2018年的平均百分比,这两种语言都有所下降。

建议

此列表上有许多技术。当然,不需要全部了解。神秘的数据科学家被成为独角兽是有原因的。

图源:Unsplash

如果刚刚进入数据科学领域,建议你专注于学习需求旺盛的技术。一次专注于学习一种技术。

下面是我推荐的学习途径:

• 学习用于普通编程的Python。可以看看书籍《Memorable Python》,学习一些基础知识。

• 学习用于数据操作的pandas。我认为一个机构使用Python担任数据科学家角色,会希望申请者了解pandas和Scikit-learn库。Scikit-learn出现在列表中,而pandas刚好不在列表中。在学习pandas的同时,也可以使用Matplotlib 和NumPy学习可视化。

• 使用Scikit-learn库进行机器学习。推荐看Müller & Guido撰写的《Python机器学习简介》一书。

• 学习SQL,用于有效查询相关的数据库。

• 学习Tableau用于可视化。这可能是在列表上学习起来最有趣也是最快的技术。

• 适应云平台。由于其市场份额,AWS是个不错的选择。Microsoft Azure是不错的第二选择。我倾向于不那么受欢迎的谷歌云端,因为我喜欢它的用户体验和机器学习重点。

• 学习深度学习框架。TensorFlow的需求最高。Chollet的《Python深度学习》一书是学习Keras和深度学习原理的好资源。当前Keras与TensorFlow联系密切,因此是不错的起点。PyTorch也在迅速发展。

这是我平常的学习途径建议。可选取适合需要的建议,或者直接忽略它,根据你的想法来!

总结

希望此篇有关数据科学家急需的技术的指导对你有所帮助。如果确实如此,请将它分享到你最喜爱的社交媒体上,以便其他人也能发现。

分享是一种幸福,希望大家学习愉快!

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

发布了691 篇原创文章 · 获赞 2327 · 访问量 29万+

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/103828753