2020年,四步突破数据科学


全文共2357字,预计学习时长7分钟

来源:Pexels

这没什么问题,但你很可能列出一张事无巨细、耗时费力、近乎难以实现的目标清单,让你应接不暇,而且很有可能失去动力,因为实在是有太多任务了

 

如果打算今年进入数据科学领域,这是个很棒的决定。该领域广受认可,而且好找工作,工资也不错,就连管理部门也慢慢意识到数据科学是不可或缺的。

 

不过在开始之前,请允许我说些打击的话(有必要说):用一年的时间去学数据科学的所有内容是不够的。

 

别误会,一年的时间足够你找到第一份工作,但不可能一步登天,从零成为数据科学团队的领头人(如果做到了,请在评论区分享你的故事)。

扫描二维码关注公众号,回复: 9076532 查看本文章

 

说了这么多,来探索必备技能以及满足你上手操作的技能。

 

1.数据库?

 

我们分析的数据很可能出自某个数据库,这是不同于书籍或课程的典型情况——不会获得格式正确的CSV文件。通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。

 

如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难度东西。在这种情况下,SQL的任务很大程度上依靠的是结合几组表格,在上面进行分析。

 

这个过程要花的时间取决于使用方式以及先验知识,但新手在这里花的时间不会超过一个月。


2.现在来谈谈数据科学 

 

来源:Pexels

如果按照上面的每一步来,还没有先验知识,此时可能是2020年的8月或9月。时间已经过去很多了,但你已经具备寻求第一份工作的所有先决条件。

 

不是所有都要刚刚好。

 

要找一份数据科学的工作,目前也只提了先决条件。后面这两个月,建议对一些基础的数据分析和可视化库有所了解,如:

 

l  Numpy

l  Pandas

l  Matplotlib

l  Scipy

l  Statsmodels

 

这是在你不懂的情况下(如果不知道为何需要这些知识的话学起来会感到无聊)。

 

不要走马观花式看课程,到网站上下载数据集然后完整地分析。再到网上看其他人对于同一数据集是如何处理的,看自己怎么改进。

 

同样,在这两个月时间内,应该熟悉一些机器学习的算法,如:

 

l  线性回归(Linear Regression)

l  逻辑回归(Logistic Regression)

l  分类与回归树(Classification and Regression Trees)

l  KNN(k-NearestNeighbor,K最近邻分类算法)

l  朴素贝叶斯分类(Naive Bayes)

l  SVM(Support Vector Machine,支持向量机)

 

也许实际操作中不会用到这些,但它们是日后学习更多高级算法XGBoost和神经网络(Neural networks)的基础。有了分析数据库,记得不要只顾着跟教程,而要自己完成高质量的任务。如果你喜欢,尝试用Numpy从零开始运用算法,不过并不强制大家。

 

3. 编程呢?

 

来源:Pexels

没错,数据科学离不开编程技能。如果找到一份工作,但不会写代码,你很可能知道自己该做什么却不知从何下手,也有可能会经历SOCPS(一种不知道怎么写代码就从Stack Overfow网站上复制粘贴的综合症),甚至不看问题和答案。

 

在网上搜索更好的解决方案是可以的,但应该知道怎么自己写出一套基本方案。

 

之前从没写过的话,可以从小入手,读读有关Python或R的书籍及其在数据科学中的角色,先有个全面的了解,再深入学习语法。不用担心要记所有的内容,能确保在遇到困难时该朝哪个方向看就行。

 

要是已经读过相关书籍或上过讲编程的课也了解语法,就是不知道怎么解决问题,那就花些时间学学算法和数据结构。同时看一些常规的编码问题采访,这些会让你“文思泉涌”。

 

对自己的编程技能很满意对吗?那可太棒了!现在腾点时间给分析库——Numpy和Pandas库。

 

每个人在编码上花的时间也不同。新手小白和仅需了解库的知识的人就不一样。可以说完全不懂的人3-4个月的时间足矣,如果是只需学习库的知识的人,大概1个月的时间就可以。

 

4.提高数学技能

 

你一定听说过数据科学首先要求优秀的数学能力。要了解的数学知识因工作岗位而异,至于入门需要掌握多少,笔者给出的回答是:没你想得多。

 

且听我一一叙述。初学者会试图掌握任何相关领域的知识,比如说计算、线性代数、概率计算或统计学,但必须见好就收。

 

可别误会了,倘若你有的是时间,那就成为上述领域的专家,否则就不要浪费时间。作为刚步入该领域的初级数据科学家,不仅要了解数学知识,更多是在直观层面。要知道特定的场合进行什么操作,这就是直觉发挥作用的时刻,但无需花太多时间着手解决复杂的数学问题。

 

只要悟性强,明白怎么编码,就足够了。找到工作后你将有大把的时间钻研数学,所以没必要提前学所有的东西。

 

如果没有高数基础,不建议花2-3个月的时间提升数学技能。

 

来源:Pexels

接下来呢?

 

2020年剩下几个月的时间里,创建个GitHub账户(a),放上最好的分析报告或机器学习算法,提供给潜在的雇主看。同时准备一份漂亮的简历和求职信。

 

倘若真的喜欢,发表一篇有关学习历程的博客。网上的呈现只会在职业发展中对你有帮助,前提是别发无用的信息,但我相信你的判断力。

 

就是这样了,赶紧给理想的公司投简历吧。


推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:孙梦琪、蔡思齐

相关链接:

https://towardsdatascience.com/4-steps-to-break-into-data-science-in-2020-4750418c726c

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

发布了768 篇原创文章 · 获赞 2447 · 访问量 38万+

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/104177641