【数据科学】针对数据科学初学者的免费资源

在本指南中,我们将分享65种免费的数据科学资源,我们已经为初学者精心挑选和注释。

要成为数据科学家,您将面临巨大的挑战。您需要掌握各种技能,从机器学习到业务分析。

但是,奖励是值得的。组织将奖励那些能够将原始数据转化为更明智的决策更好的产品更快乐的客户以及最终获得更多利润的炼金术士。此外,您将解决有趣的问题并掌握新的,有影响力的技术。

如果这听起来像你喜欢的职业,那么请将此页面加入书签并继续阅读,因为我们只为您编制了此列表。

提示:以下内容皆为全英文,请量力而行。

 

数据科学资源

  1. 基础技能
    • 编程和数据纠缠
    • 统计与概率
  2. 技术能力
    • 数据采集
    • SQL
    • 数据可视化
    • 应用机器学习
  3. 商业技能
    • 通讯
    • 创造力和创新
    • 运营与战略
    • 商业分析
  4. 补充技能
    • 自然语言处理
    • 推荐系统
    • 时间序列分析
  5. 实践
    • 项目
    • 比赛
    • 解决问题的难题

æ°æ®ç§å­¦é»ç³

注意:高级,适当位置或行业特定技能

某些角色可能需要其他技能,例如:

深度学习,大数据,优化,异常检测,图形和网络模型,定量金融,研究领导力,项目管理,产品设计,软件工程,空间数据分析等......

在本指南中,我们将仅涵盖整个行业最常需要的技能。

 

 

æ°æ®ç§å­¦åºéä¼

1.基础技能

基础技能构成了真正理解的基础,这反过来又可以让您发现新颖的解决方案,构建更准确的模型,并做出更好的决策。

1.1.编程和数据纠缠

首先,您需要至少了解一种脚本语言,以便与数据集,原型模型和执行分析进行纠缠。

我们强烈建议在Python或R之间进行选择,因为它们既是开源的(免费的),也是广泛采用的,并且受到活跃社区的支持。他们每个人都有自己的优势,但我们建议一开始只选一个。

  • Python在软件初创公司,大型科技公司和adTech中更为常见。Python往往更灵活,因为它是一种通用的编程语言。它对于深度学习和处理数据也更好。
  • R / RStudio在研究,财务和分析方面很受欢迎。R是一种统计编程语言,具有用于计量经济学,统计学和机器学习的成熟库。
  • 我们还为数据科学编写了一个更详细的Python与R的比较

如果你仍然处于困境,我们建议从Python开始,因为它的广度和灵活性(而且它更适合初学者)。

提示:下面的每个资源链接都会在新标签页中打开,因此您不会丢失您的位置。

Python资源:

R / RStudio资源:

1.2.统计与概率

强大的统计基础可帮助您充分了解机器学习,条件概率,A / B测试以及许多其他核心技能。它还可以帮助您“像数据科学家一样思考”,其中包括发现偏差,有效地迭代预测模型,以及了解如何从数据中提取洞察力。

此外,学习常见概率分布(特别是高斯,二项式,均匀,指数,泊松)对于实现许多实际应用至关重要,例如多臂强盗,市场购物篮分析和异常检测程序。

数据科学技术技能

2.技术技能

数据科学就是将原始数据转换为洞察力,预测,软件等。因此,您需要熟悉数据处理。

核心技术技能包括收集,清理,管理和可视化数据,以及应用机器学习的大棒。

2.1.数据采集

一切都取决于数据的质量和数量。正如化学家需要合适的化学品一样,您需要相关数据。

收集数据有4种常用方法:

  1. 内部数据。 这是贵公司通过其运营或与其他提供商合作收集的专有数据。这通常是最相关的数据。
  2. 在线搜索。需要一套标有800万个视频的视频吗?有一个网页...  说真的,你会惊讶于你能找到的东西。在线数据集允许您在投资专有数据之前进行原型设计。
  3. 蜜蜂。 API允许您以编程方式(并合法地)访问其他公司收集的数据集。您可以找到从Twitter提要到天气数据到财务数据的任何内容。
  4. 网页搜罗。Web爬行和抓取是一个必须负责任地使用的强大工具。它打开了一个全新的世界,但请务必尊重服务条款。

API资源:

网页搜寻资源:

2.2.SQL

SQL是数据库管理和查询的通用语言,您应该能够编写复杂的查询。

学习SQL还可以更好地理解关系数据(即“表格”格式的数据),这将提高您在任何语言中的数据分析技能。

2.3.数据可视化

数据可视化对于探索性分析和传达您的见解非常重要,没有此主题,任何数据科学资源列表都不会完整。

原始数据可能难以解释,因此您需要使用图表和图表来调查趋势和分布。

2.4.应用机器学习

机器学习是一个包含许多子任务的广泛术语。简而言之,它是关于教授计算机如何从数据中学习模式和模型。

对于某些人来说,机器学习是数据科学的同义词,但我们认为它是一个与数据科学重叠的独立领域。毫无疑问,机器学习是一个强大的工具集,它是这个列表中最狡猾的技能。

数据科学商业技能

3.商业技能

数据科学课程有时会忽略商业技能和软技能,但它们非常重要,雇主会关注它们。

数据科学永远不会在真空中进行。您需要预测业务需求,创造性地思考解决方案,并清楚地传达您的见解。

随着机器学习库的成熟和算法变得更容易“开箱即用”,企业将重视那些可以处理数据  与人合作的人。我们的数据科学资源列表的这一部分将帮助您脱颖而出。

3.1.通讯

如果一棵树落在森林里,但周围没有人听到它,它会发出声音吗?如果分析数据但没人能解释结果,那真的重要吗?

有效的沟通技巧是普遍的,但数据科学家在讨论高技术或数学主题时面临着额外的挑战。

在数据科学家访谈期间,您经常会被要求“向外行解释一个技术概念”或“描述您之前曾参与过的项目”。雇主将专门寻求清晰,简洁和组织。

  • 你见过的最好的统计数据(TED演讲)  - 这是一个标志性的TED演讲和有趣的数据故事展示。
  • 快速思考,智能谈话(视频)  - 这是斯坦福大学商学院关于如何克服焦虑和自发说话的研讨会。这不仅可以帮助您完成其余的职业生涯,而且还可以让您在面试中脱颖而出。
  • 改善沟通的7个技巧(视频)  - 关于如何有效沟通的简单实用技巧。
  • 如何赢得朋友和影响人(PDF)(免费有声读物版)  - 这是一本我们推荐给任何人,数据科学家与否的书。虽然一些措辞有点陈旧,但关于人际关系的教义是永恒的。
  • 练习向朋友教授技术概念 - 这将有助于您巩固对概念的理解,同时获得有价值的沟通实践。尝试解释一个有趣的机器学习算法,包括它的优点,缺点和正确的用例。
  • 练习描述您已完成的项目 - 这将帮助您练习将数据科学的许多活动部分组织成连贯的叙述。

3.2.创意与创新

聘请数据科学家来构建新产品,执行复杂分析,并发明有价值的数据使用方法。

事实上,他们很少两次解决同样的问题。即使您可以将相同的方法应用于相邻的数据集,您也需要对功能工程,补充数据和业务影响充满创意。

随着您获得更多经验,您自然会成为更好的创意思维者,但以下资源可以帮助您快速启动解决问题和创新技能。

3.3.业务运营和战略

这是一个你应该每天问自己的问题:“我有什么方法可以改善这项业务?”

在一天结束时,公司不会雇用您来分析数据......他们雇用您来帮助他们成长或变得更有利可图。这意味着您应该了解数据如何帮助您做出更好的决策并构建更好的产品。

3.4.商业分析

业务分析技能对于担任运营角色的数据科学家至关重要。由于编程语言的灵活性,Python和R将允许您执行比Excel更复杂的分析。

掌握了技术工具后,构建强大的领域知识将带来更大的业务影响。

数据科学补充技能

4.补充技能

补充技能取决于角色,更具有情境性,但它们可以帮助您成为一个全面的数据科学家。以下是NLP,推荐系统和时间序列分析的数据科学资源。

4.2.自然语言处理(NLP)

自然语言处理(NLP)或文本挖掘是一个令人兴奋的机器学习子领域,用于从文本中提取结构,语法和见解。

着名的应用包括情感分析,文章分类,甚至教授神经网络来编写莎士比亚

4.3.推荐系统

推荐系统或协作过滤器是数据科学的重大成功案例之一,尤其是在电子商务领域。

它们为许多令人惊叹的网站和应用提供支持,包括亚马逊,Yelp,Netflix和Spotify。简而言之,推荐系统会找到与您有相似品味的其他用户,为您提供更好的建议。通过改善用户体验,同时提高收入,这将产生巨大的双赢。

4.3.时间序列分析

时间序列分析处理按时间索引的数据系列。例如,按小时计算的股票价格,降水量和Twitter主题标签都将被视为时间序列。时间序列分析通常用于财务,预测和计量经济学。

虽然许多机器学习涉及“横截面数据”(数据不考虑时间差异),但也有专门设计用于处理时间序列的模型。

数据科学项目

5.练习

实践项目有两个主要目的:

  1. 它们可以帮助您巩固概念,并将所有动态的数据科学整合在一起。
  2. 他们用一些有形的东西给你带来雇主。 如果一张图片价值1000字,一个项目价值一百万......

从本质上讲,项目是个人事业,您应该选择您感兴趣的主题。以下是一些可以找到项目想法的地方:

原文链接:https://elitedatascience.com/data-science-resources

猜你喜欢

转载自blog.csdn.net/ChenVast/article/details/81205438