【数据科学】数据科学家犯下的13个常见错误以及如何避免这些错误

介绍

所以你已经决定数据科学是适合你的领域。越来越多的企业正在变得数据化,世界变得越来越紧密,看起来每个企业都需要数据科学实践。因此,对数据科学家的需求是巨大的。更好的是,每个人都承认行业人才短缺。

然而,成为一名数据科学家并不容易。它需要解决问题,结构化思维,编码和各种技术技能,才能真正成功。如果您来自非技术和非数学背景,那么您很有可能通过书籍和视频课程来学习。大多数这些资源并没有教你数据科学家正在寻找什么行业。

这是有抱负的数据科学家努力弥合自我教育与现实世界工作之间差距的原因之一。

在本文中,我将讨论业余数据科学家所犯的重大错误(我自己制作了一些错误)。我还提供了适用的资源,旨在帮助您避免数据科学之旅中的这些陷阱。

 

目录

  1. 学习理论概念而不应用它们
  2. 在不学习先决条件的情况下直接进行机器学习技术
  3. 仅依靠认证和学位
  4. 假设您在ML竞赛中看到的是真实生活中的工作
  5. 关注模型准确性与适用性和领域的可解释性
  6. 在简历中使用过多的数据科学术语
  7. 提供工具和库优先于业务问题
  8. 花费足够的时间探索和可视化数据(好奇心)
  9. 没有结构化的方法来解决问题
  10. 试图一次学习多个工具
  11. 不是以一致的方式学习
  12. 远离讨论和竞争
  13. 不参与沟通技巧

 

1.不应用它们学习理论概念

资料来源:认知班 - YouTube

正如我在关于AV实践问题的文章中提到的那样 - 掌握机器学习技术背后的理论是很好的。但如果你不应用它们,它们只是理论概念。当我开始学习数据科学时,我犯了同样的错误 - 我学习了书籍和在线课程,但并不总是用它们来解决问题。

因此,当我面临挑战或问题时,我有机会应用我学到的所有东西,我记不起它的一半了!有很多东西需要学习 - 算法,推导,研究论文等。你很有可能在中途失去你的动力并放弃。我个人已经看到这种情况发生在很多试图进入这个领域的人身上。

 

如何避免这个错误?

你的学习过程必须在理论和实践之间保持健康的平衡。一旦您学习了一个概念,请立即访问Google,找到可以使用它的数据集或问题。你会发现你比以​​前更好地保留了这种概念。您还可以使用AV的DataHack平台参与练习题和持续比赛。

你将不得不接受你不能一次学习所有东西。在练习时填补空白,您将学到更多东西!

 

2.在不学习先决条件的情况下直接进行机器学习技术

资料来源:伦敦帝国理工学院 - YouTube

想要成为数据科学家的大多数人都受到机器人视频或令人敬畏的预测模型的启发,在某些情况下甚至是高工资。可悲的是(抱歉令人失望!),在你到达那里之前,你需要一条漫长的道路。

在应用问题之前,您应该了解技术的工作原理。学习这将有助于您了解算法如何工作,您可以做些什么来微调它,并且还将帮助您在现有技术的基础上进行构建。数学在这里发挥着重要作用,因此了解某些概念总是有帮助的。在日常的企业数据科学家角色中,您可能不需要了解高级微积分,但具有高级概述肯定有帮助。

如果您有好奇心,或想要进入研究角色,那么在深入了解核心机器学习之前,您需要了解的四个关键组件是:

  • 线性代数
  • 结石
  • 统计
  • 可能性

 

如何避免这个错误?

正如房子是一砖一瓦建造的,数据科学家也是所有单个部件的总和。有大量的资源可以帮助您学习这些主题。我已经提到了下面每个主题的一个资源,可以帮助您入门:

您还可以查看Analytics Vidhya的“ 数据科学入门 ”课程,其中包括有关统计和概率的综合模块。

 

3.完全依赖认证和学位

资料来源:CIO.com

啊,招聘经理和招聘人员的烦恼。自从数据科学变得非常受欢迎以来,各地的认证和学位几乎都出现了。浏览我的LinkedIn资料,可以自动显示至少5张认证图片。虽然实现该认证并非易事,但完全依赖它是一种灾难。

这些在线课程中有太多被数千名有抱负的数据科学家所倾倒和完成。如果他们为您的数据科学简历添加了一个独特的价值,那就不再是这样了。招聘经理对这些论文并不在意 - 他们更加重视你的知识,以及你如何在现实生活中应用它。

这是因为与客户打交道,处理截止日期,了解数据科学项目生命周期如何工作,如何设计模型以适应现有业务框架 - 这些只是您作为数据科学家成功所需要了解的一些事项。只是认证或学位不符合您的资格。

 

如何避免这个错误?

不要误解我的意思 - 认证很有价值,但只有当你将这些知识应用到课堂之外并将其公之于众时。使用真实世界的数据集和您做的任何分析,确保您写下它。创建自己的博客,在LinkedIn上发布,并征求社区的反馈意见。这表明您愿意学习并且足够灵活,可以提出建议并将其用于您的项目。

您应该对实习的想法持开放态度(无论您的经验水平如何)。您将学习很多关于数据科学团队如何工作的知识,这将使您在参加另一次面试时受益。

如果您正在寻找下一个项目,那么您来对地方了。我们有一个很棒的项目列表,除了难度。现在就开始。

 

4.假设你在ML竞赛中看到的是真实生活中的工作

这是目前有抱负的数据科学家最大的误解之一。比赛和黑客马拉松为我们提供了干净而一尘不染的数据集(好吧 - 我有点过火,但你得到了它的支持)。您下载它们,然后开始解决问题。即使那些具有缺失值列的数据集也不需要您关闭脑细胞 - 找出插补技术并填补空白。

不幸的是,现实世界的项目并不像那样。有一个端到端的管道,涉及与一群人一起工作。你几乎总是要处理凌乱和不干净的数据。关于花费70-80%的时间来收集和清理数据的古老谚语是正确的。这是一个令人筋疲力尽的部分,你将(很可能)不喜欢,但它最终会成为例行公事的一部分。

此外,我们将在下一点更详细地介绍这一点,更简单的模型将优先于任何复杂的堆叠集合模型。准确性并不总是最终目标,这是您在工作中学到的最具对比性的事情之一。

 

你怎么能避免这个错误?

讽刺的是,否定这种误解的关键因素之一是经验。你获得的经验越多(实习在这种情况下有很多帮助),你就能越好地区分这两者。这是社交媒体派上用场的地方 - 与数据科学家联系并向他们询问他们的经验。

另外,我建议通过这个Quora线程,来自世界各地的数据科学家就这个确切的问题提供他们的意见。在竞赛排行榜上获得好成绩非常适合衡量您的学习进度,但是面试官会想知道如何优化算法以获得影响,而不是为了提高准确性。了解数据科学项目的工作原理,团队所拥有的不同类型的角色(从数据工程师到数据架构师),并从这个意义上构建您的答案。

阅读这篇LinkedIn帖子,其中解释了分析模型的标准方法。

 

5.关注模型准确性与域中的适用性和可解释性

资料来源:Design Shack

如上所述,准确性并不总是业务所追求的。当然,一个可以预测贷款违约率达到95%准确度的模型是好的,但是如果你无法解释模型是如何实现的,那些特征导致了它,以及在构建模型时你的想法是什么,你的客户就会拒绝它。

如果有的话,你很少会发现在商业应用中使用的深度神经网络。向客户解释神经网络(更不用说深层)如何与隐藏层,卷积层等一起工作是不可能的。第一个偏好是,并且将永远是确保我们能够理解正在发生的事情在模型下面。如果您无法判断年龄,家庭成员数量或之前的信用记录是否涉及拒绝贷款申请,该业务将如何运作?

另一个关键方面是您的模型是否适合组织的现有框架。如果生产环境无法支持,使用10种不同类型的工具和库将会非常失败。您将不得不使用更简单的方法从头开始重新设计和重新训练模型。

 

你怎么能避免这个错误?

防止自己犯这个错误的最好方法是与业内人士交谈。没有比经验更好的老师。选择一个域名(财务,人力资源,营销,销售,运营等),并与人们联系,了解他们的项目如何运作。

除此之外,练习制作更简单的模型,然后向非技术人员解释。然后为模型添加复杂性并继续这样做,直到你不理解下面发生了什么为止。这将教你何时停止,以及为什么简单模型总是在实际应用中被优先考虑。

 

6.在简历中使用太多数据科学术语

如果你以前这样做过,你会知道我在说什么。如果您的简历目前有此问题,请立即纠正!你可能知道很多技术和工具,但只是将它们列下来就会关闭潜在的招聘经理。

你的简历是你已经完成的事情以及你是如何做到这一点的简介 - 而不是简单记下来的事情清单。当招聘人员查看您的简历时,他/她希望以简洁和总结的方式了解您的背景以及您所取得的成就。如果页面的一半填充了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,没有任何解释,您的简历可能无法清除筛选回合。

 

你怎么能避免这个错误?

消除简历杂乱的最简单方法是使用项目符号。仅列出您用于完成某些事情的技术(可能是项目或竞赛)。写一篇关于你如何使用它的文章 - 这有助于招聘人员理解你的想法。

当您申请更新或入门级工作时,您的简历需要反映您可以为业务增加的潜在影响。您将应用于不同域中的角色,因此可能有一个设置模板将有所帮助 - 只需更改故事即可重现您对该特定行业的兴趣。

Kunal Jain撰写的这篇文章是为数据科学角色准备优秀简历的绝佳资源。

 

7.给予工具和库优先于业务问题

资料来源:数据科学实验室

让我们举个例子来理解为什么这是一个错误。想象一下,您已经获得了房价数据集,您需要预测未来房地产的价值。有200多个变量,包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等。您很可能不知道某些变量的含义。您仍然可以构建具有良好准确性的模型,但您不知道为什么删除某个变量。

事实证明,该变量是现实世界中的一个关键因素。这是一个灾难性的错误。

拥有扎实的工具和库知识是非常好的,但它只会带你到目前为止。将这些知识与领域提出的业务问题相结合,是真正的数据科学家介入的地方。您应该至少了解您感兴趣(或正在申请)的行业中的基本挑战。

 

你怎么能避免这个错误?

这里有很多选择:

  • 如果您正在申请特定行业的数据科学家角色,请了解该领域的公司如何使用数据科学
  • 如果可能,搜索特定行业中的数据集并尝试对其进行处理。这将是你简历中一个非常出色的要点
  • 阅读纽约时报的这篇优秀文章,了解为什么领域知识是数据科学的主要推动力

 

8.没有花费足够的时间来探索和可视化数据

数据可视化是数据科学的一个极好的方面,但许多有抱负的数据科学家更喜欢浏览它并进入模型构建阶段。这种方法可能在竞赛中有效,但在实际工作中必然会失败。了解您提供的数据是您将要做的最重要的事情,您的模型的结果将反映出这一点。

通过花时间了解数据集并尝试不同的图表,您将获得对您所负责解决的挑战或问题的更深入了解。通过这样做,你会惊讶地知道你可以获得多少洞察力!模式和趋势出现,故事被告知,最好的部分?可视化是向客户展示您的发现的最佳方式。

作为一名数据科学家,你需要天生好奇。这是数据科学的伟大之处 - 你越是好奇,你会问的问题就越多。这样可以更好地理解您提供的数据,并有助于解决您首先不知道的问题!

 

你怎么能避免这个错误?

实践!下次处理数据集时,请花更多时间在此步骤上。您会惊讶于它将为您带来的洞察力。问问题!询问您的经理,询问领域专家,在互联网上搜索解决方案,如果您没有找到,请在社交媒体上询问。这么多选择!

为了帮助您入门,我在下面提到了一些您应该参考的资源:

 

9.没有结构化的方法来解决问题

资料来源:MindMatters.co.in

结构化思维以多种方式帮助数据科学家:

  • 它可以帮助您将问题陈述分解为逻辑部分
  • 它可以帮助您可视化问题陈述的平移方式以及如何设计方法
  • 它有助于最终用户或客户以逻辑和易于理解的方式理解框架的顺序

为什么有结构化思维心态有助于更多理由。你可以想象,没有一个结构化的思维方式是违反直觉的。你的工作和解决问题的方法都是随意的,当遇到复杂的问题时你会忘记自己的步骤等等。

当您进行数据科学访谈时,您将不可避免地获得案例研究,猜测估计和谜题问题。由于面试室内充满压力的气氛和时间限制,面试官会看看你的思想结构如何,以达到最终结果。在许多情况下,这可能是一个交易破坏者或交易密封剂,以获得工作。

 

你怎么能避免这个错误?

您可以通过简单的培训和严谨的方法获得结构化的思维方式。我在下面列出了一些文章,可以帮助您开始这个关键方面:

 

10.尝试一次学习多个工具

我见过这个太多次了。由于每个工具提供的困境和独特功能,人们倾向于尝试一次学习所有工具。这是个坏主意 - 你最终不会掌握它们。工具是执行数据科学的一种手段,它们不是最终目标。

 

你怎么能避免这个错误?

选择一个工具并坚持下去,直到你掌握它为止。如果你已经开始学习R,那么不要被Python(尚)诱惑。坚持使用R,端对端学习,然后尝试将另一种工具融入您的技能组合中。您将通过这种方法了解更多信息。

每个工具都有一个出色的用户社区,您可以在遇到困难时使用。使用我们的论坛来提问,在线搜索,不要放弃。目的是通过该工具学习数据科学,而不是通过数据科学学习工具。

如果您仍未确定应该使用哪种工具,请查看这篇精彩的文章,其中列出了每个工具的优点和缺点(如果您对此感兴趣,还包括SAS)。

 

11.不以一致的方式学习

资料来源:布鲁克斯集团

这适用于所有数据科学家,而不仅仅是新生。我们倾向于容易分心。我们研究了一段时间(比如说,一个月),然后我们在接下来的两个月里休息一下。在那之后试图回到事物的沟槽是一场噩梦。大多数早期的概念都被遗忘了,笔记丢失了,感觉就像我们最近几个月浪费了一样。

我个人也经历过这一点。由于我们正在进行的各种事情,我们找借口和理由不回到学习。但这最终是我们的损失 - 如果数据科学就像打开教科书和塞满一切一样容易,那么今天每个人都将成为数据科学家。它需要一致的努力和学习,这是人们不会欣赏的东西,直到为时已晚。

 

你怎么能避免这个错误?

为自己设定目标。绘制出时间表并贴在墙上。计划您想要学习的方式和内容,并为自己设定截止日期。例如,当我想了解神经网络时,我给了自己几个星期,然后测试了我在黑客马拉松比赛中学到的东西。

你决定成为一名数据科学家,所以你应该准备好投入时间。如果你不断寻找不去学习的借口,这可能不适合你。

 

12.远离讨论和竞争

资料来源:面试技巧咨询

这是我们在上述几点中看到的一些事情的组合。有抱负的数据科学家倾向于回避在线发布他们的分析,因为他们担心受到批评。但是,如果您没有收到社区的反馈,您就不会成长为数据科学家。

数据科学是一个讨论,思想和头脑风暴至关重要的领域。你不能坐在孤岛中工作 - 你需要合作并理解其他数据科学家的观点。同样,人们不参加比赛,因为他们觉得自己不会赢。这是一种错误的心态!你参加这些比赛来学习,而不是赢。获胜是奖励,学习是目标。

 

你怎么能避免这个错误?

这很简单 - 开始参与讨论和比赛!没有进入前5%是可以的。如果你从整个事物中学到一种新技术,那么你就是靠自己赢得了胜利。

 

13.不从事沟通技巧

来源:吉姆哈维

沟通技巧是数据科学家绝对必须拥有的最低评价和最少谈论的方面之一。我还没有遇到一个强调这一点的课程。您可以学习所有最新技术,掌握多种工具并制作最佳图表,但如果您无法向客户解释分析,您将失败成为数据科学家。

而且不仅仅是客户,您还将与不熟悉数据科学的团队成员合作 - IT,人力资源,财务,运营等。您可以确信,面试官将始终监控这一方面。

假设您使用逻辑回归构建了信用风险模型。作为一个思考练习,请花一点时间思考如何向非技术人员解释你是如何得出最终结论的。如果你使用过任何技术词汇,你需要尽快开展工作!

 

如何避免这个错误?

如今大多数数据科学家都来自计算机科学背景,所以我理解这可能是一项令人生畏的技能。但要成为一名成功的数据科学家并爬上阶梯,你别无选择,只能磨练自己的个性。

我认为最有用的一点是向非技术人员解释数据科学术语。它可以帮助我衡量我对问题的清晰度。如果您在中小型公司工作,请在营销或销售部门找一个人并与他们一起做这个练习。从长远来看,它将极大地帮助你。

互联网上有大量的免费资源可以帮助您入门,但请记住,练习是软技能的关键。确保你今天开始这样做。

 

结束笔记

这绝对不是一个详尽的清单 - 有抱负的数据科学家往往会犯很多其他错误。但这些是我见过的最常见的,如前所述,我的目标是帮助其他人(尽可能多地避免)。

我很想听听你对这些指针的看法,以及你对类似问题的个人经历。请使用下面的评论部分告诉我们!

 

原文:https://www.analyticsvidhya.com/blog/2018/07/13-common-mistakes-aspiring-fresher-data-scientists-make-how-to-avoid-them/

 

 

 

 

 

 

 

 

 

 

猜你喜欢

转载自blog.csdn.net/ChenVast/article/details/81530611