Data sexy scientist is working? I believe you are a ghost!

40% of the data scientist is a vacuum cleaner, a cleaner 40 per cent, and the remaining 20 per cent is a fortune teller.


Author | Jingles

Translator | champagne supernova, Zebian | yugao

Exhibition | CSDN (ID: CSDNnews)

According to "Harvard Business Review," saying that data scientists sexiest job of the 21st century. Now in the world of big data, the data scientists with AI or depth learning methods to discover valuable business insights.

 

And I, with one "data scientist" title for five years, but still do not fully understand exactly where their own sexy, hot new addition to my hair makes me look like a Korean Obama (This term usually used to refer to on behalf of South Korea idol drama actor).

 

Indeed, the emergence of cloud business and shift to the Internet has caused an explosion of data. This has led to increased demand for certain sectors of data scientists, resulting in a shortage of personnel for this position.

 

However, the specific content of data scientists to work every day, including what of it?

 

By analyzing the job posting on LinkedIn, we will be able to find the answer to this question. Here are some key points I summarized:

 

  • Business and customer understanding, to validate assumptions

  • Build predictive models and machine learning lines, an A / B test

  • Related to commercial interests who conceptualized analysis

  • Develop algorithms able to make business decisions

  • Experimental research and new technologies and methods to enhance the technical capacity

 

These sounds are very sexy, right?

 

Unless your work contains only deal with Kaggle data sets, or job description of these data is only a small part of life scientists.

 

The following findings from CrowdFlower, made the following summary of a data scientist of a normal working day:

       Data scientists are doing most of the time? Figure source: CrowdFlower

 

As shown in the above table, the data scientists spent most of the time the dataset was collected, washed and organize data.

 

High-performance data cleaner 21st century

 

Lake data (data lakes) is a centralized place to store all the data. They enable organizations to use the company to build a data model of machine learning and dashboards. And unfortunately, some people will think that the data can be used lake is discarded garbage dump data, or a large hard drive.

 

许多组织(公司)在开始布施数据湖时,对应该如何处理收集到的数据一无所知。他们说:“那我们就把所有的东西都收集起来吧。”尽管数据湖的意义在于将公司的所有数据集中在一个地方,但根据特定项目的需求来对它进行设计仍然是至关重要的。不进行计划几乎就像创建一个“新建文件夹”,然后把公司的全部数据都复制粘贴到里面一样。

 

当你把桌面当做数据垃圾场时

 

从历史上看,糟糕的计划很少会带来,或者说从未带来过定义明确的元数据,这就使所有人都很难搜索(并找到)自己所需的数据。数据科学家们会经常需要与不同部门联系来获取数据。他们可能需要从各种类型的数据所有者那里得到有关数据的信息。只对数据进行存储而不进行分类简直大错特错。要使数据湖变得有用起来的关键是要确保元数据是被明确定义的。

 

由于数据管控或数据所有者们(他们往往是不同部门的利益相关者)太过忙碌,重要数据的获取甚至可能需要花费数周的时间。在等待的游戏结束之后,到头来数据科学家们却有可能发现数据不相关或存在严重的质量问题。

 

当数据科学家终于能接触到数据时,他们还需花费大量时间来探索以及熟悉数据。他们必须将这些混乱的数据块重组成与项目需求一致的新表。

21世纪的高层次数据清洁工

 

每个与数据打交道的人都应该听说过“脏数据”(dirty data)一词。脏数据会破坏数据集的完整性,它的某些特征是不完整,不准确,不一致,或者重复的。

 

不完整”是指,有些必要特征空缺。例如,假设你的任务是预测房价,而“房子的区域”对于良好的预测至关重要,但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了,并且你的模型也可能表现欠佳。

 

“不准确”和“不一致”就是指,技术上来说数值是正确的,但在具体语境下却是错误的。例如,当一名员工更改了自己的地址,并且未更新,又或者,某项数据有很多版本,但数据科学家拿到的是旧版。

 

“重复”是一个常见的问题。让我来跟你分享一个以前我在电子商务公司工作时发生的事情吧。按照计划,当访问者单击“收取收据”按钮时,网站会向服务器发送一个响应,这就使得我们能够计数已收取了收据的用户数量。

 

该网站运行良好,直到一天某个变化发生了,但我对此一无所知。前端开发人员添加了另一个响应,在有人成功收取了收据时发送。理由是某些收据可能短缺,他们想记下单击了该按钮以及收取了收据的访问者。

 

那时,两个响应会被发送到同一日志表。我看着我的报表工具,发现收据的数量似乎在一夜之间翻了一番!因为我前一天部署了一个模型,所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢,后来才意识到只是因为重复计算而已!

 

另外,在过去五年中,作为一名数据科学家,我收到数据中的一部分是由公司员工手动输入的。这些数据存在Excel表中,其中许多都不准确,不完整,不一致。

 

无论数据是来自人工手动输入还是机器日志,在现实世界中数据整理都占了工作内容的很大的比例。数据科学家们必须面对这件事情。为了使监督学习能有效,我们需要可靠的,带有标签(label)的数据。只有数据被正确地标记了,你才可能建立起预测模型,但没人喜欢标记数据。

 

许多人将这种情况描述为80/20规则。数据科学家们只有20%的时间是用于构建模型的,而其他80%的时间则用于收集,分析,清洗和重组数据。脏数据是一个普通数据科学家工作中最耗时的一项。

 

有必要指出的是,数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进,垃圾出”(Garbage in, garbage out.)这句话了。

 

数据科学家们在数据中漫游时确实会发现一些东西。但在开始训练任何模型之前,数据科学家必须首先成为数据清洁工。数据需要经历清洗,数据需要经历标记。

我是一名数据科学家...

我并不觉得我的工作性感。

 

我40%的功能像个吸尘器,另外40%像清洁工。

 

而最后的20%......就当是个算命先生吧。

原文链接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

本文为CSDN翻译文章,转载请注明出处。

推荐阅读 

华为补助武汉员工,最高每日 2000 元;iPhone SE 2 量产或推迟;PowerShell 7.0 发布 | 极客头条

腾讯云“抢救”微盟!开 766 次在线会议、调拨 100 多台服务器、闹钟只敢定 2 小时

人工智能改变未来教育的5大方式!

Linux 会成为主流桌面操作系统吗?

6 个步骤,教你在Ubuntu虚拟机环境下,用Docker自带的DNS配置Hadoop | 附代码

开发项目时如何选择区块链平台?我们分析了以太坊、Bitcoin via RSK、Ardor三个有趣的平台来给你回答!

你点的每一个在看,我认真当成了喜欢

发布了1792 篇原创文章 · 获赞 4万+ · 访问量 1618万+

Guess you like

Origin blog.csdn.net/csdnnews/article/details/104708123