Avoid the pit Guide | 7 data analysis of common errors and workarounds


In data analyst job, data analyst to do their career planning, is very necessary, it is our continuous forward momentum and progress, but also the support we need and reason to carry on. A good and feasible objective data analyst career planning for one's growth and advancement is essential.

During a data analyst career planning at the same time, we must not because of their own mistakes or reasons to make our data analyst career planning is hindered or must be modified. For this reason, in our data analyst job, a lot of attention we must often make mistakes or may occur in the data analyst job. Here to tell us something about data analysis is very common seven kinds of errors and workarounds , clearing the way for your data analyst career path planning.

"Error is the entry found." - James Joyce (famous Irish novelist).

Holmes on how famously defined detective, and the role of data scientist in business on a comparable detective.

"I'm Sherlock Holmes, my job is to find other people do not know."

Companies want to remain competitive, it must do more than analyze the data. Not to assess data quality in their hands, they want results, they expected to get much profit from this data analysis, it will be difficult to correctly identify which projects can be profitable, and which can not. When a data error occurs - once accepted - consider that there is a learning curve, but if these errors occur more than twice, this will increase the cost of doing business.

Avoid common errors scientific data:

1. The confusion between correlation and causation

Error correlation and causality of events will lead to cost , the best example is the analysis of "Freakonomics," the relevance of error in terms of causation, leading to Illinois students send books to the state, because the analysis show home books of students in schools of higher direct examination points. Further analysis showed that a few books at home have better students in their studies can show, even if they have never read these books.

This changes the previous assumptions and insight: Parents often buy books home, to create a pleasant learning environment.

大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假的预测和无效的决定。

要想实现利用大数据的最好效果,数据科学家必须理解相关关系和根源的区别。关联往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。在数据科学,这是两个完全不同的事情,但是许多数据科学家往往忽视了它们的区别。基于相关性的决定可能足以采取行动,我们不需要知道原因,但这还是完全依赖于数据的类型和要解决的问题。

每位数据科学家都必须懂得——“数据科学中相关关系不是因果关系”。如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。

2. 没有选择合适的可视化工具

大部分的数据科学家专心学习于分析的技术方面。他们不能通过使用不同的可视化技术理解数据,即那些可以令他们更快获得洞察力的技术。如果数据科学家不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。事实上,许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。

即使数据科学家开发了一个最优秀和最好的机器学习模型,它也不会大叫说“尤里卡”——所有这些所需要的是结果的有效可视化,可以理解数据模式的不同,和意识到它的存在可以被利用来获得商业成果。常言道“一张图片胜过1000个单词。”——数据科学家不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理,用令人信服的方式获得结果。

解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。

3. 没有选择适当的模型-验证周期

科学家认为,建立了一个成功的机器学习模型,就是获得了最大程度的成功。但是,这只是成功了一半,它必须要确保模型的预测发挥作用。许多数据科学家经常忘记或者倾向性的忽视这样的事实,就是他们的数据必须在指定的时间间隔进行反复验证。

一些数据科学家经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。

由于几个因素,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。有实例即数据科学家可以重建数据模型。能建立几个模型和解释变量的分布总是更好的,而不是考虑单个模型是最好的。

为了保留已建模型的预测效果和有效性,选择迭代周期是非常重要的,如果做不到,可能会导致错误的结果。

4. 无问题/计划的分析

数据科学的最高级用途就是设计实验,提出正确的问题和收集正确的数据集,一切工作都要根据科学的标准。然后你将获得结果,并解释它。

数据科学是一个结构化的过程,以明确的目标开始,随后出现一些假设的问题,最终实现我们的目标。数据科学家往往站在数据之上而不考虑那些需要分析回答的问题。数据科学项目必须要有项目目标和完美的建模目标。数据科学家们如果不知道他们想要什么——最终得到的分析结果将会是他们不想要的。

大多数数据科学项目最终是回答“是什么”的问题,这是因为数据科学家通过手头的问题作分析而不遵循做分析的理想路径。数据科学是使用大数据回答所有关于“为什么”的问题。数据科学家应该通过整合以前未被整合的数据集,主动分析给与的数据集,回答以前没人解答的问题。

为了避免这种情况,数据科学家应该集中精力获得正确的分析结果,这可以通过明确实验,变量和数据准确性和清晰明白他们想要从数据中获得什么实现。这将简化以往通过满足假设的统计方法来回答商业问题的过程。引用伏尔泰的一句话——“判断一个人,是通过他的问题而不是他的答案。”——先确定明确的问题是及其重要的,能够实现任何企业的数据科学目标。

5. 仅关心数据

根据博思艾伦咨询公司的数据科学家Kirk Borne,“人们忘记在数据的使用,保护以及统计产生的问题如认为相关关系就是因果关系会产生伦理问题。人们忘记了如果你处理的数据足够长,它就会告诉你任何事,如果你有大量的数据,那么你就可以找到相关关系。如果人们拥有大数据他们会相信他们看到的任何事情”。

数据科学家常常因为得到来自多个数据源的数据而兴奋,并开始创建图表和可视化来做分析报告,忽视发展所需的商业智慧。这对任何组织来说都是危险的事情。数据科学家经常给与数据太多决策制定的权力。

他们不够重视发展自身商业智慧,不明白分析如何令企业获益。数据科学家应该不仅仅让数据说话,而且善于运用自身的智慧。数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音。企业雇佣的数据科学家应该是可以将领域知识和技术特长结合起来的,这是避免错误的理想情况。

6. 忽视可能性

数据科学家经常倾向性忘记方案的可能性,这将导致作出更多的错误决策。数据科学家经常犯错,因为他们经常说,如果企业采取了X操作一定会实现Y目标。对于特定的问题这没有唯一的答案,因此要确认数据科学家从不同可能性中所做的选择。对指定问题存在不止一个可能性,它们在某种程度是不确定的。情景规划和可能性理论是数据科学的两个基本核心,不应该被忽视,应该用以确认决策制定的准确性频率。

7. 建立一个错误人口数量的模型

如果一个数据项目的目的是建立一个客户影响力模式的模型,但是他们仅仅考虑那些具有高度影响力的客户的行为数据,这不是对的做法。建立该模型不仅要考虑那些具有高度影响力的客户的行为数据,也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据。低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。

这些都是数据科学家在做数据科学时常见的错误。如果你能想到的任何其他常见的数据科学错误,我们很乐意在下面的评论听到你的想法。

End.

来源:CSDN社区
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

零基础学 Python,来这里

 只需7天时间,跨进Python编程大门,已有3800+加入

【基础】0基础入门python,24小时有人快速解答问题;
【提高】40多个项目实战,老手可以从真实场景中学习python;
【直播】不定期直播项目案例讲解,手把手教你如何分析项目;
【分享】优质python学习资料分享,让你在最短时间获得有价值的学习资源;圈友优质资料或学习分享,会不时给予赞赏支持,希望每个优质圈友既能赚回加入费用,也能快速成长,并享受分享与帮助他人的乐趣。
【人脉】收获一群志同道合的朋友,并且都是python从业者
【价格】本着布道思想,只需 69元 加入一个能保证学习效果的良心圈子。

【赠予】价值109元 0基础入门在线课程,免费送给圈友们,供巩固和系统化复习

发布了88 篇原创文章 · 获赞 18 · 访问量 11万+

Guess you like

Origin blog.csdn.net/lovenankai/article/details/104230769