用最通俗易懂的语言解释python、数据分析、编程都是什么?

在这篇文章里,我尽量用0背景的人也能看得懂的表述。比如你有一块地,它有很多种类的农活,比如松土、施肥或者播种。比如我们现在需要播种,那么就需要选择播种的工具是大型机械,小型机械还是人工,其次还得制定一个播种的策略,是先一字长蛇阵还是八面玲珑阵。
那么这就对应了数据分析(其中的一种农活),Python(播种的一种工具),编程(播种的一种策略)如果再详细一点儿的话,那么这三个部分其实都可以被同类内容替换掉。

数据分析(农活)

农活的种类有很多,就跟数据分析只是一个方向而已。比如说人工智能,机器人,软件研发等等。只不过这次的农活我们选的就是数据分析,那么为了做数据分析这个农活,肯定就得针对性的准备需要的工具和策略,而对于Python来说,它是一个非常适合做数据分析的工具。

Python(工具)

在这里,Python就像是你用来播种的一种“工具”。你可以选择使用大型机械、小型机械或人工来播种。Python在这里就是一种编程语言,而可以办到一样事情的语言有很多,比如C++,Java,R等等。这里选择Python是因为它用来做数据分析(播种)很方便,并不代表着只有Python可以做这件事。R语言也是数据分析的一个选项,它跟Python在数据分析方面其实各有千秋,只不过对于大多数人的入门难度来看,Python要简单一点儿。

编程(策略)

最后,编程就像是你制定的“播种策略”。根据数据分析的结果,你可能会决定采用一字长蛇阵还是八面玲珑阵的播种模式。编程就是实现这个决策的具体步骤。你会编写一段代码,指定机械如何移动、何时播种、以及如何优化这一过程以达到最佳效果。
其实这一段就是数据分析的思维,比如给你一块地,你得分析下它的土质如何,适合什么样的农作物。跟数据处理是一样的,比如你拿到数据,你得先看看这个数据质量怎么样,有没有空值,适合什么样的可视化方法等等。
这其实都是有讲究的,有些数据是按时间序列收集的,那么它的时间这个属性就显得非常重要,那么在可视化的时候,曲线图就非常的合适,这样可以很直观的显示时间尺度上的变化。其实对于数据分析来说,python就是一个备选的编程语言,别的语言也可以做。
最重要的其实「数据分析思想」。其实这也可以用「种地」来解释,因为对于一块地,有经验的人可以手把手告诉你这一块适合种什么,怎么种。你可以在这块地上种的很好,每年都有好的收成。但如果给你换一块地呢,甚至说让你种完全不一定的农作物,这时候考验的是你的思考能力。
换到数据分析也一样,你回碰到各种各样的数据,以及连带的各种各样不同的需求,它需要你灵活的转变自己的思路,因为数据分析最后是要出一个结果的,而这个结果要为你的目的服务。
如果大家对于上述几个概念还是很模糊,这里我非常建议大家跟着系统的课程来进行理解,毕竟现在是一个大数据的时代,数据无时无刻不在产生,掌握这项技能对于未来的发展无疑是非常有帮助的。接着我们继续说,总的来说,数据分析就可以分为两部分:数据和分析。数据部分对于数据来说,包括了数据收集、数据清洗&整理和数据存储三个关键的步骤;分析也是三个关键步骤:探索性的数据分析(也可以叫统计数据分析)、深入分析和结果解释&呈现。数据部分也分为几个子部分,具体来分析每个部分:

数据收集

来源

这是从哪里找到数据的问题。可能是从图书馆的书里,或者是从互联网上,甚至是通过做调查问卷收集的。比如可以用python写的爬虫,从网络上自动的爬取数据。

工具与技术

现在的科技让我们更容易收集数据。比如,有一些自动化工具,可以从网上快速抓取信息。

伦理与合规

收集数据的时候,要确保不侵犯别人的隐私,遵守法律规定,不能随便抓取和使用别人的个人信息。

数据清洗与整理

数据质量检查

想象一下,如果你得到的数据里有很多重复的信息,或者有些信息是错的,这会影响你的分析结果。所以要先检查并清理这些数据。

数据转换

有时候,收集到的数据并不是立刻可以用的。可能需要改变它的形式或者单位,让它适合分析。

特征工程

这一步是从收集到的数据中找出对你的分析最有用的部分。这就像是从一堆杂乱的信息中,挑出最重要的部分。

数据存储

数据库管理

收集到的数据要储存在一个安全的地方,方便以后使用。常见的存储方式有用电脑的数据库软件,像SQL、NoSQL等。

数据安全

保护数据的安全就像保护自己的钱包一样重要。要确保别人不能随便访问或者篡改你的数据。
对于数据部分来说,占比最大的环节是数据的清洗与整理,因为对于数据的收集和存储来说,基本上都是自动爬虫或者从数据库中获取或者直接调用接口进行操作,前者对于数据质量的要求不是那么高,后者处理的数据已经是很标准的数据了,所以很简单。
而清洗和整理这一步反而是最麻烦的,因为这一步包含了很多繁琐但必要的步骤,比如说你要去掉重复的数据,错误的数据以及缺失的数据。
对于缺失的数据还得分不同情况进行讨论,比如有些缺失的数据直接删掉完事,但有些数据不能删,你只能通过统计的方法或者其他的方法进行补足。
网上有些分析了数据分析花费的时间占比,可以看到清洗和整理数据占了最大的一部分,高达60%,一般多的时候都花在了清洗数据。数据清洗和整理虽然繁琐,但在整个数据分析过程中起着关键作用。
作为占据最大部分的环节,它对整个分析过程的质量和效率有着决定性的影响。
有了正确清洗和整理的数据,分析师可以准确地揭示数据背后的洞察,从而为决策提供有力的支持。因此,即使这一阶段耗时较长,投入的时间和努力都是非常值得的。
在掌握了基本的理论后,最应该做的就是通过系统的带有实践的课程进行整体的把握,还是刚刚提到的知乎知学堂开设的数据分析课程,非常建议去了解一下。

分析部分

分析步骤的主要原料来自于数据部分,只有数据部分的处理的好,分析的速度、准确度以及价值才会高。在这部分,基本上是由浅入深的顺序,首先是简单的探索性数据分析,也可以称之为描述性数据分析,主要就是计算一下平均数,中位数,最大值最小值这些耳熟能详的统计数值,以及一些简单的可视化,如果是时间序列的话,还会做一些趋势分析,看一下滑动平均数之类的;进一步分析会用到机器学习和统计学的知识,比如机器学习建模来进行分析预测,或者是统计学习的假设检验等等。最后一步就是结果输出了,在商业分析中,一般叫decision-making,也就是负责输出商业决策或者为商业决策提供数据分析结果支持。具体分析每一个步骤的话,

探索性数据分析(EDA)

在商业环境中,我们经常要研究和理解数据。探索性数据分析就是一种让我们更好地了解数据特点的方法。

统计描述

这部分就像是给数据做一个体检。计算像平均值、中位数(所有数据中间的那个数字)、标准差(数据间的波动程度)等,可以让我们快速了解数据的“健康状况”。

数据可视化

有时候,一张图胜过千言万语。通过图表,我们可以直观地看到数据的分布、变化趋势或者不同数据之间的关系。

初步观察

这里我们要当个侦探,寻找数据中可能的趋势和异常值,看看是否有什么不寻常或者特别有趣的地方。

深入分析

分析就像挖掘宝藏,有时候可能需要挖得更深才能发现真正有价值的信息。

建模与预测

通过建立一些模型,我们可以预测未来可能的趋势。就像气象预报一样,虽然不一定完全准确,但大致方向通常是对的。

假设检验

这部分可以看作是我们对某个观点的验证。例如,我们可能想验证新的销售策略是否真的提高了销售额。

模式识别

这是寻找数据中隐藏的模式和关联。就像找到不同商品之间的购买关联,以便进行更好的产品推荐。结果解释与呈现这一部分是将我们的发现和分析转化为实际可用的信息。

数据故事

人们喜欢故事,将分析结果构建成一个引人入胜的故事,可以让复杂的数据更容易被理解。

报告编写

报告是商业中常用的沟通方式,通过专业报告,我们可以与同事、上级甚至客户分享我们的分析结果。

商业战略

最终目的是将这些分析结果用于商业决策,帮助公司制定更好的战略和计划。所以总的来说,数据分析的工作内容就是数据和分析,两个部分相辅相成,对于一个数据分析项目,这些基本上都是必须项。

猜你喜欢

转载自blog.csdn.net/Everly_/article/details/133267034