如何让做好程序员和数据分析师,告诫自己

统计和计算机的区别

作为一个统计专业的人,实在无法之言片语说出统计和计算机的区别。但是学习统计的人计算机编程和计算机通信等原理较为薄弱,在工作中这些又不可缺少。因此学习计算机原理,了解计算机的运行机制对统计专业的人来说是非常有必要的且重要的。

刚安装软件时感触最大,我在电脑安装Oracle数据库程序软件和计算机专业的朋友比较就发现了自己的缺点,对比的效果是:我是统计专业初次安装花费时间是2小时,但是计算机专业初次安装只需要0.5小时。这是我的亲身经历感触,而且还是在windows上配置一个Oracle数据库,虽然我和他都是第一次安装,但是我还是感到了巨大的压力和自卑感,因为效率低和慢,这就是统计的缺陷。统计不能只是认为你在统计中牛逼了,但是和其它行业人士比较,做某些相同的事情,统计行业的人远远没有其它行业的人更高效,如计算机行业的人。

统计不只是统计,而是要考虑高效

说到统计,最开始是用纸质进行记录和计算,然后涉及到各类的统计检验,如T检验等。提到T检验,就引出了样本的概念,统计中多数的检验,都需要对数据进行抽样,抽样在这里不进行多说了。假定存在这样的场景:

有1000万的数据,需要对数据进行检验,那抽样比例就不能过少,我后面想进行回归分析,那么抽样的数据量就不能过多,而回归中样本少了就又产生过拟合和欠拟合的问题。岂不互相矛盾?

所以,大量数据下的大样本,统计用Excel和某些统计工具是没法实现的,于是就出现了R语言等编程工具,后面又出现了Hadoop和R结合,又出现了流式计算,并行计算的概念。那这里计算机的内存和负载,是否了解呢?系统的兼容性和程序的执行不兼容,函数包的编译加载,又是否只是统计呢?

那统计的高效率,这里不能仅仅用数据来进行说明。在以上的概念中,提到了excel和R语言,设想很多的数据无数次的用excel进行操作,那岂不是太浪费时间了,于是后面用到了程序化的R语言。脚本化,自动化节约了时间,于是高效开始盛行,统计需要编程。

统计需要编程

统计需要编程,但也可以不编程。我推崇编程。那统计在编程中有优势吗?

我说有,统计多数是理论和公式,且选择统计的多数源自数学功底较好,而编程需要的数学功底和逻辑思维,尤为重要。那统计是否真的适合进行编程呢?

Python和R,如统计和计算机

统计行业发展,我这边姑且称之为数据分析师,工具使用R语言
计算机行业发展,大众认知为IT程序员,工具使用Python.
R语言和Python都是两款编程工具,于是,我想提到以下几个概念:

程序员具备的编程素养,统计较为欠缺:如程序代码的规范性,程序员讲解合作,代码的规范注定了逻辑,审美,规则的统一,尤为重要,是程序员的脸面,而统计是否重视呢?对代码规范是否了解,我想多数不了解。那统计写代码注重以下这些吗?

(1)想清楚,再动手写代码

刚入行的新手,为了展示自己的能力,拿到需求迫不及待地就开始上手写代码,大忌!

(2)不交流,就会头破血流

不爱说话和沟通,需求都理解错误了,最后做出来才发现,只能加班返工!

(3)一定要写注释

时间久了,你会连自己的代码都看不懂!

(4)文档没人看,但还是要写

文档的作用大部分时候不是用来沟通的,是用来做记录的,大部分需求还是通过口头沟通,但是不写文档做记录,后续就容易扯皮!

(5)业务高于技术

如果技术不为公司商业做服务,那将毫无价值,公司赚钱才是硬道理!

(6)别指望需求会稳定

产品需求是根据商业需求不断调整的,改需求是再正常不过的事,别抱怨!

(7)慎用新技术

新技术是好东西,但没有百分百把握,自作主张用了,多半是作死!

(8)不要心存侥幸

你隐约感觉会出bug的地方,就一定会出bug!

(9)自己先测几遍

不要写完就扔给测试人员去测,经自己手的东西,要保证质量!

(10)尽可能自己解决问题

遇到不懂的问题,要先尽力解决,别动不动就截个图扔给别人求帮忙,上司和同事不是来给你擦屁股的,但是真的搞砸了就要尽快求助!

统计不能吹牛,得行动

统计更多的是在理论上进行,使用较多的还是傻瓜式软件,一旦遇到模型设计等系列概念时,统计的动手能力就弱了,如何实现程序,如何和数据库ODBC连接,如何调用API,如何运用集群运行书数据,如何查找程序的 错误,统计做的少,说的多。行动了实践了才是技术的实现,统计只是一个理论,而最终实现却要借助各种工具,工具都能较好运用了吗?还是更多空泛的谈谈,过一过嘴瘾?

告诫自己以下几点:
1.多做少说
2.多沟通需求,避免南辕北辙
3.多去看序逻辑和数学公式推导
4.了解计算机通信进程原理
5.数据分析多去外面走走看看,多交流,方法不是一蹴而就,慢慢积累。
6.了解数据产生的工具和产品
区块链,人工智能,云计算,大数据
算法,流式计算,并行化计算,Docker,Hadoop,Spark,关系和非关系型数据库,Python,ETL,常用模型和数据处理,可视化,产品设计,分析报告,PPT,最重要的是如何高效率沟通和聊天。

猜你喜欢

转载自blog.csdn.net/tandelin/article/details/88636338
今日推荐