版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011240016/article/details/84344428
数据是现实世界运转留下的痕迹。
这些痕迹如何展示出来,则取决于我们采用什么样的数据收集和样本采集方法。
将具象的数据转化为抽象的数据,过程是绝对主观的。
数据的随机性和不确定性来源:
- 过程本身
- 数据采集方法
统计推断
关注的是如何从随机过程产生的数据中提取信息。
关于建模
数据即信息,不需要模型,了解相关性就够了。–Anderson
这是错误的想法。
什么是模型
模型是一个特殊的镜片,透过这个镜片观察和了解现实世界的本质,而这个镜片是什么,不同学科的人,有不同的工具。
如何构建模型
如何知道什么数据用什么模型?
一半是艺术,一半是科学。
这没有统一标准,如何选择模型,选择的理由是什么,都是摸着石头过河,加经验总结。
但是EDA(探索性数据分析)是一个比较好的起步方法。通过EDA绘制图形,从数据中获取直观的感觉。对帮助解决问题有很大帮助。
从简单处着手,先做起来,再做好。
END.
参考:
《数据科学实战》