利用Python进行数据分析读书笔记 第1章 准备工作

数据分析的环境

数据分析的标准环境:Anaconda和Jupyter notebook

  • Anaconda :简单来说Anaconda是包管理器和环境管理器。
    Anaconda附带了一大批常用的数据科学包。Anaconda在conda(一个包管理器和环境管理器)上发展而来的,conda可以很好的在计算机上安装和管理用到的第三方包。如果不同的项目使用的是不同版本的python或者不同版本的的包,conda可以帮助不同的项目建立不同的运行环境,避免可能的混乱和错误

  • Jupyter notebook:Jupyter notebook可以将数据分析的代码、图像和文档全部组合到一个web文档中。并且为交互式编程,可以边看边写。


重要的python库

  • NumPy :python科学计算的基础包。提供了快速高效的多维数组对象ndarray和快速的数组处理能力,作为在算法和库之间传递数据的容器

  • pandas :提供了快速便捷处理结构化数据的大量数据结构和函数。书中用得最多的pandas对象是,一个面向列的二维表结构DataFrame,和一个一维的标签化数组对象Series

  • matplotlib :最流行的用于绘制图表和其它二维数据可视化的Python库

  • SciPy :SciPy是一组专门解决科学计算中各种标准问题域的包的集合。NumPy和SciPy结合使用,便形成了一个相当完备和成熟的计算平台,可以处理多种传统的科学计算问题。

  • scikit-learn :python的通用机器学习工具包

  • statsmodels :一个统计分析包。与scikit-learn比较,statsmodels包含经典统计学和经济计量学的算法。statsmodels更关注与统计推断,提供不确定估计和参数p-值。相反的,scikit-learn注重预测


python做数据分析优点和不足

  • 动态编程语言是高级程序设计语言的一个类别,它是一类在执行时能够改变其结构的语言:比如新的函数、对象、甚至代码能够被引进,已有的函数能够被删除或是其它结构上的变化。

  • python作为一种动态语言,也被称作脚本语言,同时python作为一种胶水语言,它能够轻松地集成C、C++以及Fortran代码。

  • python作为解释型语言,大部分的代码都比编译型语言编写的代码慢的多,因此对于那些要求延迟非常小或高资源利用率的应用中(例如高频交易系统),使用编译型语言更加好。

  • python对于高并发、多线程的应用程序,并不是一种理想的编程语言。python有一个叫做全局解释器锁(GIL)的组件,这是一种防止解释器同时执行多条python字节码指令的机制。


[1]: 初学python者自学anaconda的正确姿势是什么?? - 猴子的回答 - 知乎
https://www.zhihu.com/question/58033789/answer/254673663
[2]:《利用Python进行数据分析·第2版》第1章 准备工作
https://www.jianshu.com/p/04d180d90a3f
[3]: 深度解析python的动态语言 。
https://www.cnblogs.com/jiaoyu121/p/6959310.html
[4]:Jupyter使用 | Jupyter Notebook打开默认文件夹以外的文件
https://blog.csdn.net/yefcion/article/details/79431760

猜你喜欢

转载自blog.csdn.net/liuheng94/article/details/79780760