dask环境搭建

0. 参考资料

github教程,我也是看这里学的。

git clone http://github.com/dask/dask-tutorial

dask官网

http://dask.pydata.org/en/latest/

1. Dask是什么?

Dask是一个python的并行计算的库。

Dask对远远超过内存的数据集进行多核或分布式的并行计算运行。

1.1 集合

Dask提供了Array,Bag和DataFrame,都是模仿numpy,list和Pandas的。不同的是,dask提供的集合能够在不将数据集全部填充到内存中进行并行计算。可以去替代numpy和pandas去处理大的数据集。

1.2 调度

Dask提供了并行的动态的任务调度和执行任务图。意思就是,将一个任务划分成多个小任务,然后画出图表,有一些任务是可以同时执行的,根据这个图表进行动态的并行去执行。

如上图所示,两个inc函数同时执行,然后再执行add函数得到结果。

2. 环境

2.1 Anaconda

Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 [1]  因为包含了大量的科学包

安装Anaconda

下载地址

2.2 dask

pip install dask

2.3 Virtual Studio Code

本人使用的是virtualStudioCode集成开发环境,这个看个人。

下载地址

推荐插件

Anaconda Extension Pack

2.4 jupyter notebook

推荐使用这个,非常好用。

它就是个web应用程序,但是可以在上面进行类似于ipython的编写,而且调试方便。

  • 直接在终端运行如下命令即可开启。

ipython notebook

  • 然后会跳进jupyter的web中,首页就是终端的当前目录。

  • 选择右上角的new->python3,即可进入以下界面,即可写代码。shift+enter是执行代码。

猜你喜欢

转载自blog.csdn.net/qq_22918243/article/details/81948504