分布式机器学习

三个特点

可扩展。

可扩展的意思是“投入更多的机器，能处理更大的数据”。而传统的并行计算要的是：“投入更多机器，数据大小不变，计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地方。如果只是求速度快，那么multicore和GPU会比分布式机器学习的ROI更高。

有一个框架（比如MPI或者MapReduce或者自己设计的），支持fault recovery。Fault recovery是可扩展的基础。现代机群系统都是很多用户公用的，其中任何一个进程都有可能被更高优先级的进程preempted。一个job涉及数千个进程（task processes），十分钟里一个进程都不挂的概率很小。而如果一个进程挂了，其他进程都得重启，那么整个计算任务可能永远都不能完成。

数学模型要根据架构和数据做修改

这里有两个原因：

因为大数据基本都是长尾分布的，而papers里的模型基本都假设数据是指数分布的（想想用SVD做component analysis其实假设了Gaussian distributed，latent Dirichlet allocation假设了multimonial distribution。）。真正能处理大数据的数学模型，都需要能更好的描述长尾数据。否则，模型训练就是忽视长尾，而只关注从“大头”数据部分挖掘“主流”patterns了。
很多机器学习算法（比如MCMC）都不适合并行化。所以往往需要根据模型的特点做一些算法的调整。有时候会是approximation。比如AD-LDA算法是一种并行Gibbs sampling算法，但是只针对LDA模型有效，对其他大部分模型都不收敛，甚至对LDA的很多改进模型也不收敛。

引入更多机器的首要目的不是提升性能，而是能处理更大的数据。

用更多的机器，处理同样大小的数据，期待speedup提高——这是传统并行计算要解决的问题——是multicore、SMP、MPP、GPU还是Beowolf cluster上得分布式计算不重要。在大数据情况下，困难点在问题规模大，数据量大。此时，引入更多机器，是期待能处理更大数据，总时间消耗可以不变甚至慢一点。分布式计算把数据和计算都分不到多台机器上，在存储、I/O、通信和计算上都要消除瓶颈

http://www.flickering.cn/machine_learning/2014/07/%E5%88%86%E5%B8%83%E5%BC%8F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%9A%84%E6%95%85%E4%BA%8B-2%E5%88%86%E5%B8%83%E5%BC%8F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%9A%84%E8%AF%84%E4%BB%B7%E6%A0%87%E5%87%86/

http://www.flickering.cn/machine_learning/2014/07/%E5%88%86%E5%B8%83%E5%BC%8F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%9A%84%E6%95%85%E4%BA%8B-4lda%E5%92%8Cmapreduce%E5%8F%AF%E6%89%A9%E5%B1%95%E7%9A%84%E5%9F%BA%E7%A1%80%E6%98%AF%E6%95%B0%E6%8D%AE/

http://www.flickering.cn/machine_learning/2014/07/%e5%88%86%e5%b8%83%e5%bc%8f%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e7%9a%84%e6%95%85%e4%ba%8b-5rephil%e5%92%8cmapreduce%ef%bc%9a%e6%8f%8f%e8%bf%b0%e9%95%bf%e5%b0%be%e6%95%b0%e6%8d%ae%e7%9a%84%e6%95%b0%e5/

http://www.flickering.cn/nlp/2015/03/peacock%EF%BC%9A%E5%A4%A7%E8%A7%84%E6%A8%A1%E4%B8%BB%E9%A2%98%E6%A8%A1%E5%9E%8B%E5%8F%8A%E5%85%B6%E5%9C%A8%E8%85%BE%E8%AE%AF%E4%B8%9A%E5%8A%A1%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8/

http://zh.gluon.ai/chapter_computational-performance/multiple-gpus.html

《Distributed Inference for Latent Dirichlet Allocation》

扫描二维码关注公众号，回复： 3192601 查看本文章

《distributed deep leearning》 Jeff Dean

可扩展。

数学模型要根据架构和数据做修改

引入更多机器的首要目的不是提升性能，而是能处理更大的数据。

猜你喜欢