大规模机器学习(二)

在线学习

In computer science, online machine learning is a method of machine learning in which data becomes available in a sequential order and is used to update our best predictor for future data at each step, as opposed to batch learning techniques which generate the best predictor by learning on the entire training data set at once.

假设我们拥有一家物流公司,每当一位用户咨询从地点A至地点B的所需的费用时,我们给用户一个价格,该用户可能接受该价格(y=1)或不接受(y=0)。

现在我们希望构建一个模型,其能预测用户接受报价的可能性。因此,我们选取起始地点、目标地点、运输距离、价格和用户数据作为特征变量。

在线学习算法可以根据当前用户的行为不断更新模型以适应该用户。

另一个应用为:点击通过率(Click Though Rate)

Map Reduce and Data Parallelism

之前我们运用批量梯度下降算法求解大规模数据集的最优解,其计算代价是非常大。因此,我们需要将数据集分配给多台计算机(或多核)运算,让每台计算机(或每个核心)处理数据集的一个子集,然后再将各个计算机(或核心)的计算结果汇总求和。

猜你喜欢

转载自blog.csdn.net/u013058162/article/details/78472378