xgboost and xgboost4j

XGBoost

Scalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Flink and DataFlow

可扩展、移植、分布式的Gradient Boosting (GBDT, GBRT or GBM)库，适用于Python, R, Java, Scala, C++，可以运行在单机，hadoop，spark，flink和DataFlow上。

xgboost使用C++语言编写，也支持python，R语言的调用，现在已经支持了分布式版本，xgboost介绍参考： http://2hwp.com/2016/05/07/XGBoost%E6%B5%85%E5%85%A5%E6%B5%85%E5%87%BA/

论文：

XGBoost: A Scalable Tree Boosting System

github:

https://github.com/dmlc/xgboost

资料：

github： https://xgboost.readthedocs.io/en/latest/model.html

chentq的slides http://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf

chentq的paper http://arxiv.org/abs/1603.02754

chentq在52cs上的中文博文 http://www.52cs.org/?p=429

微博上分享的 xgboost导读和实战.pdf

xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？（ https://www.zhihu.com/question/41354392 ）

传统GBDT以CART作为基分类器，xgboost还支持线性分类器（支持自定义损失函数，可求导的凸函数），这个时候xgboost相当于带L1和L2正则化项的Logistic回归（分类问题）或者线性回归（回归问题）。
传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数,能够更快速的收敛。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）
列抽样（column subsampling）。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。
对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

安装

可以按照官方文档安装： https://xgboost.readthedocs.io/en/latest/python/python_intro.html

https://xgboost.readthedocs.io/en/latest/build.html

git clone --recursive https://github.com/dmlc/xgboostcd xgboost; make -j4

python-package: python setup.py install

最终的目标是为了构建共享库，在linux机器下是 libxgboost.so

也可以直接pip安装： pip install xgboost

安装出错，尝试指定低版本：　 pip install xgboost==0.4a30

说明:

make: Nothing to be done for `all' 解决方法

这句提示是说明你已经编译好了，而且没有对代码进行任何改动。

若想重新编译，可以先删除以前编译产生的目标文件：

make clean 或者是 make clean-all

然后再

make

python调用xgboost

参考： https://xgboost.readthedocs.io/en/latest/python/python_intro.html

xgboost实现的gbdt默认实现的可以解决二分类问题，解决 多分类问题需要设置参数：

“multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class（类别个数）
“multi:softprob” –和softmax一样，但是输出的是ndata * nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。每行数据表示样本所属于每个类别的概率。

sklearn调用xgboost

https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn (Documention-->packages-->python-->Scikit-Learn)

参数文档： https://github.com/dmlc/xgboost/blob/master/doc/parameter.md

XGBoost中用到了 Rabit，DMLC组陈天奇开发的Rabit框架是AllReduce模型的良好实现之一。

AllReduce：AllReduce本身就是MPI的原语，这其实是最显然和直接的分布式机器学习抽象，因为大部分算法的结构都是分布数据，在每个子集上面算出一些局部统计量，然后整合出全局统计量，并且再分配给各个节点去进行下一轮的迭代，这样一个过程就是AllReduce。AllReduce跟MapReduce有类似，但后者采用的是面向通用任务处理的多阶段执行任务的方式，而AllReduce则让一个程序在必要的时候占领一台机器，并且在所有迭代的时候一直跑到底，来防止重新分配资源的开销，这更加适合于机器学习的任务处理。AllReduce跟参数服务器都会是机器学习算法框架的重要抽象

XGBoost on yarn:

https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

中文写的比较好的文档： http://wenku.baidu.com/view/44778c9c312b3169a551a460.html?from=search

Yarn、MPI 和 Sungrid Engine 集群上启动 dmlc job 的脚本结构,tracker支持启动的 dmlc job 包括基于 rabit allreduce 和 parameter server 的程序。分布式 xgboost 启动的 dmlc job 是基于 rabit allreduce 的程序。

xgboost on yarn测试

cp make/config.mk ./

使用hdfs文件需要先修改配置并重新编译:

vim config.mk# whether use HDFS support during compileUSE_HDFS = 1HADOOP_HOME = /usr/lib/hadoop #如果环境变量里有就可以不用配置HDFS_LIB_PATH = $(HOME)/xgboost-packages/libhdfs

注意: xgboost/dmlc-core/make 中的 USE_HDFS = 1 也需要修改

#编译make -j4

cd xgboost/demo/distributed-training 直接使用dmlc-submit:

# Use dmlc-submit to submit the job. ../../dmlc-core/tracker/dmlc-submit --cluster=yarn --num-workers=2 --worker-cores=2\ ../../xgboost params.conf nthread=2\ data=hdfs:///tmp/test/sample_libsvm_data.txt\ eval[test]=hdfs:///tmp/test/sample_libsvm_data.txt\ model_dir=hdfs:///tmp/test/model

推荐使用执行如下脚本的方式提交:

cd /export/App/xgboost/demo/distributed-training

vim mushroom.aws.conf (可以命名为params.conf)

vim run_aws.sh #将aws的配置都改为yarn, 内容如下:

# path to input model, it's an optional argument, xgboost will continue training from the input model

model_in =hdfs:///tmp/test/modelYarn

#The path of training data

train_path =hdfs:///tmp/test/sample_libsvm_data.txt

# for evaluating statistics

eval_path =hdfs:///tmp/test/sample_libsvm_data.txt

# path to output model after training finishes, if not specified, will output like 0003.model where 0003 is number of rounds to do boosting

model_out_path =hdfs:///tmp/test/models

#guarantee model_out_path have authority to write

hadoop fs -chmod -R 777 hdfs:///tmp/test

#The output directory of the saved models during training

model_dir =hdfs:///tmp/test/xgboost/model_dir

# if exist delete model_out path, or an error occurred

hadoop fs -rm -r $model_out_path

../../ dmlc-core/tracker/dmlc-submit ../../xgboost \

--cluster=yarn \

--num-workers=2 \

--worker-cores=1 \

--worker-memory=4g \

params.conf nthread=2 \

data=$train_path \

eval[test]=$eval_path \

model_out=$model_out_path \

sh run_aws.sh

Traceback (most recent call last):

File "../../dmlc-core/tracker/dmlc-submit", line 9, in <module>

submit.main()

File "/export/App/xgboost/dmlc-core/tracker/dmlc_tracker/submit.py", line 46, in main

yarn.submit(args)

File "/export/App/xgboost/dmlc-core/tracker/dmlc_tracker/yarn.py", line 129, in submit

pscmd=(' '.join([YARN_BOOT_PY] + args.command)))

File "/export/App/xgboost/dmlc-core/tracker/dmlc_tracker/tracker.py", line 416, in submit

fun_submit(nworker, nserver, envs)

File "/export/App/xgboost/dmlc-core/tracker/dmlc_tracker/yarn.py", line 123, in yarn_submit_pass

submit_thread.append(yarn_submit(args, nworker, nserver, pass_env))

File "/export/App/xgboost/dmlc-core/tracker/dmlc_tracker/yarn.py", line 48, in yarn_submit

out = out.split('\n')[0].split()

TypeError: a bytes-like object is required, not 'str'

#错误可能是python3运行python2的代码引起的。

安装pyenv，解决上面问题。继续在yarn上运行,报container的错误:

16/10/18 17:26:16 INFO dmlc.ApplicationMaster: Task 1 failed on container_1473064938887_0384_01_000006. See LOG at : http://BDS-TEST-004:8042/node/containerlogs/container_1473064938887_0384_01_000006/hadoop

打开上面的连接,同样报下面的错误:

Traceback (most recent call last): File "./launcher.py", line 81, in <module> main() File "./launcher.py", line 55, in main for f in classpath.split(':'):TypeError: a bytes-like object is required, not 'str'

查看源码,尝试修改, vim dmlc-core/tracker/dmlc_tracker/launcher.py (python2 or python 3引起的问题?????)

for f in str(classpath). split ( ':' ): //加了str()

继续执行,报如下错:

[17:26:17] rabit/include/rabit/./internal/../../dmlc/././logging.h:245: [17:26:17] src/io.cc:37: Please compile with DMLC_USE_HDFS=1 to use hdfsterminate called after throwing an instance of 'dmlc::Error' what(): [17:26:17] src/io.cc:37: Please compile with DMLC_USE_HDFS=1 to use hdfs

重新编译xgboost需要重新make, xgboost目录下的build.sh可以直接修改config.mk( USE_HDFS=1 )后来进行编译.

make的时候中间/最后可能会报错:

src/io/hdfs_filesys.h:10:18: fatal error: hdfs.h: No such file or directory

g++: error: dmlc-core/libdmlc.a: No such file or directory

重新make后仍然报上面的错误,下面尝试使用localFileSystem的方式来运行,将hdfs文件路径都改为本地文件路径:

localFileSystem:

model_in=/home/hadoop/data/modelYarn

train_path=/home/hadoop/data/sample_libsvm_data.txt

eval_path=/home/hadoop/data/sample_libsvm_data.txt

model_out_path=/home/hadoop/data/models

model_dir=/home/hadoop/data/model_dir

hadoop fs -rm -r $model_out_path

../../dmlc-core/tracker/dmlc-submit ../../xgboost \

--cluster=yarn \

--num-workers=2 \

--worker-cores=1 \

--worker-memory=4g \

params.conf nthread=2 \

data=$train_path \

eval[test]=$eval_path \

model_out=$model_out_path \

说明:

1,如果使用hadoop用户,那么目录不能是/tmp一类的没有权限的目录, 要确保hadoop用户能访问.

2,hadoop集群中所有的节点都要在相同路径下有配置的路径以及文件,同时注意都要有权限.

3,生成的模型保存在集群哪台机器上不确定.

调用顺序: dmlc-submit.py --> submit.py: main --> tracker.py: submit

配置idea单步调试：add python:

script: /home/zhangwj/Applications/xgboost/dmlc-core/tracker/dmlc-submit

script parameter:--cluster=yarn --num-workers=2 --worker-cores=2 ../../xgboost mushroom.aws.conf nthread=2 data=hdfs:///tmp/test/sample_libsvm_data.txt eval[test]=hdfs:///tmp/test/sample_libsvm_data.txt model_dir=hdfs:///tmp/test/modelYarn

XGBoost4J:

Distributed XGBoost for Scala/Java (XFBoost 4 JVM environment)，目前看来还比较小众，文档不够多，网上xgboost4j的资料也很少，社区不够活跃。

Portable Distributed XGBoost in Spark, Flink and Dataflow:

http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html

Scala和Spark等分布式的包在jvm-packages下。

安装： http://xgboost.readthedocs.io/en/latest/jvm/

目前安装仅支持从源码安装:

$ git clone --recursive https://github.com/dmlc/xgboost

$ cd xgboost/jvm-packages

$ mvn package

安装scala/java的jvm版xgboost:

$ cd jvm-packages/xgboost4j

$ mvn install:install-file -Dfile=target/xgboost4j-0.7.jar -DgroupId=ml.dmlc -DartifactId=xgboost4j -Dversion=0.7 -Dpackaging=jar

安装spark版的xgboost:

$ cd jvm-packages/xgboost4j-spark

$ mvn install:install-file -Dfile=target/xgboost4j-spark-0.7.jar -DgroupId=ml.dmlc -DartifactId=xgboost4j-spark -Dversion=0.7 -Dpackaging=jar

Maven pom.xml file:

< dependency >

< groupId >ml.dmlc</ groupId >

< artifactId >xgboost4j-spark</ artifactId >

< version >0.7</ version >

</ dependency >

Spark code，参考 https://github.com/dmlc/xgboost/tree/master/jvm-packages，分别有RDD版本和DataFrame版本:

import ml.dmlc.xgboost4j.scala.spark.XGBoost

IDEA测试代码：

scala的demo是可以跑通的，下面主要测试运行在spark上：

import ml.dmlc.xgboost4j.java.Booster

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.mllib.util.MLUtils

import ml.dmlc.xgboost4j.scala.spark.XGBoost

object SparkWithRDD {

def main(args: Array[String]): Unit = {

// if you do not want to use KryoSerializer in Spark, you can ignore the related configuration

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("XGBoost-spark-example")

.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

sparkConf.registerKryoClasses(Array(classOf[Booster]))

val sc = new SparkContext(sparkConf)

val inputTrainPath = "test/src/main/resources/sample_libsvm_data.txt"

val outputModelPath = "test/src/main/target/xgboost4j/spark"

// number of iterations

val numRound = 100

val trainRDD = MLUtils.loadLibSVMFile(sc, inputTrainPath)

// training parameters

val paramMap = List(

"eta" -> 0.1f,

"max_depth" -> 2,

"nthread"->1,

"objective" -> "binary:logistic").toMap

// use 5 distributed workers to train the model

// useExternalMemory indicates whether

val model = XGBoost.train(trainRDD, paramMap, numRound, nWorkers = 5, useExternalMemory = true)

// save model to HDFS path

// model.saveModelToHadoop(outputModelPath)

}

运行上面程序到 train的时候，会blocked，相关问题： https://github.com/dmlc/xgboost/issues/1287 （已找到原因）

xgboost4j spark on yarn

将以下lib加入到spark.env.sh中：

xgboost: /home/zhangwj/Applications/xgboost/lib/libxgboost.so

rabit: /home/zhangwj/Applications/xgboost/rabit/lib/*.so

spark-shell

./bin/spark-shell --master yarn-client --num-executors 16 --driver-memory 4g --executor-cores 2 --executor-memory 10g --jars /export/App/xgboost/jvm-packages/xgboost4j-spark/target/xgboost4j-spark-0.7.jar,/export/App/xgboost/jvm-packages/xgboost4j/target/xgboost4j-0.7.jar

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.mllib.util.MLUtils

import ml.dmlc.xgboost4j.java.Booster

import ml.dmlc.xgboost4j.scala.spark.XGBoost

val inputTrainPath = "hdfs:///tmp/test/sample_libsvm_data.txt"

// number of iterations

val numRound = 100

val trainRDD = MLUtils.loadLibSVMFile(sc, inputTrainPath)

// training parameters

val paramMap = List(

"eta" -> 0.1f,

"max_depth" -> 2,

"nthread"->1, //没有这个参数会报错

"objective" -> "binary:logistic").toMap

// use 5 distributed workers to train the model

// useExternalMemory indicates whether

val model = XGBoost.trainWithRDD(trainRDD, paramMap, numRound, nWorkers =2, useExternalMemory = true)

model.saveModelAsHadoopFile("hdfs:///tmp/test/xgModel")(sc)

这种方式还是blocked在train的mapPartitions，详细问题参考 https://github.com/dmlc/xgboost/issues/1287中的提问（已找到原因）。

GLIB的问题解决后，如果spark-shell启动时参数设置不对，运行时仍存在问题：

16/09/23 20:21:37 ERROR executor.Executor: Exception in task 0.0 in stage 1.0 (TID 1)

java.lang.NoSuchMethodError: scala.Predef$.$conforms()Lscala/Predef$$less$colon$less;

at ml.dmlc.xgboost4j.scala.spark.XGBoost$$anonfun$buildDistributedBoosters$1.apply(XGBoost.scala:104)

at ml.dmlc.xgboost4j.scala.spark.XGBoost$$anonfun$buildDistributedBoosters$1.apply(XGBoost.scala:86)

at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$20.apply(RDD.scala:710)

at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.CacheManager.getOrCompute(CacheManager.scala:69)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:268)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:227)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

遇到上面的问题，可以先改下--num-executors 16

spark-submit XGBoost下example的方式（也没有成功）。

spark-submit.sh :

#!/bin/bash

TRAIN_PATH=hdfs:///tmp/test/sample_libsvm_data.txt

TEST_PATH=hdfs:///tmp/test/sample_libsvm_data.txt

OUTPUT_PATH=hdfs:///tmp/test/model

numRound=100

nWorks=2

JARPATH=/export/App/xgboost/jvm-packages/xgboost4j-example/target

#hadoop fs -rm -r $OUTPUT_PATH

/export/App/spark-1.6.0-bin-hadoop2.6.1/bin/spark-submit --class ml.dmlc.xgboost4j.scala.example.spark.SparkWithRDD --master yarn-client --num-executors 16 --driver-memory 4g --executor-cores 2 --executor-memory 10g $JARPATH/xgboost4j-example-0.7-jar-with-dependencies.jar $numRound $nWorks $TRAIN_PATH $TEST_PATH $OUTPUT_PATH

前期需要将测试数据 sample_libsvm_data.txt，xgboost4j-example-0.7-jar-with-dependencies.jar准备好，并：

hdfs dfs -put sample_libsvm_data.txt /tmp/test/

报错：java.lang.NoClassDefFoundError: Could not initialize class ml.dmlc.xgboost4j.java.Rabit

16/09/22 21:18:16.339 WARN TaskSetManager: Lost task 3.0 in stage 4.0 (TID 11, BDS-TEST-004): java.lang.UnsatisfiedLinkError: /export/tmp/hadoop-tmp/nm-local-dir/usercache/root/appcache/application_1473064938887_0277/container_1473064938887_0277_01_000003/tmp/libxgboost4j2443518406039170105. so: /lib64/libc.so.6: version `GLIBC_2.15' not found (required by /export/tmp/hadoop-tmp/nm-local-dir/usercache/root/appcache/application_1473064938887_0277/container_1473064938887_0277_01_000003/tmp/libxgboost4j2443518406039170105.so)

at java.lang.ClassLoader$NativeLibrary.load(Native Method)

at java.lang.ClassLoader.loadLibrary0(ClassLoader.java:1938)

at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1821)

at java.lang.Runtime.load0(Runtime.java:809)

at java.lang.System.load(System.java:1086)

at ml.dmlc.xgboost4j.java.NativeLibLoader.loadLibraryFromJar(NativeLibLoader.java:67)

at ml.dmlc.xgboost4j.java.NativeLibLoader.smartLoad(NativeLibLoader.java:153)

at ml.dmlc.xgboost4j.java.NativeLibLoader.initXGBoost(NativeLibLoader.java:41)

at ml.dmlc.xgboost4j.java.Rabit.(Rabit.java:18)

at ml.dmlc.xgboost4j.scala.spark.XGBoost$$anonfun$buildDistributedBoosters$1.apply(XGBoost.scala:88)

at ml.dmlc.xgboost4j.scala.spark.XGBoost$$anonfun$buildDistributedBoosters$1.apply(XGBoost.scala:86)

at org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$23.apply(RDD.scala:766)

at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)

at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:332)

at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:330)

at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:919)

at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:910)

at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:866)

at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:910)

at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:668)

at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:330)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:281)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)

at org.apache.spark.scheduler.Task.run(Task.scala:85)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

经过检查， Rabit的原因是编译的时候使用的libc和运行时使用的libc不一样，spark-submit的jar包是在本地编译生成上传到集群中的，两个环境的版本不一样。解决的办法有2种：

（1）将服务器的libc版本改为2.15，这种经过尝试风险比较大，随便修改 /lib64/libc.so.6文件会导致系统挂掉。

（2）在运行的主机上mvn编译jar。

最终发现blocked问题：

参数nWorker设置的问题，默认情况下是32，或者一个大于等于5的值。而nWorker的说明如下：

the number of xgboost workers, 0 by default which means that the number of workers equals to the partition number of trainingData RDD

从train中可以看到，nWorker首先要大于0，其次是看是不是等于partition的个数，如果不是就repartition：

if (numWorkers != trainingData.partitions.length) {

logger .info( s"repartitioning training set to $numWorkers partitions" )

trainingData.repartition(numWorkers)

} else {

trainingData

}

在设置 nWorker的时候，数值要小于executors的数量。

问题总结 ：

（1）xgboost4j 卡在mapPartition 的时候，会blocked（并行度如果大于申请的executors数量，未处理）。

（2）xgboost4j 加载数据，首先通过spark加载到rdd，然后c++ 的核心又会从rdd里复制一份数据，用作计算，也就是数据会重复两份.

scala 调用java的jni 来调用c++

（3）运行在yarn上，需要在集群中编译xgboost-spark jar，否则会出现version `GLIBC_2.×' not found的错误。

猜你喜欢