在pyspark中调用scala代码

情境说明

问题

我们这边是要使用Spark去并行一个自然语言处理的算法，其中使用到了LDA主题模型。由于使用的是天河二号，Spark版本是1.5.1，pyspark同样，所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口)，只能使用topicsMatrix的方法。
本来凑合用topicsMatrix也行，但我们发现，这一个用来获取主题模型的函数，居然比Lda的训练还要慢！无论在我们自己的集群还是在天河二号的分区上，都是这一个情况。观察topicsMatrix的源代码，好像也没有什么复杂操作，只是把数据汇总collect而已：

 
         @Since 
         ( 
         "1.3.0" 
         ) 
        
         override lazy val topicsMatrix: Matrix = { 
        
         // Collect row-major topics 
        
         val termTopicCounts: Array[(Int, TopicCounts)] = 
        
         graph.vertices.filter(_._1 <  
         0 
         ).map {  
         case 
         (termIndex, cnts) => 
        
         (index2term(termIndex), cnts)}.collect() 
        
         // Convert to Matrix 
        
         val brzTopics = BDM.zeros[Double](vocabSize, k) 
        
         termTopicCounts.foreach {  
         case 
         (term, cnts) => 
        
         var j =  
         0 
        
         while 
         (j < k) { 
        
         brzTopics(term, j) = cnts(j) 
        
         j +=  
         1 
        
         } 
        
         } 
        
         Matrices.fromBreeze(brzTopics) 
        
         }

由于并不是算法中有一些复杂运算导致较慢，我们自然不希望在程序中有这样的情况。发现到在Spark1.5.1中，mllib中LdaModel已经实现了describeTopics，只是未在Python中开放，我们自然希望尝试使用describeTopics看看效果。

describeTopics的源代码探索

已知LDA.train()返回的是LdaModel的实例，于是乎，参考上篇博客，用以下方式去调用：

1 2	`model = LDA.train(rdd_data, k=num_topics, maxIterations=` `20` `)` `topics = model.call(` `'describeTopics'` `, _py2java(sc,` `10` `))`

执行速度特别快，然而返回的结果却不尽如人意，仅返回了一个长度k的列表，每个元素是一个key为’class’，value为’scala.Tuple2’的单元素字典。从结果来看，scala的代码应该是被成功执行了，然而返回结果却出了问题。查看callJavaFunc的内容，可以判断出，是describeTopics的返回结果没有被_java2py函数正常的转换。
比对Spark1.5和Spark1.6的代码，LdaModel.describeTopics函数的内容是一致的，那么问题在哪儿呢？再去查看pyspark的LDA.train()调用的PythonMLLibAPI.trainLdaModel，发现在1.6中返回的不再是LdaModel而是它的子类LdaModelWrapper。查看这个类的方法，发现它重载了describeTopics来方便_java2py进行数据转换：

 
         private 
         [python]  
         class 
         LDAModelWrapper(model: LDAModel) { 
        
         def topicsMatrix(): Matrix = model.topicsMatrix 
        
         def vocabSize(): Int = model.vocabSize 
        
         def describeTopics(): Array[Byte] = describeTopics( 
         this 
         .model.vocabSize) 
        
         def describeTopics(maxTermsPerTopic: Int): Array[Byte] = { 
        
         val topics = model.describeTopics(maxTermsPerTopic).map {  
         case 
         (terms, termWeights) => 
        
         val jTerms = JavaConverters.seqAsJavaListConverter(terms).asJava 
        
         val jTermWeights = JavaConverters.seqAsJavaListConverter(termWeights).asJava 
        
         Array[Any](jTerms, jTermWeights) 
        
         } 
        
         SerDe.dumps(JavaConverters.seqAsJavaListConverter(topics).asJava) 
        
         } 
        
         def save(sc: SparkContext, path: String): Unit = model.save(sc, path) 
        
         }

找到这里，解决方法就油然而生了。只要我们把这一段scala代码在python中调用，并将describeTopics的Java对象传入，不就万事大吉了吗？