lucene分页

转载原创地址: 
http://qindongliang1922.iteye.com/blog/1931191 


散仙在上篇文章中,总结了几个Lucene的特殊的分词需求,以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们,那么本篇我们依旧是分析用户需求(哈哈,也不算是用户需求,群里面(324714439)朋友们提问的问题),然后找到最合适的解决方法。 

我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。 


在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法, 
其实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也是一样,既然有一个docid的存在,那么上面的需求就很简单了。
 

方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下 

Java代码   收藏代码
  1. try{  
  2.     directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹  
  3.     IndexReader  reader=DirectoryReader.open(directory);//读取目录  
  4.     IndexSearcher search=new IndexSearcher(reader);//初始化查询组件  
  5.     for(int i=0;i<reader.numDocs();i++){//numDocs可能很大  
  6.      Document doc=search.doc(i);//依次获取每个docid对应的Document  
  7.     //可以在此部,做个批量操作,加快写入速度  
  8.     }    
  9.       
  10.      reader.close();//关闭资源  
  11.      directory.close();//关闭连接  
  12.       
  13.     }catch(Exception e){  
  14.         e.printStackTrace();  
  15.     }  



Lucene的分页,总的来说有两种形式,散仙总结如下图表格。(如果存在不合适之处,欢迎指正!) 

编号 方式 优点 缺点
1 在ScoresDocs里进行分页 无需再次查询索引,速度很快 在海量数据时,会内存溢出
2 利用SearchAfter,再次查询分页 适合大批量数据的分页 再次查询,速度相对慢一点,但可以利用缓存弥补



从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。 

在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码: 

Java代码   收藏代码
  1. try{  
  2.     directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹  
  3.     IndexReader  reader=DirectoryReader.open(directory);//读取目录  
  4.     IndexSearcher search=new IndexSearcher(reader);//初始化查询组件  
  5.       
  6.   
  7.      TopDocs all=search.search(new MatchAllDocsQuery(), 50000);  
  8.      int offset=0;//起始位置  
  9.      int pageSize=30;//分页的条数  
  10.      int total=30;//结束条数  
  11.      int z=0;  
  12.      while(z<=50){//总分页数  
  13.      System.out.println("==============================");  
  14.      pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印  
  15.      offset=(z*pageSize+pageSize);//下一页的位置增量  
  16.      z++;//分页数+1;  
  17.        total=offset+pageSize;//下一次的结束分页量  
  18.      }  
  19.      reader.close();//关闭资源  
  20.      directory.close();//关闭连接  
  21.       
  22.     }catch(Exception e){  
  23.         e.printStackTrace();  
  24.     }  



Java代码   收藏代码
  1. public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{  
  2.         //System.out.println("offset:"+offset+"===>"+total);  
  3.         for(int i=offset;i<total;i++){  
  4.             //System.out.println("i"+i+"==>"+doc.length);  
  5.             if(i>doc.length-1){//当分页的长度数大于总数就停止  
  6.                   
  7.                 break;  
  8.             }else{  
  9.           
  10.                Document dosc=searcher.doc(doc[i].doc);  
  11.                System.out.println(dosc.get("name"));  
  12.              
  13.             }  
  14.         }  



最后我们来看下使用SearcherAfter进行分页的方式,代码如下: 

Java代码   收藏代码
  1. try{  
  2.     directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹  
  3.     IndexReader  reader=DirectoryReader.open(directory);//读取目录  
  4.     IndexSearcher search=new IndexSearcher(reader);//初始化查询组件  
  5.       
  6.      int pageStart=0;  
  7.      ScoreDoc lastBottom=null;//相当于pageSize  
  8.      while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作  
  9.          TopDocs paged=null;  
  10.          paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条  
  11.          if(paged.scoreDocs.length==0){  
  12.              break;//如果下一页的命中数为0的情况下,循环自动结束  
  13.          }  
  14.          page(search,paged);//分页操作,此步是传到方法里对数据做处理的  
  15.            
  16.          pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上  
  17.          lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom  
  18.      }  
  19.      reader.close();//关闭资源  
  20.      directory.close();//关闭连接  
  21.       
  22.     }catch(Exception e){  
  23.         e.printStackTrace();  
  24.     }  
  25.       



至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。

猜你喜欢

转载自summer85.iteye.com/blog/2013103