流可以用类似于数据库的操作帮助你处理集合。你可以把Java 8
的流看作花哨又懒惰的数据集迭代器。它们支持两种类型的操作:中间操作(如filter
或map
)和终端操作(如count
、findFirst
、forEach
和reduce
)。中间操作可以链接起来,将一个流转换为另一个流。这些操作不会消耗流,其目的是建立一个流水线。与此相反,终端操作会消耗流,以产生一个最终结果,例如返回流中的最大元素。它们通常可以通过优化流水线来缩短计算时间。
之前用过collect
终端操作,当时主要是用来把Stream
中所有的元素结合成一个List
。接下来,你会发现collect
是一个归约操作,就像reduce
一样可以接受各种做法作为参数,将流中的元素累积成一个汇总结果。具体的做法是通过定义新的Collector
接口来定义的,因此区分Collection
、Collector
和collect
是很重要的。
下面是一些查询的例子,看看你用collect
和收集器能够做什么。
- 对一个交易列表按货币分组,获得该货币的所有交易额总和(返回一个
Map<Currency,Integer>
)。 - 将交易列表分成两组:贵的和不贵的(返回一个
Map<Boolean,List<Transaction>>
)。 - 创建多级分组,比如按城市对交易分组,然后进一步按照贵或不贵分组(返回一个
Map<Boolean,List<Transaction>>
)。
先来看一个利用收集器的例子。想象一下,你有一个由Transaction
构成的List
,并且想按照名义货币进行分组。在没有Lambda
的Java
里,哪怕像这种简单的用例实现起来都很啰嗦,就像下面这样:
Map<Currency,List<Transaction>> transactionsByCurrencies=new HashMap<>(); //建立累积交易分组的Map
for(Transaction transaction:transactions){ //迭代Transaction的List
Currency currency=transaction.getCurrency(); //提取Transaction的货币
List<Transaction> transactionsForCurrency=transactionsByCurrencies.get(currency);
if(transactionsForCurrency==null){ //如果分组Map中没有这种货币的条目,就创建一个
transactionsForCurrency=newArrayList<>();
transactionsByCurrencies.put(currency,transactionsForCurrency);
}
transactionsForCurrency.add(transaction); //将当前遍历的Transaction加入同一货币的Transaction的List
}
用Stream
中collect
方法的一个更通用的Collector
参数,你就可以用一句话实现完全相同的结果,而用不着使用之前那个toList
的特殊情况了:
Map<Currency,List<Transaction>> transactionsByCurrencies
=transactions.stream().collect(groupingBy(Transaction:: getCurrency));
收集器简介
上面的例子清楚地展示了函数式编程相对于指令式编程的一个主要优势:你只需指出希望的结果——“做什么”,而不用操心执行的步骤——“如何做”。在该例子里,传递给collect
方法的参数是Collector
接口的一个实现,也就是给Stream
中元素做汇总的方法。前面的toList
只是说“按顺序给每个元素生成一个列表”;在本例中,groupingBy
说的是“生成一个Map
,它的键是(货币)桶,值则是桶中那些元素的列表”。
要是做多级分组,指令式和函数式之间的区别就会更加明显:由于需要好多层嵌套循环和条件,指令式代码很快就变得更难阅读、更难维护、更难修改。相比之下,函数式版本只要再加上一个收集器就可以轻松地增强功能了。
收集器用作高级归约
刚刚的结论又引出了优秀的函数式API
设计的另一个好处:更易复合和重用。收集器非常有用,因为用它可以简洁而灵活地定义collect
用来生成结果集合的标准。更具体地说,对流调用collect
方法将对流中的元素触发一个归约操作(由Collector
来参数化)。下图所示的归约操作所做的工作和最上面的指令式代码一样。它遍历流中的每个元素,并让Collector
进行处理。
一般来说,Collector
会对元素应用一个转换函数(很多时候是不体现任何效果的恒等转换,例如toList
),并将结果累积在一个数据结构中,从而产生这一过程的最终输出。例如,在前面所示的交易分组的例子中,转换函数提取了每笔交易的货币,随后使用货币作为键,将交易本身累积在生成的Map
中。
如货币的例子中所示,Collector
接口中方法的实现决定了如何对流执行归约操作。Collectors
实用类提供了很多静态工厂方法,可以方便地创建常见收集器的实例,只要拿来用就可以了。最直接和最常用的收集器是toList
静态方法,它会把流中所有的元素收集到一个List
中:
List<Transaction> transactions=transactionStream.collect(Collectors.toList());
预定义收集器
预定义收集器,也就是那些可以从Collectors
类提供的工厂方法(例如groupingBy
)创建的收集器。它们主要提供了三大功能:
- 将流元素归约和汇总为一个值
- 元素分组
- 元素分区
归约和汇总
在需要将流项目重组成集合时,一般会使用收集器(Stream
方法collect
的参数)。再宽泛一点来说,但凡要把流中所有的项目合并成一个结果时就可以用。这个结果可以是任何类型,可以复杂如代表一棵树的多级映射,或是简单如一个整数——也许代表了菜单的热量总和。
先来举一个简单的例子,利用counting
工厂方法返回的收集器,数一数菜单里有多少种菜:
long howManyDishes=menu.stream().collect(Collectors.counting());
这还可以写得更为直接:
long howManyDishes=menu.stream().count();
counting
收集器在和其他收集器联合使用的时候特别有用。
在接下来的部分,我们假定你已导入了Collectors
类的所有静态工厂方法:
import static java.util.stream.Collectors.*;
这样你就可以写counting()
而用不着写Collectors.counting()
之类的了。
查找流中的最大值和最小值
让我们来继续探讨简单的预定义收集器,看看如何找到流中的最大值和最小值。
假设你想要找出菜单中热量最高的菜。你可以使用两个收集器,Collectors.maxBy
和Collectors.minBy
,来计算流中的最大或最小值。这两个收集器接收一个Comparator
参数来比较流中的元素。你可以创建一个Comparator
来根据所含热量对菜肴进行比较,并把它传递给Collectors.maxBy
:
Comparator<Dish> dishCaloriesComparator
=Comparator.comparingInt(Dish:: getCalories);
Optional<Dish> mostCalorieDish
=menu.stream()
.collect(maxBy(dishCaloriesComparator));
Java 8
引入了Optional
,它是一个容器,可以包含也可以不包含值。Optional<Dish>
完美地代表了可能返回也可能不返回菜肴的情况。
汇总
另一个常见的返回单个值的归约操作是对流中对象的一个数值字段求和。或者你可能想要求平均数。这种操作被称为汇总操作。让我们来看看如何使用收集器来表达汇总操作。
Collectors
类专门为汇总提供了一个工厂方法:Collectors.summingInt
。它可接受一个把对象映射为求和所需int
的函数,并返回一个收集器;该收集器在传递给普通的collect
方法后即执行我们需要的汇总操作。举个例子来说,你可以这样求出菜单列表的总热量:
int totalCalories=menu.stream().collect(summingInt(Dish:: getCalories));
这里的收集过程如下图所示。在遍历流时,会把每一道菜都映射为其热量,然后把这个数字累加到一个累加器(这里的初始值0
)。
Collectors.summingLong
和Collectors.summingDouble
方法的作用完全一样,可以用于求和字段为long
或double
的情况。
但汇总不仅仅是求和;还有Collectors.averagingInt
,连同对应的averagingLong
和averagingDouble
可以计算数值的平均数:
double avgCalories=menu.stream().collect(averagingInt(Dish:: getCalories));
到目前为止,你已经看到了如何使用收集器来给流中的元素计数,找到这些元素数值属性的最大值和最小值,以及计算其总和和平均值。不过很多时候,你可能想要得到两个或更多这样的结果,而且你希望只需一次操作就可以完成。在这种情况下,你可以使用summarizingInt
工厂方法返回的收集器。例如,通过一次summarizing
操作你可以就数出菜单中元素的个数,并得到菜肴热量总和、平均值、最大值和最小值:
IntSummaryStatistics menuStatistics
=menu.stream().collect(summarizingInt(Dish:: getCalories));
这个收集器会把所有这些信息收集到一个叫作IntSummaryStatistics
的类里,它提供了方便的取值(getter
)方法来访问结果。打印menuStatisticobject
会得到以下输出:
IntSummaryStatistics{count=9,sum=4300,min=120,average=477.777778,max=800}
同样,相应的summarizingLong
和summarizingDouble
工厂方法有相关的LongSummaryStatistics
和DoubleSummaryStatistics
类型,适用于收集的属性是原始类型long
或double
的情况。
连接字符串
joining
工厂方法返回的收集器会把对流中每一个对象应用toString
方法得到的所有字符串连接成一个字符串。这意味着你把菜单中所有菜肴的名称连接起来,如下所示:
String shortMenu=menu.stream().map(Dish:: getName).collect(joining());
请注意,joining
在内部使用了StringBuilder
来把生成的字符串逐个追加起来。此外还要注意,如果Dish
类有一个toString
方法来返回菜肴的名称,那你无需用提取每一道菜名称的函数来对原流做映射就能够得到相同的结果:
String shortMenu=menu.stream().collect(joining());
二者均可产生以下字符串:
porkbeefchickenfrenchfriesriceseasonfruitpizzaprawnssalmon
但该字符串的可读性并不好。幸好,joining
工厂方法有一个重载版本可以接受元素之间的分界符,这样你就可以得到一个逗号分隔的菜肴名称列表:
String shortMenu=menu.stream().map(Dish:: getName).collect(joining(", "));
正如我们预期的那样,它会生成:
pork, beef, chicken, french fries, rice, season fruit, pizza, prawns, salmon
广义的归约汇总
事实上,我们已经讨论的所有收集器,都是一个可以用reducing
工厂方法定义的归约过程的特殊情况而已。
Collectors.reducing
工厂方法是所有这些特殊情况的一般化。可以说,先前讨论的案例仅仅是为了方便程序员而已。例如,可以用reducing
方法创建的收集器来计算你菜单的总热量,如下所示:
int totalCalories=menu.stream().collect(reducing(
0,Dish:: getCalories,(i,j) -> i+j));
它需要三个参数。
- 第一个参数是归约操作的起始值,也是流中没有元素时的返回值,所以很显然对于数值和而言
0
是一个合适的值。 - 第二个参数就是你在前面“汇总”部分中使用的函数,将菜肴转换成一个表示其所含热量的
int
。 - 第三个参数是一个
BinaryOperator
,将两个项目累积成一个同类型的值。这里它就是对两个int
求和。
同样,你可以使用下面这样单参数形式的reducing
来找到热量最高的菜,如下所示:
Optional<Dish> mostCalorieDish
=menu.stream().collect(reducing(
(d1,d2) -> d1.getCalories() > d2.getCalories() ? d1 : d2));
你可以把单参数reducing
工厂方法创建的收集器看作三参数方法的特殊情况,它把流中的第一个项目作为起点,把恒等函数(即一个函数仅仅是返回其输入参数)作为一个转换函数。这也意味着,要是把单参数reducing
收集器传递给空流的collect
方法,收集器就没有起点;它将因此而返回一个Optional<Dish>
对象。
Stream
接口的collect
和reduce
方法有何不同?因为两种方法通常会获得相同的结果。例如,你可以像下面这样使用reduce
方法来实现toListCollector
所做的工作:
Stream<Integer> stream=Arrays.asList(1,2,3,4,5,6).stream();
List<Integer> numbers=stream.reduce(
new ArrayList<Integer>(),
(List<Integer> l,Integer e) -> {
l.add(e);
return l;
},
(List<Integer> l1,List<Integer> l2) -> {
l1.addAll(l2);
return l1;
}
);
这个解决方案有两个问题:一个语义问题和一个实际问题。语义问题在于,reduce
方法旨在把两个值结合起来生成一个新值,它是一个不可变的归约。与此相反,collect
方法的设计就是要改变容器,从而累积要输出的结果。这意味着,上面的代码片段是在滥用reduce
方法,因为它在原地改变了作为累加器的List
。以错误的语义使用reduce
方法还会造成一个实际问题:这个归约过程不能并行工作,因为由多个线程并发修改同一个数据结构可能会破坏List
本身。在这种情况下,如果你想要线程安全,就需要每次分配一个新的List
,而对象分配又会影响性能。这就是collect
方法特别适合表达可变容器上的归约的原因,更关键的是它适合并行操作。
-
收集框架的灵活性:以不同的方法执行同样的操作
你还可以进一步简化前面使用
reducing
收集器的求和例子——引用Integer
类的sum
方法,而不用去写一个表达同一操作的Lambda
表达式。这会得到以下程序:int totalCalories=menu.stream().collect(reducing(0, //初始值 Dish:: getCalories, //转换函数 Integer:: sum)); //累积函数
从逻辑上说,归约操作的工作原理如下图所示:利用累积函数,把一个初始化为起始值的累加器,和把转换函数应用到流中每个元素上得到的结果不断迭代合并起来。
在现实中,我们之前提到的
counting
收集器也是类似地利用三参数reducing
工厂方法实现的。它把流中的每个元素都转换成一个值为1
的Long
型对象,然后再把它们相加:public static <T> Collector<T, ?, Long> counting(){ return reducing(0L, e -> 1L, Long:: sum); }
在这段代码片段中的
?
通配符,它用作counting
工厂方法返回的收集器签名中的第二个泛型类型。在这里,它仅仅意味着收集器的累加器类型未知,换句话说,累加器本身可以是任何类型。我们在这里原封不动地写出了Collectors
类中原始定义的方法签名,但在接下来的部分我们将避免使用任何通配符表示法,以使讨论尽可能简单。还有另一种方法不使用收集器也能执行相同操作——将菜肴流映射为每一道菜的热量,然后用前一个版本中使用的方法引用来归约得到的流:
int totalCalories =menu.stream().map(Dish:: getCalories).reduce(Integer:: sum).get();
请注意,就像流的任何单参数
reduce
操作一样,reduce(Integer::sum)
返回的不是int
而是Optional<Integer>
,以便在空流的情况下安全地执行归约操作。然后你只需用Optional
对象中的get
方法来提取里面的值就行了。请注意,在这种情况下使用get
方法是安全的,只是因为你已经确定菜肴流不为空。一般来说,使用允许提供默认值的方法,如
orElse
或orElseGet
来解开Optional
中包含的值更为安全。最后,更简洁的方法是把流映射到一个
IntStream
,然后调用sum
方法,你也可以得到相同的结果:int totalCalories=menu.stream().mapToInt(Dish:: getCalories).sum();
-
根据情况选择最佳解决方案
这再次说明了,函数式编程(特别是
Java 8
的Collections
框架中加入的基于函数式风格原理设计的新API
)通常提供了多种方法来执行同一个操作。这个例子还说明,收集器在某种程度上比
Stream
接口上直接提供的方法用起来更复杂,但好处在于它们能提供更高水平的抽象和概括,也更容易重用和自定义。建议是尽可能为手头的问题探索不同的解决方案,但在通用的方案里面,始终选择最专门化的一个。无论是从可读性还是性能上看,这一般都是最好的决定。例如,要计菜单的总热量,我们更倾向于最后一个解决方案(使用
IntStream
),因为它最简明,也很可能最易读。同时,它也是性能最好的一个,因为IntStream
可以让我们避免自动拆箱操作,也就是从Integer
到int
的隐式转换,它在这里毫无用处。
分组
一个常见的数据库操作是根据一个或多个属性对集合中的项目进行分组。就像前面讲到按货币对交易进行分组的例子一样,如果用指令式风格来实现的话,这个操作可能会很麻烦、啰嗦而且容易出错。但是,如果用Java 8
所推崇的函数式风格来重写的话,就很容易转化为一个非常容易看懂的语句。我们来看看这个功能的第二个例子:假设你要把菜单中的菜按照类型进行分类,有肉的放一组,有鱼的放一组,其他的都放另一组。用Collectors.groupingBy
工厂方法返回的收集器就可以轻松地完成这项任务,如下所示:
Map<Dish.Type, List<Dish>> dishesByType
=menu.stream().collect(groupingBy(Dish:: getType));
其结果是下面的Map
:
{
FISH=[prawns,salmon],
OTHER=[frenchfries,rice,seasonfruit,pizza],
MEAT=[pork,beef,chicken]
}
这里,你给groupingBy
方法传递了一个Function
(以方法引用的形式),它提取了流中每一道Dish
的Dish.Type
。我们把这个Function
叫作分类函数,因为它用来把流中的元素分成不同的组。如下图所示,分组操作的结果是一个Map
,把分组函数返回的值作为映射的键,把流中所有具有这个分类值的项目的列表作为对应的映射值。在菜单分类的例子中,键就是菜的类型,值就是包含所有对应类型的菜肴的列表。
但是,分类函数不一定像方法引用那样可用,因为你想用以分类的条件可能比简单的属性访问器要复杂。例如,你可能想把热量不到400
卡路里的菜划分为“低热量”(diet
),热量400
到700
卡路里的菜划为“普通”(normal
),高于700
卡路里的划为“高热量”(fat
)。由于Dish
类的作者没有把这个操作写成一个方法,你无法使用方法引用,但你可以把这个逻辑写成Lambda
表达式:
public enum CaloricLevel{DIET,NORMAL,FAT}
Map<CaloricLevel,List<Dish>> dishesByCaloricLevel
=menu.stream().collect(
groupingBy(dish -> {
if(dish.getCalories() <= 400)
return CaloricLevel.DIET;
else if(dish.getCalories() <= 700)
return CaloricLevel.NORMAL;
else
return CaloricLevel.FAT;
})
);
现在,你已经看到了如何对菜单中的菜肴按照类型和热量进行分组,但要是想同时按照这两个标准分类怎么办呢?分组的强大之处就在于它可以有效地组合。让我们来看看怎么做。
多级分组
要实现多级分组,我们可以使用一个由双参数版本的Collectors.groupingBy
工厂方法创建的收集器,它除了普通的分类函数之外,还可以接受collector
类型的第二个参数。那么要进行二级分组的话,我们可以把一个内层groupingBy
传递给外层groupingBy
,并定义一个为流中项目分类的二级标准,如下列代码所示。
Map<Dish.Type, Map<CaloricLevel, List<Dish>>> dishesByTypeCaloricLevel
=menu.stream().collect(
groupingBy(Dish:: getType, //一级分类函数
groupingBy(dish -> { //二级分类函数
if(dish.getCalories() <= 400)
return CaloricLevel.DIET;
else if(dish.getCalories() <= 700)
return CaloricLevel.NORMAL;
else return CaloricLevel.FAT;
})
));
这个二级分组的结果就是像下面这样的两级Map
:
{
MEAT={DIET=[chicken],NORMAL=[beef],FAT=[pork]},
FISH={DIET=[prawns],NORMAL=[salmon]},
OTHER={DIET=[rice,seasonalfruit],NORMAL=[frenchfries,pizza]}
}
这里的外层Map
的键就是第一级分类函数生成的值:“fish,meat,other
”,而这个Map
的值又是一个Map
,键是二级分类函数生成的值:“normal,diet,fat
”。最后,第二级map
的值是流中元素构成的List
,是分别应用第一级和第二级分类函数所得到的对应第一级和第二级键的值:“salmon
、pizza
…
”这种多级分组操作可以扩展至任意层级,n
级分组就会得到一个代表n
级树形结构的n
级Map
。
下图显示了为什么结构相当于n
维表格,并强调了分组操作的分类目的。
按子组收集数据
在上面,我们看到可以把第二个groupingBy
收集器传递给外层收集器来实现多级分组。但进一步说,传递给第一个groupingBy
的第二个收集器可以是任何类型,而不一定是另一个groupingBy
。例如,要数一数菜单中每类菜有多少个,可以传递counting
收集器作为groupingBy
收集器的第二个参数:
Map<Dish.Type,Long> typesCount=menu.stream().collect(
groupingBy(Dish:: getType,counting()));
其结果是下面的Map
:
{MEAT=3,FISH=2,OTHER=4}
还要注意,普通的单参数groupingBy(f)
(其中f
是分类函数)实际上是groupingBy(f,toList())
的简便写法。
再举一个例子,你可以把前面用于查找菜单中热量最高的菜肴的收集器改一改,按照菜的类型分类:
Map<Dish.Type,Optional<Dish>> mostCaloricByType
=menu.stream()
.collect(groupingBy(Dish:: getType,
maxBy(comparingInt(Dish:: getCalories))));
这个分组的结果显然是一个map
,以Dish
的类型作为键,以包装了该类型中热量最高的Dish
的Optional<Dish>
作为值:
{
FISH=Optional[salmon],
OTHER=Optional[pizza],
MEAT=Optional[pork]
}
注意:这个Map
中的值是Optional
,因为这是maxBy
工厂方法生成的收集器的类型,但实际上,如果菜单中没有某一类型的Dish
,这个类型就不会对应一个Optional.empty()
值,而且根本不会出现在Map
的键中。groupingBy
收集器只有在应用分组条件后,第一次在流中找到某个键对应的元素时才会把键加入分组Map
中。这意味着Optional
包装器在这里不是很有用,因为它不会仅仅因为它是归约收集器的返回类型而表达一个最终可能不存在却意外存在的值。
-
把收集器的结果转换为另一种类型
因为分组操作的
Map
结果中的每个值上包装的Optional
没什么用,所以你可能想要把它们去掉。要做到这一点,或者更一般地来说,把收集器返回的结果转换为另一种类型,你可以使用Collectors.collectingAndThen
工厂方法返回的收集器,如下所示,查找每个子组中热量最高的Dish
:Map<Dish.Type,Dish> mostCaloricByType =menu.stream() .collect(groupingBy(Dish:: getType, //分类函数 collectingAndThen( maxBy(comparingInt(Dish:: getCalories)), //包装后的收集器 Optional::get))); //转换函数
这个工厂方法接受两个参数——要转换的收集器以及转换函数,并返回另一个收集器。这个收集器相当于旧收集器的一个包装,
collect
操作的最后一步就是将返回值用转换函数做一个映射。在这里,被包起来的收集器就是用maxBy
建立的那个,而转换函数Optional:: get
则把返回的Optional
中的值提取出来。前面已经说过,这个操作放在这里是安全的,因为reducing
收集器永远都不会返回Optional.empty()
。其结果是下面的Map
:{FISH=salmon,OTHER=pizza,MEAT=pork}
把好几个收集器嵌套起来很常见,它们之间到底发生了什么可能不那么明显。下图可以直观地展示它们是怎么工作的。
从最外层开始逐层向里,注意以下几点。- 收集器用虚线表示,因此
groupingBy
是最外层,根据菜肴的类型把菜单流分组,得到三个子流。 groupingBy
收集器包裹着collectingAndThen
收集器,因此分组操作得到的每个子流都用这第二个收集器做进一步归约。collectingAndThen
收集器又包裹着第三个收集器maxBy
。- 随后由归约收集器进行子流的归约操作,然后包含它的
collectingAndThen
收集器会对其结果应用Optional:get
转换函数。 - 对三个子流分别执行这一过程并转换而得到的三个值,也就是各个类型中热量最高的
Dish
,将成为groupingBy
收集器返回的Map
中与各个分类键(Dish
的类型)相关联的值。
- 收集器用虚线表示,因此
-
与
groupingBy
联合使用的其他收集器的例子一般来说,通过
groupingBy
工厂方法的第二个参数传递的收集器将会对分到同一组中的所有流元素执行进一步归约操作。例如,你还重用求出所有菜肴热量总和的收集器,不过这次是对每一组Dish
求和:Map<Dish.Type,Integer> totalCaloriesByType =menu.stream().collect(groupingBy(Dish:: getType, summingInt(Dish:: getCalories)));
然而常常和
groupingBy
联合使用的另一个收集器是mapping
方法生成的。这个方法接受两个参数:一个函数对流中的元素做变换,另一个则将变换的结果对象收集起来。其目的是在累加之前对每个输入元素应用一个映射函数,这样就可以让接受特定类型元素的收集器适应不同类型的对象。我们来看一个使用这个收集器的实际例子。比方说你想要知道,对于每种类型的Dish
,菜单中都有哪些CaloricLevel
。我们可以把groupingBy
和mapping
收集器结合起来,如下所示:Map<Dish.Type, Set<CaloricLevel>> caloricLevelsByType =menu.stream().collect( groupingBy(Dish:: getType, mapping( dish -> { if(dish.getCalories() <= 400) return CaloricLevel.DIET; else if(dish.getCalories() <= 700) return CaloricLevel.NORMAL; else return CaloricLevel.FAT; } ,toSet() )));
这里,就像我们前面见到过的,传递给映射方法的转换函数将
Dish
映射成了它的CaloricLevel
:生成的CaloricLevel
流传递给一个toSet
收集器,它和toList
类似,不过是把流中的元素累积到一个Set
而不是List
中,以便仅保留各不相同的值。如先前的示例所示,这个映射收集器将会收集分组函数生成的各个子流中的元素,让你得到这样的Map
结果:{ OTHER=[DIET,NORMAL], MEAT=[DIET,NORMAL,FAT], FISH=[DIET,NORMAL] }
由此你就可以轻松地做出选择了。如果你想吃鱼并且在减肥,那很容易找到一道菜;同样,如果你饥肠辘辘,想要很多热量的话,菜单中肉类部分就可以满足你的饕餮之欲了。请注意在上一个示例中,对于返回的
Set
是什么类型并没有任何保证。但通过使用toCollection
,你就可以有更多的控制。例如,你可以给它传递一个构造函数引用来要求HashSet
:Map<Dish.Type,Set<CaloricLevel>> caloricLevelsByType =menu.stream().collect( groupingBy(Dish:: getType,mapping( dish -> { if(dish.getCalories() <= 400) return CaloricLevel.DIET; else if(dish.getCalories() <= 700) return CaloricLevel.NORMAL; else return CaloricLevel.FAT; }, toCollection(HashSet:: new) )));
分区
分区是分组的特殊情况:由一个谓词(返回一个布尔值的函数)作为分类函数,它称为分区函数。分区函数返回一个布尔值,这意味着得到的分组Map
的键类型是Boolean
,于是它最多可以分为两组——true
是一组,false
是一组。例如,如果你是素食者或是请了一位素食的朋友来共进晚餐,可能会想要把菜单按照素食和非素食分开:
Map<Boolean,List<Dish>> partitionedMenu
=menu.stream().collect(partitioningBy(Dish:: isVegetarian)); //分区函数
这会返回下面的Map
:
{
false=[pork,beef,chicken,prawns,salmon],
true=[frenchfries,rice,seasonfruit,pizza]
}
那么通过Map
中键为true
的值,就可以找出所有的素食菜肴了:
List<Dish> vegetarianDishes=partitionedMenu.get(true);
请注意,用同样的分区谓词,对菜单List
创建的流作筛选,然后把结果收集到另外一个List
中也可以获得相同的结果:
List<Dish> vegetarianDishes
=menu.stream().filter(Dish:: isVegetarian).collect(toList());
分区的优势
分区的好处在于保留了分区函数返回true
或false
的两套流元素列表。在上一个例子中,要得到非素食Dish
的List
,你可以使用两个筛选操作来访问partitionedMenu
这个Map
中false
键的值:一个利用谓词,一个利用该谓词的非。而且就像你在分组中看到的,partitioningBy
工厂方法有一个重载版本,可以像下面这样传递第二个收集器:
Map<Boolean, Map<Dish.Type, List<Dish>>> vegetarianDishesByType
=menu.stream().collect(
partitioningBy(Dish:: isVegetarian, //分区函数
groupingBy(Dish:: getType) //第二个收集器
));
这将产生一个二级Map
:
{
false={
FISH=[prawns,salmon],
MEAT=[pork,beef,chicken]
},
true={
OTHER=[frenchfries,rice,seasonfruit,pizza]
}
}
这里,对于分区产生的素食和非素食子流,分别按类型对菜肴分组,得到了一个二级Map
,和多级分组部分的二级分组得到的结果类似。再举一个例子,你可以重用前面的代码来找到素食和非素食中热量最高的菜:
Map<Boolean,Dish> mostCaloricPartitionedByVegetarian
=menu.stream().collect(
partitioningBy(Dish:: isVegetarian,
collectingAndThen(
maxBy(comparingInt(Dish:: getCalories)
),
Optional:: get)));
这将产生以下结果:
{
false=pork,
true=pizza
}
和groupingBy
收集器类似,partitioningBy
收集器也可以结合其他收集器使用。尤其是它可以与第二个partitioningBy
收集器一起使用来实现多级分区。
将数字按质数和非质数分区
假设你要写一个方法,它接受参数int n
,并将前n
个自然数分为质数和非质数。但首先,找出能够测试某一个待测数字是否是质数的谓词会很有帮助:
public boolean isPrime(int candidate){
return IntStream.range(2,candidate) //产生一个自然数范围,从2开始,直至但不包括待测数
.noneMatch(i -> candidate % i == 0); //如果待测数字不能被流中任何数字整除则返回true
}
一个简单的优化是仅测试小于等于待测数平方根的因子:
public boolean isPrime(intcandidate){
int candidateRoot = (int) Math.sqrt((double) candidate);
return IntStream.rangeClosed(2,candidateRoot)
.noneMatch(i -> candidate % i == 0);
}
现在最主要的一部分工作已经做好了。为了把前n
个数字分为质数和非质数,只要创建一个包含这n
个数的流,用刚刚写的isPrime
方法作为谓词,再给partitioningBy
收集器归约就好了:
public Map<Boolean, List<Integer>> partitionPrimes(int n){
return IntStream.rangeClosed(2,n).boxed()
.collect(
partitioningBy(candidate -> isPrime(candidate)));
}
现在我们已经讨论过了Collectors
类的静态工厂方法能够创建的所有收集器,并介绍了使用它们的实际例子。下表将它们汇总到一起,给出了它们应用到Stream<T>
上返回的类型,以及它们用于一个叫作menuStream
的Stream<Dish>
上的实际例子。