SPL 简化 SQL 案例详解：分组关联

在数据库应用开发中，我们经常需要面对复杂的SQL式计算，比如多层分组中的关联计算。在SQL中，分组必须同时进行汇总计算，并且不能进行对象式关联访问，因此处理这类问题会比较复杂，只能用窗口函数嵌套多层子查询这类高级技巧来实现。而本文要介绍的SPL能够支持真正的分组，进行直观的对象式关联访问，从而解决这类问题更加容易。

分组关联在实际业务中遇到的很多，下面以实际业务为蓝本设计一个比较通用的例子，以此说明SPL实现分组关联的具体过程：

计算目标：查询出缺货的DVD分店，即现存的DVD拷贝不到4类的分店。

数据结构：

l Branch表，存储DVD分店信息；

l DVD表，存储DVD的标题及分类信息，DVD是虚拟的数据，比如“变形金刚4”是一个DVD，但它不是一张可见的光盘

l DVDCopy表，存储DVD的多张拷贝，DVD拷贝是真正的光盘，以实体形式存放于各个分店。注意：DVDCopy表以BranchID字段和Branch表关联，以DVDID字段和DVD表关联。

下面是部分数据示例：

Branch表：

BID	Street	City
B001	street1	New York
B002	street2	Houston
B003	street3	LA
B004	street4	Lincoln

DVD表：

DVDID	Category	Title
D001	science fiction	Transformers IV
D002	science fiction	Transformers II
D003	science fiction	Guardians of the Galaxy
D004	act	The Expendables III
D005	sport	Need for Speed
D006	feature	Grace of Monaco

DVDCopy表：

CopyID	DVDID	BID	Status	LastDateRented	LastDateReturned	MemberID
C000	D001	B001		7/10/2014	7/13/2014	M001
C001	D004	B001		7/10/2014	7/13/2014	M001
C002	D001	B001		7/10/2014		M001
C003	D005	B001		7/10/2014	7/13/2014	M003
C004	D006	B001		7/10/2014	7/13/2014	M003
C005	D005	B002		7/10/2014	7/13/2014	M003
C006	D002	B002		7/10/2014	7/13/2014	M006
C007	D002	B002		7/10/2014	7/13/2014	M007
C008	D001	B002		7/10/2014	7/13/2014	M008
C009	D004	B002		7/10/2014	7/13/2014	M009
C010	D005	B002		7/10/2014	7/13/2014	M010
C011	D006	B002	Miss	7/10/2014	7/13/2014	M010
C000	D001	B003		7/10/2014	7/13/2014	M001
C001	D004	B003		7/10/2014	7/13/2014	M001
C002	D001	B003	Miss	7/10/2014		M001
C003	D005	B003		7/10/2014	7/13/2014	M003

说明：

1. 计算结果应当是Branch表中的某些记录。

2. DVDCopy表中的Status字段如果是“Miss”，则说明光盘丢失。LastDateReturned字段如果为空，则说明光盘借出尚未归还。显然，丢失或未归还的光盘不在计算范围内，应当过滤掉。

3. 应当考虑某些分店可能在DVDCopy表中不存在记录，虽然这种情况比较罕见。

解题思路：

1. 从DVDCopy表过滤出店里现存的DVD拷贝（没有丢失或借出）。

2. 按照BID对DVDCopy表分组，每组就是一个门店所有的DVD拷贝。

3. 找到每个门店的DVD拷贝对应的DVD，再计算出这些DVD的分类数量。

4. 查询出现存的DVD分类数量小于4的门店，这样的门店符合要求。

5. 找到DVDCopy表中没出现过的门店，这样的门店也符合要求。

6. 将两类符合要求的门店合并。

SPL代码：

	A
1	=Branch=db.query("select * from Branch")
2	=DVD=db.query("select * from DVD")
3	=DVDCopy=db.query("select * from DVDCopy")
4	=DVDCopy.switch(DVDID,DVD:DVDID; BID,Branch:BID)
5	=DVDCopy.select(STATUS!="Miss" && LASTDATERETURNED!=null)
6	=A5.group(BID)
7	=A6.new(~.BID:BonList, ~.(DVDID).id(CATEGORY).count():CatCount)
8	=A7.select(CatCount<4)
9	=A8.(BonList) \| (Branch \ A7.(BonList))
10	>file("shortage.xlsx").xlsexport@t(A9)

A1-A3：从数据库中检索数据，分别命名为变量Branch、DVD、DVDCopy。计算结果如下：

A4：=DVDCopy.switch(DVDID,DVD:DVDID; BID,Branch:BID)

使用函数switch，将DVDCopy表中的DVDID字段切换成DVD表中对应的记录，将BID字段切换成Branch表中对应的记录。这一步是对象式关联访问的基础，计算后DVDCopy的结果如下：

浅蓝色字体表示该字段对应为某条记录，点击后可查看，如下图：

此时，只需用操作符“.”就可以进行对象式关联访问，比如DVDCopy.(DVDID). (CATEGORY)表示每个DVD拷贝对应的DVD分类。DVDCopy.(BID)则可以取得每个DVD拷贝对应的分店详情（完整记录）。

A5：=DVDCopy.select(STATUS!="Miss" && LASTDATERETURNED!=null)

这句代码用来过滤数据，即：丢失的，未归还的DVD拷贝不在计算范围内，过滤后A5的值如下：

A6：=A5.group(BID)

上述代码用来对A5中的数据按照BID分组，每行代表一个门店的所有DVD拷贝，如下：

点击浅蓝色字体，可以看到组内成员：

可以看到，函数group只对数据进行分组，并不会同时进行汇总计算，这一点和SQL中的分组函数不同。当我们需要对分组后的数据进行较深入加工，而不是简单汇总时，用SPL的group函数会更方便，比如A7中的代码。

A7：=A6.new(~.BID:BonList, ~.(DVDID).id(CATEGORY).count():CatCount)

上述代码用来计算每个门店对应的DVD拷贝各有几类。函数new可以根据A6中的数据生成新的对象A7，A7有两个列：BonList和CatCount，BonList直接来自A6中组内数据的BID列，CatCount来自于组内数据的DVDID列。CatCount的算法分为三部分：~.(DVDID)找到每个门店所有的DVD拷贝对应的DVD记录；id(CATEGORY)去除这些DVD记录中重复的Category；count()用来计算Category的数量。计算结果如下：

即：B002门店有3类DVD拷贝，B003门店有3类，B001门店有4类。

A8：A7.select(CatCount<4)

上述代码执行查询，求出CatCount小于4的门店，结果如下：

上述缺货的门店是根据DVDCopy表计算出的。但有些严重缺货的门店也许不会出现在DVDCopy表，比如该门店所有的DVD拷贝都借出去了，或者该门店完全没有DVD拷贝，因此要把这部分门店合并进来，代码如下：

A9：=A8.(BonList) | (Branch \ A7.(BonList))

上述代码中，运算符“|”表示将两个数据集进行并集计算（可用union函数代替），运算符“\”表示差集计算（可用函数diff代替）。A8.(BonList)、Branch、A7.(BonList)分别代表：DVDCopy表中缺货的门店、所有的门店、DVDCopy表中出现过的门店，其值分别为：

A9就是本案例最终的计算结果，其值为：

A10：>file("shortage.xlsx").xlsexport@t(A9)

最后将结果导出到excel文件shortage.xlsx，打开文件查看结果如下：

通过这个例子我们可以看到，SQL缺乏显式集合，不能用A8或Branch这样的变量来代表数据集，因此上述简短的SPL代码必须用几个冗长的SQL才能实现。

另外，SPL可被报表工具或java程序调用，调用的方法也和普通数据库相似，使用它提供的JDBC接口即可向java主程序返回ResultSet形式的计算结果，具体方法可参考相关文档。【Java如何调用SPL脚本】

SPL 简化 SQL 案例详解：分组关联

猜你喜欢