《SQL必知必会——第9、10、11课：汇总数据、分组数据、使用子查询》

第9课汇总数据
用过excel的对这个知识点理解起来就毫不费力了，excel里面有很多统计类的汇总函数，同样sql里面也有，也就是对某些行运行聚集函数，计算并返回一个值。sql主要有以下聚集函数：avg()，count()，max()，min()，sum()，看到函数名，基本也就知道是做什么的了，比如：select avg(price) as avg_price from products; 这就是返回products表中所有产品的平均价格。而count()函数是统计表中行的数目，这里面有一个需要注意的点，那就是count(*)统计范围比较广，即使表中某一行包含空值，也会被统计，而count(column_name)统计指定列行数时，会忽略为空的行。而我们实际工作中还有一种形式用的较多，那就是count(1)，很多资料说count(1)比count(*)效率高，但是实际我没有具体对比过，不同的dbms估计也会有一些差异，在mysql下，我一般用count(1)比较多些。后面的几个聚集函数不做过多赘述了，实在比较简单，使用时注意一下min()/max()/sum()是都忽略空行数据的。如果想聚集不同的值，则需要使用distinct关键字去重。这里面在提一下，以前说过sql中不写复杂业务逻辑，可以使用简单的聚集函数，因为如果把数据查出来，自己在客户端汇总、计算，比如取平均，实际效率远没有sql的avg()函数高。

第10课分组数据
分组主要使用group by子句，使用分组可以将数据分为多个逻辑组，对每个组进行聚集计算。比如：select vend_id, count(*) from products group by vend_id;执行该sql，就会先将所有数据按照vend_id分组，然后计算每个组行数。分组功能很强大，一条语句可以简化非常多的业务代码逻辑，但是使用分组时还是有很多条条框框需要注意:
（1）除聚集计算语句外，select中的每一列都必须在group by子句中给出。这句话信息量比较大，首先group by分组时，后面可以跟任意数目列，也就是group by a,b,c,d 都行，由于多个列组合分组，那么分出的组将会非常多，也会更细致。其次，查询出来的列，也就是select后面跟的列，除了聚集函数外，实际是固定的，也就是group by a, b,那么select a, b, c, count(1)，多出一个c字段将导致sql语句报错，无法编译。简言之，select什么，就要group by什么，除了聚集函数，其他字段一一对应。
（2）如果分组中包含null值的行，则将null值作为一个分组返回，也就是该列中所有null值将被分到一组。
（3）group by子句必须出现在where子句之后，order by子句之前。这里对该子句位置做了限定，位置不对，同样无法编译通过。
过滤分组：
如果分组后，组数很多，数据量仍然很大，想要过滤一些数据怎么办？可以使用having子句，这里不得不提where，这两个子句都是过滤数据，where是行级过滤，而having是分组过滤。也就是说where所处理的对象是行，在数据分组前就已经起作用了，已经把数据过滤了，having所处理的对象是分组，需要数据分组后才能起相应的作用。
比如：select vend_id, count(1) from products where price>=4 group by vend_id having count(1)>=2; 很明显，where子句先筛选出所有price大于等于4的行，然后按照vend_id分组数据，最后在筛选出所有组内数目大于等于2的数据，这样对where和having的用法和区别就比较清晰了。

分组和排序：
用group by分组的数据是以分组顺序输出的，但未必是你所需要的排序顺序，可以结合order by子句，对分组结果进行排序输出。前面已经说了这两个子句的位置，order by位于最后。比如：select order_num, count(1) as items from OrderItems group by order_num having count(1) >=3 order by items, order_num desc; 比较简单，就是分组、过滤、排序，很好理解。很多时候就是一开始觉得难理解，看几次、混个脸熟、再看几次，就简单了。

第11课使用子查询
子查询可以理解为查询中的查询，一般使用场景是用于where子句的in操作符，为什么这么说呢，因为子查询的select语句只能查询单个列，查询出来的单个列可以做上一级查询in操作符的过滤条件。比如：select cust_id from orders where order_num in (select order_num from OrderItems where prod_id='A001');执行时，将从内向外执行，也就是子查询先执行，返回查询结果，然后父查询在接着执行，最后输出结果。但不得不说包含子查询的sql语句阅读和调试比较复杂，性能也不高，工作中还是尽量少用。

《SQL必知必会——第9、10、11课：汇总数据、分组数据、使用子查询》

猜你喜欢