MySQL的学习小结

·S·QL技巧总结

  • 表连接
  • 要展示的最终结果放在前面的select语句里面
  1. 小表提取在前面,大表在后面连接

在这里插入图片描述

表连接实例

  • 连接查询的时候,注意 on 后面跟的 and 条件是连接条件 ,如果要连接后查询 where 可以用
select
    er.exam_id,
    count(distinct er.uid) as uv,
    round(avg(score),1) as avg_score
from exam_record as er 

left join examination_info as ei
on ei.exam_id = er.exam_id

left join user_info as ui
on er.uid = ui.uid 
where level > 5 
and tag="SQL" 
and date(release_time) = date(submit_time)

group by exam_id
order by uv DESC ,avg_score ASC ;

//等效的嵌套查询:
SELECT
    exam_id,
    count( DISTINCT uid ) AS uv,
    ROUND(avg( score ), 1) AS avg_score
FROM exam_record 
WHERE (exam_id, DATE(start_time))  // 查询条件一
IN (
    SELECT exam_id, DATE(release_time)
    FROM examination_info WHERE tag = "SQL"
) 
AND uid IN (  // 查询条件二
    SELECT uid FROM user_info WHERE `level` > 5 
)

GROUP BY exam_id
ORDER BY uv DESC, avg_score ASC;
# SQL类别的试卷得分大于过80的人的用户等级分布,按数量降序排序(保证数量都不同)
select
    level,
    count(level) as level_cnt
from exam_record as er

left join examination_info as ei
on er.exam_id = ei.exam_id

left join user_info as ui
on er.uid = ui.uid 
 
where score > 80 and tag = "SQL" and date(release_time) = date(start_time)
group by level
order by level_cnt DESC ;

//等效嵌套查询
select 
	level, 
    count(uid) level_cnt 
from user_info 
where 
	uid in
		(select uid from exam_record  where exam_id in --第二步
			(select exam_id from examination_info where tag='SQL') and score>80) --第一步
group by level
order by level_cnt desc  --第三步
//嵌套查询
select 
	device_id,
    question_id, 
    result
from question_practice_detail
where device_id in (
    select device_id from user_profile
    where university='浙江大学'
)
order by question_id

//表连接
select 
    qpd.device_id, 
    qpd.question_id, 
    qpd.result
from question_practice_detail as qpd
inner join user_profile as up
on up.device_id=qpd.device_id and up.university='浙江大学'
order by question_id


select 
    university,
    count(question_id) / count(distinct qpd.device_id)
from question_practice_detail as qpd
inner join  user_profile as up
on up.device_id = qpd.device_id
group by up.university ;
  • 多表连接技巧:
    1. 小表在前原则
    2. 选择一个主表,其他的表来来连接主表
    3. 连接的时候,在on后面可以跟条件,用and连接
# 用户信息表:user_profile(device_id)

# 题库练习明细表:question_practice_detail(id	device_id  question_id	result)

# 难度表:question_detail (id	question_id	difficult_level)

select
    university,
    round(count(qpd.question_id) / count(distinct qpd.device_id),4),
    difficult_level
from question_practice_detail as qpd

left join user_profile as up
on up.device_id = qpd.device_id

left join question_detail as qd
on qd.question_id = qpd.question_id

group by university, difficult_level;
select
    university,
    difficult_level,
    round(count(qpd.question_id)/count(distinct qpd.device_id),4)
from question_practice_detail as qpd


inner join question_detail as qd
on qd.question_id = qpd.question_id 

inner join user_profile as up
on up.device_id = qpd.device_id and university = "山东大学"

group by difficult_level;
  • 注意分别查看不去重 ,直接用where + or 或者 union是不行的 ,要用union all

条件选择函数

select ...,
case
	when condition then value
	when ...

else value
end as return

...

group by return;

子表连接查询

  • 这个嵌套子查询啊,一般是大表在前面
  • 表连接一般是小表在前面
select 
    a.device_id,
    a.university,
    a.gpa
from user_profile a

right join(
    select university,min(gpa) as gpa
    from user_profile
    group by university
) as b

on a.university = b.university and a.gpa = b.gpa
order by a.university

# select device_id, university, gpa
# from (
#     select *,
#     row_number() over (partition by university order by gpa) as rn
#     from user_profile
# ) as univ_min
# where rn=1
# order by university
  • 包含关系,嵌套查询
select device_id,university,gpa
from user_profile
where (university,gpa) in (
    select university,min(gpa) from user_profile group by university
)
order by university
  • 如果想从当前表提取出新的列再加回来:用select子查询获得新表,然后join回来
# 8月份练习的总题目数和回答正确的题目数
select
    up.device_id,
    university,
    count(question_id) as question_cnt,
    sum(
        if(qpd.result="right",1,0)
    ) as right_question_cnt
from user_profile as up

left join question_practice_detail as qpd
on qpd.device_id = up.device_id and month(qpd.date)=8

where university="复旦大学"
group by up.device_id;

这道题的left join还是 inner join
如果难度值里面有None的情况,只能用inner join
select
    difficult_level,
    sum(
        if(qpd.result="right",1,0)
    ) / count(qpd.question_id) as correct_rate
from question_practice_detail as qpd

left join question_detail as qd 
on qd.question_id = qpd.question_id

left join user_profile as up 
on up.device_id = qpd.device_id

where university = "浙江大学"
group by difficult_level 
order by correct_rate ;

如果要统计多个量的时候,两个量之间没有关联关系,记得用union

  • 写两个select,分别统计这两个量,然后 union / union all

窗口函数

select device_id, university, gpa
from (
    select *, 
    row_number() over (partition by university order by gpa) as rn
    from user_profile
) as univ_min
where rn=1
order by university

简单来说,窗口函数有以下功能:

1)同时具有分组和排序的功能

2)不减少原表的行数

<窗口函数> over (
    			partition by <用于分组的列名>
            	order by <用于排序的列名>)
            	as 别名

专用窗口函数:

rank, dense_rank, row_number

select *,
   rank() over (order by 成绩 desc) as ranking,
   dense_rank() over (order by 成绩 desc) as dese_rank,
   row_number() over (order by 成绩 desc) as row_num
from 班级表

区别如下:

  • rank函数:这个例子中是5位,5位,5位,8位,也就是如果有并列名次的行,会占用下一名次的位置。比如正常排名是1,2,3,4,但是现在前3名是并列的名次,结果是:1,1,1,4。

  • dense_rank函数:这个例子中是5位,5位,5位,6位,也就是如果有并列名次的行,不占用下一名次的位置。比如正常排名是1,2,3,4,但是现在前3名是并列的名次,结果是:1,1,1,2。

  • row_number函数:这个例子中是5位,6位,7位,8位,也就是不考虑并列名次的情况。比如前3名是并列的名次,排名是正常的1,2,3,4。

聚合函数作为窗口函数

select *,
   sum(成绩) over (order by 学号) as current_sum,
   avg(成绩) over (order by 学号) as current_avg,
   count(成绩) over (order by 学号) as current_count,
   max(成绩) over (order by 学号) as current_max,
   min(成绩) over (order by 学号) as current_min
from 班级表

日期

  • date 是日期列 ,提取出年月日 year/month/day(data) , 或者 data_format(data, “%Y-%m”) = “202108”

参数类型

  1. 数据类型:int,bit(位) :整数 decimal:小数 varchar(可变字符串)char:字符串

    date,time,datetime:日期时间 enum:枚举类型

  2. 约束参数:primay key :主键约束(区分数据) not null 非空约束(数据不能为空) unique:唯一约束

SQL语句(结构化查询):

数据库操作: 所有语句以分号结尾!!!!!

  • 创建数据库:CREATE DATEBASE db1;
  • 查看数据库:SHOW DATEBASES; SHOW CREATE DATEBASES db1;
  • 创建数据库并指定字符集:CREATE DATEBASE 数据库名 CHARACTER SET 字符集(gbk,utf8mb4);
  • 修改数据库:ALTER DATABASE db1 DEFAULT CHARACTER SET 字符集;
  • 删除数据库:DROP DATABASE 数据库名;
  • 查看正在使用的数据库:SELECT DATABASE();
  • 使用/切换数据库:USE 数据库名;

mysql中表的操作(DDL):

  • 关键字说明:CREATE TABLE 表名(字段名 字段类型1,字段名2 字段类型2…)

    mysql中的数据类型:int,float,double,char,varchar,data

  • 查看表:SHOW TABLES; 查看表结构:DESC 表名

  • 快速创建一个表结构相同的表: CREATE TABLE 新表名 LIKE 旧表名;

  • 删除表:DROP TABLE 表名;

  • 修改表结构:ALTER TABLE 表名 ADD 列名 类型

  • 修改列类型:ALTER TABLE 表名 MODIFY 列名 新的类型;

  • 修改列名:ALTER TABLE 表名 CHANGE 旧列名 新列名 类型;

  • 删除列:ALTER TABLE 表名 DROP 列名;

  • 约束:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GCU1zMZ1-1682519840614)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1633960139731.png)]

    设置约束的方式:CREATE TABLE table_name( 字段名 字段类型 约束 );

    添加约束:alter table table_name add constraint 约束名 约束类型(字段名);

    删除约束:删除主键约束:alter table table_name drop primary key;

    ​ 删除外键约束:alter table table_name drop foreign key 外键约束名;

    ​ 删除唯一性约束:alter table table_name drop index 唯一索引名;

DML语句(DDL):

  • 查询表:SELECT * FROM 表名; 除了数值要用单引号引起!!!

  • 插入表:INSERT INTO 表名 (字段1,字段2,…)values(值1,值2,…);全部插入可不写字段

  • 更改表:UPDATE 文件名 SET 变量名=更改值 … WHERE 条件(判断是改哪一个);

  • 删除表:DELETE FROM 文件名 WHERE 判断条件;

  • 蠕虫复制:将原来的数据复制,插入到新的表中

    INSERT INTO 新表名 SELETE * FROM 旧表名

    如果只想复制旧表中的某一列的数据到新表中:例:复制student表中name和age到student2表中

    INSERT INTO student2(name,age)SELETE name,age FROM student;

  • 别名查询(优化显示):SELETE name AS 别名,age AS 别名; AS可以省略不写

  • 清除重复值(列不出现重复值):SELETE DISTINCT 字段名(可多个字段) FROM 表名

  • 查询结果参与运算:

    某列数据和固定值运算:SELETE 列名 +固定值 FROM 表名;

    某列数据和其他列的数据参与运算:SELETE 列名1 +列名2 FROM 表名 参与运算的一定是数值类型

    例:SELETE name 姓名, age+10 年龄 FROM student

函数操作:

条件查询:

  1. ​ 比较运算符:正常编程运算符 和 and /or / not 用于WHERE条件语句来进行判断

    ​ SELETE * FROM hero WHERE age>10

  2. 模糊运算符:

    通配符:%:表示任意个字符 _:表示一个字符

    LIKE运算符:

    ​ 例:SELETE * FROM hero WHERE name like ‘孙%’;查询孙姓的人 ‘%孙%’包含孙字的人 ‘孙__’ 查孙xx

    between and还有or、and(区间查询): WHERE id between 100 and 120;

    逻辑语句在WHERE条件句后使用

    IN:WHERE id in(字段名,字段名…)

    IS NULL(判断条件): WHERE benifits IS NULL;

    安全等于:<=> (判断是否等于) WHERE salary <=> 12000;

  3. ORDER BY :可以将查询出的结果进行排序(只是显示方式,不改变数据库的顺序)

    语法:

    SELETE 字段名 FROM 表名 WHERE 字段=值 ORDER BY 字段名 [ASC|DESC] ;
    

    ASC:升序,默认是升序

    DESC:降序

    组合排序:SELETE 字段名 FROM 表名 WHERE 字段=值 ORDER BY 字段1 [ASC|DESC],字段2[ASC|DESC] ;

  4. 聚合函数:

    count:计算指定列的数值和,如果不是数值类型,那么计算结果为0

    sum:计算指定列的和

    max:计算指定列的最大值

    min:计算指定列的最小值

    avg:计算平均值

    如何使用呢?写在SQL语句 SELETE 后 字段名的地方 SELETE COUNT(字段名) FROM 表名;

    round:四舍五入

    ceil :向上取整

    floor:向下取整

    mod:取余

  5. 日期函数:

    NOW():返回当前日期+时间

    curdate:返回日期不包含时间

    curtime:返回时间不包含日期

  6. 字符函数:

    length(‘字符串’):统计字符串长度 SELETE LENGTH(‘john’)=4

    concat:拼接字符串 SELETE CONCAT (字段1,连接符,字段2) 姓名 FROM 表名

    upper、lower():大小写变化 例:SELETE CONCAT(UPPER(name),LOWER(lastname)) 姓名 FROM 表名

    substr:截取字符串 SELETE SUBSTR(‘字符串’,开始位置索引,结束位置索引(也就是从第几个开始截取));索引从1开始

    instr(字符串,字符串1):字符串1在字符串中第一次出现的索引

    trim(字符串):去除字符串前后空格

    SELETE TRIM(‘a’ FROM,’aaaaazyhaaaaa‘);去除a

    lpad:指定字符左填充指定长度 rpad:右填充 SELETE LPAD(‘字符串’,总长度,‘填充字符串’)

    replace(‘原字符串’,‘要替换的字符串’,‘替换的字符串’);

  7. 流程控制函数:

    IF函数: SELETE IF(判断式,表达式1,表达式2); 判断式为真执行表达式1,为假执行表达式2

    CASE函数:

    CASE 表达式 WHEN 值1 THEN 结果1 WHEN 值2 THEN 结构2 ELSE 结果n END 值是表达式的结果

    CASE 字段名 WHEN 条件1 THEN 结果1 WHEN 条件2 THEN 结果2 ELSE ‘D’ END

    就类似多重if-else嵌套结构

  8. 分组函数:GROUP BY

    语法:SELETE 字段1,字段2… FROM GROUP BY 分组字段 HAVING 条件 ;分组字段结果相同的为一组

    配合聚合函数一起使用: HAVINGH后面的条件是分组以后执行的条件

    SELETE sum(score) FROM hero WHERE age<30 GROUP BY sex

    SELETE count(*),sex(统计性别) FROM hero WHERE age<30 GROUP BY sex HAVING count *>2

  9. limit限制语句:LIMIT offset ,length;或者 limit length

    offset是指偏移量,就是跳过的记录数量,默认为0;length是指需要显示的总记录

    例:SELETE * FROM student LIMIT 2,6 查询student表中的数据,跳过前面两条,显示6条

  10. 数据库约束:

主键约束:主键必须包含唯一的值 ,主键列不能包含NULL值 PRIMARY KEY

CREATE TABLE hero(id int PRIMARY KEY, name varchar(20));

主键自增:AUTO_INCREMENT表示自动增长

例:CREATE TABLE hero2 (id int PRIMARY KEY AUTO_INCREMENT[=初始值],name varchar)

唯一约束:在这张表中这个字段中值不能重复 格式:字段名 字段类型 UNIQUE

CREATE TABLE hero(id int PRIMARY KEY, name varchar(20)UNIQUE);

非空约束:字段名 字段类型 NOT NULL

CREATE TABLE hero(id int NOT NULL, name varchar(20)UNIQUE);

  1. 添加默认值:字段名 字段类型 DEFAULT 默认值
CREATE TABLE hero2(id int ,name varchar) DEFAULT ‘射手’;   这个以后添加的英雄默认是射手,要想改变默认值,可以覆盖默认值
  1. 内连接:

    等值连接:SELETE 查询列表 from 表名1(别名),表名2(别名)… where 等值连接条件

    ​ SELETE name,boyname FROM beautys,boys WHERE beauty_id=boy_id;

    或者这样:**SELETE 查询列表 FROM 表名1 别名 JOIN 表名2 别名 ON 连接条件 **

    WHERE 筛选条件

    GROUP 筛选条件 GROUP BY 分组条件 HAVING 分组后筛选 ORDER BY 排序列表

    例子:查询部门中员工个数>10的部门名称,并按员工个数降序

    SELETE COUNT(*) 员工个数 ,department_name FROM employee e JOIN department d

    ON e.‘department_id’=d.‘department_id’ GROUP BY d.‘department_id’

    HAVING 员工个数>10 ORDER BY 员工个数 DESC;

    注意事项:

    1. 为了解决多表中的字段命名重名问题,往往为表起别名,提高语义性
    2. 内连接就是输出两表相等匹配的,外连接匹配成功和不成功(NULL)都输出
  2. 外连接(左连接,右连接):

    语法:SELETE 查询列表 from 表1 别名 left/right join 表2 别名

    ​ ON 连接条件 WHERE 筛选条件;

  3. 子查询:

    子查询必须放在条件中,且在条件的右侧;子查询一般放在小括号中;子查询执行优先于主查询

    例1:查询和ZK相同部门的员工姓名和工资

    ​ SELETE last_name ,salary FROM employees WHERE department _id=

    SELETE department_id FROM employees WHERE last_name =‘ZK’ );

    例2:查询工资比公司平均工资高的员工的编号,姓名和工资

    SELETE AVG(salary) FROM employees

    SELETE employee_id ,last_name,salary FROM employee

    WHERE salary>( SELETE AVG(salary) FROM employees);

    例3:查询各部门最低工资,筛选看哪个部门的工资大于第50号部门的工资

    SELETE MIN(salary) ,department_id FROM employees GROUP BY department_id

    HAVING MIN(salary) > ( SELETE MIN(salary)

    FROM employees WHERE d epartment_id=50 );

  4. 多行子查询:

    in:判断某字段是否在指定列表内 x in(10,20,30)

    any/some:判断某字段的值是否满足其中的任意一个 x>(10,20,30)

编程

舞会配对问题:

此题并非计算每个人心仪对象数量的最大值,而是每个人心仪对象加被心仪对象数量(不重复计算)的最大值

  • 基本思想就是构建二维数组存储男女配对情况。
  • 有配对为1,无配对为0,然后找出最大值。
  • 评论区有人说不需要存储,我觉得是他们没有考虑到一个男士除了有他自己心仪的女性对象外,还有可能是其他女士的心仪对象,并且这两者之间可能会有重复,所以我觉得还是要全部配对完毕后,再统计最大值。
//男  女
int m, n;
//构建二维数组存储男女配对情况,无配对为0,有配对为1

//读取男士心仪对象 -- 男生心仪矩阵
for 循环
    记录男士配堆情况
    
 //读取女士心仪对象 -- 女生心仪矩阵
for 循环
    记录女士配堆情况
    
for 循环 
    男生心仪矩阵和女生心仪矩阵计算列和,先取每行中的最大值,再取该最大值列的最大值

数据思维

跳失率: 访问了某个项目一次就退出的次数和这个项目总访问的次数的比率

渠道转换比:

费效比: 投入费用/产出效益,用来衡量营销活动的效果

RFM:

​	 RFM模型是衡量客户价值和客户创造利益能力的重要工具和手段 

​	 最近一次消费、消费频率、消费金额

CTR 点击率: 点击数(click)/被用户看到的次数,一般用来考核广告投放的引流效果

CR转化率: 指用户完成设定的转化环节的次数和总会话人数的百分比,通常用来评价一个转化环节的好坏

BR跳出率: 跳出率,跳出率=在这个页面跳出的用户数/PV,跳出率一般用来评估网站的某个页面。

概率统计

题型:

排列组合、全概率公式、贝叶斯公式

1.给定数字1-9,组成完全平方数的组合,一个数字只能用一次 :

​ 尾数规律,平方数的个位只能是014569;

​ 因此,14569作为个位数、2378作为十位或者百位

​ 1,9,25,36,784 或者 4,9,25,81,36

2.扔骰子组成等差数列的可能

​ 公差为0,-1,1,2,-2 共18种

3.摸球 放回不放回

  • 不放回抽样可归纳为超几何分布问题,超几何分布的典型形式是

P = C M k C N − M n − k / C N m P = {C_M^k}C_{N-M}^{n-k}/C_N^m P=CMkCNMnk/CNm

,表示N件产品中有M件次品,从中不放回地取n件,取得k件次品的概率。

  • 有放回抽样可归类为二项分布,二项分布的典型形式为

C n k ( M / N ) k ( 1 − M / N ) n − k C_n^k(M/N)^k(1-M/N)^{n-k} Cnk(M/N)k(1M/N)nk

,表示N件产品中有M件次品,从中有放回地取n件,取得k件次品的概率。

一个池子里有无穷尽的水,需要用两个容器,一个5升,另一个6升,取3升的水。
题解:两壶做差得1,来回互倒凑出来

先将6升的容器装满水然后倒入5升的容器中,这样6升的容器中还剩一升水。
将5升的容器中的水全部倒掉,然后将6升的容器中剩余的一升水倒入5升的容器中,这样5升容器中有一升水。

再将6升的容器装满水然后倒入5升的容器中,这样6升的容器中还剩2升水。
将5升的容器中的水全部倒掉,然后将6升的容器中剩余的2升水倒入5升的容器中,这样5升容器中有2升水。

再将6升的容器装满水然后倒入5升的容器中,这样6升的容器中还剩3升水。


爸,妈妈,妹妹,小强, 至少两个人同一生肖的概率是多少?

至少两个人一个生肖则用1-互不相同概率得到

1 - 12/12 * 11/12 * 10/12 * 9/12 = 41/96

假设今天是周二,100 天后将是周几?

(100%7+2)%7

计算星期几的算法中,最著名的是蔡勒(Zeller)公式。

  • 即w=y+[y/4]+[c/4]-2c+[26(m+1)/10]+d-1

    w:星期;c:世纪-1;y:年(两位数);m:月(m大于等于3,小于等于14,即在蔡勒公式中,某年的1、2月要看作上一年的13、14月来计算,比如2003年1月1日要看作2002年的13月1日来计算);d:日;[ ]代表取整,即只要整数部分。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bLPdFWZ1-1682519840615)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1682473172363.png)]

时钟问题:

分针每分钟转360/60度,即6°,时针每分钟转360/12*60度,即0.5度,故分针和时针的角速度差为 5.5°/分钟。

问: 上班时间下午2点多,时针分针垂直,下班晚上5点多,时针分针重合,过了多久 ?

角度差了90°,90/5.5 = 180/11 = 16 + 4/11分钟 后重合

方法:差多少时间,把时间换成角度 然后除以5.5得到分钟数

一个国家重男轻女,只要生了女孩就继续生,直到生出男孩为止,问这个国家的男女比例?

  • 答案是1:1,思路是等比数列求极限

SQL题型:

join 、case、 when、 with

编程伪代码题

风控挖掘

实例分析:

维度、指标

账单交易的分析指标、简述、和结论

  1. 按月收入和支出分析

    • 收支情况,贷款能力判断

    • 进行淡旺季的判断 , 收付款的淡旺季与行业淡旺季是否一致

    • 分析客户淡季和旺季分别的现金流水平,结合其负债情况判断在淡季时的偿债能力。

  2. 按交易对象分析

    • 按交易对象分析就是分别进行收入支出统计,并将入账和出账的交易对象进行汇总分析
    • 按交易对象汇总分解客户在期间内的全部支出金额,并按金额大小倒序排列,判断主要的支出对象与客户主营业务的相关度
    • 通过支出统计看到与客户主营业务无关的支出情况,这些信息透露出客户与主业无关的资金流向
  3. 大额整数交易分析

    • 这些交易通常是非正常交易,对于交易频率及交易对象需要格外地关注,虚假交易、关联公司、隐性负债通常藏匿其中
    • 在进行各种汇总统计计算时,应将所有大额整数交易扣除在外,以提高计算的准确性
  4. 找出可疑交易:

    • 是值得深入检索的,其中会包含大量关于借款、贷款等信息 ;

    • 有一些在交易金额、发生日期上存在明显规律性的交易

  5. 日余额变动习惯

    • 信贷审批评估 , 日均存款余额标志着客户稳定现金结余的水平
    • 日常资金流向规律,以及流向谁
  6. 同名划转分析

    • 判断目前分析的银行账户在客户整体的账户体系中所处的位置,是主要的收款账户还是主要的付款账户

贷款风险预测问题:现金周转、银行给谁贷款?

风控指标:

KS是风险评分领域常用的评估指标,反应模型对正负样本的辨识能力,KS越高表明能力越强 ,两个分布最大间隔距离

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UOoWq7V2-1682519840616)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1682476450636.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iSXOxuvA-1682519840617)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1682476514032.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDawQy1I-1682519840617)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1682476180575.png)]

挖掘流程:

  1. 主要是选择了用户、司机、行程三个大维度下的各种特征(具体就不展开了);
  2. feature优化(交叉特征/欠采样与score矫正/贝叶斯平滑/引入新特征…);
  3. label优化(投诉nlp/引入安全类问题…);
  4. 模型优化(lr/xgb/dnn…);
  5. 模型评估指标(总AUC/各问题AUC/LogLoss/弹出问题分布…);
  6. 业务评估指标(订单差评率/坏司机召回率/cpo…);
  7. 上线验证(流量分配/ABtesting…);

,这些信息透露出客户与主业无关的资金流向

  1. 大额整数交易分析

    • 这些交易通常是非正常交易,对于交易频率及交易对象需要格外地关注,虚假交易、关联公司、隐性负债通常藏匿其中
    • 在进行各种汇总统计计算时,应将所有大额整数交易扣除在外,以提高计算的准确性
  2. 找出可疑交易:

    • 是值得深入检索的,其中会包含大量关于借款、贷款等信息 ;

    • 有一些在交易金额、发生日期上存在明显规律性的交易

  3. 日余额变动习惯

    • 信贷审批评估 , 日均存款余额标志着客户稳定现金结余的水平
    • 日常资金流向规律,以及流向谁
  4. 同名划转分析

    • 判断目前分析的银行账户在客户整体的账户体系中所处的位置,是主要的收款账户还是主要的付款账户

贷款风险预测问题:现金周转、银行给谁贷款?

风控指标:

KS是风险评分领域常用的评估指标,反应模型对正负样本的辨识能力,KS越高表明能力越强 ,两个分布最大间隔距离

[外链图片转存中…(img-UOoWq7V2-1682519840616)]

[外链图片转存中…(img-iSXOxuvA-1682519840617)]

[外链图片转存中…(img-fDawQy1I-1682519840617)]

挖掘流程:

  1. 主要是选择了用户、司机、行程三个大维度下的各种特征(具体就不展开了);
  2. feature优化(交叉特征/欠采样与score矫正/贝叶斯平滑/引入新特征…);
  3. label优化(投诉nlp/引入安全类问题…);
  4. 模型优化(lr/xgb/dnn…);
  5. 模型评估指标(总AUC/各问题AUC/LogLoss/弹出问题分布…);
  6. 业务评估指标(订单差评率/坏司机召回率/cpo…);
  7. 上线验证(流量分配/ABtesting…);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kuKl9fup-1682519840618)(C:%5CUsers%5C%E9%93%B6%E6%99%97%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5C1682476003410.png)]

猜你喜欢

转载自blog.csdn.net/RandyHan/article/details/130396067