基于RBF神经网络的信用分类方法

简要介绍金融数据挖掘,RBF神经网络。提出基于RBF神经网络的信用分类的一种方法。此方法可根据客户提供的烦多而复杂的资料数据来评估客户信用的好坏。发挥RBF神经网络模拟生物体中神经网络的某些结构和功能,能进行重复学习的特性。将客户资料与客户信用之间的非线性关系放进RBF网络这个“黑闸子”里面。用已有数据对网络进行训练,让它学习,调整“黑闸子”里面的各权值等。再用训练好的网络来对客户信用进行评估。

所谓个人信用评估,是指通过使用科学严谨的分析方法,综合考察影响个人信用状况的主客观因素,并对其履行债务的意愿和能力进行全面的判断和评估。个人信用评估方法主要分为定性分析和定量分析两种,前者以信贷人员的主观判断法为代表,后者以信用评分卡和信用评分模型为代表。

个人信用评估体系对消费信贷的促进作用主要表现在:

(1)增进授信决策的速度,将客户繁杂的个人信息加以具体化,以代号(或等级、分数等)表示客户信用的品质,使信贷人员一目了然,便于快速做出决策。

(2)个人信用评估结果可以作为确定信用额度、信用条件之参考,例如在什么范围的评估结果必须提供担保品或保证人,在什么评估标准以下不得授予信用等。

(3)有效降低消费信贷风险,一方面,可以约束个人行为,引导个人自动守约,另一方面,则可以精确估计消费信贷风险,最大限度地防止不良贷款的产生。

(4)帮助商业银行按照风险对客户进行分类,进行市场细分和有针对性的目标客户营销,扩大信贷规模和受信群体。

随着银行业务的发展,银行积累了大量的客户交易数据,如何利用客户的特征数据和行为数据来获得客户的行为模式,从而更好地为客户服务,是银行需要迫切解决的问题。客户信用评估对于银行具有重要意义,它基于对客户的认知,将客户划分为不同的重要等级,并以此制定客户的差别化服务策略,通过策略的实施从而降低信贷风险。通过对客户信用的评估根据客户的信用信息给出信贷申请者能够偿还的可能性,通过建立评估模型对客户信用进行评估和预测能够辅助银行做出信贷策略。

本文将提出一种基于RBF人工神经网络的信用分类的评估方法。并对这种方法进行分析。

数据挖掘(Data Mining,简称DM),又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。金融领域是数据挖掘技术研究和应用的重要领域。金融全球化在推动银行业发展的同时,也带来了巨大的潜在风险。商业银行作为经营金融资产的特殊企业,以其特殊的经营对象、广泛的社会联系和强大的影响力,成为风险聚散的焦点。商业银行在经营过程中所面临的风险主要包括流动性风险、信贷风险、投资风险、利率风险、汇率风险和资本风险等,随着业务的演变和发展,流动性风险、投资风险及信贷风险又合称为信用风险。信用风险指交易一方违约而无法履行合同义务时给另一方带来的损失,所以又称为违约风险。对信用风险的有效管理,在现代商业银行日常运行过程中具有举足轻重的地位。世界银行对全球银行业危机的研究表明,导致银行破产的最常见原因,就是信用风险。因此,世界上许多大的银行机构为了对信用风险进行有效的管理与控制,都在积极研究和开发适合自身管理特点的风险预测量化技术和方法。国外对金融领域的数据挖掘做了许多相关研究,而近年来国内学者对此领域也开始关注起来。金融业作为现代社会的核心领域,每天都会产生大量数据,目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。如何发现数据背后隐藏的知识,成为近年来研究的焦点,因此,金融数据挖掘技术应运而生。利用金融数据挖掘技术不但可以从大量的数据中发现隐藏其后的规律,而且可以很好地降低金融机构存在的风险。

金融数据挖掘主要有以下几种方法:

(1)决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。

(2)规则归纳方法:通过统计方法归纳,提取有价值的if- then规则。规则归纳技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。

(3)神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务。

(4)遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。

(5)粗糙集(Rough Set)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化,数据相关性的发现,发现数据意义,发现数据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘和知识发现研究领域中。

(6)K2 最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。

(7)可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表示,决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。

神经网络方法是金融数据挖掘中一种很重要的技术。

1.2 神经网络简介

神经网络的全称是人工神经网络(Artificial Neural Network,简称ANN),它采用物理上可实现的器件或采用计算机来模拟生物体中神经网络的某些结构和功能,并用于工程领域。神经网络是数据挖掘中的一种非常重要的方法。它类似于人类大脑重复学习的方法,先给出一系列的样本,进行学习和训练,从而产生区别各种样品之间的不同特征和模式。样本集应该尽量体现代表性,为了精确地拟合各种样本数据,通过上百次,甚至上千次的训练和学习,系统最后得出潜在的模式。当它遇到新的样品数据时,系统就会根据训练结果自动进行预测和分类。

人工神经网络是对生物神经网络系统的模拟,其信息处理功能是由网络单元的输入输出特性及网络的拓扑结构所决定的。人工神经网络对问题的求解方式与传统方法不同,它是经过训练来解答问题的。其主要特点表现为:

(1)高度的并行性。人工神经网络是由许多相同的简单处理单元并联组合而成,虽然每个单元的功能简单,但作为一个整体其对信息的处理能力与效果惊人。

(2)高度的非线性全局作用。网络通过神经元之间相互影响、相互作用,实现从输入状态到输出状态空间的非线性映射,从全局观点来看,这不是网络局部性能的迭加,而表现出某种集体性的行为。

(3)良好的容错性与联想记忆功能。网络通过自身的权值改变及网络方程的运行能实现对信息的记忆与联想。

(4)较强的自适应、自学习能力。人工神经网络通过训练和学习来获得网络的权值与结构,呈现出很强的自学习能力和对环境的自适应能力。

人工神经网络的上述特点,正好适应信用风险控制的要求。由于信用风险系统高度的非线性,使得传统的方法难以构建合适的控制模型。而神经网络带有高度并行处理信息的机制且具有较强的自学习、自适应能力,内部有大量的可调参数,因而使系统具有很强的灵活性。同时在信用评估时,有些因素带有模糊性,而神经网络的后天学习能力使之能随环境的变化而不断学习,与传统的评价方法相比,表现出更强的功能。同时,神经网络可以再现评价专家的经验、知识和直觉思维,较好地保证了评价与控制结果的客观性。

然而常用的多层前馈网络,由于变换函数的限制,其功能受到限制。RBF神经网络是一种局部逼近网络。相对于典型的全局逼近的BP网络,两者构造的本质不同。比较而言,RBF神经网络虽然规模通常较大,但学习速度较快,并且网络的函数逼近能力、模式识别与分类能力都优于BP网络。RBF神经网络将在下一节再做介绍。

1.3 RBF神经网络简介

1985年,Powell提出了多变量插值的径向基函数(Radial Basis Function,简称RBF)方法。RBF神经网络是由J.Moody和C.Darken于20世纪80年代末提出的一种神经网络结构。目前已经证明,径向基网络能够以任意精度逼近连续函数。

RBF网络的结构与多层前向网络类似,它是一种三层前向网络(如图1)。输入层由信号源结点组成。第二层为隐含层,单元数视所描述问题的需要而定。第三层为输出层,它对输入模式的作用做出响应。从输入空间到隐含空间的变换是非线性的,而从隐含层空间到输出层空间的变换是线性的。隐单元的变换函数是RBF,它是一种局部分布的中心点径向对称衰减的非负非线性函数。

2.1.1 德国信用数据库

采用Hans Hofmann教授整理提供的德国信用数据库german.data。德国信用数据库包含1000份客户信用资料。该数据库包含的20个条件属性分别为:

属性1:经常帐户状况。1: 账户余额<0马克; 2:0马克≤账户余额<200马克; 3:≥200马克; 4:无经常帐户记录。

属性2:帐户持续时间(月) 。

属性3:贷款历史状况。1:无贷款记录或所有贷款均按时返还; 2:在本银行的所有贷款均按时返还; 3:迄今为止现存贷款按时返还; 4:过去曾延迟还款; 5:存在危帐或仍存在贷款(非本银行) 。

属性4:贷款用途。1:购买新车; 2:购买二手车; 3:购买家具设备; 4:购买收音机或电视机; 5:购买家庭用品; 6:维修; 7:教育; 8:度假; 9:接受再培训; 10:经商; 11:其他用途。

属性5:贷款数额。

属性6:储蓄存款帐户状况。1:账户余额<100马克; 2: 100马克≤账户余额< 500马克; 3:500马克≤账户余额< 1000马克; 4:账户余额≥1000马克; 5:未知或无储蓄存款。

属性7:现工作就业时间。1:失业; 2:就业时间<1年; 3: 1年≤就业时间< 4 年; 4: 4年≤就业时间<7年; 5:就业时间≥7年。

属性8:分期付款占月收入的百分比。

属性9:个人状况及性别。1:男性离异或分居; 2:女性离异、分居或结婚; 3:男性单身; 4:男性结婚或鳏居; 5:女性单身。

属性10:其他债务或保证金。1:无; 2:联合申请人; 3:保证人。

属性11:现居住状况。

属性12:财产状况。1:拥有房产不动产; 2:不拥有房产不动产,但有社保储蓄协议或养老保险; 3:不拥有房产不动产,无社保储蓄协议或养老保险,但拥有汽车或其他(不在属性6范围内) ;4:未知或无财产。

属性13:年龄。

属性14:其他分期付款计划。1:银行; 2:商店; 3:无。

属性15:房屋状况。1:租住; 2:自有; 3:免费使用。

属性16:在本银行已有存款数目。

属性17:工作状况。1:失业、无技能或非本地居民; 2:无技能的本地居民; 3:技术工人或公务员; 4:经理、自由职业者、高级雇员或官员。

属性18:应抚养人数。

属性19:电话。1:无; 2:有或已注册。

属性20:是否外籍劳工。1:是; 2:否。

决策属性:信用状况评价。1:好; 2:坏。

2.1.1 澳大利亚信用数据库

       澳大利亚信用数据库共有690份数据。每份数据有14个属性加一个决策属性。14个属性中有8个数量属性和6个分类属性。

 

该算法具体过程如下:

(1)选择一个适当的高斯函数宽度r,定义一个矢量A(t)用于存放属于各类的输出矢量之和,定义一个计数器B(t)用于统计属于各类的样本个数,其中t为类别数。

(2)从第一个数据对(x1,y1)开始,在x1上建立一个聚类中心,令c1 = x1,A(1)= y1,B(1)= 1。这样建立的RBF网络,只有一个隐单元,该隐单元的中心为c1,该隐单元到输出层的权矢量为w1 = A(1)/B(1)。

(3)考虑第2个样本数据对(x2,y2),求出x2 到c1 这个聚类中心的距离|x2-c1|。如果|x2-c1|<=r,则c1为x2 的最近邻聚类,且令A(1) = y1+y2,B(1) = 2,w1 = A(1)/B(1);如果|x2-c1|>r,则将x2 作为一个新聚类中心,并令c2 = x2,A(2) = y2,B(2) = 1。在上述建立的RBF网络中再添加一个隐单元,该隐单元到输出层的权矢量为w2 = A(2)/B(2)。

(4)假设我们考虑第k个样本数据对(xk,yk)时,k = 3,4,…,N 存在M个聚类中心,其中心点分别为c1,c2,…,cM,在上述建立的RBF网络中已有M隐单元。再分别求出到这M个聚类中心的距离|xk - ci|,i = 1,2,…,M,设|xk – cj|为这些距离中的最小距离,即cj为xk 的最近邻聚类,则:

如果|xk – cj|>r,则将xk作为一个新聚类中心,并令cM+1 = xk ,M =M+1,A(M) = yk ,B(M) = 1。且保持A(i),B(i)的值不变,i = 1,2,…,M - 1。在上述建立的RBF网络中再添加第M个隐单元。

如果|xk – cj|<=r,作如下计算:A(j) = A(j)+ yk ,B(j) = B(j)+1。当i不等于j时,i = 1,2,…,M,且保持A(i),B(i)的值不变。隐单元到输出层的权矢量为wi  = A(i)/B(i) , i = 1,2,…,M。

(5)根据上述规则建立的RBF网络其输出应为

2.2.2 动态调整参数R算法

       (1)将训练集分成两个集合,分别命名为A和B。用A来训练网络,用B来计算网络分类准确率。

       (2)取R初值为1。

       (4)训练网络,并求出该网络分类准确率。记录当前最高准确率对应的R值为optR。

       (5)若R<=0,转步骤(6);若R>0,以0.01的步长,减小R值,返回步骤(4)。

       (6)令R等于optR,训练网络。

应用德国信用数据库german.data前700份作为训练集,后300份作为测试集。训练集分为A和B两集合,A集合含600份数据,B集合含100份数据。将1000份数据随机打乱100次,分别做训练和测试。可得出表1中的实验结果:

 

表1   德国信用数据库实验结果汇总

 

20个输入属性

属性约简为11个输入属性

(删除属性 7 8 9 11 15 13 18 19 20)

均值

方差

均值

方差

没有处理噪声数据

动态选定关键属性

0.731200

0.000642

0.734833

0.000664

不选关键属性

0.737600

0.000561

0.739367

0.000637

处理噪声数据

动态选定关键属性

0.728133

0.000795

0.775133

0.002235

不选关键属性

0.734867

0.000608

0.778967

0.002554

(注:噪声处理工作由同组的诸强同学用MATLAB工具完成。)

 

应用澳大利亚信用数据库前483份作为训练集,后207份作为测试集。训练集分为A和B两集合。不选关键属性。将690份数据随机打乱100次,分别做训练和测试。可得出表2中的实验结果:

 

表2   澳大利亚信用数据库实验结果汇总

 

14个输入属性

属性约简为11个输入属性

(删除属性 1,13,14)

均值

方差

均值

方差

没有处理噪声数据

A集合283份数据

B集合200份数据

0.854058

0.014590

0.855314

0.014838

A集合333份数据

B集合150份数据

0.855121

0.014919

0.856811

0.015228

处理噪声数据

A集合283份数据

B集合200份数据

0.874444

0.020065

0.878164

0.021053

A集合333份数据

B集合150份数据

0.876425

0.020540

0.879710

0.021473

 

由上实验结果可知,对网络分类准确率影响较大的因素为:噪声数据,属性约简,A,B集合元素个数比等。其中影响最大的为噪声数据。说明这种方法抵抗噪声干扰的能力较差。

猜你喜欢

转载自blog.csdn.net/ccsss22/article/details/108869945
今日推荐