机器学习在信用评级中的应用

[摘要]2007年次贷危机之后,信用评级问题引起了包括银行等金融机构以及企业本身的高度关注。

信用评级简单理解就是通过一定的方法将贷款客户进行分类,产生一系列的级别,因此其核心算法可以理解为是经典的多分类问题。

随着近20年来机器学习的发展和兴起,越来越多与之相关的技术被运用到信用评级的工作中。

下载论文网   [关键词]机器学习;计算数学;信用评级;人工神经网络   引言   2007年次贷危机之后,信用评级问题引起了包括银行等金融机构以及企业本身的高度关注。

根据评价主体的不同,信用评级可以分为外部信用评级和内部信用评级两种,其中外部信用评级主要是由专门的评级机构作出,并给出相应的信用统计信息[1],而内部信用评级则是由企业内部或者银行等金融机构给出,以用于是否放贷等金融决策。

本文研究的对象即为内部信用评级

而根据被评价对象的不同,又可以分为对消费者个人的信用评级和对企业用户的信用评级,对于企业用户的信用评级需要通过构建其还贷能力(主要通过其相关财务指标进行衡量)、还贷意愿(公司过往的还贷记录、公司中高层领导素质、企业规模[3])与公司违约之间的联系,通过一定的模型来预测企业的违约可能性。

1、传统信用评级方法   信用评级简单理解就是通过一定的方法将贷款客户进行分类,产生一系列的级别,因此其核心算法可以理解为是经典的多分类问题。

企业信用评级的传统方法主要是包括专家法、打分法等在内的主观综合法,在信用评级行为越来越频繁和普遍的今天,冗繁的评定过程和过强的主观性使人们开始寻求传统法之外的信用评级方法

20世纪30年代以来,随着统计学的发展,基于统计判别方法评级方法成为国外信用评级体系的支柱,主流方法包括多元判别分析法(MDA)、加权Logistic回归分析模型、Probit回归分析模型等。

除此之外,传统的信用评级常用的方法还包括:模糊综合评价法FCE(Romaniuk等1992)、层次分析法(赵家敏等2006)等。

随着近20年来机器学习的发展和兴起,越来越多与之相关的技术被运用到信用评级的工作中,其中应用较为广泛的包括:人工神经网络(Artificial Neural Network,ANN)、支持向量机(SVM)和投影寻踪等。

而他们也因为对于财务样本较少的依赖以及良好的预测效果越来越成为信用评级中的热门研究领域。

3、人工神经网络信用评级中的应用   人工神经网络(Artifical Neural Networks,ANN)近年来在多个领域迅速兴起,在包括会计和金融[7],健康和医药[8,9],工程和制造业[10,11],营销[12]等在内的多个领域内取得了很好的应用。

ANN相比于传统的统计学方法也是一种有效的处理回归和分类问题的方法[13]。

并被证明在信用评级问题上也具有良好的表现[14,15,16]。

ANN通过模拟生物神经网络的结构和功能的数学模型

ANN是一种自适应的非线性的建模方式,常用来针对输入输出之间的复杂关系进行探索。

4、数据介绍   对于企业信用评级而言,目前国际上较为权威的信用评级机构为:穆迪投资者服务(Moody’s Investor Services,MIS)、标准普尔(Standard & Poor‘s rating service,SnP)以及惠誉国际(Fitch Group)。

评级标准和等级的一致性,本次主要选用MIS下的被评级机构作为研究对象。

通过对企业的履约情况进行评定,MIS将企业信用等级分为21级,其中券信誉高,履约风险小,被称为“投资级”,主要包括:Aaa级(优等)、Aa级(高级)、A级(中上级)、Baa级(中级);相比之下,信誉较低,履约风险较大的则被成为“投机级”,主要包括:Ba级(具有投机性质的因素)、B级(缺少理想投资的品质)、Caa级(劣质债券)、Ca级(高度投机性)、C级(最低等级评级)   相应的财务数据则可以通过分析企业的财务报告获得[17]。

公司的财务报告包括各项评定企业业务表现的财务数据,其中常被使用的列示于表1。

常用的财务比率主要包括以下几个:   表1 企业常用财务比率   为避免企业所处行业差异对研究带来的影响,本文中主要选取了38家房地产上市企业的财报数据进行研究,以保证模型评判标准的统一性。

5、方法步骤   (1)选取38家房地产上市企业财报,根据表1中公式计算各项财务比率。

采用计算而得的财务比率而非直接利用财报中数字的原因在于,各上市公司因规模差异,财报中财务指标绝对值相差较大,且因其上市地点不同,财报中所披露的指标数据的货币单位也不尽相同。

但财务指标的绝对值并不能全面的反应一个公司的发展状况,采取财务比率作为数学模型依据,可以消除规模差异及汇率变化带来的影响,使结果更具有准确性。

(2)在对数据进行初步处理之后,对其进行相关性分析。

此环节主要包括指标间的相关性比较和指标评级结果的相关性比较。

表2 各指标相关性   首先,对10个指标进行相关性分析。

相关性主要包括正相关和负相关两个方面,而相关性的强弱取决于相关系数取绝对值后的结果。

其中,取绝对值后的结果若在0—0.09范围内,则一般认为两者之间没有相关性,(0.1,0.3)为弱相关,(0.3,0.5)为中等相关,(0.5,1.0)为强相关。

而根据此环节的主要目的,我们主要研究各指标之间的正相关性,下文中以相关性简称弱相关性

根据结果,可以看出,大部分财务比率之间不具有明显的正相关关系。

我们主要关注其中的强相关性,即指标1、指标10;指标4、指标5;指标7、指标8这三对数据。

将这三对数据与信用评级结果分别进行相关性比较:通过将这三对指标分别与信用评级结果进行比较,最终选择指标5、指标8、指标10进入模型的创建。

在经过了相关性比较这一环节后,最终确定参与模型建立的指标包括7个:指标2、指标3、指标5、指标6、指标8、指标9、指标10。

(3)将38组数据分为两组,一组为训练集,一组为检验集。

其中,训练集中数据个数为20组,检验集18组。

本文中采用的人工神经网络模型为BP神经网络

BP神经网络结构通常由一个输入层、一个输出层、多个隐层共同组成。

输入神经元的个数由样本属性的维度决定,输出神经元的个数由样本分类个数决定。

每一层包含若干个神经元,每个神经元包含一个阈值,用来改变神经元的活性。

网络中带箭头的线表示前一层神经元和后一层神经元之间的权值。

每个神经元都有输入输出

输入层的输入输出都是训练样本的属性值。

对于隐藏层和输出层的输入, 其中,是由上一层的单元i到单元j的连接的权;是上一层的单元i的输出;而是单元j的阈值。

神经网络神经元输出是经由赋活函数计算得到的。

该函数用符号表现单元代表的神经元活性。

赋活函数一般使用simoid函数(或者logistic函数)。

神经元输出为:   除此之外,神经网络中有一个学习率(l)的概念,通常在0和1之间取值,并有助于找到全局最小。

若学习率太小,学习将进行得很慢。

若学习率太大,则有可能出现在不合适的解之间波动。

算法基本流程就是:   1、初始化网络权值和神经元的阈值(一般随机初始化)。

2、前向传播:按照公式一层一层的计算隐层神经元输出神经元输入输出

3、后向传播:根据公式修正权值和阈值   直到满足终止条件。

在我们的模型中,我们有7个输入层(7个指标),以及2个输出层(2个评级分类)。

运用Matlab对评价模型对20组训练集数据进行学习训练,设迭代次数为1000次,学习率为0.1,我们用18组检验集数据进行模拟预测得到了以下结果:   预测的准确率达到了88.89%,能较准确的对企业进行信用评价,可作为决策者的决策依据。

若用Monte—Carlo模拟方法则可获得更精确的结果,本文这里不作深入研究。

6、结束语   本文通过建立BP神经网络模型对38个企业的7个关键财务比率进行信用评级分析,取得了较好的模拟结果。

然而神经网络模型信用评级方面的应用仍处于初级研究阶段,目前仍需对具体的结构,算法以及参数进行优化和改进,相信在不久的将来神经网络模型分析会成为信用评级中重要的参考依据。

参考文献   [1]奚胜田,詹原瑞,韩著钊.因子分析与聚类分析在企业信用评级中的应用[J].中国农机化2009(1):44—47   [3]张鸿,丁以中.基于BP神经网络企业信用评级模型[J].上海海事大学学报2007(3):64~68   [4]王春峰,万海晖,张维.基于神经网络技术的商业银行信用风险评估[J].系统工程理论与实践,1999(9):24—32   [5].Altman EI. Financial ratios, discriminate analysis and the prediction of corporate bankruptcy[J]. Journal of Finance,1968,9(XXⅢ):589—609.   [6].Martin D. Earky warning of bank failure: a logit regression approach[J]. Journal of Banking and Finance,1977:249—276.   [7]N.Chauhan,V.Ravi,D.K.Chandre,Differential evolution trained wavelet neural networks:application to bankruptcy prediction in banks[J],Expert Syst.Appl.36(4)(2009)7659—7665   [8]D.Delen,G.Walker,A.Kadam,Predicting breast cancer survivability:acomparison of three datamining methods[J],Artif.Intell.Med.34(2)(2005)113—128.   [9]M.Behrman,R.Linder,A.H.Assadi,B.R.Stacey,M.M.Backonja,Classification of patients with pain based on neuropathic pain symptoms:comparison of an artificial neural network against an established scoring system[J],Eur.J.Pain11 (4) (2007)370—376.   [10]H.C.Zhang,S.H.Huang,Applications of neural networks in manufacturing:a state—of—the—art survey,Int.J.Prod.Res.33(3)(1995)705—728.   [11]P.C.Pendharkar,Scale economies and production function estimation for object—oriented software component and source code documentation size, Eur.J.Oper.Res.172(3)(2006)1040—1050.   [12] J. Yao,N.Teng,H.—L.Poh,C.L.Tan,Forecasting and analysis of marketing data using neural networks,J.Inf.Sci.Eng.14(4)(1998)843—862.   [13]M.Paliwal,U.A.Kumar,Neural networks and statistical techniques:a review of applications,ExpertSyst.Appl.36(1)(2009)2—17.   [14]P.Hájek,Municipal credit rating modelling by neural networks,Decision Support Syst.51(1)(2011)108—118.   [15]K.Kumar,S.Bhattacharya,Artificial neural network vs linear discriminant analysis in credit ratings forecase:a comparative study of predicti on performances, Rev.AccountingFinance5(3)(2006)216?C227.   [16]Z.Huang,H.Chen,C.—J.Hsu,W.—H.Chen,S.Wu,Credit rating analysis with support vector machines and neural networks:a market comparative study, Decision SupportSyst.37(4)(2004)543—558.   作者简介   于雯(1990―),女,汉族,山东青岛人,中国海洋大学数学科学院研究生,研究方向:计算数学。

1 次访问