商业银行零售风险模型开发与实证研究

[ 下载 ]

摘要：伴随互联网金融的迅速发展，传统商业银行的业务形态及金融创新层出不穷，如何主动管理信用风险成为其获取产业竞争力的重要条件。

数据挖掘为信用风险计量提供了有效手段，本文详细阐述了商业银行零售?绕捞逑到ㄉ韬?PD模型开发的技术要点，以及模型应用的业务场景。

下载论文网　　关键词：商业银行；零售?绕溃皇?据挖掘；模型开发　　中图分类号：F832.4 文献识别码：A 文章编号：1001—828X（2016）021—000—02 　　我国商业银行的零售信贷业务传统风险评估方式，主要依靠客户经理和授信审查审批人员的业务经验，导致银行内部风险管理缺乏统一的量化标准。

为改善以上现状，国内主要商业银行致力于零售?绕捞逑到ㄉ瑁?其模型与系统以巴塞尔新资本协议内部评级法为基础，按照银监会相关监管指引，结合内部的业务特点和风险管理现状而建立，通过定量测算零售客户信用风险，提高风险管理水平，并逐步实现自动化审批，节约管理成本。

一、零售风险暴露分类和评级体系的覆盖范围　　根据《商业银行信用风险内部评级体系监管指引》，商业银行应将零售风险暴露分为三大类，即个人住房抵押贷款、合格的循环零售风险暴露和其他零售风险暴露。

商业银行零售风险模型通常包括申请评分、行为评分、催收评分，本文以信用卡客户行为评分为例，详细阐述模型开发的完整流程和建模过程中应注意的关键点。

二、数据挖掘方法论与目标　　数据挖掘过程包括商业目标分析、数据准备、数据预处理、建模、评估与应用、部署与监控等阶段。

目标是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，通过预测未来趋势及行为，做出前摄的、基于知识的决策。

信用卡行为评分模型是通过计算客户的贷后行为评分，预测信用卡使用者未来一段时间（一般是一年）内的违约风险。

三、业务分析　　（一）违约定义　　指如何定义模型的目标变量，一般会考虑以下多方面的因素：　　1.违约定义必须与银行的整体目标相一致；　　2.严格的违约定义，必定会导致违约样本的减少，减少了建模可使用的数据量。

过松的违约定义会导致好客户和坏客户间的界限模糊，降低评分模型的预测能力；　　3.违约定义必须简单明确，并能实时跟踪；　　4.违约定义可以考虑银行对坏账呆账的核销政策；　　5.违约定义必须考虑外部监管的要求。

（二）确定观察期和表现期　　对于行为评分，需要选择观察期和表现期都存活的客户样本，观察期越长，囊括的客户越少，对历史数据的长度要求越高，而且越久远的历史对于未来客户表现的预测能力越差，太长的观察期对模型表现没什么帮助。

表现期越长，客户的违约情况就表现得越充分，但是对历史数据的要求也就越长，另外，模型间隔时间比较长的未来预测能力有限。

表现期越短，对数据长度的要求就越少，这对于新产品，特别是中国银行业的历史数据状况比较有利，但是很多账户的坏行为还没有表现出来，模型可能低估远期的违约概率。

通常将观察期定为6个月，表现期定为12个月。

（三）排除客户　　指不参与建模的客户，一般分为观察期排除和表现期排除。

前者包括观察期已经违约、观察期内才开户、观察期内销户；后者包括表现期内开户、表现期内销户。

四、数据准备　　数据准备是收集所有与业务目标有关的内部和外部数据，并对其进行初步处理和分析，选出适合数据挖掘建模的数据。

该过程包括以下几个方面：　　（一）数据收集　　行为评分用到的数据包括客户及卡信息、产品类型表、交易流水表、账单周期，以及将银行基础表经加工汇总后产生的衍生数据。

（二）数据源分析　　通过对数据源的分析和总结，得到数据的范围、格式、更新方式、更新频率和质量好坏等结论。

其过程分为范围分析、格式分析、更新方式分析、质量分析等四个方面。

（三）数据质量审核　　检查内容包括数据表是否为空，对各字段的异常值、缺失值、0值、空值进行分析，作出字段对于评级是否可用的初步判断。

五、行为指标设计　　行为评分可以从持卡人四大方面进行指标设计：还款方式、用卡方式、额度使用方式、逾期特征。

另外，主要考虑的是多月平均值，因为一两个月份的数据并不能反映银行客户情况。

比如额度使用率，最近一个月全额使用的客户非常多、区分能力弱，但是如果连续6个月均是全额使用，这个客户存在的风险就明显增强。

六、指标预处理　　该过程包括对变量缺失值填充、变量极值处理，最后对生成的数据进行抽样，从而得到建模需要的样本。

（一）指标缺失值处理　　数据缺失在很多科研领域经常出现，在信用风险评分模型开发过程中也普遍存在。

一般可采取的措施包括删除具有属性缺失值的样本点、丢弃具有缺失值的属性字段，或用特征平均值替换缺失值。

（二）指标极值处理　　异常值（Outlier）是指数据中不正常地过大或过小的值，其存在会对某些统计量产生较大影响，如最常用的平均数和标准差。

建模过程中，需要对这些数据进行处理，用样本数据统计分析中得到的上限和下限来替代。

七、数据抽样　　由于银行内部的数据量非常庞大，所以建立信用评分模型所用的数据挖掘技术需要在海量数据中挖掘知识，为了使分析更加有效率，需要对数据进行抽样。

而抽取的样本能否有效地代表总体，样本数据质量的高低，样本中提炼出来的数理关系能否延伸到未来，将在很大程度上决定模型的预测力和效果。

（一）抽样比例　　国内多数银行普遍存在一个问题，就是每个建模样本总体定义的违约目标样本数都很少，为了增加目标样本的浓度，从而提高目标样本的行为表现，通常需要对原样本总体的好客户实行欠采样，保留100%的违约目标样本，甚至对其进行过采样。

但这样建立的模型因人为放大了客户违约的真实PD，所以会将更多的好客户预测为坏客户。

因此，在评估时还需要采用一定的规则将放大的比例还原。

（二）样本分割　　选好的样本要被分为训练样本和测试样本。

训练样本用来建模，测试样本用来检验模型的性能。

具体来说，根据训练样本建立评分模型，然后将模型实施到测试样本中，对模型的表现进行检验，以有效防止过拟合现象。

在分割样本时，应采用不放回随机抽样的方法，每个记录必须仅出现在两类样本集的其中之一，不可重复，样本集之间也不可出现差异。

八、建模　　（一）指标筛选　　数据挖掘一个重要的过程就是变量选择，即从原始的变量池中，选择出最终的10个左右变量以建立模型。

变量选择是一个反复的过程，并且会使用不同的方法来进行选择。

一般变量选择会用到以下方法：　　1.相关性分析　　解释变量与目标变量的相关性越大，说明该解释变量对模型的贡献度越大。

因此，可以根据解释变量与目标变量之间的相关性大小来对变量进行筛选，选出与目标变量相关性最大的前N个变量。

2.单变量Logistic回归　　通过对单个变量进行回归分析，并计算其AR值，来判断单变量的预测能力，以此作为变量删选的依据。

如果单个解释变量的AR值小于或等于0，可以认为该解释变量对目标变量不具有解释能力，因此需要将该解释变量删除。

3.多变量Logistic回归　　在回归过程中，仍要进行变量筛选以找到最优的模型。

我们综合利用Logistic回归逐步法（stepwise）和相关性分析的结果，进行循环控制。

判断每一步骤中，指标系数方向与相关性方向是否一致，如果不同，需要删除该指标。

同时动态地添加和删除变量直到达到最佳的组合。

一般来说，指标系数方向与相关性方向应该是一致的，都表示指标与目标变量的变化关系。

如果模型的回归系数与单变量相关性系数的符号相反，则说明该指标不稳定或存在多重共线性。

需要进一步做多元线性回归模型的VIF检验和自变量间的皮尔森相关系数矩阵。

（二）模型建立　　1.多变量Logistic回归参数　　Logistic回归模型的一般形式为：　　，　　其中：P是违约概率（即y=1的概率），α代表截距大小，β为回归系数，X代表独立变量。

2.业务确认与调整　　该过程是模型开发非常重要的一个环节，特别是对于数据质量状况不是特别良好的情况更是必须。

根据解释变量与目标变量的相关性，可以从数据层面上来说明两者是正相关还是负相关。

另外，从业务上也可以得到解释变量与目标变量的相关性，当出现变量在数据上的表现与业务理解相反时，建议从最终的模型指标中删除该变量。

九、模型评估　　模型建立后，需要对模型的预测能力进行检验后才能运用到实际业务中去。

违约概率模型的检验方法和标准通常有AR值、KS值等。

累积准确曲线（CAP）及其主要指数准确性比率（AR）主要用来检验模型对客户进行正确排序的能力，KS检验主要是验证模型对违约对象的区分能力。

AR值、KS值越接近1，模型的预测效果越好，但可能存在过拟合。

十、分数转换　　Logistic模型只能得出每个账户的预测违约概率值，行为评分卡最终的评分结果应转换成比较容易理解的分数形式，以便能够比较直观地看出客户的信用状况。

通常的做法是将预测概率值线性转换成0—1000分的形式。

十一、模型部署与应用　　零售内评系统并非孤立的系统，它需要与授信管理系统在数据和流程上进行整合与集成，通过实时和批量数据交换标准和机制，贯穿于授信申请、授信审批、签约放款、贷后监控、资产保全等各个阶段，支持信贷业务流程中的信用风险决策。

此外，PD模型的高级应用还表现在信贷风险定价、风险偏好、准备金计提、资本计算及RWA组合管理等领域。

作者简介：周林，专业：区域经济学，研究方向：商业银行信用风险计量。

0 次访问