信用风险预警模型——当信贷行为遇上客户关联关系

金融危机之后,世界经济格局出现变化,中国如何在系统性风险增强的全球化时代加强自身实力?《金融危机中的中国金融政策》探讨了金融政策,分析了未来中国金融政策的趋势。下文系该书部分内容摘编,敬请阅读。

一、引言

世界银行对全球银行业危机的研究表明,导致银行破产的主要原因就是信用风险。90年代中期以来,伴随着风险计量技术与金融工程技术的迅猛发展,信用风险管理的面貌得到了彻底改变。然而,十余年的成果累积也逐步衍生出另外一种倾向,那就是对信用风险管理技术发展的过分乐观和对相关工具产品的过分迷恋,结果导致人们过高估计了自身的风险承担和管理能力,而这正是2007年发轫于美国次贷危机并演变成全球金融经济危机的理论逻辑和现实根源。因为这一方面会导致不成熟的信用风险管理技术被不审慎地应用于投资和风险管理的实践,金融机构因而面临更多的信用产品模型风险和定价风险;另一方面也会导致金融机构过于激进的次贷产品投资战略和政策,面临过多的信用和市场风险。可见,本轮次贷危机暴露了现代风险管理技术的一些弱点,是对风险管理学科的一次沉重打击。但瑕不掩疵,危中有机。我们相信,这次危机不但不会改变现代风险管理发展的基本趋势,反而为人们提供了一次冷静反思、审慎修正的绝佳历史机遇,有利于完善和推动风险管理向前发展。

本文首先对国外现代信用风险计量预警模型进行了简单综述,重点分析其对我国的适应性问题;接着另辟蹊径,从我国信用数据和客户特征等实际出发,提出一种基于客户关联和信贷行为的信用风险预警模型;然后应用国内某商业银行的真实数据,对这个新模型进行了实证研究,得到若干基本结论;最后是结论与展望,提出了模型应用过程中的建议。

二、国外现代信用风险模型及其在我国应用的局限性

由国际活跃银行和金融机构创建和广泛应用并被巴赛尔委员会建议使用的现代信用风险模型主要有JP.Morgan(1997)的Credit Metrics、KMV(1993)的EDF(Credit Monitor)、CSFP(1997)的Credit Risk+等模型。

Credit Metrics 模型运用VAR框架,通过正态分布假定下的解析法和蒙特卡罗模拟法,度量信用资产组合价值,确定信用风险大小。其计算贷款风险价值的基本思路是:首先,根据某个信用评级体系,确定贷款的信用等级;其次,根据历史数据和经验分析,建立信用等级转移概率矩阵和损失比率矩阵;再次,估算贷款处于不同等级的概率、损失比率及其现值,进而得到不同信用等级情况下贷款现值与期望值之间的差值以及该差值分布的概率;最后,计算出单笔贷款的风险价值。该模型的创新之处在于第一次将信用等级的转移、违约率、回收率、违约相关性纳入了一个统一的框架,全面地考虑对信用风险的度量,适用于几乎所有的信贷产品。而局限性在于做了一些简化处理,如对同一等级的债务人应用了相同的等级转移概率和违约率,假设无风险利率是事先决定的等,这导致该模型对经济周期和市场风险不敏感。Credit Metrics模型高度依赖于银行的内部评级系统或著名外部评级机构的评级结果,则进一步限制了其在我国的直接应用。

KMV模型假设企业的任何信息都可以在股票价格及其波动中得到体现,因此根据授信企业在股票市场的价格变化,就可分析该企业信用状况。当公司的市场价值低于一定水平(违约点价值)以下时,公司就会对它的债务违约。表征违约概率大小的指标是预期违约频率(EDF),KMV模型的核心就是对EDF的求解。EDF主要取决于三个关键变量,即以企业资产市场价值表示的企业市场价值、代表违约触发点的企业负债水平和以标准差表示的企业资产价值的波动性。具体方法是:依据公司股票的市场价值及波动性等计算出一定期限后公司的预期价值,依据公司负债状况计算出违约点价值,根据两者之差及公司价值的历史波动性得出违约距离(Distance to Default),EDF等于企业的违约距离除以企业资产价值波动的标准差(亦即股票价值波动的标准差)。KMV模型的优点在于将违约与公司特征而不是公司的初始信用等级联系在一起,包含了股票价格市场信息,因而对债务人质量变化更加敏感并具有一定的前瞻性和预测能力。而其局限性在于三个简单假设:公司资本结构不变化、资产组合高度分散化和利率既定,这些在现实环境中不一定能完全得到满足。妨碍KMV模型在当前我国应用的因素还有两点:一是其违约距离与预期违约率之间的关系映射是基于美国数据得到的,因此在美国之外的国家运用该模型尚有待验证;二是我国股票市场历史短,上市公司少,市场有效性偏低,股价常常背离公司的实际价值,上市企业的市场价值难以被准确衡量。

Credit Risk+模型只考虑债券或贷款是否违约,并假定这种违约遵从泊松过程,然后应用保险业中的精算方法,得出债券或贷款组合的损失分布。它用一个连续的随机变量来描述违约风险,通过违约率的标准差来估计客户信用等级随时间的变化。其具体做法是:首先,考虑违约概率和损失大小的不确定性,将损失的严重性和贷款的风险暴露数量划分频段;然后,计量违约概率和损失大小,得出不同频段损失的分布;最后,对所有频段的损失加总,即为贷款组合的损失分布。该模型的优点在于给出的损失分布是一个解析表达式,而且只关心违约与否,因此只需要贷款组合中各组贷款的违约率、违约率波动率和风险暴露等有限数据,从而使组合损失和边际风险贡献计算的速度大大加快,使处理成千上万个不同地区、不同部门、不同时限的风险暴露成为可能,特别适用于对零售客户的信用风险度量。其局限在于: (1) 对于单项债务人的违约率没有详细阐述,而它们却是模型的基本输入因子;(2) 假定贷款违约与公司的资本结构无关,没有考虑债务人的特征及市场风险;(3) 忽略了债务人信用等级的变化,并假定每笔贷款的信用风险暴露在计算期间内固定不变,而这与实际情况不符。至于对我国的适应性,因为贷款独立性是Credit Risk+模型的重要假设前提,而我国商业银行贷款之间的相关性较大,这严重影响了该模型的直接应用。

综上所述,三种代表性的现代信用风险管理模型各有特点,各具优势,但具有相似的基本理论结构,在各自特定范围内都比较有效。当前,我国企业信贷风险的最新特征是,随着经济快速发展和投资主体多元化,跨地区、跨行业和集团化经营的企业越来越多,一些关联企业利用政策、法律和银行管理漏洞,频繁进行关联交易、资金串用和相互担保,导致关联企业信贷风险呈现系统性、波动性、多发性和严重性。关联企业复杂的“担保圈”决定了一旦某个环节出现危机,资金链断裂,往往会造成企业的经营风险,从而给银行信贷资产造成巨大损失。这种关联风险已经引起了监管层高度重视,从2005年开始组织全银行业建立、积累和共享企业关联信息与违约数据。本文拟以这些信息、数据为基础,通过分析与授信客户密切相关的周边客户的信贷和风险状况,建立一种基于客户关联关系(Relation)和自身信贷行为(Behaviar)、能够对授信客户信用风险进行量化并提前预警的信用风险模型,简称R&B模型。

三、R&B信用风险模型的建模过程

信用风险预警模型关注的是当前的正常类客户在经过一定的观察时间之后变为违约客户的可能性有多大。建模过程一般分为数据收集、数据筛选、指标建立、模型构建、模型验证等步骤。为体现特色,下面重点从关联企业识别、关联群的量化识别与拆分计算、信用风险指标体系构建、模型算法选择等四个方面,介绍R&B模型的建立过程。

(一)关联企业的识别

建立基于关联风险的信用风险预警模型,一个最基本的要求是需要能够将企业间是否存在关联关系进行准确地识别和区分。银企之间信息不对称性使商业银行有时无法根据客户提供的基本信息准确地掌握客户的关联企业状况,必须通过其他途径进一步挖掘。R&B模型的数据来源有三:企业提供的基本状况;企业在银行的信贷行为记录;监管机构披露的同业预警及不良信息。必须充分利用这三大数据源来识别企业之间关联关系,把握关联风险。

关联企业是指有下列关系之一的公司、企业或其他经济组织:一是在资金、经营、购销等方面,存在直接或间接的拥有或控制关系;二是直接或间接地同为第三者所拥有或控制;三是其他在利益上具有相关联的关系。

将关联企业进一步区分为“硬关联”和“软关联”有时非常重要。所谓“硬关联”,是指不同企业之间相关关系非常直接、明确和重要,包括法人关联、担保关联、股东关联、战略联盟关联、上游企业关联等。硬关联主要根据企业自身提供的基本信息和监管机构披露的同业信息来判断,可以通过这两部分数据进行直接匹配来计算相关关联类指标。所谓“软关联”,是指企业之间存在间接、隐性的关联关系,即企业之间虽然没有上述几种直接关联关系,但因交易密切和往来频繁,往往也会表现出一定的关联特征。软关联主要通过分析和挖掘企业交易行为的明细数据来识别。

(二)关联群的量化识别与拆分计算

只有把企业放在一个更大的环境即关联群中才能准确、完整地刻画其关联特征。所谓关联群,是指由被分析对象及与之存在直接关联关系、通过中间企业构成间接关联关系的所有客户构成的集合。R&B模型采用一套算法和规则来对企业所在的关联群进行有效识别。

首先,根据客户提供和监管机构披露的关联信息,建立一个连通所有企业的完全关联群谱。在这个群谱中,任意一个企业都可以通过某种“硬关联”关系,连通到该关联群中的另外任一个企业。这意味着构成关联群的任意两个企业之间都会由于某种“硬关联”而具有不可割裂的关系。于是,当关联群中的某一个企业发生风险的时候,风险就会沿着这种硬关联路径向关联群中的其他企业传染,产生“骨牌效应”般的连锁反应,并可能造成整个关联群的风险爆发,这就是关联风险。

(三)信用风险指标体系构建

建立信用风险预警模型的基本思路就是首先基于历史数据进行训练和测试,以从一系列可能的指标中找出与违约客户具有统计显著性的若干指标;然后反过来根据这些预警指标值,识别和预测其他客户未来违约的可能性,以采取针对性措施提前化解风险。因此,构建模型指标体系事实上包含了三项任务:一是寻找因变量,即在违约定义的基础上确定违约客户名单;二是划定长清单,即列出所有可能导致客户是否违约的因素;三是找出自变量,即采用统计方法逐个检验长清单与违约客户之间的相关性,遴选出高度相关、为数不多的指标进入预警模型。

首先,我们把违约定义为贷款逾期、欠息未还、出现垫款或降为不良,并给每个样本客户赋予一个标签,以标定其是否发生违约。与违约相关的另一个重要概念是观察期,即在多长时间窗口内发生违约。考虑预警实际需要,我们将客户发生违约的表现期确定为三个月,即如果当前的正常客户如果在未来三个月内发生了违约,则该客户在当前被视为具有较高的信用风险,将被标定为正类客户。相反地,如果当前正常客户在未来三个月内仍然没有发生任何违约,则该客户在当前被视为不具有或具有较低的信用风险,被标定为负类客户。标定后的客户样本一部分将作为模型的训练集,用来支持模型变量的选择、模型参数的估计和统计量的检验等,其他部分将作为模型的测试集,用来对训练后得到的模型结果进行验证,检查预警模型的实际应用效果。

其次,我们把可能与企业信用风险有关的因素分为两大类、六小类,共300个指标。一是客户自身因素,包括以下三类指标:1)客户基本属性类20个,包括企业规模、所属行业、首次建立业务关系时间、是否小企业等;2)客户贷款状况类72个,如贷款期限、贷款余额、欠息金额、逾期情况、担保金额等;3)客户贷款行为类81个,包括近3个月欠息次数、近6个月逾期天数、近6个月逾期凭证数等。二是外在关联因素,也包括三类指标:4)关联企业投向行业类23个,当某贷款客户的关联企业都投向限制类行业时,则该客户在关联群中很可能充当“提款机”角色;5)关联企业风险信息类95个,包括关联企业不良贷款率、同一法人企业逾期贷款率、关联违约企业数等指标;6)关联关系个人类9个,包括法人代表、法人配偶的是否有零售贷款违约、法人零售违约笔数、客户个人股东个数等指标。其中,指标个数最多的是关联企业信息类和客户贷款行为类,合计占56%,这正是R&B模型得名之由来。

最后,我们需要对这些指标进行选择。指标选择过程中需要遵循两个原则:第一,进入模型的指标需要在业务上具有良好的可解释性,以使模型保持较强透明性,容易被理解,同时以免成为简单打分的黑盒模型。第二,进入模型的指标需要在统计上具有显著性,即对数据集合中的正负类样本具有较好的区分能力。通过单指标分析可以得到每一个指标的显著性统计量,据此选择具有较高显著性水平的指标变量;在多指标分析中考虑相关性影响。经过严格和反复筛选,最终只有16个指标进入模型成为有效解释变量。其中,关联企业风险信息类和客户贷款状况类各6个,客户贷款行为类和客户基本属性类各2个(见表1),基本保持了R&B模型的指标特色。

表1 最终入选的模型解释指标

(四)模型算法的选择

在构建R&B模型过程中,单指标显著性水平分析主要采用单指标逻辑回归算法构建Score统计量来衡量每一个指标的显著性水平。首先,Score统计量是假设对于k个截距项和t个自变量的逻辑回归模型而言的。如果t 个自变量已经确定进入模型,此时需要考虑第t+1个自变量进入模型之后对模型拟合效果的影响。通过比较具有t+1个自变量的全模型和只有t个自变量的模型之间的残差卡方统计量,可以知道引入第t+1个自变量是否对模型拟合度具有显著的提升。单指标分析过程就是通过将每一个截距项和每一个自变量的模型残差卡方值与单截距项模型的残差卡方值进行比较,得到每个指标对区分信用风险的定性作用和模型效果提升的定量程度。然后,采用同属逻辑回归算法中的逐步选择法,根据Score统计量的值大小选择进入模型的指标变量。此外,不同变量之间可能存在线性相关性,把这些指标进入模型可能会降低其他指标的显著性。因此,在每步选择一个变量进入到模型之后,还需对其他所有变量的Wald卡方统计量进行排查,剔除p值过大的指标。最后,我们就会得到一组具有较高统计显著性和较低线性相关性的解释变量。

对于处理二元定性目标变量,学术界已经存在多种成熟的算法工具,如逻辑回归算法、决策树算法、神经网络算法、支持向量机算法等。就商业银行构建客户信用风险预警模型而言,由于对模型最终结果要有可解释性的要求,因此神经网络和支持向量机算法较少应用;又由于往往要通过打分的形式展现模型结果,所以决策树算法基本不用。于是,逻辑回归算法就成为解决二分类问题的重要方法之一,逐步成为信用风险建模的经典工具。对二分类因变量不适宜采用最小二乘法,往往需要采用非线性函来进行方程构建和求解。在二分类因变量分析中会使用多种分布函数,最常用的函数是流行的Logistic分布。

如前所述,我们将已有客户样本分为正类和负类两种。设P为客户未来三个月发生违约的概率,则(1-P)为客户未来三个月没有发生违约的概率。为将两者联系起来,取比值(),称为优势比,并取自然对数得。对P进行Logit变换,得到逻辑回归模型的原型:

(1)

即:

(2)

其中,X为方程的自变量,也就是影响客户信用风险高低程度的因素,方程的系数表示自变量每增加一个单位,其优势比的对数值的改变量。

将方程两边同时进行对数转换,得:

(3)

转换等式,求得因变量的概率值函数为:

(4)

逻辑回归模型实际上是普通多元线性回归模型的推广,其误差项服从二项分布,而非正态分布,因此在拟合时采用最大似然估计法进行参数估计。

逻辑回归算法依赖于一个线性模型。线性模型容易解释,但实际上真实函数F(x)是x的线性函数的假设又过于严格。如何突破线性空间的限制,又能够易于理解和解释,是模型变量处理的关键。上述方程(2)中变量X可能来自不同的源:定量型的变量、定性型的变量、“哑”变量编码组、变量间的交互作用项及定量数据的变换等,如对数、方根、平方或立方等。对于原始方程,变量X的列向量不能线性相关。只有X是满秩,才能得到惟一的系数估计。否则,由于是奇异的,会存在多种用X的列向量表示y投影的方法。所以,向量X构成了y投影的线性空间中的一组基。通过对X进行非线性转换,并引入附加变量,在一个新的输入特征空间基上使用线性模型,使得逻辑回归模型既可保持原有的线性模型形式,又能突破原有线性空间的限制,从而提高模型的拟合程度。

由于原Logistic原始回归模型的解为X空间基的一阶泰勒近似,记为X的第m个变换,m=1,2,….M。然后,建立X的线性基展开模型:(5)

于是,我们可以在保持方程(4)基本构造不发生变化的前提下,对变量X进行高阶泰勒展开,构造线性形式下的非线性拟合方程。该方法的优点是,突破了线性空间的限制,只要确定了基函数,则模型在新的空间上仍是线性的,拟合过程与之前的逻辑回归模型完全一样,模型结果易于业务解释和理解。

四、结论与展望

巴塞尔资本协议和美国次贷危机为我们提供了良好的学习机会。显然,无论是对次贷危机还是对新巴塞尔资本协议的讨论,都必须深入到风险管理发展的技术层面方可使我们吸取到真正有意义的经验教训和启示。前者从正面总结了国际银行业在风险管理方面的最佳做法,强调了风险计量的精确性、敏感性和标准化,告诉了我们努力工作的方向;后者则从反面为我们提供了发展和应用现代风险管理技术的失败案例,警告我们不能盲目迷信,照搬照抄。信用风险与社会、经济、人文环境等各个方面都有着密切的联系,要想对信用风险进行科学、规范、准确地预警与管理,就不能脱离对本国、本行客户实际情况的研究和认识。

正鉴于此,本文提出了基于关联关系和信贷行为建立信用风险预警模型,就是在对我国经济高速发展、企业经营集团化的大背景下,利用我国商业银行现有具体数据,根据风险相关性和传染性原理,从企业关联关系角度去度量信用风险状况,并在风险暴露之前进行早期预警。利用某商业银行进行实证的结果也表明了该模型具有较强的风险识别和预警能力。R&B模型为我国商业银行管理信用风险,特别是大客户贷后管理增添了一个有用的工具。

当然,再好的模型都只能是工具,代替不了经验和判断。准确把握客户风险状况不能仅仅指望一个模型或打分,而要通过多发并举,特别是要充分发挥风险经理的作用,将模型非现场定量分析与人员现场定性判断有机结合起来。就模型本身的改进而言,在本文着重通过企业之间“硬关联”来构建指标体系基础上,下一步可以考虑分析企业信贷行为明细数据,引入软关联使模型更加精细。此外,还可把基于关联关系和信贷行为的R&B模型与主要基于企业财务数据和内部评级的IRB模型进行相互印证,交叉互补。(完)

(本文节选自巴曙松所著的《金融危机中的中国金融政策》,该书已于2010年6月1日由北京大学出版社出版发行)

热门文章HOT NEWS