金融人常挂嘴边的“大数据风控”真正的内核到底是啥?
前方高能:注意!注意!注意!这是一篇沉甸甸的干货!!!这两年市场上突然涌现了各种大数据公司,本来一个门槛极高的行业却因资本青睐而迅速扩容。
先后在美国多家大型银行风控部门担任高级领导职位:包括美国银行信用卡信贷资产风险部高级副总裁、花旗银行信用卡信贷风险部副总裁、摩根大通银行信用卡市场部副总裁等;2015年回国后任FICO有限公司分析咨询总监,领导中国区零售信贷领域的策略咨询业务,为国内多家大型商业银行提供风险管理解决方案。
国内所说的“大数据”,在美国习惯被称之为“替代性数据”(AlternativeData)。这是源于当时美国有部分人群个体征信数据的缺失,于是水、电、煤等这些替代性数据就派上用场了。
依照与个人信用关联程度,数据可以大体分为两类:一种是传统征信数据,也就是强相关数据;另一种是弱相关数据,比如社交数据、水电煤及经营数据等。
现在国内注册的大数据公司有数万家,但不少公司的数据源都是“替代性数据”或弱相关数据。只有经过实践验证过的数据才是有效数据,现在市场上普遍流行的社交信息、非还款负债信息等,严格来说不属于准确意义上的征信数据。
一方面,行业机构在数据处理上仍有很大的提高空间。数据清洗,特别是变量衍生的工作,技术含量其实是很高的,需要经过专业训练。最好是有不错的业务经验,对业务有比较透彻的理解。当前现状,很多公司从事数据清洗的团队接受的训练和业务经验往往都不足。坦白说,在信用风险领域,市场上海量的大数据普遍存在着变量相关性不强、数据质量良莠不齐的问题。
另一方面,我们在实践中发现,由客户自己填写的、或渠道方提供的数据,有可能是伪冒伪造的、也可能是渠道方自己包装出来的,这其中存在风险的问题。
市场上很多互金公司都提到自建大数据模型或数据驱动的风控模型,是不是营销噱头大于实际内容?
首先明确一下“数据驱动”的定义,从狭义的角度,数据驱动的是经验驱动,讲究客观的量化数据,主动数据的采集并支持决策就是数据驱动,而我们常说的“拍脑袋”就是经验驱动。
何谓数据驱动的风控模型?一方面要有历史数据的采集与积淀,另一方面要通过对历史数据的分析,完成模型的构建、修正与迭代,两个条件缺一不可。因此要看大数据公司有没有开展信贷业务的历史数据,有没有经过风险测试和模型修正的过程。
大数金融的数据化风控模型,经历了8年的经济下行周期的后才对外推广,与银行合作帮助他们进行信贷审核和风控。
您所说的大数据风控或者数据驱动的风控技术,能不能表达得更为具象化?换句话说,如何利用大数据模型来评估风险?
这里要一下,“使用数据”和“数据驱动”是完全不同的两回事。打个比方,风控手段里的“客户画像风险分类”,它也是用到了数据,但通常是经验驱动,有的用了聚类的算法,本质上都是无监督模型,与真正意义上的数据驱动风控是有区别的。
做好数据化风控,就好比米其林星级大厨炒一道好菜,需要精湛的厨艺、用得顺手的厨具和高品质的原材料。好的厨艺,代表的是领先的风控策略;好的厨具,指的是以评分卡为基石的风控模型工具等;好的原材料,指的是真实可靠的数据源。
坦白说,这块的市场空间会很大。为什么支付宝产生在中国而不在美国?因为美国金融体系较为成熟发达、支付手段很健全,大型银行的产品设计和风控能力水平很高,反而让这种创新性金融产品没有太多萌芽的空间。
同理,国内的纯信用零售信贷与对公贷款、抵押类贷款相比,也是一个尚处于发展期,没有进入成熟期的贷种,这就使得这个领域有着巨大的发展空间。零售信贷的风控与对公信贷业务的风控完全是两个体系--特别是小微业务,单笔风险大、缺乏报表和抵押物,是所有零售信贷分类中风控最难的一个贷种,使得很多银行都不敢轻易涉足小微业务。
从趋势上看,普惠金融的开展,不可能完全依靠社会非银行的力量去做,因为体量太小。只有通过专业垂直的金融科技公司、通过技术服务输出的方式,降低银行切入小微业务的试错成本,将银行服务小微企业的积极性真正调动起来,中国的普惠金融才能真正实现,最近“BATJ+工农中建”的联袂合作就是一个标志性的信号。
您如何看待八家个人征信机构,包括个人征信机构牌照也迟迟未下发、监管层对大数据领域的监管思等?
个人认为,大数据公司最需要注意的地方,在于获取数据时“是否得到客户授权”。这决定了数据获取的可持续性。去年征信管理局也出台《征信业务管理办法(草稿)》,了信息使用需获信息主体授权同意。今年6月开始实施的《中华人民国网络安全法》也了任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。
对于个人征信机构,我认为“不能既做裁判又当运动员”,能取得征信牌照的机构应该是市场上第三方机构。