数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈

2019-09-16 16:37:32来源:连州网作者:小瑞

当今时代,数据为王。


人工智能技术承载了人们对于未来世界和商业模式的无限野望,但脱离对数据规模和质量的讨论,无法突破数据造假等瓶颈,就都是空谈。


以智能风控为例,无论采用何种算法,最终决定风控模型精度极限的,还是数据。“不同的算法决定了模型逼近极限的速度,但真正对模型精度起决定性作用的是数据质量,是特征工程。”向前金服模型与应用团队负责人杨林说。


数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈


特征工程,指通过对底层数据的清洗、衍生,提取对训练模型有价值的特征这一过程。在8月份向前金服上线的大数据智能风控“听风者”3.0模型的研发过程中,特征工程是最为重要的一环。


规范获取数据原料,优质数据的先决条件


在“听风者”的这次升级中,特征工程占了建模工作三分之二的工作量。


在数据原料上,除多年运营积累的自有数据外,向前金服的风控模型还采用了央行征信中心数据及百行征信、美国个人消费信用评估知名机构FICO等行业数据。


在数据获取上,向前金服一直坚持两个基本原则。


首先,数据要具备高精准度,这是数据质量的决定因素。有了好的原材料,加工出的“菜品”才能营养美味。


其次,数据获取方式要规范,不仅严格筛选技术手段合规的数据源,而且在数据传输全流程采用不可逆的加密算法进行脱敏处理。遵守操作规范,“菜品”才不至于变质。


数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈


在获取了丰富多元的原始数据后,需要对数据进行标准化处理,也就是经过数据清洗,才能拥有整齐干净的数据,这是进行变量衍生的基础。


变量衍生,创新技术和业务经验的结合之果


数据经过清洗后,对基础字段上进行衍生,造出衍生变量则是整个过程最艰辛的部分。衍生变量,需要对基础数据进行组合,基于不同关系而产生。“很多时候,单独看一个维度数据很难发现隐藏的风险,但做一些交叉分析,会暴露更多的信息。”杨林说。


而产生衍生变量的难度在于,不仅要基于对业务的深刻理解进行组合,有时还需要建模人员开脑洞对基础变量进行花样组合,并且要经过反复校验。最终变量能否进入模型,要看挖掘出的变量是否对于判定借款人的还款意愿、还款能力有价值。


在这个过程中,以评估个人还款能力和还款意愿为出发点,向前金服模型与应用团队在衍生变量的制造上,采用了创新技术与业务经验相结合的方式。一方面,利用成熟且科学的量化算法,进行大量衍生变量的自动化生成;另一方面,与风控策略等团队合作,利用他们丰富的一线业务经验和对风险点的敏感度,产出与自身业务高度契合的变量。


数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈


最终,“听风者”3.0模型的变量候选池规模过万。这意味着,向前金服可对借款用户通过上万字段进行交叉比对,这是在用户画像精准度、风控可靠性等方面跨上了一个新的台阶,也让向前金服资产的优质性有了进一步的提升。

 

版权与免责声明:

 

1、本网提示:本内容为机器自动抓取,并不代表本站观点。我站发布此文目的在于促进信息交流,不存在盈利性目的,此文观点与本站立场无关,不承担任何责任。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。未经证实的信息仅供参考,不做任何投资和交易根据,据此操作风险自担。

2、文章等问题请咨询Q:739998010

相关阅读

快速索引: