首页 > 资讯列表 > 科技资讯 >> 互联网

实时授信背后的金融云拆解 宜信公司高级副总裁

互联网 2015-01-21 02:33:04 转载来源: 网络整理/侵权必删

导读原来做用户画像时,画像之间是彼此独立的,但这并不符合现实生活中的场景:人并不是独立存在的,人与环境中的万物都是有关联的。因此,我们特别强调实体间的关系

导读

原来做用户画像时,画像之间是彼此独立的,但这并不符合现实生活中的场景:人并不是独立存在的,人与环境中的万物都是有关联的。因此,我们特别强调实体间的关系。如果说每个人是知识图谱中的节点,那么人与环境所形成的关系就是两点间的线。当把点和线综合起来分析时,我们对个人的性格特征、信用状况、财富属性都会有更深层、更全面的理解。

本报记者 黄锴 上海报道

数据从哪里来,如何采集?采集之后怎么办、怎么用?这是大数据和普惠金融接轨时碰到的两个最基本问题。

进一步说,有了大数据之后,如何找到数据点之间的关联,做好用户画像和风控,满足用户的需求,则是摆在所有互联网金融企业面前的挑战。

作为国内知名的P2P公司宜信在2013年成立了大数据创新中心,试图将客户的交易行为、金融活动和财务状况进行分析匹配,实现对客户“量身定制”金融产品和服务。

宜信公司高级副总裁、大数据创新中心总经理张小沛在接受21世纪经济报道记者采访时表示,大数据模型和分析的最终目的就是要对用户做画像,去做认知,而宜信在其金融云中还提出了一个比“用户画像”更前进一步的概念,叫做知识图谱。

四种数据来源

《21世纪》:宜信的数据来源有哪些?

张小沛:宜信有四大数据来源。一是宜信自己的数据。我们有将近9年的数据积累,不仅仅拥有那些申请贷款或做过理财的用户数据,只要用户通过营业部、网络或客服中心和我们有过任何接触,所留下的信息对我们来说都是非常重要的数据。第二,我们有自己的搜索引擎,叫做“姨搜”, 它会抓取用户在互联网上留下的发帖记录、社交关系等数据,以及大量散落在网上的其他公开数据。第三类数据源是来自合作伙伴的数据,这些合作伙伴既包括线上的,也包括线下的企业。第四类数据源是那些商户及个人客户当时授权宜信访问的数据。这4类数据将通过特定的算法模型转化为信用评估数据。

对于宜信来说,数据源越多越好,没有一个数据是无用的数据。打个比方,一个人在网上申请贷款或是做理财,他在填写信息的时候,是花了5分钟,还是一秒钟,或是10秒钟,这些数据统统会进入宜信的模型中。如果用户在线下营业部填写纸质申请表,那么他是涂涂画画的,还是龙飞凤舞地填写,这些信息特征都会被宜信放到模型中去解读。

从原始信息来看,宜信对单个用户可能会收集几百个数据维度。但机器学习中需要进行特征变换,还有许多组合维度,即把许多原始维度做各种各样的组合,扔到模型中,实际模型中可能会有几十万个变量,但是这些对宜信后台的分布式计算集群来说处理难度不大

《21世纪》:在信息采集过程中,你们如何把握线上和线下搜集的数据的比例?

张小沛:许多人都在问比例是多少,还有人问社交数据、网上搜索数据到底有没有用。我认为,单纯地讲某种数据有没有用没有多大意义。比如,我觉得交易数据非常有用,这是一个强特征数据。但一个人在淘宝6年,每年就买两次东西,另一个人在淘宝三个月,这三个月中他每天都买很多东西,那么对这个数据的重要程度的解读就是不一样的。

除了电商交易数据,社交数据也一样。一个人在新浪微博已经3年了,他天天都是在看,从来不发言。另一个人在新浪微博才一年,可是发言很多,互动很多,这虽然同样是社交数据,解读也是不一样的。所以我一般不会去讲社交数据的比重是百分之多少,交易数据的比重是百分之多少。机器学习的美妙之处就在于,它会在分析大量数据的基础上有自我学习的能力,在大量数据中找规律。

数据越多越好吗?

《21世纪》:很多人觉得,数据量并不是越多越好,因为不是每一个数据维度都是有用的。对此你怎么看?数据的“去噪”是一个很大的工程吗?

张小沛:数据是否越多越好,这句话要看怎么来解读。在理想状况下,我们肯定还是需要尽量多的数据维度。在现实生活中,如果我们想要解读一个人,那么也要了解他方方面面的信息,因为同事、家人、朋友对一个人的评价肯定都是片面的,所以理想状况是,你有了全方面全维度的数据,对他的认知才能做到比较完整。当然,这是非常难做到的。数据越多越好,不只是指数据维度多,很多时候是指数量多,还有频度多。

光谈维度也是没意义的,如果你有大量的数据维度,但你一年才跟进一次,那么这个数据就不是热数据,而是冷数据。所以“多”的含义是广义上的,指的是量多,频度多,维度多。

数据去噪是特别具有技术挑战的难题,不只对我们是难题,对所有的从业者都是难题。我们要花很大的精力去做数据的去噪。除了技术手段要高,机器学习的能力要比别人强,还有一个关键的方面,就是要用多个数据源去交叉验证。有些时候,在技术不完全能解决的情况下,就要线上线下相结合,进行验证。

金融云能力拆解

《21世纪》:你将宜信在大数据金融上的探索方向描述为“金融云平台”,其具体含义是什么?

张小沛:宜信做了8年多的金融,对金融风控、反欺诈等还是有很多深刻的理解,所以我们在搭建基础技术、框架的过程中,把这些理解抽象出来,形成金融层面的一种核心能力。再把这种能力做到云计算的平台上去,这就是金融云。

进一步说,金融云平台拥有一般云平台的特点:分布式存储、分布式计算框架、虚拟化环境,但与一般的云平台的差别在于,这是一个基于金融业务的云平台,其中包含着特定的业务逻辑。

宜信将风控、反欺诈、获客能力等核心的金融逻辑抽象出来,作为金融云平台的内核。我们希望把这种金融能力向生态系统的合作伙伴去分享,打造一个共赢的生态体系。

2014年,我们在生态体系内做了很多尝试与合作,比如我们与eBay的合作。eBay上有很多的外贸电商从业者,在国内华东、华南地区大约有几十万商家。这些商户有非常强的融资诉求,如果他们授权宜信访问其在eBay上的相关经营数据,那么我们就能通过分析其网店的历史数据从而对他们进行实时授信

eBay是我们第一个合作伙伴,到目前为止,我们还有几十个其他类型的合作伙伴,有物流平台、仓储平台、软件供应商平台,还有很多不同的O2O平台等等。

《21世纪》:能不能举个具体的例子,宜信是如何通过数据分析用户的信用的?

张小沛:金融云的金融能力分为好几大块,eBay这个例子我们称之为实时授信。金融云还有许多其他的能力,比如反欺诈、贷中贷后的管理、金融获客,还有个性化产品的定制和推荐,以及跟理财相关的资产配置等,这些都是金融云的能力。

举例来说,一个网店有好几年的交易历史,它有很多交易的流水数据,也有很多品类的数据。那么它的顾客群体是什么样的,客单价是多少,这些顾客是怎么分布的,有多少男性,多少女性,多少是回头客,诸如此类的数据我们都会去看。一个卖衣服的网店和一个卖手机的网店处于不同的垂直行业中,那么我们除了看这家店过去的历史交易情况,还要看其在垂直行业中所处的位置。

在此基础上,我们会关注在不同的社交媒体上,别人是如何评价这些个人和商家的,这些数据我们都会放到模型里面。我们的后台有一堆非常复杂的模型,只要是数据统统都扔进去,通过分析最后形成对他的认知,决定给不给他贷款,额度是多少,费率是多少等。

《21世纪》:在此基础上,你们是否会对用户进行分类或“画像”?具体是如何画像的?

张小沛:在做了那么多模型和分析后,最终的目的就是要对用户做画像,去做认知。在金融云中,我们提出一个概念比“用户画像”更前进了一步,叫做知识图谱。这是金融云上一个非常重要的基石。

原来做用户画像时,画像之间是彼此独立的,但这并不符合现实生活中的场景:人并不是独立存在的,人与环境中的万物都是有关联的。因此,我们特别强调实体间的关系。如果说每个人是知识图谱中的节点,那么人与环境所形成的关系就是两点间的线。当把点和线综合起来分析时,我们对个人的性格特征、信用状况、财富属性都会有更深层、更全面的理解。

我们时时刻刻都在将不同的数据拿过来做解读,不停地往这个图谱中做添加和修正。我们为什么能做实时授信,就是因为很多东西之前已经在图谱中计算过了。加上用户当时给我的那些数据,我只要在原来的基础上做叠加就可以了。因此,不是所有的东西都是当时算出来的,那个难度还是非常大的,我们的逻辑是提前算和当时算相结合。(编辑 施建)

标签: 实时 授信 后的 金融 拆解 宜信 公司 高级 副总裁


声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持