大数据征信_风险控制_征信数据如何挖掘? - 诺米粒 - 2024最新贷款口子论坛
登录 or

大数据征信_风险控制_征信数据如何挖掘?

互联网金融现在通过大数据风控、大数据征信来进行风险控制,那么这些征信数据他们如何挖掘的?怎么就算的上是大数据?大数据风控是噱头还是干货???
已邀请:

白明 白米Ⅲ级

赞同来自:

下面这篇文章是关于大数据挖掘来进行风控方面的。可以参考:
互联网金融发展的关键是风险控制,“风险控制”已然成为诸多互联网金融企业能否长大的魔咒,这个不争的事实像一座大山摆在众多互联网金融大佬与创业者的面前。为什么阿里金融能够将它的网络小贷不良率控制在不到1%,有胆量再贷多点吗?大数据挖掘技术和互联网金融的风险控制到底是什么关系?互联网金融将怎样建立有效的风险控制生态体系?本文将带你揭开大数据挖掘与互联网金融风险控制的神秘面纱。
  最近互联网金融圈不仅自己玩的很开心,而且还拉上了金融界甚至央行的大佬们一起玩的很开心。尽管让互联网金融企业头痛的问题——央行征信系统不对市场开放,仍然没有解决,但至少央行的态度明朗,支持互联网金融的发展,并认为互联网金融是传统金融的有益补充。
  生命的神奇之处在于它总能找到一个出口。作为新生事物的互联网金融也不例外,在那扇门朝他们关闭的同时,他们却找到了另外一扇窗。在亦步亦趋的探索中,他们中的大企业通过自身力量,小企业通过联合的力量找到了适合自身发展的风险控制生态系统,正朝着良性和有序的方向发展,正如凯文凯利在他的《失控》中描述的群氓智慧那只无形的手。
互联网金融掌握了可以颠覆传统金融的风控技术
在不依赖央行征信系统的情况下,市场自发形成了各具特色的风险控制生态系统。大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务
互联网金融企业的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
  央行的征信系统是通过商业银行、其它社会机构上报的数据,结合身份认证中心的身份审核,提供给银行系统信用查询和提供给个人信用报告。但对于其它征信机构和互联金融公司目前不提供直接查询服务。2006年1月开通运行的央行征信系统,至2013年初,有大概8亿人在其中有档案。在这个8亿人当中,只有不到3亿人有过银行或其他金融机构发生过借贷的记录,其中存在大量没有信贷记录的个人。



而这些人却有可能在央行征信系统外的其它机构、互联网金融公司自己的数据系统中,存有相应的信贷记录。市场上一些线下小贷公司、网络信贷公司对于借贷人的信用评级信息需求非常旺盛,也因此催生了若干市场化征信公司,目前国内较大的具有代表性的市场化征信公司有几家:如北京安融惠众、上海资信、深圳鹏元等等。
从P2P网贷公司和一些线下小贷公司采集动态大数据,为互联网金融企业提供重复借贷查询、不良用户信息查询、信用等级查询等多样化服务是目前这些市场化的征信公司正在推进的工作。而随着加入这个游戏规则的企业越来越多,这个由大量动态数据勾勒的信用图谱也将越来越清晰。
 互联网海量大数据中与风控相关的数据
互联网大数据海量且庞杂,充满噪音,哪些大数据是互联网金融企业风险控制官钟爱的有价值的数据类型?下图为大家揭示了互联网海量大数据中与风控相关的数据,以及哪些企业或产品拥有这些数据。

(图)风控相关大数据及代表企业或产品
利用电商大数据进行风控,阿里金融对于大数据的谋划可谓非一日之功。在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过电商平台阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家自己提供的销售数据、银行流水、水电缴纳甚至结婚证等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。国内最具代表性的企业是成立于2005年,最早开展网上代理申请信用卡业务的“我爱卡”。其创始人涂志云和他的团队又在2013年推出了信用风险管理平台“信用宝”,利用“我爱卡”积累的数据和流量优势,结合其早年的从事的FICO(费埃哲)风控模型,做互联网金融小微贷款。
  利用社交网站的大数据进行网络借贷的典型是美国的Lending Club。Lending club于2007年5月24日在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台。利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
  在国内,2013年阿里巴巴以5.86亿美元购入新浪微博18%的股份,其用意给人很多遐想空间,获得社交大数据,阿里完善了大数据类型。加上淘宝的水电煤缴费信息、信用卡还款信息、支付和交易信息,已然成为了数据全能选手。
  小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据,共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。其中有数据统计的全国小贷平台有几百家,全国性比较知名的有人人贷、拍拍贷、红岭和信用宝等。
第三方支付类平台未来的机遇在于,未来有可能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。代表产品为易宝、财付通等。
 生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。代表产品为平安的“一账通”。
互联网金融风控大数据加工过程

(图)大数据加工过程图解析
  如上图所示,在进行数据处理之前,对业务的理解、对数据的理解非常重要,这决定了要选取哪些数据原料进行数据挖掘,在进入“数据工厂”之前的工作量通常要占到整个过程的60%以上。
在数据原料方面,越来越多的互联网在线动态大数据被添加进来。例如一个虚假的借款申请人信息就可以通过分析网络行为痕迹被识别出来,一个真实的互联网用户总会在网络上留下蛛丝马迹。对征信有用的数据的时效性也非常关键,通常被征信行业公认的有效的动态数据通常是从现在开始倒推24个月的数据。
通过获得多渠道的大数据原料,利用数学运算和统计学的模型进行分析,从而评估出借款者的信用风险,典型的企业是美国的ZestFinance。这家企业的大部分员工是数据科学家,他们并不特别地依赖于信用担保行业,用大数据分析进行风险控制是ZestFinance的核心技术。他们的原始数据来源非常广泛。
  他们的数据工厂的核心技术和机密是他们开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
  事实上,在美国,征信公司或者大数据挖掘公司的产品不仅用于提供给相关企业用于降低金融信贷行业的风险,同时也用于帮助做决策判断和市场营销,后两者不在本文的探讨范围内,但是可以从另一个方面给我们很多启发。
神州融大数据风控平台是由神州融与全球最大征信局Experian(益博睿)、阿里金融云联合各大征信机构、电商平台等伙伴合作打造,小微金融机构零门槛即可拥有价值千万、世界顶级信贷工厂管理系统与量化风控决策能力,一站式轻松接入3000+维度鲜活数据源和自动化决策评分卡,并免费对接大型电商平台、获得垂直信贷场景下的创新金融产品。可以神州融继续了解。

泡杯茶看金融 白米Ⅲ级

赞同来自:

即使数据全部打通,算法高度发达,也会遇到瓶颈, Fintech 绝非万能。
征信机构分析数据之后,给个人一个分数或者授信额度。比如,芝麻分 702 分,蚂蚁花呗额度 22000 元。其实,这不科学。信用是相对的,跟身高不一样。身高是绝对的,姚明身高二米二六,只要测量方法正确,无论观察者高矮胖瘦、亲疏远近,他都是二米二六。信用则不然,人具有多面性:“爸爸赖皮,说好周末带我去公园玩的。”“我老公答应过的事情,都办到了。”“他说过会永远爱我,大骗子。”“他工作时非常守时,从未耽误。”“该交物业费了,都拖了两年了!”同样是借钱,可能还村长的,赖同学的,还京东白条,赖 P2P 债务。
现在的大数据征信机构,需要用户提供运营商、支付宝、淘宝、微信、京东、网银、信用卡、个人邮箱、企业邮箱账号及密码,身份证,手机通讯录,单位、家庭住址,几乎将个人隐私扒光了,最后要么拒掉,要么授信几千块钱。这不是征信,而是反欺诈。以上这些数据虽然敏感,但是和个人信用相关性并不高。机构只能据此判断用户是不是一个有正常工作、生活的正常人,至于其信用好不好仍不清楚,为了控制坏账,只能授信几千块钱。
要判断一个人是不是正常人,不用这么麻烦,熟人一眼就看出来了。大数据征信机构要的数据越来越多,用户感觉越来越麻烦、屈辱,这会导致逆淘汰:越要脸的用户越排斥大数据征信,留下来的用户质量越来越差,这导致坏账率上升、借款利率上升,机构索要更多数据,正常用户逃离……恶性循环。你最多愿意借多少钱给某人?熟人最清楚,而且每个人答案都不一样。
大数据技术也有局限性,适用于对准确度要求不太高的领域。天气预报可以,明天中午 12 点下雨概率 80%,到时没有下雨,后果也不严重。商品推荐可以,根据消费记录,推荐三星手机,不感兴趣不点、不买就是。可是,坏账率高于 10%,一般借贷平台就会崩溃,大数据征信准确度够吗?大数据适合用来排除可疑用户,但是很难给正常用户准确授信。
- -------原作者:邵书,摘自微信公众号:泡杯茶看金融。

白米Ⅲ级

赞同来自:

随着大数据时代的到来和发展,可用于评估人们的数据越来越丰富,如电商的交易数据、社交类数据(强社交关系如何转化为信用资产)、网络行为数据等,来自互联网的数据将帮助金融机构更充分地了解客户。

目前的数据来源主要有以下几类:
  1. 侧重电商:芝麻信用。芝麻分来自淘宝、支付宝的数据占30-40%,综合考虑个人用户的信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度的信息;
  2. 侧重社交:腾讯信用。通过社交网络上的大量信息,比如在线时长、登录行为、虚拟财产、支付频率、购物习惯、社交行为等,得出用户信用得分;
  3. 侧重运营商:聚信立。综合个人用户运营商数据、电商数据、公积金社保数据、学信网数据等,形成个人信用报告;
  4. 侧重信用卡:51信用卡。根据用户的信用卡数据、开放给平台的电商数据所对应的购买行为、手机运营商的通话情况、登记信息等取得多维信息的交叉验证,确定用户风险等级。

白米Ⅲ级

赞同来自:

请教下,信用分析当前主流的算法是什么?

白米Ⅲ级

赞同来自:

第一个问题,数据来源,企业方面基本以国家部门登记信息为主要判断依据(包含登记信息、变更信息,财务信息等等),其次参考网络信息包含负面新闻、诉讼、商标、专利等等;

第二个问题,大数据,根源上讲就是在做评级模型的时候将样本体量扩大化、信息维度多样化,可以建立更多模型,应用到多样场景。通俗化来讲,比如传统征信模型可能是参考1万家企业做出来,而大数据可以将这个体量扩大到100万家,最后得出的判断标准更准确而已,;

第三个,大数据征信到底是不是噱头,我视野有限,但征信报告是用来做商业参考的,用来解决商业信息不对等而存在,而随着互联网的发展,人们更多的行为通过网络进行,在此大前提下,征信有很大前景,但是征信机构如何取得委托人的信任,也就是委托人凭什么相信报告内容真实、客观、有参考价值,确实是有一定难度。

白米Ⅲ级

赞同来自:

目前国内央行批准了8家征信公司,有考拉,腾讯,芝麻,前海,鹏元,中智诚,中诚信,华道,这家都有自身的数据优质,之前央行的征信是贷款的必须参考之一,所以这8家还是为目前流行的P2P公司,小贷公司,提供数据,来帮助这些公司在信贷过程中,降低风险,减少坏账率,像考拉征信,芝麻,依托自身的优势,给自己的客户放款,像考拉有POS贷,蚂蚁有花呗,未来征信不但但在运营在金融信贷机构,还会运用到更多的场景,比如租车,酒店,如果他看你征信,就不需要交押金了,甚至婚恋网站,不仅仅有市场价值,还极具社会意义,征信爱好者可以加QQ:2481467751,微信15121022051

要回复问题请先登录注册

var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();