登录 or
大数据

大数据

飞贷的风控到底怎么做的?接了哪些外部的数据源?

飞贷自称可以做纯线上的高达30万的大额现金借贷(且不考虑利率问题),风控是个大问题,懂行的都知道这里面模型是说给别人听的,数据源才是核心,那么飞贷到底接了哪些外...

匿名用户 回复了问题 • 0 人关注 • 1 个回复 • 1693 次浏览 • 2017-05-21 14:42

数据宝2016年的双11活动大家都抽到了多少钱?

数据宝网站的API接口很全的样子

匿名用户 发起了问题 • 0 人关注 • 0 个回复 • 1177 次浏览 • 2016-11-10 14:18

互联网金融中需要关注的风控逾期指标有哪些?

[b]本题已加入知乎圆桌 »

林雨 回复了问题 • 0 人关注 • 6 个回复 • 80203 次浏览 • 2016-10-14 11:04

国内大数据风控方面做的比较好的企业有哪些?数据的获得途径有哪些?

匿名用户 回复了问题 • 0 人关注 • 8 个回复 • 10902 次浏览 • 2016-07-29 22:58

国内未来3~5年内,征信业务是否有可能爆发?

在美国,日本等发达国家,征信业务已经非常完善了,但是国内这一块一直没有一个成熟的征信体系,请问这一块国内究竟是否有可能做得起来?有人说,征信是互联网金融的根基,...

回复了问题 • 0 人关注 • 20 个回复 • 151428 次浏览 • 2015-09-09 20:38

马云的芝麻信用是怎么利用大数据评判用户信用的?

目前国家对于公民的信用体系建设方面重视了起来,6月1日,“信用中国”网站(

回复了问题 • 0 人关注 • 6 个回复 • 19341 次浏览 • 2015-06-11 23:53

云计算在中国的市场格局是怎样的?

以及和几家大公司,阿里,腾讯,盛大,微软,百度等的比较!主要是中国云计算,也就是国内的现状分析或者趋势。

回复了问题 • 0 人关注 • 20 个回复 • 176158 次浏览 • 2015-03-19 16:42

Wecash闪银3分钟信用审核究竟怎么做到的?是否是目前最快的?

在征信行业,对审核速度的追求有止尽吗?

匿名用户 回复了问题 • 0 人关注 • 2 个回复 • 9269 次浏览 • 2015-01-05 15:48

类似闪银、量化派这样的大数据小额信用服务评估商在评估用户信用额度时运用了哪些算法?

闪银一般是通过绑定用户的社交信息、银行信息进行信用评估,量化派主要是采用大数据的方法对小额贷款用户、小企业进行数据评估。

匿名用户 回复了问题 • 0 人关注 • 1 个回复 • 3683 次浏览 • 2014-12-19 13:42

大数据最核心的价值是什么?

有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从[b]庞杂的数据背后挖掘、分...

回复了问题 • 0 人关注 • 20 个回复 • 868379 次浏览 • 2014-04-04 10:09

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big ...

匿名用户 回复了问题 • 0 人关注 • 20 个回复 • 464050 次浏览 • 2013-05-06 12:00

条新动态, 点击查看

回答了问题 • 2016-10-14 11:04 • 6 个回复 不感兴趣

互联网金融中需要关注的风控逾期指标有哪些?

赞同来自:

1、逾期天数 DPD (Days Past Due)
自应还日次日起到实还日期间的日期数
举例:DPDN+表示逾期天数 >=N天,如DPD30+表逾期天数 >=30天的合同
2、逾期期数
自应还日次日起到实还日期间的日期数... 显示全部 »
1、逾期天数 DPD (Days Past Due)
自应还日次日起到实还日期间的日期数
举例:DPDN+表示逾期天数 >=N天,如DPD30+表逾期天数 >=30天的合同
2、逾期期数
自应还日次日起到实还日期间的日期数
举例:
正常资产用C表示
Mn表示逾期N期:M1逾期一期,M2逾期二期,M3逾期三期,M4逾期四期,M5逾期五期,M6逾期六期
Mn+表示逾期N期(含)以上,M7+表示逾期期数 >=M7
3、贷款余额 ENR
至某时点借款人尚未偿还的本金,即:全部剩余本金作为贷款余额
4、月均贷款余额 ANR
月均贷款余额 = (月初贷款余额 + 月末贷款余额)/2,月初贷款余额即上月月底贷款余额
5、C,M1,M2,M3…的贷款余额
根据逾期期数(C,M1,M2,M3…),计算每条借款的当时的贷款余额
贷款余额 = 放款时合同额 –已还本金
已还本金 = (放款日次日 ~ T-1)的还款本金总额
6、核销金额
贷款逾期M7后经审核进行销帐,核销金额即在核销日期当天的贷款余额
7、回收金额 Recovery
来自历史所有已核销合同的全部实收金额
8、净坏账 NCL
当月新增核销金额 – 当月回收金额
9、在账月份 MOB
放款后的月份
举例:
MOB0,放款日至当月月底
MOB1,放款后第二个完整月份
MOB2,放款后第三个完整月份
10、(C->M1、M1->M2、M2->M3、M3->M4、M4->M5、M5->M6)滚动率 Flow rate
举例:
C-M1=当月进入M1的贷款余额/上月末C的贷款余额
M2-M3=当月进入M3的贷款余额/上月末M2的贷款余额
11、逾期率Coin(C)%、Coin(M1)%、Coin(M2)%、Coin(M3)%、Coin(M4)%、Coin(M5)%、Coin(M6)%
当月不同逾期期数的贷款余额/当月底总贷款余额
举例:
Coin(C)%=当月C贷款余额/当月底贷款余额(C-M6)
Coin(M1)%=当月M1贷款余额/当月底贷款余额(C-M6)
Coin(M1+)%=当月M1−M6贷款余额/当月底贷款余额(C-M6)
12、逾期率Lagged(M1)%、Lagged(M2)%、Lagged(M3)%、Lagged(M4)%、Lagged(M5)%、Lagged(M6)%
当月不同逾期期数的贷款余额/往前推N个月的总贷款余额
举例:
Lagged(M1)%=当月M1的贷款余额/上个月底的贷款余额(C~M6)
Lagged(M4)%=当月M4的贷款余额/往前推四期的总贷款余额
Lagged(M4+)%=当月M4的贷款余额/往前推四期的总贷款余额
+ 当月M5的贷款余额/往前推五期的总贷款余额
+ 当月M6的贷款余额/往前推六期的总贷款余额
13、账龄分析Vintage
统计每个月新增放款在之后各月的逾期情况
综合例子:
https://pic2.zhimg.com/50/v2-cb140742f0b36db8f08ac0be6c7f8260_hd.jpg
说明:
客户A所有月份正常还款,贷款余额逐步减少。
客户B在8月份未还款,进入M1,9月份未还款,进入M2,10月份还是未还款进入M3,月别贷款余额无变化。
客户C在9月份未还款,进入M1,10月分月还清所欠款,进入C。
客户D在9月份正常还款,10月份未还款,进入M1。
滚动率
1、8月C-->M1 :8月进入M1的贷款余额 / 8月月初即7月月末C的贷款余额 30,000/80,000=37.5%。
2、9月C-->M1 :9月进入M1的贷款余额 / 9月月初即8月月末C的贷款余额 30,000/120,000=25.0%。
9月M1-->M2 :9月进入M2的贷款余额 /8月的M1的贷款余额 = 30,000/30,000=100%。
滚动率C-->M2
上月的C-->M1 * 当月的M1-->M2。
3、9月C-->M2 :8月C-->M1 * 9月M1-->M2 = 37.5% * 100% = 37.5%。
逾期率Coin%
1、8月CoinM1 = 8月M1余额(30,000)/ 8月贷款余额(150,000)= 20.0%
2、9月的CoinM1=30,000/250,000=12%。
9月的CoinM2=30,000/250,000=12%。
3、10月份CoinM1=40,000/330,000=12.1%。
10月份CoinM2=0/330,000=0%。
10月份CoinM3=30,000/330,000=9.1%。
逾期率Lagged%
1、8月LaggedM1=8月统计逾期进入M1的贷款余额 / 上个月底的贷款余额(C~M6)=30,000/80,000=37.5%。
2、9月LaggedM1=9月统计逾期进入M1的贷款余额 / 上个月底的贷款余额(C~M6)=30,000/150,000=20.0%。
9月LaggedM2=9月统计逾期进入M2的贷款余额 / 上上个月底的贷款余额(C~M6)=30,000/80,000=37.5%。
3、10月LaggedM3=10月统计逾期进入M3的贷款余额 / 往前推3期的贷款余额(C~M6)=30,000/80,000=37.5%。
账龄分析Vintage
1、2015/07的放款合同金额为50,000+30,000=80,000;
mob1(2015/08):客户B发生逾期但是不够M2;
mob2(2015/09):客户B依然没有还款,进入M2,则账龄计入:30,000/80,000=37.5%
mob3(2015/10):客户B依然没有还款,进入M3,账龄数据保持不变37.5%。
假设以后客户A依然正常还款,客户B没有偿还行为,则之后账龄保持37.5%不变。
2、2015/08的放款合同额为30,000+50,000=80,000;
mob1(2015/09):客户C发生逾期但是不够M2;
mob2(2015/10):客户C还清欠款,进入C,客户D发生逾期但是不够M2;
mob3(2015/11):假设客户C未还款,则发生逾期但是不够M2,客户D继续欠款,则进入M2,账龄记入:40,000/80,000=50.0%;
mob4(2015/12):假设客户C、D都未还款,则C进入M2,D进入M3,则账龄记入:60,000/80,000=75.0%;
mob5(2016/01):假设客户C、D全部还清欠款,全部进入C,则账龄为0;
https://pic4.zhimg.com/50/v2-29a1d379a4c75645bed50b78eae7ced6_hd.jpg
最后,推荐进一步阅读 互联网金融时代消费信贷评分建模与应用 (豆瓣)
笔者为大数据风控服务商行业从业者。
综合分析目前市场上的公司现状而言,大数据风控服务好的公司可以大概分为几类:
一类是同盾、聚信立等公司成立时间相对早的公司,业务模式上偏向于提供基础的数据采集服务,也就是行业内所谓的爬虫、电商、运营商等数据采集及分析;
第二类... 显示全部 »
笔者为大数据风控服务商行业从业者。
综合分析目前市场上的公司现状而言,大数据风控服务好的公司可以大概分为几类:
一类是同盾、聚信立等公司成立时间相对早的公司,业务模式上偏向于提供基础的数据采集服务,也就是行业内所谓的爬虫、电商、运营商等数据采集及分析;
第二类是诸如融360等有流量及自产数据的服务商,他们倾向于助贷,提供导流服务及信息服务等;
第三类,也是未来比较有发展潜力的公司,这类型公司的大数据风控,除了有基础的数据采集之外,还有专家风控模型及一整套的风控SaaS系统,能帮助机构快速的布局小微信贷业务。这个类型中,目前做得比较好的诸如前高德地图成从武创立的云蜂科技。
第四类是偏向于只做征信的公司,如前海、立木等公司。
Jason

Jason 回答了问题 • 2015-03-19 16:42 • 20 个回复 不感兴趣

云计算在中国的市场格局是怎样的?

赞同来自:

谢邀
在互联网时代,市场从落地到成熟的时间会越来越短,中国的云计算市场份额的增速也会越来越快。但在公有云市场,中国与美国相比至少有 5 年的差距,当中国云服务刚落地的时候,美国已经实现了从企业到公众的成熟应用阶段,公有云应用的市场规模更是天壤之别。
先贴几张I... 显示全部 »
谢邀
在互联网时代,市场从落地到成熟的时间会越来越短,中国的云计算市场份额的增速也会越来越快。但在公有云市场,中国与美国相比至少有 5 年的差距,当中国云服务刚落地的时候,美国已经实现了从企业到公众的成熟应用阶段,公有云应用的市场规模更是天壤之别。
先贴几张IDC刚刚出炉的报告(2016年5月)

https://pic2.zhimg.com/50/f263927ef569e42e8c33cdf128e11c67_hd.jpg


我们看到中国公有云服务总市场规模达到 14.42 亿美元,比 2014 年同比增长 53.8%。


https://pic3.zhimg.com/50/b3b76d6d74ded44b781d9d8180972ca0_hd.jpg
这张图里可以看出,aaS 市场依然是规模最大并且增速最快的基础市场:2015 年 IaaS 市场总规模达到 8.37 亿美元,年度同比增长率高达 70.7% 。

随着头部客户转型的示范效应显现,越来越多的企业会加入到这次云计算浪潮中来。在不久的将来,这依然是 VC 青睐的投资领域。IDC预计,2020 年之前企业对 IaaS 的需求依然强烈,复合年增长率达到 36.6%,PaaS 平台的复合年增长率为 38%,SaaS 为 28%,整个公有云市场以每年 32.2% 的速度增长,2020 年规模将超过 50 亿美元。
https://pic2.zhimg.com/50/11b43001b4a9ca476be6493abbe5df5d_hd.jpg


再来看看2015年的中国云计算市场概况,IDC给了一个IaaS层面的市场报告
https://pic2.zhimg.com/50/d9666579f25bc00088895710e4484699_hd.jpg

从报告里可以看出,阿里云一家独大占据第一梯队,联通、电信、世纪互联(微软)第二梯队,刚转正的亚马逊,金山及其他第三梯队。

先说说阿里云。

作为中国互联网的代表,阿里云在2009年就开始在云计算上布局,已经连续5个季度保持三位数增速了。这次云计算成为阿里Q2财报亮点,股价走高,也有云计算的一份功劳。
https://pic3.zhimg.com/50/8e24a4b9a5dc4af1ce5833a18078200f_hd.jpg

更重要的是,不仅云计算,阿里云在人工智能方面也紧跟谷歌,连续发布了预测歌王的小Ai和后来的速记机器人,现在统一更名叫ET了。

马云:嗯?手下员工公然调侃我
https://pic3.zhimg.com/50/28065dd80f2377ac35e85f4515f18124_hd.jpg

BAT里另外两家做云计算比较晚,2010年的深圳IT峰会上,马化腾觉得云计算要几百年后才,李彦宏说云计算是新瓶装旧酒,马云说不做云计算就会死,可以说现在的格局在当时就已经定下了基调。

之前德银做过估计,阿里巴巴云计算规模是腾讯的10倍,百度的30倍。跟这次IDC的报告也是比较吻合的。

作为从业者,很遗憾看到阿里一家独大的局面,腾讯百度思想和行动上的落后给了阿里太多的机会去扩大领先幅度。对于我们来说,也相当于失去了选择的机会,只能削减脑门往阿里挤。

第二梯队里,作为基础供应商的联通电信还是有不少的份额的,作为国企能做到这样已经算不错了。这里,单独表扬下微软,纳德拉大刀阔斧改革微软还是起到了不错的成效,其云计算部分营收增速达到华尔街惊叹的102%,让微软股价一扫低迷,算是再一次抓住了时代的脉搏,期待微软尽快进入第一阵营。

第三梯队里,3年前就入华的AWS上个月才拿到“居民身份证”,此前一直水土不服,现在增速很快,不久后应该就会进入第二阵营,甚至跟阿里云交锋。

一份Gartner的报告显示,亚太地区的服务器厂商表现显得非常抢眼——销售额和出货量分别增长了9.7%和8.4%,其中中国撑起了强大的需求市场,年增长率为14.9%,营收19亿美元,浪潮、联想、华为分列前三。

目前英特尔的服务器业务约有30%提供给云计算公司,而且增长很快。在英特尔的200个客户中,前7家云计算领域公司的芯片需求量占到了三分之一,这7家公司分别是谷歌、亚马逊、微软、Facebook、百度、阿里巴巴和腾讯。

对于经历了云计算从0到1过程的人,应该不难感觉到,全球云计算市场已经越来越往亚太地区倾斜,欧洲是最排斥云计算的地区,美国的大型科技企业又自信到不屑用云计算,唯独亚洲这个新兴市场,对云计算有强烈的需求。

高盛最近有一份研报,指出AWS的竞争对手不在美国,而是中国的阿里巴巴。如果说几年前你还没有这种体会,你现在只要想想,仅一个云栖大会就有2万多人参加,200多家海外企业参展,因特尔、英伟达、软银、SAP、富士康、新加坡电信这些巨头悉数出席,可以不客气的说,中国的云计算市场已经成为全球最大潜力、最具活力、最富价值的市场。

希望更多有志之士能加入到这个行业中来,一起见证时代的改变。
答案是肯定的,让信用等于财富,并不是空穴来风。不管是互联网时代,还是传统过去,信用一直都是金融领域非常头疼的问题。
------------------------------------------------------------------------... 显示全部 »
答案是肯定的,让信用等于财富,并不是空穴来风。不管是互联网时代,还是传统过去,信用一直都是金融领域非常头疼的问题。
-------------------------------------------------------------------------------------------------------------------------------------------
传统的金融机构会通过背景调查、个人资产等方式来完善征信系统的数据,而这里面肯定有很多数据残缺、数据造假等情况;

而芝麻信用基于用户网上购物行为、个人属性分布、社交关系、个人资产等一系列的维度,给每个用户计算了350~950之间的芝麻信用分值。相对来说,你想造假的可能性相对小,对于每个人的信用评级相对比较公正。

-------------------------------------------------------------------------------------------------------------------------------------------
再说说芝麻信用会用来干嘛:

相信过去征信一系列的数据分值,你自己都不知道自己在银行的分值是多少,而芝麻信用完全是公开了你自己的分值(包括每个维度的强弱)。

结合现在支付宝开拓线上线下的场景,包括支付、转账、借贷、投资、消费、社交等一系列的行为,信用分值高的用户更得到更多的尊重和更好的权益。

相信这才是变现成财富的具体action。

回答了问题 • 2014-04-04 10:09 • 20 个回复 不感兴趣

大数据最核心的价值是什么?

赞同来自:

2014年4月29日更新了两张图,修改一些拼写错误。
-
下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值。
[quote][b]“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。... 显示全部 »
2014年4月29日更新了两张图,修改一些拼写错误。
-
下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值。
[quote]“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲[/quote]
本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。

我们知道:
[list=1]第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
第二次工业革命以石油为基础,内燃机和电信技术为标志,
第三次工业革命以核能基础,互联网技术为标志,
[*]第四次工业革命以可再生能源为基础,_________为标志。
空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,[u]数据和内容作为互联网的核心[/u],不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。

一、大数据的应用
大数据挖掘商业价值的方法主要分为四种:
[list=1]客户群体细分,然后为每个群体量定制特别的服务。
模拟现实环境,发掘新的需求同时提高投资的回报率。
加强部门联系,提高整条管理链条和产业链条的效率。
降低服务成本,发现隐藏线索进行产品和服务的创新。[/list]https://pic2.zhimg.com/50/071eb45b3f347956c7cd9fb49b26f523_hd.jpg
[list]Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》
[/list]
https://pic3.zhimg.com/50/0792e758d2a766c642130ec201075de3_hd.jpg
[list][*]各种Data之间的关系图,注意Open Data是完全包含了Open government data(政府开放数据)


https://pic3.zhimg.com/50/82d8a3d8b702c34fced0d2c8e9921049_hd.jpg

[list][*]Mckinsey也列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。(感谢知友安阳提供的补充链接资料)


大数据的类型大致可分为三类:
[list=1]传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。[/list]
从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
1985年,我国国家统计局明确地把我国产业划分为三大产业:
[list=1]农业(包括林业、牧业、渔业等)定为第一产业。
工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
把第一、二产业以外的各行业定为第三产业。
[/list]
第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
[list=1]第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。
[/list]
我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。
(1).第一产业
[list][*][b]孟山都(Monsanto | A Sustainable Agriculture Company),农业
[/list]孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。

孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。

[list][*][b]天气意外保险公司(The Climate Corporation),农业[/list]The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。

[list][*][b]土壤抽样分析服务商(Solum, Inc)[/b],农业
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。

了解更多:
大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?

(2).第二产业
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:
[quote]实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。[/quote]
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。

随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.

又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。

[list][*][b]第三方认证机构(TÜV NORD GROUP),工业
[/list]德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称TÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。TÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。

[list][*][b]工业自动化软件商(Wonderware ),工业
[/list]Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。

了解更多:
大数据在电力行业的应用前景有哪些?

(3).第三产业
这一个部分的内容比较多。这里只提出一些典型的应用例子,欢迎补充。
[list][*]健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。
[list][*]视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.

[list][*]交通:《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台(Github:OpenTripPlanner和MTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。https://pic1.zhimg.com/50/6adbebaa31642be94c70fdcf3668abb7_hd.jpg

[list][*]电子商务:Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。
[list][*]政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
[list][*]金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。
[list][*]电信: 美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。
宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
[list=1][*]数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
[/*][*]数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
[/*][*]价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
[/*][*]处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。

看看专家们怎么说。
[list][*][b]舍恩伯格,大数据时代 (豆瓣)
[/list]不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

[list][*][b]埃里克·西格尔,大数据预测 (豆瓣)[/list]大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。

[list][*][b]城田真琴,大数据的冲击 (豆瓣)[/list]从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

三、大数据的价值
了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
[quote]Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
[/quote]
而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。

随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。


实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。

[list]如果银行能及时地了解风险,我们的经济将更加强大。
如果政府能够降低欺诈开支,我们的税收将更加合理。
如果医院能够更早发现疾病,我们的身体将更加健康。
如果电信公司能够降低成本,我们的话费将更加便宜。如果交通动态天气能够掌握,我们的出行将更加方便。如果商场能够动态调整库存,我们的商品将更加实惠。[/list]
最终,我们都将从大数据分析中获益。

四、结束语。

Here's the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变 因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了

数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。

祝每一个DMer都挖掘到金矿和快乐:)


参考文献:
[i][1].什么是大数据时代的思维?《大数据时代》作者维克托迈尔舍恩伯格的演讲[/i]
[i][2].New movie damns Monsanto's deadly sins[/i]
[i][3].American farmers confront 'big data' revolution[/i]
[i][4].The Industrial Internet: Even Bigger Than Big Data[/i]
[i][5].《信息化和工业化深度融合专项行动计划(2013-2018年)》印发[/i]
[i][6].Big data: The next frontier for innovation, competition, and productivity[/i]
[i].[i]Big data: Crunching the numbers[/i]
[i][8].audit.gov.cn [/i]
[i][9].中国金融行业大数据应用市场研究白皮书[/i]
[i][10].The Secret Sauce Behind Netflix's Hit, "House Of Cards": Big Data[/i]
[i][11]. Open data: Unlocking innovation and performance with liquid information
-[/i]

-----------2017年1月更新-----

欢迎关注我存储知识的地方:[b]预见未来——Han Hsiao的知乎专栏Foresee[/b]

-
写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
[b]这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中... 显示全部 »
写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中我更新加粗的部分),只是借个例子说明大数据的内涵和价值,居然还有人因此专门开个答案来驳斥这一点的,实在让我无语。
我是本着分享知识和经验的目的在知乎交流的,如果根本性的问题不在于此,连答案看完整点的耐心都没有,那我就没什么想说的了。许多评论我就不回复了。

说老实话,这答案在这放了几天,浏览者应该不少,但是没等到我最期望的那些评论。我还是有点失望的。
其实,这答案我可以随便找个问题一贴,例如什么问
怎么样在知乎混更高效啦?
怎么获得更多赞啦?
之类的问题。
不知道是否有人想到我为啥给贴这里了?
大数据的精髓是什么?收集个几百G几百T的数据往硬盘里一放就是大数据的精髓?如果认识就停留在这个程度,我也就没啥可说的了。
在这个答案中,我1,2,3,4,5都干了那些事?
选择维度,切入数据的路径和选择是什么样的?为什么?
虽然我用的都是最简单最基本的算法和模型,但是为什么在这样的地方,我选择了这样的算法和模型?
我想看到的很多问题都没有在评论里出现,有点让人遗憾。

问题有要求通俗易懂得介绍大数据的应用价值和内涵,我并无认为我的例子有何不妥。
对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。
面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。

此外,大数据和超级计算完全是两个不同的领域和概念,虽然在极少的地方,两者或有交集(例如其他知友答案中提到的罗马城3D建模),但是真的很少。
并行计算和分布式计算也完全是两回事,后者可不需要去处理什么CPU的连接和通信
大数据出于成本/产出考量,是不太可能采用并行计算之类的超算技术的。海杜普之类的分布式技术会是一个很好的选择。
大数据和超算,虽然两者都面临算法上的挑战,但是完全不是一回事。
如果对超算有兴趣,可以简单移步目前超级计算机的性能局限是硬件还是软件,为什么?

从技术层面说,大数据和以前的数据时代的最大差异在于: 以前是数据找应用/算法的过程(例如我们各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

至于大数据和小数据的差异,大数据的策略,更偏重于发现,以及猜测/印证的循环逼近过程,一般只会设定一个大方向,算法模型都可能在执行的过程中做大幅度的调整。而传统小数据分析,一般有明确的目的和诉求,算法,和模型,我想我已经在我的例子中注意体现这一点了。
对于大数据来说,统计学的大量概念会重要得多。

大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了NB的技术和算法才体现了它的价值。(虽然NB的技术确实很NB,我曾经在另外一个答案中视海杜普位划时代的计算产品之一)

治大国,若烹小鲜,何况是面对一般受众说个大体的概念,私以为我这个例子是没有太大问题的。

========================================================================
要明确易懂得解释一件事情,最好的方式无疑是举一个典型形象,具有代表性的例子。例子最好和听众熟悉的场景相关。
一般圈里回答这个问题,比较容易拿来做解释的例子是沃尔玛的几个经典案例,不过既然在知乎回答这个问题,我就拿知乎来举个例子吧

I 前言
1. 我在这个答案中所使用的数据和例子,数据规模有限,真正的大数据只有知乎运营者才有机会使用(应该也有严格的权限控制,以及运营者自有的命题)。
虽然说不上是大数据,但是我只是拿这个来作为一个说明的例子,说明下大数据的内涵以及价值,应该还算是可以的。

2. 我收集这些数据,主要是源于前一阵子对张公子文章的仰慕,每次进入张公子回答的页面一点一点往下点,太累,同时下次还要一点点重新展开页面找到以前看到的地方,不堪重负。正好最近业余在学习自动化测试和Ruby语言,于是尝试性写了些作业,扒了一些数据。
所以我收集这些数据并没有任何不良企图以及针对性,请各位知友和知乎运营者放心。我也承诺不会将这些数据用于恶意的目的。当然,这些数据本身都是公开的,我都是通过合法合规手段收集的。
以下会尽量匿去所有知友的名字,但是某些知友的数据特征太明显,所以就匿不了了。

3. 这些数据本身抓取的过程是一个动态的过程,而不是一个snapshot,出于技术,权限以及合法性的原因,我数据抓取的方式比较慢,在抓取过程中,数据本身已然在发生变化,因此数据本身可能有轻微误差。此外,抓取的数据范围和数量有限,并不一定完整反应和体现真实。例如知友的匿名回答,以及删除答案的行为,可能会对分析结果造成很大影响,但是我抓取的数据当中却没有包含。

4. 我的样本选择基本上是随机选择,从黄sir的关注者中,从日常每天的热门话题中随机选取,选取的都是至少答题在100以上的知友的数据。

5. 我本身并非社区运营专家,所以以下涉及到分析的部分,如果有业余的地方,请勿见笑,这答案的本身并不是真要分析知乎和知友(这也不是我的能力和数据权限能做到的),我只是说明下大数据这个概念和价值而已。

II 命题
数据分析总得有个方向和目标,鉴于我的数据规模和样本特性,确立较宏大的命题是相对比较困难的。于是,我选择了一个比较取巧的命题:”赞同数“。
一则来说,貌似广大知友关心这个的很多很多,比较吸引眼球。
二则来说,知乎上关于这个的日经问题也非常多,也算是有的放矢,例如很多类似以下的问题:
如何能获得更多赞同?
什么样的答案能够获得更多赞同?
人情赞,跟风赞是不是很多?
答案字数多是不是容易获得赞同?
图片多是不是容易获得赞同?
话题和浏览是不是影响赞同?
等等类似的问题在知乎层出不穷。尝试做个分析对这些问题提供些帮助。
但是,我必须强调的是:知乎真的不是一个“比比谁的赞同多”的竞技游戏,期望大家不要在“赞同”上过于纠结和投入太多关注,我觉得知识,乐趣以及思想的交流和碰撞,才是知乎的重点。

然后围绕这个命题核心,看看我们还能发现点什么有意思的其他东西。

III 样本
本次样本主要涉及39位知友,共计36442条答案

样本很多,数据也很多,我就不一一贴上来了,我只贴几位比较有典型代表意义的知友的加工后的数据,以下数据样本根据知友的关注者人数排序:
知友1:关注者283,337人
https://pic2.zhimg.com/50/e6f95a394e1e27fdf093df5591e7aa33_hd.jpg
https://pic3.zhimg.com/50/58900dd24b0528ec761bdbfc99e76577_hd.jpg
其中最专注话题,即为回答过最多的话题,即下图活跃度排名第一的话题。
相关系数,即皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC),用以描述两个变量之间的线性相关度。0就是毫无关联,1就是绝对的线性关联,-1就是绝对的负线性相关

好吧,这个知友也不用匿名了,匿不住,这关注数,这话题,摆明是李开复先生。
开复先生的影响力毋庸置疑,赞答比惊人,其答案和问题浏览次数的相关度也很高(这意味着问题浏览数的增加有极高概率带动赞同票的获取),尤其在其最专注的话题 “李开复(人物)” 中(囧),问题关注和答案赞同之间有着接近线性相关的相关系数,表明开复先生在知乎是有一大票铁杆粉丝的。
但是开复先生的数据中也显示出,其藏赞比并不高(0.26),属于抽样人群中的中等水平。
什么样的情况会导致赞很多,藏不多呢?我一般认为,如果答案的内容价值较高,干货很多,会吸引到更多的收藏次数,而光环票,人情票,跟风票,以及引起读者共情的答案(例如吐槽以及煽情),较容易获得赞同,但是不容易收获收藏。
当然,开复先生的赞藏比也并不属于低的。

开复先生回答的问题,题均浏览次数分别5.5K+ 和 6K+,远超39位知友的平均值,开复先生的影响力可见一斑,而且开复先生答均750多字,属于非常高的值,可见开复先生对于每一个答案都较认真的投入了精力作答。

此外,从开复先生的话题分布来看,开复先生更多得把知乎当作了一个作为名人及其官方身份,和公众进行互动的媒体平台。而且是属于职业范的平台。开复先生在知乎上更多得是以自己的职业身份出现。连微博上常见的他关于政治,关于青年人引导的内容,都不多见。进一步的,开复先生作为一个个人的知识与经验分享就鲜见了。

开复先生仅凭专攻“李开复(人物)”一个话题,就能斩获261.65的赞答比,在“创新工场”话题中,每不到3个字就能获得一个赞同,这样的粉丝会,绝大多数人是不能拥有的,所以借鉴价值不大(当然后者的字数/赞同还有比开复先生更NB的大牛,我们后面再说)

知友2:关注者 175,534
https://pic2.zhimg.com/50/087a91d774849c3a6c54cde4f61200e2_hd.jpg
https://pic3.zhimg.com/50/8fa43fe7c5a61c224421b4d602bcd939_hd.jpg
好吧,这个也匿不住,这关注数,这话题,明显是继新的。
继新的数据很有意思(包括一些尚未贴出来的数据),很明显得看出了一个运营者的身份(其他几位知乎的工作人员的数据也类似),其发言被很明显得压抑在了知乎的相关话题上(尤其过了知乎运营的初期以后)。即便是如此刻意得压制,继新在苹果话题上的心血投入也搂不住(答题数,还有题均字数),一个热情的铁杆苹果粉丝的形象就呼之欲出了。

当然,“知乎”这个话题在知乎并不属于大热,(继新在知乎话题下的问题题均浏览只有700多),导致继新在知乎话题下的赞答比都不到15(远低于其平均水平),但是其赞同和浏览的相关系数却远高于平均水平(0.784 : 0.553),说明其在知乎这个话题中的权威程度和受认可程度(废话,这是当然的)。

需要大家开始关注的是知乎内的一个神奇话题:调查类问题。这个话题的神奇之处我们下面再慢慢讨论,单就继新的数据来看,调查类话题是继新最讨好的话题,拥有最高的赞答比和最高的文字效率。

而继新另外两个比较突出的私人化,受欢迎的话题是“英语”和“情感”,基于此,我觉得继新可以考虑去泡一个洋妞。

至于继新关于创业的话题,我就不说了,相比知乎团队中另外一位老大周源,实在不能比。周源话题特征就是除了知乎就是创业,除了创业就是知乎,两者占据了周源话题的绝对重心。向这样的创业者致敬,具体周源的数据篇幅有限,我就不贴了。

知友3:关注数 107,526
https://pic1.zhimg.com/50/e6018f371e84bd2eb4e20028f808bd28_hd.jpg
https://pic1.zhimg.com/50/121a766c4dca68408ccba02820a437d8_hd.jpg
好吧,这个也匿不住,看看这赞均字数的效率,最效率的话题,每1.10个字就收获一个赞,这连开复先生都望尘莫及。这是知乎槽王,三表哥是也。
三表哥在音乐方面的专业度和投入程度一目了然,但是可以看到,很明显,三表哥赞同来源的主要发动机来自一些大热话题。
从这点上可以看到,赞同受到话题本身热度的影响有多大。

[b](在上图最后的4个关于话题的图表中,左边两个表格可以视为是这位知友最专注,最投入的话题,右边两个被视为是他最容易受知友认同的话题,最讨好的话题,下同)[/b]

此外,三表哥的藏赞比只有0.08,在39位知友中倒数第三,不能不说是槽王不可避免的遗憾。

知友4:关注数 90,793
https://pic2.zhimg.com/50/f53974a485035843e206737bb416eef5_hd.jpg
https://pic1.zhimg.com/50/c9fb772695fddc8271f7f3e1bd1fac2c_hd.jpg
这也不用匿了,一眼可知,大神张公子是也。我也不想匿,因为这是我收集这些数据的起源和动机。
篮球就是张公子的命啊。

张公子在篮球话题下的浏览关注相关系数是0.818,神数据,也就是说,基本上张公子说篮球,大家就一脸痴迷得边听边点头即可。

张公子回答的答均字数前10个话题,除开“张佳玮”这个话题以外,全部是NBA及NBA的子话题,张公子的投入和专注程度可见一斑。

但是等等,张公子在篮球话题下的赞答比只有29.67,远低于他在所有话题下的平均值57.54.....
张公子一代篮球作者大神。。。在知乎的赞同收割机还是得依赖爱情,情感,调查类问题。。。
相类似的游叔,三水哥等一大票人的类似数据,我就不贴了,他们分别在电影啊,金融啊,日本啊等话题领域专注写作和大量投入,却都是在热门话题中大量高效得收获赞同。

所以吧,其实什么赞答比什么的,都是浮云,话题才是王道啊。。。

知友5:关注数:61,369
https://pic1.zhimg.com/50/a9db29e37aa2c69dd59a49d37ad1cb52_hd.jpg
https://pic3.zhimg.com/50/6d2152af092ca183d52e1790d98cb383_hd.jpg
恩,话题峰度643,偏度有24.9,但是方差只有79.5,数学领域全力开火,这个用不着匿了,陈浩大神是也。陈浩大神应该是对自己的答案做过清理的,要不话题分布数据不会这么诡异。这也应该是知乎话题分布数据中,我见过最有洁癖的数据了。
即便如此,“知乎建议反馈”依然在一片数学话题中,强有力得占据一席之地,如果这都不算爱。。。。继新快来看看吧!
基于这样的话题状况,陈浩大神能够拿到20以上的赞答比,在数学这么冷门的话题领域拿到13.6的赞答比,这份耕耘,值得让人脱帽致敬。
虽然平均赞答比要比数学领域高深多,但是数学领域浏览赞同相关系数要高很多,专业性一目了然。

知友6:关注者:46,546
https://pic2.zhimg.com/50/e4404a451eca5383041c914c940d1066_hd.jpg
https://pic1.zhimg.com/50/a58a6a4a33e3dc1e7bc67ef3e08899d9_hd.jpg
恩,这位知友的数据是我最喜欢看的,看来看去,百看不厌,看得心里那个舒服。
要是类似特征的数据出现在什么企业数据中,我最喜欢了。
稳定,厚重,扎实,用一句话形容叫“重剑无锋,大巧不工”
这是所有知友中数据最均衡厚重的一位了。
社科人文话题的集群全面凸显,这样的底蕴,让人赞叹。
即便如此,他的赞同收割机中,调查类问题,和人际交往两个话题,嘿嘿,也是漏一尖角啊

知友7:关注者 6,979
https://pic1.zhimg.com/50/06b5335c5a003f18a2ed742402cc9216_hd.jpg
https://pic1.zhimg.com/50/b2b87fe0fef072e99c89ed2661fc9aa3_hd.jpg
如果把知友在知乎的表现和热度看作股票的话,这位知友一定是我重金入仓的主力股。
赞答比70.70,39位知友中名列第二,仅次于开复先生
藏赞比0.46,39位知友中名列三,一代干货大神(另外向前两位干货大神MJ勺子和麦琪姐致敬,分别为0.56,0.51)
赞均浏览38.29,仅次于开复大神,和张公子,名列第三
答均字数是39位知友中唯一破1000的,位列第一

这可是只有不到7000关注者的知友啊!!他的话题主要是建筑学,没有大热话题收割机啊!!

唯一可以说说的是他目前答案还太少,才141个,未来回答多了,数据是否会变化,值得关注。
来知乎也才134天,平均每天作答1.05个,知乎运营团队应该好好关注下啊,毫无疑问的优质潜力知友,未来可必定是建筑类话题领域的一大神啊。

知友8: 关注者:1816
https://pic1.zhimg.com/50/df8775cdadd684552ebc7974cedae9c9_hd.jpg
https://pic2.zhimg.com/50/cf3daea5f43418772769ede60d7c8129_hd.jpg
这位知友的数据。。。怎么说呢,话题不缺浏览数和热度答均浏览4800+的数字远高于各位知友的平均值,在所有知友内排第5,不缺投入,答均457字在39位知友中也属于中上水平,话题专注也不错。但是收获赞同的情况颇不理想。
神话题:调查类问题的展现。

知友9:关注者 548人
https://pic4.zhimg.com/50/2b59859c948b306d4a21d22bdb18cdd7_hd.jpg
https://pic4.zhimg.com/50/9d08c18e9483efde1ea133a46e9638ed_hd.jpg
恩,这位知友的数据。。。
赞答比0.99,39位知友中倒数第二
答均字数22.2,39位知友中倒数第一
日均答题:22.21,39位知友中第一
答均评论:0.59,39位知友中倒数第一(引起不了兴趣和互动啊)
最诡异的数据是藏赞比是0.01,藏赞比不是藏答比啊,槽王三表哥在10万粉的簇拥下也就是0.08的水平啊。


IV 分析
我将39位知友中,知乎运营者3位去除,剩下36位知友,按照粉丝数量分为三个区间,做了一些统计:
20000粉丝以上:15位 称为为A区间
1000~20000粉丝:7位 称为B区间
1000粉丝以下:14位 称为C区间

做了一下分析,发现以下规律:

虽然有上面的建筑潜力大牛知友的特例,但是赞答比和用户的粉丝数量是强线性关联,其相关系数是0.853,这两者数字本来就是相互促进的事情,但是粉丝数量对赞答比的影响更直接一些,说明总得来说知乎光环效应是存在的。赞答比作为一个独立指数,价值并不大。(前不久有知友专门强调赞答比来着)

答案字数越多越容易获得赞同?初看似乎确实是这样,但是实际上答均字数和赞同数的相关系数总体只有0.330 ,对于不同的知友,字数多寡的价值完全不同。其中有一位知友的字数的赞同的相关系数达到了0.77,在其专注的话题内,这一关联系数达到了逆天的0.99,几乎就是硬相关了,潜力大大的啊(他的关注者只有181人)
而大多数知友,字数和赞同的相关系数都不高,甚至有部分知友是负相关。
大部分知友(72.2%),在其专注话题内,答案字数和赞同数的关联,比起他自己的平均数值,明显提高
[list]https://pic4.zhimg.com/50/70c00505d8038a5d955078a8908a58b5_hd.jpg

简单的说就是,一般来说,知友在自己专注和擅长的领域里,回答字数越多,获得赞同越多的几率就越大。
回答字数越多是不是越容易获得赞同?哪得看你是谁,也得看你回答什么话题。[/list]
一图胜千言?事实上,只有两位知友答案中图片和赞同的相关系数超过0.4.。。。

回答的问题越热门越容易获得赞同?事实上,名人大牛的光环能够保证自己的答案曝光率不要太低,而平均来说,答题的曝光率,名人大牛未必会更高:
https://pic3.zhimg.com/50/aa2e9788ad86dabe625cd65f84f2c8f1_hd.jpg
36位样本知友中,平均所答问题浏览量最高的两位,事实上都是C区间知友,甚至远超A1(开复先生),他们很会挑问题,但是这并没有帮助他们获得更多赞同和赞答比。
而和字数相关一样,大部分知友(77.78%)的答案获得赞与浏览次数相关的相关度,在其擅长的话题内,有明显提高,越是大牛用户,在其专注的领域,就越显得更专业:
https://pic2.zhimg.com/50/4c29f10de240c28de59b60844cadb42a_hd.jpg


越是明星大牛用户,一般来说,其话题相对越集中,越专注:(开复先生貌似是个例外,可能和他答题较少有关)
https://pic1.zhimg.com/50/b191850b35be2582e89b4b969dfc1f9b_hd.jpg

91.6%的用户,其答案回答时间和其获得的赞同是负相关,证明知乎考古事业有很大潜力可挖。
https://pic1.zhimg.com/50/4228d70a993341d9a2ab4283d762b66e_hd.jpg

回答时间久的答案,好处是获得更多浏览的机会比较大,缺点是过了热度过了被翻出来的机会更小,现在明显是后者占了主导

V 小结
篇幅所限,贴图太多,老出现红叉叉,暂且就贴这么多了。

对于知乎获得赞同这件事情,数据分析后可以发现,其实浏览量因素秒杀其他所有因素(例如字数啊,图片啊等等,虽然没有数据,但是我相信什么繁体字啊,泻药啊之类的因素更是浮云)
假如要在知乎获得更多赞同,选好问题,获得更多关注固然是重要的因素(浏览量),更重要多的是,专注自己擅长的领域,提高回答的质量和自身的水平,这个因素的重要性是秒杀一切其他因素的。
虽然短时间提高自身水平有点困难,但是选好自己专注和擅长的领域,是比较容易做到的

此外,“调查类问题”,“人际关系”,“生活”是三个神话题(排名分先后),是光环下的赞同收割机。

数据中可以读出的信息有很多,我就不一一列举了,这里毕竟只是为了说明大数据的概念。

需要着重说明的是,以上分析仅仅是为了数据分析,设定了赞同获得这样一个主题,并不代表我认为或者建议大家在知乎为了获得更多赞同去努力!

当然,这个问题主旨是为了举一个和大数据有关的例子,来形象得解释大数据的概念,所以以上模型和数据分析有诸多局限之处:例如
专门找过气的热门问题回答的人,数据很难说明问题
大量清理过自己答案的,数据的表现也会比较怪异。
知乎话题和子话题的关联关系,我没有抓取相应数据和统计在内。

但总的来说,为了说明这么一个大数据的概念,应该没啥太大问题。

大数据的作用和价值,基本上就是这么一回事,呵呵。

我又再次审视检查了问题,问题里没有“ 简单明了"之类的要求,长长的舒了一口气。第一为在知乎答一个问题作了这么多的准备工作,以前最多就花个10来20分钟收集些数据,这次居然花了2个星期收集数据。。。我不得不说,最近知乎的服务器太不给力了!
不过最近知乎服务器老是提问题可不关我事啊,我是模拟WEB端鼠标操作的,2~3秒才做一下点击,不应该对服务器增加太多负荷才是。

回答了问题 • 2015-09-09 20:38 • 20 个回复 不感兴趣

国内未来3~5年内,征信业务是否有可能爆发?

赞同来自:

谢谢亲爱的 @陶拾伍邀请,It's a verd verd good question about 征信 at 知... 显示全部 »
谢谢亲爱的 @陶拾伍邀请,It's a verd verd good question about 征信 at 知乎。且听老娘一曲十八摸,把那征信娓娓来诉说。
https://pic4.zhimg.com/50/70e527cbfc2c9f47ca70dc8f70f4f0af_hd.jpg
先给题设下个定论:如果是根据征信业务发展的社会曝光、被重视程度和各方资源投入等来评判,未来3~5年国内征信必然爆发。如果是按照征信体系的完善程度、投入社会使用被接纳程度等来评判,这恐怕是一条很长的路啊。这一点,我和 @陈力阳的观点基本一致。

既然题主提到了发达国家(以美国为代表)的征信业务发展,以及国内阿里(蚂蚁金服),腾讯(腾讯信用),平安(前海征信)等巨头在征信业务(以个人征信业务为主)上的布局,我就顺着这个线索铺开。
https://pic4.zhimg.com/50/7eb34a674e0273daeac78e6aad7e2cde_hd.jpg
全文结构分为:
[quote]一、美国的征信业务发展现状
··········1)FICO和三大征信机构
··········2)ZestFiance及它与FICO的区别
··········3)Credit Karma及其他
二、中国的征信业务发展概况
··········1)聚信立
··········2)安融征信
··········3)快查
··········4)闪银奇异
··········5)京东金融
··········6)腾讯(腾讯信用)——腾讯征信
··········7)阿里(蚂蚁金服)——芝麻信用
··········8)平安(前海征信)
三、谁将是国内最有可能的征信业务终成者[/quote]内附大量图表数据,力争做到有理有据令人信服。

一、美国的征信业务发展现状

美国征信行业的兴起源于消费的盛行,经历了快速发展期、法律完善期、并购整合期以及成熟拓展期四大发展阶段,逐步壮大并已经形成了较完整的征信体系,在社会经济生活中发挥着重要的作用。整个征信体系分为机构征信(又分为资本市场信用和普通企业信用)和个人征信:
https://pic1.zhimg.com/50/02e585d643e599ccb7755eb0055db68d_hd.jpg
以个人征信为例(见下图),产业链中第一环节是数据收集,其来源比较广泛,有利于机构更加全面的掌握个人的信用状况。然后是对数据进行标准化处理,例如,第二环节中,Metro 1及
Metro 2是美国信用局协会制定的用于个人征信业务的统一标准数据报告格式和标准数据采集格式,这种标准是征信行业发展非常重要的里程碑。第三环节是三大征信局对海量数据进行处理,进而形成信用产品,包括评分、报告等,最后是将数据应用于各种场景中,比如个人租房,办理贷款业务等等。
https://pic2.zhimg.com/50/ae6165309c4e342a7ad14c74a9fbe342_hd.jpg
[quote]在这一点上,国内发展起码落后美国五条街。毫不夸张地说,在美国信用等于一切(无论对机构还是个人),还记得高晓松在talk show《晓说》中提到自己因有酒驾记录而被终生禁止买枪的事吗?对,就是这么霸气,信用分低的人在美国几乎不可能贷到款、办理信用卡甚至是求职也会受到影响。[/quote]目前美国主流的个人征信机构分布如下图所示:
https://pic2.zhimg.com/50/34f92c4038ad1640dc19ce9d103c474d_hd.jpg
1)FICO和三大征信机构

最主流的FICO信用评分体系(Fair Isaac公司旗下的产品)现已覆盖了全美90%的借贷机构和85%的人群,三大征信局Experian、Equifax和Trans Union都是采用FICO的模型计算信用分,只是数据来源略有差异。
https://pic2.zhimg.com/50/343a4009bc01578c2d763204411ae6ea_hd.jpg
注意这张图,它不仅是构建FICO信用评分体系的重要数据源汇总,更是中国征信历史上里程碑式的参照物。

2007年6月,FICO正式进入中国,先后为包括工商银行、建设银行、中国银行、交通银行、招商银行、光大银行、中信银行、平安银行以及全国乃至全球最大的P2P公司宜信(唯一一家)提供先进的技术、咨询和分析服务,帮助它们有效管理信贷风险和业务增长,实现合规性目标。

2)ZestFiance及它与FICO的区别

ZestFiance,原名ZestCash,是美国一家新兴的互联网金融公司。在这里要纠正 @楠爷 答案中的一个小错误。在美国,ZestFiannce和FICO是完全对立的另一种信用评分体系,所以不存在“美国FICO信用积分指标从ZestFinance获得用户行为信用数据”的情况,ZestFiannce主要服务对象是FICO评分低于500甚至无信用评分的人群,而且市场很小,只有大约10万用户量。和FICO的区别在于:
https://pic1.zhimg.com/50/965c1fcf49760228e2dcc090efb9cda5_hd.jpg
野路子也想和正规军斗?
https://pic1.zhimg.com/50/ad367fa1049e5b351f1cdb87d1a9280f_hd.jpg
数据源方面,ZestFiance重点挖掘用户现在的信息(传统征信数据只占30%左右),采用基于多角度学习的评分预测模型评估用户信用:
[list]挖掘数以千计的不同的变量;
理清变量关系,转换变量为有用的格式;
被转换变量合并到元变量之中,描绘一个借贷者的某些特定方面;
元变量输入到不同的模块中,每一个模块代表一种“技能”;
每一个模块贡献一定分数比例,合成最终的分数。
[/list]
在其模型中,往往要用到 3500 个数据项,从中提取 70,000 个变量,利用10个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。其次,ZestFinance公司另辟蹊径,充分利用丢失数据之间的关联和正常数据的交叉,探寻数据丢失的原因。另外,每个季度ZestFinance公司都会推出一个新的信用评估模型,目前已覆盖信贷、市场营销、收债、助学贷款收债、法律收债和次级汽车抵押贷款等方面。
https://pic4.zhimg.com/50/7010040c90c7236a8d490f66b284e225_hd.jpg
2015年6月,ZestFinance入华,与京东发布联合声明,成立合资公司JD-ZestFinance
Gaia。京东将在自身领先的互联网大数据信用模型中,进一步引入ZestFinance 的先进技术和丰富经验,利用京东生态系统中亿级用户的消费轨迹数据和在中国市场的业务实践,打造更为强大、精准的大数据信用评估体系,为互联网金融行业提供创新的信用模型和技术。
点评:合作伙伴level直接反映了京东金融的发展战略层次,在【辅助征信】这条路上京东已经越走越远了(手动再见)。
3)Credit Karma及其他

一个免费查FICO分(TransUnion和Equifax)和简版信用报告的平台(美国政府规定,三大征信局每年为用户提供仅一次免费查询信用记录的机会)。并且用户可以在平台上查看自己的各项财务状况,根据用户的信用信息及个人金融信息推荐合适的信用卡、更优惠的车贷和房贷等信贷产品,当会员购买了金融机构的产品后,机构变付费给Credit Karma。产品运营模式:
https://pic1.zhimg.com/50/15bdc0dd76a49f8eb39ea43309846f23_hd.jpg
Credit Karma不是个人征信机构,它只是征信产业链上的一个创新环节,更像是一种渠道的创新。在美国类似的公司还有Quizzle、Credit Sesame、http://Credit.com 等,这里就不浪费精力一一介绍了。

通过对美国征信市场的介绍我们可以大致看出,国内要想培育成熟的征信体系,必然离不开政府的推动与支持 → 丰富的数据源(尤其是银行、保险、信托等与金融牌照直接挂钩的重要数据)和先进的信用评分建模技术。尤其是在中国这样的集权制国家,政府的作用是决定性的,这也就是我后面为什么说平安(前海征信)将是国内最有可能的征信业务终成者,阿里(蚂蚁金服)和腾讯(腾讯信用)不服气?来战!
https://pic3.zhimg.com/50/de3656e2b4d3d3191260ae86c1f36389_hd.jpg
借鉴资本主义是第一要义!
借鉴资本主义是第一要义!
借鉴资本主义是第一要义!
[quote]参考资料:征信体系发展简述及特点。[/quote]二、中国的征信业务发展概况

中国征信体系正处于由政府公共征信主导向企业市场化征信主导的过程。截止2012年底,我国有各类征信机构150多家,征信行业收入约20多亿元,其中政府背景的信用信息服务机构20家左右,社会征信机构50家左右,信用评级机构若干(可查到的最新数据)。

2015年1月5日,中国人民银行印发《关于做好个人征信业务准备工作的通知》(官方公告见:人民银行印发《关于做好个人征信业务准备工作的通知》),要求首批8家机构做好个人征信业务的准备工作,准备时间为六个月。
[quote][list][*]芝麻信用管理有限公司
[/*][*]腾讯征信有限公司
[/*][*]深圳前海征信中心股份有限公司
[/*]鹏元征信有限公司
中诚信征信有限公司
中智诚征信有限公司
考拉征信有限公司
北京华道征信有限公司
除以上首批8家国家重点关注的个人征信机构外,还有例如聚信立、安融征信和快查这样的信用服务机构,闪银奇异和京东金融(其实像拍拍贷、人人贷及宜人贷之类的P2P平台也在做类似的事情,由于他们的业务出发点是信贷而非征信建设,再此就不赘述了,大家可以关注一下拍拍贷的魔镜系统)这样的互联网公司也在做类似的事情。下面我简单介绍一下以上几家公司的相关布局。

1)聚信立

中国版ZestFiance,一个不到50人的小公司,刚过A轮,服务模式为B2B2C(基于用户授权的消费者数据管理平台,从金融行业入手,帮助用户迅速收集,整合,分析其在互联网上的信息。金融机构用这些信息可以迅速对用户的资信状况做出判断,从而辅助金融机构做出决策)。产品服务形态如下:
https://pic1.zhimg.com/50/e862f5ec58cfa59961c782bae0ac7416_hd.jpg
通过汇聚23个渠道的数据(支付数据、消费数据、金融数据、社交数据、移动端数据和运营数据等),运用先进的大数据和机器学习算法,深度挖掘用户的个人身份基本信息、收入支出信息、兴趣爱好、个人影响力、社会关系等并形成相关分析报告。

主要数据源:
https://pic3.zhimg.com/50/fd7e60b5b39920d145e171d491352470_hd.jpg
可是又有什么卵用呢?提出的所谓诚信指数和信用指数完全上不了国家征信业务发展的台面,仅供甲方(如银行)采纳参考。而且数据爬虫还很容易被对方的反作弊机制干掉,因此这一类自身不能沉淀数据的公司风险系数非常高(下同)。

2)安融征信

号称全国性个人征信机构,运营模式完全借鉴日本的“会员制同业征信”,乃全国首创(抄),其建立的特色产品“小额信贷征信服务平台(MSP)”,能充分利用大数据技术,整合公安、司法、工商、银联、电信、电商、公用事业缴费等各类信用信息以及各类互联网公开数据,进行信用信息共享、反欺诈、风险预警监测、个人消费能力分析、个人及关联企业信息分析、信用评分以及公共信息查询服务。
https://pic1.zhimg.com/50/a8345b4619514db48c34910044ef45a0_hd.jpg
这一切看起来都很屌对不对,能打通各种政府职能机构的数据通路?呵呵,no way,安融只能称霸华北(北京)地区,就像鹏远征信只能征服华南(广东)地区一样,地域性太强。

3)快查

中国版Credit Karma,也是一个不到50人的小公司,技术无亮点,产品服务形态一图带过。
https://pic7.zhimg.com/50/56096ff7b096da3597e48ee758eb8198_hd.jpg
4)闪银奇异

算是中国第一家互联网信用评估公司,在个人信用评估方面的产品为Wecash闪银(还有一个产品叫闪银租车风控系统),完全通过第三方的数据收集和挖掘对用户进行信用评分,目标用户为本科毕业前两年加毕业后五年的,借贷额度均值仅3000元(50w最高),这还玩个屁啊!
https://pic1.zhimg.com/50/171fa6a8b90e85b4110cceeb863ca297_hd.jpg
5)京东金融

没有人能够想象得出刘强东的野心有多大,京东主站上集成了乱麻弃躁各种金融业务平台,能把京东金融介绍清楚的,恐怕只有京茶粉或行业分析师才行(真的,比腾讯还乱)。
“(京东金融)对一切金融牌照都感兴趣。”负责京东金融战略研究和内部管理工作的京东金融副总裁姚乃胜如此阐述着京东金融的野心。京东金融的特点就是:数据闭源,金融服务链闭源,封闭的闭。
https://pic1.zhimg.com/50/274c49b05394035bbc03d37956811e81_hd.jpg
这是京东金融所有的数据来源,不是自家的就是自家投资控股的。并且,京东金融现已建立七大业务板块,分别是供应链金融、消费金融、众筹、财富管理、支付、保险以及证券,并陆续推出了服务B端的投融资(网商贷、京保贝、京小贷)、众筹等;服务C端的白条(京东白条、京东钢镚)、众筹(产品众筹、股权众筹、轻众筹)、理财等......这一口气念下来没把我憋死。

看出什么来了吗?和阿里(蚂蚁金服)几乎一毛一样,京东在继copy村淘之后,在互联网金融这块再一次实现了对死对头的像素级模仿。

太混乱了,我一言蔽之,京东最大的问题是:
[list]只有布局,缺少金融牌照(只有2块)!
布局上,京东有的,阿里都有;阿里有的,京东不一定有。
什么样的队友什么样的格局,还是之前的结论,ZestFinance带不动京东金融。[/list]为节约版面,我会把重点挪到阿里(蚂蚁金服)篇。
[quote]参考资料:解密京东金融:对一切金融牌照感兴趣。[/quote]========== 手动高亮 ==========

好了,你们要的重点来了!之前写的都是同行衬托,回归国家队才是王道。

经过6个月的筹备,首批8支国家队迎来的不是征信牌照,而是可能被取消持有征信牌照资格的噩耗(官方公告见:央行严把征信牌照:首批8家补材料 二批个别退回)。7月,央行完成了对首批个人征信机构的验收工作。现在已是9月......感觉不妙。

按照题主的要求,我将重点分析阿里(蚂蚁金服),腾讯(腾讯信用),平安(前海征信)三家,其余五家以图表总结的形式带过,因为他们的运营模式在这三家中都能8、9不离10的对应起来。

产品介绍:
https://pic3.zhimg.com/50/16f6de31fe63f3d2a27c4c82ab56a099_hd.jpg
征信评分对比:
https://pic4.zhimg.com/50/b6e2caa389a5b727bc7f7bd09425078b_hd.jpg
平台资源优势:
https://pic3.zhimg.com/50/b16a0c49b5d788070d676604f1dab678_hd.jpg

6)腾讯(腾讯信用)——腾讯征信

腾讯天然拥有庞大的社交用户,累积拥有8亿多QQ账户、5亿多微信账户和3亿多财付通支付账户(微信支付是财付通套壳的)。在风控方面也拥有多年的丰富经验,比如人脸识别技术(SNG优图团队,日均上亿的图片吞吐量;打通全国公民身份证号码查询服务中心数据库)、反欺诈技术(过去十年的反盗号技术)。产品体系为:
[quote][list]身份识别
[/list]活体检验 + 人脸成像识别,95%+的通过率,已在腾讯内部、微众银行、微证券产生应用。
https://pic1.zhimg.com/50/d728623b58c6deecee8efd94c0512d47_hd.jpg
[list]反欺诈
[/list]国内首个利用互联网数据鉴别欺诈客户的系统,主要服务对象包括银行、证券、保险、消费金融、P2P等商业机构,识别用户身份,防范涉黑账户或有组织欺诈,发现恶意或者疑似欺诈客户,避免资金损失。
[list]信用评估(内测中)
包括信用评分及信用报告。评分包括评分、风险预警和消费评级三项;信用报告则有个人版、定制版和企业版三项。但是,打开腾讯信用官网,查看我的信用分时,似乎发现了不得了的事情......
https://pic1.zhimg.com/50/6c023a09741b14e57f376606600fdab5_hd.jpg
谁特么能告诉我腾讯信用是如何通过央行验收哒?
https://pic3.zhimg.com/50/85b131b6b257d78c87b24e610238726e_hd.jpg
7)阿里(蚂蚁金服)——芝麻信用

芝麻信用评分体系是我见过和FICO长得最像的征信产品了好吗?
https://pic1.zhimg.com/50/001f48ddedfef79678425c3b1a07f982_hd.jpg
我总结了一下同质的几点:
[list=1]Base FICO范围:300-850(Industry-Specific
FICO范围:250-900);芝麻信用分范围:350-950。
FICO数据维度:偿还历史×35% + 信用账户数×30% + 使用信用的年限×15% + 正在使用的信用种类×10% + 新开立的信用账户×10%;蚂蚁信用分:信用历史×35% + 行为偏好×25% + 履约能力×20% + 身份特征×15% + 人脉关系×5%。
信用分等级划分[/list]https://pic4.zhimg.com/50/ec9f93ad242a0e0c0516ed651470b40c_hd.jpg
即便是阿里已经构建起了电商和互联网金融帝国,数据来源一样面临匮乏的窘境,很多人不信?呵呵,往下看。
https://pic1.zhimg.com/50/d2f38bd43cdb3ad97a509e01936ed25e_hd.jpg
整个阿里系的数据来源只占到了30~40%,剩下的60~70%怎么来呢?蚂蚁金服是这么考虑的:第一是新增合作商家,加强信息共建;第二是打通更多公共部门,获取更多公共数据;第三是鼓励用户自行上传资料,包括结婚证、房产证、银行账单等。

没有相关金融牌照,可靠的数据源从哪里来呀,黄河之水天上来么?
https://pic4.zhimg.com/50/60e39ed26a940d21c3ab3cbfc49a2723_hd.jpg
也就是说,上图中绿色框框中的数据才是阿里握紧的,粉红色框框中的数据,只是建立理想信用评分系统时设想的training data sets。芝麻信用所有的优势均仅基于阿里现有的业务积累,其他方面还很薄弱。当然,不可否认也具备许多难以替代的优势:
https://pic1.zhimg.com/50/d979bf2e9e92bb691c13cf3a09704e8c_hd.jpg
很多人觉得蚂蚁金服是互联网金融的旗舰公司,估计是因为天天看到和它有关的大新闻所产生的公关错觉吧。一个总喜欢站在舆论风口浪尖的公司背后往往都有一堆闷声发大财的公司。

我们知道,在互联网金融领域,一共有16块金融牌照,分别是:
[quote]银行(含民营)、保险、信托、期货、证券、基金(公募/私募、子公司、销售、销售支付)、租赁(金融租赁、融资租赁)、典当、小贷、担保、商业保理、第三方支付、众筹(公募、 私募)、消费金融、征信(个人征信、企业征信)、金融资产交易场所。分别由银监会、证监会和保监会等部门负责颁发。[/quote]现目前各大公司 / 集团争相抢夺的,就是下划线标记的征信牌照,黑体标记的7块则是最主要(重要)的金融牌照(以下简称全牌照)。每多一块金融牌照,便多了一份斩获征信牌照的保障。
https://pic4.zhimg.com/50/e24b160abd88441efba9569e9ab3ae61_hd.jpg
有知友质疑金融牌照的重要性,我今天算是得罪了你们一下。打个比方,如果把拥有金融全牌照看做是考上重点大学(拥有部分牌照看做是考上普通学校),你觉得是考上大学成才的人多,还是没考上大学自学成才的多?是考上重点大学的成才多,还是考上普通学校成才的人多?不拿人口基数唬人,按比例计算。

牌照是什么,是资(数)源(据)啊!!!资源组成平台,平台造就产业好吗?

目前国内集齐全牌照的企业仅有三家(见下图):平安集团、中信集团和光大集团。后两家不属于被点名的征信体系建设重点单位,那么最有可能成为国内征信业务终成者的我想不言而喻了吧。
https://pic2.zhimg.com/50/e2d3cbc29cf1b7fcd62ed7da7de57448_hd.jpg
京东现在只持有基金一张金融牌照(1 / 7,除此之外还有小贷、商业保理、第三方支付),蚂蚁金服现在持有银行、证券、保险、基金四张金融牌照(4 / 7,除此之外还有小贷、第三方支付),而坐靠平安集团的前海征信则拥有全部的七张金融牌照。这就好比你本来能考北大的,结果考场失误,上了北大青鸟。
腾讯持有的金融牌照也比京东多,手握银行、基金两张(2 / 7,除此之外还有第三方支付、小贷)。蚂蚁金服现有的金融业务已完全覆盖整条产业链(京东略过):
https://pic3.zhimg.com/50/0c23a6e4e0da8eec3124ac7634a3f080_hd.jpg
(注:蓝色部分为蚂蚁金服已有金融牌照;橙色部分为虽然没有获得牌照,但是做的业务和这个行业是类似的。)
谈布局,谁没有啊!京东也早就在全牌照所覆盖的金融领域铺好蓝图了,有卵用?没有入场券,就等于没有资格从事相关业务,就没有可靠的数据源。
[quote]参考资料1:互联网金融相关的16块牌照都有哪些。
参考资料2:一张图看懂安邦和它对手们:都在努力集齐7张牌照。[/quote]依靠电商数据、交易数据及社交数据等,通过先进的数据挖掘、机器学习算法得出的信用评分,顶多算作辅助征信,你去问问银行的人,现在哪家正规信贷机构敢直接拿芝麻信用分作为参考标准给你放贷?之所以你可以拿着较高的芝麻信用分免费租车、住酒店,甚至通过阿里旅行申请新加坡签证、卢森堡申根签证,那都是蚂蚁金服在给你背书。真正的征信战斗还没打响呢!要是第三方数据计算得出的信用评分有用,接入征信报告有卵用?

8)平安(前海征信)

前海征信成立只有一年多,法人代表为平安集团副总经理曹实凡,两个股东分别是平安创新资本投资有限公司和平安置业投资有限公司。你们家还缺干女儿吗?有正规大学文凭的。
https://pic7.zhimg.com/50/62b9cfdcd6863d905dc3209fc84012a8_hd.jpg
短短一年多时间,前海征信已自主研发并成功推出覆盖贷前、贷中、贷后全流程的10大征信产品,是目前市场上唯一的全流程、端到端、产品+服务的征信产品套装,并自建了拥有5000核超强计算能力的国内金融业界的大数据“最强大脑”。主要产品有:
https://pic1.zhimg.com/50/6410d65ac0a44d20b7a4a282d335feb8_hd.jpg
其中好信度和FICO评分类似。
前海征信在征信方面的优势主要体现在:
[list]全流程的产品服务。依托平安集团积累的数据,与多家机构合作,数据源丰富真实。[/list]https://pic4.zhimg.com/50/48a501dc78a1e0ef12ff80aee6fda67c_hd.jpg
平安集团的强项在于积累了在不同经济周期下、各类风险偏好人群的金融行为数据,而这些数据是衡量征信机构经验水平的重要标杆,另外数据还涵盖车险违章等非金融信息。
[list]依托平安集团的技术和经验积累。
[/list]
三、谁将是国内最有可能的征信业务终成者

做个总结:
[list]金融牌照是能将征信业务做好的必要条件。
[/list]https://pic4.zhimg.com/50/f31e1ee97ead05af6f8673230cbea6e1_hd.jpg
[list]技术是次要的,可靠的数据来源是主要的,先进的建模技术、挖掘技术谁家都有,但是可靠的数据来源并不是谁家都有。
[/list]https://pic1.zhimg.com/50/55c99d23de5e000065df0cb5e0ab9628_hd.jpg
[list]有个好爹真的很重要。任何信贷机构的风控(CRO)模型都是建立在可靠的数据源之上,你拉政府数据库也好、自己写爬虫抓也罢,无非是想从更多更全的维度去验证用户身份的真实性、还贷风险等级、识别恶意欺诈等,下一个浪潮是数据时代(DT),没有可靠的数据源,一切空谈。[/list]
而前海征信,将成为征信业务发展的最大既得利益者。不信抬头看,苍天打谁脸。
https://pic3.zhimg.com/50/7aed8151199f2321d72eddf6c4ae67ce_hd.jpg
[quote]其次我看好蚂蚁金服的发展。
[list][*]@沈浩翔说得很对,征信应该是让更多有实力的企业加入进来共同推进。至于未来会发展成一超多强,还是多足鼎立的格局,这还有待观望。[/quote]另外,我相信未来3~5年里征信业务发展将会被政府极大地重视,但是发展健全还需更长期。建设信用社会是国家发展进步中重要的一步。
终究还是走不了严肃的学术风,摊手。
未完待续。
https://pic1.zhimg.com/50/538e81810cfda6b21677ce193adf563a_hd.jpg

========== 广告 ==========

欢迎关注我的微信公众号「Michael282694」,正确打开方式见 → 微信公众号「Michael282694」开通了 - 有Michael282694的地方就有江湖 - 知乎专栏。
http://weixin.qq.com/r/Vj9VTbzE0OGvrfgu92pE (二维码自动识别)

飞贷的风控到底怎么做的?接了哪些外部的数据源?

飞贷自称可以做纯线上的高达30万的大额现金借贷(且不考虑利率问题),风控是个大问题,懂行的都知道这里面模型是说给别人听的,数据源才是核心,那么飞贷到底接了哪些外...

匿名用户 回复了问题 • 0 人关注 • 1 个回复 • 1693 次浏览 • 2017-05-21 14:42

数据宝2016年的双11活动大家都抽到了多少钱?

数据宝网站的API接口很全的样子

匿名用户 发起了问题 • 0 人关注 • 0 个回复 • 1177 次浏览 • 2016-11-10 14:18

互联网金融中需要关注的风控逾期指标有哪些?

[b]本题已加入知乎圆桌 »

林雨 回复了问题 • 0 人关注 • 6 个回复 • 80203 次浏览 • 2016-10-14 11:04

国内大数据风控方面做的比较好的企业有哪些?数据的获得途径有哪些?

匿名用户 回复了问题 • 0 人关注 • 8 个回复 • 10902 次浏览 • 2016-07-29 22:58

国内未来3~5年内,征信业务是否有可能爆发?

在美国,日本等发达国家,征信业务已经非常完善了,但是国内这一块一直没有一个成熟的征信体系,请问这一块国内究竟是否有可能做得起来?有人说,征信是互联网金融的根基,...

回复了问题 • 0 人关注 • 20 个回复 • 151428 次浏览 • 2015-09-09 20:38

马云的芝麻信用是怎么利用大数据评判用户信用的?

目前国家对于公民的信用体系建设方面重视了起来,6月1日,“信用中国”网站(

回复了问题 • 0 人关注 • 6 个回复 • 19341 次浏览 • 2015-06-11 23:53

云计算在中国的市场格局是怎样的?

以及和几家大公司,阿里,腾讯,盛大,微软,百度等的比较!主要是中国云计算,也就是国内的现状分析或者趋势。

回复了问题 • 0 人关注 • 20 个回复 • 176158 次浏览 • 2015-03-19 16:42

Wecash闪银3分钟信用审核究竟怎么做到的?是否是目前最快的?

在征信行业,对审核速度的追求有止尽吗?

匿名用户 回复了问题 • 0 人关注 • 2 个回复 • 9269 次浏览 • 2015-01-05 15:48

类似闪银、量化派这样的大数据小额信用服务评估商在评估用户信用额度时运用了哪些算法?

闪银一般是通过绑定用户的社交信息、银行信息进行信用评估,量化派主要是采用大数据的方法对小额贷款用户、小企业进行数据评估。

匿名用户 回复了问题 • 0 人关注 • 1 个回复 • 3683 次浏览 • 2014-12-19 13:42

大数据最核心的价值是什么?

有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从[b]庞杂的数据背后挖掘、分...

回复了问题 • 0 人关注 • 20 个回复 • 868379 次浏览 • 2014-04-04 10:09

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big ...

匿名用户 回复了问题 • 0 人关注 • 20 个回复 • 464050 次浏览 • 2013-05-06 12:00