登录 or
数据分析

数据分析

互联网金融中需要关注的风控逾期指标有哪些?

[b]本题已加入知乎圆桌 »

林雨 回复了问题 • 0 人关注 • 6 个回复 • 80203 次浏览 • 2016-10-14 11:04

国内大数据风控方面做的比较好的企业有哪些?数据的获得途径有哪些?

匿名用户 回复了问题 • 0 人关注 • 8 个回复 • 10902 次浏览 • 2016-07-29 22:58

大数据最核心的价值是什么?

有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从[b]庞杂的数据背后挖掘、分...

回复了问题 • 0 人关注 • 20 个回复 • 868379 次浏览 • 2014-04-04 10:09

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big ...

匿名用户 回复了问题 • 0 人关注 • 20 个回复 • 464052 次浏览 • 2013-05-06 12:00

条新动态, 点击查看

回答了问题 • 2016-10-14 11:04 • 6 个回复 不感兴趣

互联网金融中需要关注的风控逾期指标有哪些?

赞同来自:

1、逾期天数 DPD (Days Past Due)
自应还日次日起到实还日期间的日期数
举例:DPDN+表示逾期天数 >=N天,如DPD30+表逾期天数 >=30天的合同
2、逾期期数
自应还日次日起到实还日期间的日期数... 显示全部 »
1、逾期天数 DPD (Days Past Due)
自应还日次日起到实还日期间的日期数
举例:DPDN+表示逾期天数 >=N天,如DPD30+表逾期天数 >=30天的合同
2、逾期期数
自应还日次日起到实还日期间的日期数
举例:
正常资产用C表示
Mn表示逾期N期:M1逾期一期,M2逾期二期,M3逾期三期,M4逾期四期,M5逾期五期,M6逾期六期
Mn+表示逾期N期(含)以上,M7+表示逾期期数 >=M7
3、贷款余额 ENR
至某时点借款人尚未偿还的本金,即:全部剩余本金作为贷款余额
4、月均贷款余额 ANR
月均贷款余额 = (月初贷款余额 + 月末贷款余额)/2,月初贷款余额即上月月底贷款余额
5、C,M1,M2,M3…的贷款余额
根据逾期期数(C,M1,M2,M3…),计算每条借款的当时的贷款余额
贷款余额 = 放款时合同额 –已还本金
已还本金 = (放款日次日 ~ T-1)的还款本金总额
6、核销金额
贷款逾期M7后经审核进行销帐,核销金额即在核销日期当天的贷款余额
7、回收金额 Recovery
来自历史所有已核销合同的全部实收金额
8、净坏账 NCL
当月新增核销金额 – 当月回收金额
9、在账月份 MOB
放款后的月份
举例:
MOB0,放款日至当月月底
MOB1,放款后第二个完整月份
MOB2,放款后第三个完整月份
10、(C->M1、M1->M2、M2->M3、M3->M4、M4->M5、M5->M6)滚动率 Flow rate
举例:
C-M1=当月进入M1的贷款余额/上月末C的贷款余额
M2-M3=当月进入M3的贷款余额/上月末M2的贷款余额
11、逾期率Coin(C)%、Coin(M1)%、Coin(M2)%、Coin(M3)%、Coin(M4)%、Coin(M5)%、Coin(M6)%
当月不同逾期期数的贷款余额/当月底总贷款余额
举例:
Coin(C)%=当月C贷款余额/当月底贷款余额(C-M6)
Coin(M1)%=当月M1贷款余额/当月底贷款余额(C-M6)
Coin(M1+)%=当月M1−M6贷款余额/当月底贷款余额(C-M6)
12、逾期率Lagged(M1)%、Lagged(M2)%、Lagged(M3)%、Lagged(M4)%、Lagged(M5)%、Lagged(M6)%
当月不同逾期期数的贷款余额/往前推N个月的总贷款余额
举例:
Lagged(M1)%=当月M1的贷款余额/上个月底的贷款余额(C~M6)
Lagged(M4)%=当月M4的贷款余额/往前推四期的总贷款余额
Lagged(M4+)%=当月M4的贷款余额/往前推四期的总贷款余额
+ 当月M5的贷款余额/往前推五期的总贷款余额
+ 当月M6的贷款余额/往前推六期的总贷款余额
13、账龄分析Vintage
统计每个月新增放款在之后各月的逾期情况
综合例子:
https://pic2.zhimg.com/50/v2-cb140742f0b36db8f08ac0be6c7f8260_hd.jpg
说明:
客户A所有月份正常还款,贷款余额逐步减少。
客户B在8月份未还款,进入M1,9月份未还款,进入M2,10月份还是未还款进入M3,月别贷款余额无变化。
客户C在9月份未还款,进入M1,10月分月还清所欠款,进入C。
客户D在9月份正常还款,10月份未还款,进入M1。
滚动率
1、8月C-->M1 :8月进入M1的贷款余额 / 8月月初即7月月末C的贷款余额 30,000/80,000=37.5%。
2、9月C-->M1 :9月进入M1的贷款余额 / 9月月初即8月月末C的贷款余额 30,000/120,000=25.0%。
9月M1-->M2 :9月进入M2的贷款余额 /8月的M1的贷款余额 = 30,000/30,000=100%。
滚动率C-->M2
上月的C-->M1 * 当月的M1-->M2。
3、9月C-->M2 :8月C-->M1 * 9月M1-->M2 = 37.5% * 100% = 37.5%。
逾期率Coin%
1、8月CoinM1 = 8月M1余额(30,000)/ 8月贷款余额(150,000)= 20.0%
2、9月的CoinM1=30,000/250,000=12%。
9月的CoinM2=30,000/250,000=12%。
3、10月份CoinM1=40,000/330,000=12.1%。
10月份CoinM2=0/330,000=0%。
10月份CoinM3=30,000/330,000=9.1%。
逾期率Lagged%
1、8月LaggedM1=8月统计逾期进入M1的贷款余额 / 上个月底的贷款余额(C~M6)=30,000/80,000=37.5%。
2、9月LaggedM1=9月统计逾期进入M1的贷款余额 / 上个月底的贷款余额(C~M6)=30,000/150,000=20.0%。
9月LaggedM2=9月统计逾期进入M2的贷款余额 / 上上个月底的贷款余额(C~M6)=30,000/80,000=37.5%。
3、10月LaggedM3=10月统计逾期进入M3的贷款余额 / 往前推3期的贷款余额(C~M6)=30,000/80,000=37.5%。
账龄分析Vintage
1、2015/07的放款合同金额为50,000+30,000=80,000;
mob1(2015/08):客户B发生逾期但是不够M2;
mob2(2015/09):客户B依然没有还款,进入M2,则账龄计入:30,000/80,000=37.5%
mob3(2015/10):客户B依然没有还款,进入M3,账龄数据保持不变37.5%。
假设以后客户A依然正常还款,客户B没有偿还行为,则之后账龄保持37.5%不变。
2、2015/08的放款合同额为30,000+50,000=80,000;
mob1(2015/09):客户C发生逾期但是不够M2;
mob2(2015/10):客户C还清欠款,进入C,客户D发生逾期但是不够M2;
mob3(2015/11):假设客户C未还款,则发生逾期但是不够M2,客户D继续欠款,则进入M2,账龄记入:40,000/80,000=50.0%;
mob4(2015/12):假设客户C、D都未还款,则C进入M2,D进入M3,则账龄记入:60,000/80,000=75.0%;
mob5(2016/01):假设客户C、D全部还清欠款,全部进入C,则账龄为0;
https://pic4.zhimg.com/50/v2-29a1d379a4c75645bed50b78eae7ced6_hd.jpg
最后,推荐进一步阅读 互联网金融时代消费信贷评分建模与应用 (豆瓣)
笔者为大数据风控服务商行业从业者。
综合分析目前市场上的公司现状而言,大数据风控服务好的公司可以大概分为几类:
一类是同盾、聚信立等公司成立时间相对早的公司,业务模式上偏向于提供基础的数据采集服务,也就是行业内所谓的爬虫、电商、运营商等数据采集及分析;
第二类... 显示全部 »
笔者为大数据风控服务商行业从业者。
综合分析目前市场上的公司现状而言,大数据风控服务好的公司可以大概分为几类:
一类是同盾、聚信立等公司成立时间相对早的公司,业务模式上偏向于提供基础的数据采集服务,也就是行业内所谓的爬虫、电商、运营商等数据采集及分析;
第二类是诸如融360等有流量及自产数据的服务商,他们倾向于助贷,提供导流服务及信息服务等;
第三类,也是未来比较有发展潜力的公司,这类型公司的大数据风控,除了有基础的数据采集之外,还有专家风控模型及一整套的风控SaaS系统,能帮助机构快速的布局小微信贷业务。这个类型中,目前做得比较好的诸如前高德地图成从武创立的云蜂科技。
第四类是偏向于只做征信的公司,如前海、立木等公司。

回答了问题 • 2014-04-04 10:09 • 20 个回复 不感兴趣

大数据最核心的价值是什么?

赞同来自:

2014年4月29日更新了两张图,修改一些拼写错误。
-
下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值。
[quote][b]“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。... 显示全部 »
2014年4月29日更新了两张图,修改一些拼写错误。
-
下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值。
[quote]“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲[/quote]
本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。

我们知道:
[list=1]第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
第二次工业革命以石油为基础,内燃机和电信技术为标志,
第三次工业革命以核能基础,互联网技术为标志,
[*]第四次工业革命以可再生能源为基础,_________为标志。
空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,[u]数据和内容作为互联网的核心[/u],不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。

一、大数据的应用
大数据挖掘商业价值的方法主要分为四种:
[list=1]客户群体细分,然后为每个群体量定制特别的服务。
模拟现实环境,发掘新的需求同时提高投资的回报率。
加强部门联系,提高整条管理链条和产业链条的效率。
降低服务成本,发现隐藏线索进行产品和服务的创新。[/list]https://pic2.zhimg.com/50/071eb45b3f347956c7cd9fb49b26f523_hd.jpg
[list]Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》
[/list]
https://pic3.zhimg.com/50/0792e758d2a766c642130ec201075de3_hd.jpg
[list][*]各种Data之间的关系图,注意Open Data是完全包含了Open government data(政府开放数据)


https://pic3.zhimg.com/50/82d8a3d8b702c34fced0d2c8e9921049_hd.jpg

[list][*]Mckinsey也列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。(感谢知友安阳提供的补充链接资料)


大数据的类型大致可分为三类:
[list=1]传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。[/list]
从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
1985年,我国国家统计局明确地把我国产业划分为三大产业:
[list=1]农业(包括林业、牧业、渔业等)定为第一产业。
工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
把第一、二产业以外的各行业定为第三产业。
[/list]
第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
[list=1]第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。
[/list]
我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。
(1).第一产业
[list][*][b]孟山都(Monsanto | A Sustainable Agriculture Company),农业
[/list]孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。

孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。

[list][*][b]天气意外保险公司(The Climate Corporation),农业[/list]The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。

[list][*][b]土壤抽样分析服务商(Solum, Inc)[/b],农业
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。

了解更多:
大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?

(2).第二产业
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:
[quote]实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。[/quote]
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。

随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.

又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。

[list][*][b]第三方认证机构(TÜV NORD GROUP),工业
[/list]德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称TÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。TÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。

[list][*][b]工业自动化软件商(Wonderware ),工业
[/list]Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。

了解更多:
大数据在电力行业的应用前景有哪些?

(3).第三产业
这一个部分的内容比较多。这里只提出一些典型的应用例子,欢迎补充。
[list][*]健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。
[list][*]视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.

[list][*]交通:《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台(Github:OpenTripPlanner和MTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。https://pic1.zhimg.com/50/6adbebaa31642be94c70fdcf3668abb7_hd.jpg

[list][*]电子商务:Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。
[list][*]政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
[list][*]金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。
[list][*]电信: 美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。
宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
[list=1][*]数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
[/*][*]数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
[/*][*]价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
[/*][*]处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。

看看专家们怎么说。
[list][*][b]舍恩伯格,大数据时代 (豆瓣)
[/list]不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

[list][*][b]埃里克·西格尔,大数据预测 (豆瓣)[/list]大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。

[list][*][b]城田真琴,大数据的冲击 (豆瓣)[/list]从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

三、大数据的价值
了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
[quote]Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
[/quote]
而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。

随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。


实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。

[list]如果银行能及时地了解风险,我们的经济将更加强大。
如果政府能够降低欺诈开支,我们的税收将更加合理。
如果医院能够更早发现疾病,我们的身体将更加健康。
如果电信公司能够降低成本,我们的话费将更加便宜。如果交通动态天气能够掌握,我们的出行将更加方便。如果商场能够动态调整库存,我们的商品将更加实惠。[/list]
最终,我们都将从大数据分析中获益。

四、结束语。

Here's the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变 因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了

数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。

祝每一个DMer都挖掘到金矿和快乐:)


参考文献:
[i][1].什么是大数据时代的思维?《大数据时代》作者维克托迈尔舍恩伯格的演讲[/i]
[i][2].New movie damns Monsanto's deadly sins[/i]
[i][3].American farmers confront 'big data' revolution[/i]
[i][4].The Industrial Internet: Even Bigger Than Big Data[/i]
[i][5].《信息化和工业化深度融合专项行动计划(2013-2018年)》印发[/i]
[i][6].Big data: The next frontier for innovation, competition, and productivity[/i]
[i].[i]Big data: Crunching the numbers[/i]
[i][8].audit.gov.cn [/i]
[i][9].中国金融行业大数据应用市场研究白皮书[/i]
[i][10].The Secret Sauce Behind Netflix's Hit, "House Of Cards": Big Data[/i]
[i][11]. Open data: Unlocking innovation and performance with liquid information
-[/i]

-----------2017年1月更新-----

欢迎关注我存储知识的地方:[b]预见未来——Han Hsiao的知乎专栏Foresee[/b]

-
写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
[b]这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中... 显示全部 »
写在开场的话:
考虑了一下,鉴于现在评论区的状况,以及很多知友的阅读习惯,我还是将一些内容搬运在这个醒目的位置,更新一下这个答案,免得还有杀到评论区里追着要我认错和道歉的。
这个答案开篇之处,我就已经明确说明,以这数据规模,这不是大数据了(参见以下答案中我更新加粗的部分),只是借个例子说明大数据的内涵和价值,居然还有人因此专门开个答案来驳斥这一点的,实在让我无语。
我是本着分享知识和经验的目的在知乎交流的,如果根本性的问题不在于此,连答案看完整点的耐心都没有,那我就没什么想说的了。许多评论我就不回复了。

说老实话,这答案在这放了几天,浏览者应该不少,但是没等到我最期望的那些评论。我还是有点失望的。
其实,这答案我可以随便找个问题一贴,例如什么问
怎么样在知乎混更高效啦?
怎么获得更多赞啦?
之类的问题。
不知道是否有人想到我为啥给贴这里了?
大数据的精髓是什么?收集个几百G几百T的数据往硬盘里一放就是大数据的精髓?如果认识就停留在这个程度,我也就没啥可说的了。
在这个答案中,我1,2,3,4,5都干了那些事?
选择维度,切入数据的路径和选择是什么样的?为什么?
虽然我用的都是最简单最基本的算法和模型,但是为什么在这样的地方,我选择了这样的算法和模型?
我想看到的很多问题都没有在评论里出现,有点让人遗憾。

问题有要求通俗易懂得介绍大数据的应用价值和内涵,我并无认为我的例子有何不妥。
对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。
面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。

此外,大数据和超级计算完全是两个不同的领域和概念,虽然在极少的地方,两者或有交集(例如其他知友答案中提到的罗马城3D建模),但是真的很少。
并行计算和分布式计算也完全是两回事,后者可不需要去处理什么CPU的连接和通信
大数据出于成本/产出考量,是不太可能采用并行计算之类的超算技术的。海杜普之类的分布式技术会是一个很好的选择。
大数据和超算,虽然两者都面临算法上的挑战,但是完全不是一回事。
如果对超算有兴趣,可以简单移步目前超级计算机的性能局限是硬件还是软件,为什么?

从技术层面说,大数据和以前的数据时代的最大差异在于: 以前是数据找应用/算法的过程(例如我们各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

至于大数据和小数据的差异,大数据的策略,更偏重于发现,以及猜测/印证的循环逼近过程,一般只会设定一个大方向,算法模型都可能在执行的过程中做大幅度的调整。而传统小数据分析,一般有明确的目的和诉求,算法,和模型,我想我已经在我的例子中注意体现这一点了。
对于大数据来说,统计学的大量概念会重要得多。

大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了NB的技术和算法才体现了它的价值。(虽然NB的技术确实很NB,我曾经在另外一个答案中视海杜普位划时代的计算产品之一)

治大国,若烹小鲜,何况是面对一般受众说个大体的概念,私以为我这个例子是没有太大问题的。

========================================================================
要明确易懂得解释一件事情,最好的方式无疑是举一个典型形象,具有代表性的例子。例子最好和听众熟悉的场景相关。
一般圈里回答这个问题,比较容易拿来做解释的例子是沃尔玛的几个经典案例,不过既然在知乎回答这个问题,我就拿知乎来举个例子吧

I 前言
1. 我在这个答案中所使用的数据和例子,数据规模有限,真正的大数据只有知乎运营者才有机会使用(应该也有严格的权限控制,以及运营者自有的命题)。
虽然说不上是大数据,但是我只是拿这个来作为一个说明的例子,说明下大数据的内涵以及价值,应该还算是可以的。

2. 我收集这些数据,主要是源于前一阵子对张公子文章的仰慕,每次进入张公子回答的页面一点一点往下点,太累,同时下次还要一点点重新展开页面找到以前看到的地方,不堪重负。正好最近业余在学习自动化测试和Ruby语言,于是尝试性写了些作业,扒了一些数据。
所以我收集这些数据并没有任何不良企图以及针对性,请各位知友和知乎运营者放心。我也承诺不会将这些数据用于恶意的目的。当然,这些数据本身都是公开的,我都是通过合法合规手段收集的。
以下会尽量匿去所有知友的名字,但是某些知友的数据特征太明显,所以就匿不了了。

3. 这些数据本身抓取的过程是一个动态的过程,而不是一个snapshot,出于技术,权限以及合法性的原因,我数据抓取的方式比较慢,在抓取过程中,数据本身已然在发生变化,因此数据本身可能有轻微误差。此外,抓取的数据范围和数量有限,并不一定完整反应和体现真实。例如知友的匿名回答,以及删除答案的行为,可能会对分析结果造成很大影响,但是我抓取的数据当中却没有包含。

4. 我的样本选择基本上是随机选择,从黄sir的关注者中,从日常每天的热门话题中随机选取,选取的都是至少答题在100以上的知友的数据。

5. 我本身并非社区运营专家,所以以下涉及到分析的部分,如果有业余的地方,请勿见笑,这答案的本身并不是真要分析知乎和知友(这也不是我的能力和数据权限能做到的),我只是说明下大数据这个概念和价值而已。

II 命题
数据分析总得有个方向和目标,鉴于我的数据规模和样本特性,确立较宏大的命题是相对比较困难的。于是,我选择了一个比较取巧的命题:”赞同数“。
一则来说,貌似广大知友关心这个的很多很多,比较吸引眼球。
二则来说,知乎上关于这个的日经问题也非常多,也算是有的放矢,例如很多类似以下的问题:
如何能获得更多赞同?
什么样的答案能够获得更多赞同?
人情赞,跟风赞是不是很多?
答案字数多是不是容易获得赞同?
图片多是不是容易获得赞同?
话题和浏览是不是影响赞同?
等等类似的问题在知乎层出不穷。尝试做个分析对这些问题提供些帮助。
但是,我必须强调的是:知乎真的不是一个“比比谁的赞同多”的竞技游戏,期望大家不要在“赞同”上过于纠结和投入太多关注,我觉得知识,乐趣以及思想的交流和碰撞,才是知乎的重点。

然后围绕这个命题核心,看看我们还能发现点什么有意思的其他东西。

III 样本
本次样本主要涉及39位知友,共计36442条答案

样本很多,数据也很多,我就不一一贴上来了,我只贴几位比较有典型代表意义的知友的加工后的数据,以下数据样本根据知友的关注者人数排序:
知友1:关注者283,337人
https://pic2.zhimg.com/50/e6f95a394e1e27fdf093df5591e7aa33_hd.jpg
https://pic3.zhimg.com/50/58900dd24b0528ec761bdbfc99e76577_hd.jpg
其中最专注话题,即为回答过最多的话题,即下图活跃度排名第一的话题。
相关系数,即皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC),用以描述两个变量之间的线性相关度。0就是毫无关联,1就是绝对的线性关联,-1就是绝对的负线性相关

好吧,这个知友也不用匿名了,匿不住,这关注数,这话题,摆明是李开复先生。
开复先生的影响力毋庸置疑,赞答比惊人,其答案和问题浏览次数的相关度也很高(这意味着问题浏览数的增加有极高概率带动赞同票的获取),尤其在其最专注的话题 “李开复(人物)” 中(囧),问题关注和答案赞同之间有着接近线性相关的相关系数,表明开复先生在知乎是有一大票铁杆粉丝的。
但是开复先生的数据中也显示出,其藏赞比并不高(0.26),属于抽样人群中的中等水平。
什么样的情况会导致赞很多,藏不多呢?我一般认为,如果答案的内容价值较高,干货很多,会吸引到更多的收藏次数,而光环票,人情票,跟风票,以及引起读者共情的答案(例如吐槽以及煽情),较容易获得赞同,但是不容易收获收藏。
当然,开复先生的赞藏比也并不属于低的。

开复先生回答的问题,题均浏览次数分别5.5K+ 和 6K+,远超39位知友的平均值,开复先生的影响力可见一斑,而且开复先生答均750多字,属于非常高的值,可见开复先生对于每一个答案都较认真的投入了精力作答。

此外,从开复先生的话题分布来看,开复先生更多得把知乎当作了一个作为名人及其官方身份,和公众进行互动的媒体平台。而且是属于职业范的平台。开复先生在知乎上更多得是以自己的职业身份出现。连微博上常见的他关于政治,关于青年人引导的内容,都不多见。进一步的,开复先生作为一个个人的知识与经验分享就鲜见了。

开复先生仅凭专攻“李开复(人物)”一个话题,就能斩获261.65的赞答比,在“创新工场”话题中,每不到3个字就能获得一个赞同,这样的粉丝会,绝大多数人是不能拥有的,所以借鉴价值不大(当然后者的字数/赞同还有比开复先生更NB的大牛,我们后面再说)

知友2:关注者 175,534
https://pic2.zhimg.com/50/087a91d774849c3a6c54cde4f61200e2_hd.jpg
https://pic3.zhimg.com/50/8fa43fe7c5a61c224421b4d602bcd939_hd.jpg
好吧,这个也匿不住,这关注数,这话题,明显是继新的。
继新的数据很有意思(包括一些尚未贴出来的数据),很明显得看出了一个运营者的身份(其他几位知乎的工作人员的数据也类似),其发言被很明显得压抑在了知乎的相关话题上(尤其过了知乎运营的初期以后)。即便是如此刻意得压制,继新在苹果话题上的心血投入也搂不住(答题数,还有题均字数),一个热情的铁杆苹果粉丝的形象就呼之欲出了。

当然,“知乎”这个话题在知乎并不属于大热,(继新在知乎话题下的问题题均浏览只有700多),导致继新在知乎话题下的赞答比都不到15(远低于其平均水平),但是其赞同和浏览的相关系数却远高于平均水平(0.784 : 0.553),说明其在知乎这个话题中的权威程度和受认可程度(废话,这是当然的)。

需要大家开始关注的是知乎内的一个神奇话题:调查类问题。这个话题的神奇之处我们下面再慢慢讨论,单就继新的数据来看,调查类话题是继新最讨好的话题,拥有最高的赞答比和最高的文字效率。

而继新另外两个比较突出的私人化,受欢迎的话题是“英语”和“情感”,基于此,我觉得继新可以考虑去泡一个洋妞。

至于继新关于创业的话题,我就不说了,相比知乎团队中另外一位老大周源,实在不能比。周源话题特征就是除了知乎就是创业,除了创业就是知乎,两者占据了周源话题的绝对重心。向这样的创业者致敬,具体周源的数据篇幅有限,我就不贴了。

知友3:关注数 107,526
https://pic1.zhimg.com/50/e6018f371e84bd2eb4e20028f808bd28_hd.jpg
https://pic1.zhimg.com/50/121a766c4dca68408ccba02820a437d8_hd.jpg
好吧,这个也匿不住,看看这赞均字数的效率,最效率的话题,每1.10个字就收获一个赞,这连开复先生都望尘莫及。这是知乎槽王,三表哥是也。
三表哥在音乐方面的专业度和投入程度一目了然,但是可以看到,很明显,三表哥赞同来源的主要发动机来自一些大热话题。
从这点上可以看到,赞同受到话题本身热度的影响有多大。

[b](在上图最后的4个关于话题的图表中,左边两个表格可以视为是这位知友最专注,最投入的话题,右边两个被视为是他最容易受知友认同的话题,最讨好的话题,下同)[/b]

此外,三表哥的藏赞比只有0.08,在39位知友中倒数第三,不能不说是槽王不可避免的遗憾。

知友4:关注数 90,793
https://pic2.zhimg.com/50/f53974a485035843e206737bb416eef5_hd.jpg
https://pic1.zhimg.com/50/c9fb772695fddc8271f7f3e1bd1fac2c_hd.jpg
这也不用匿了,一眼可知,大神张公子是也。我也不想匿,因为这是我收集这些数据的起源和动机。
篮球就是张公子的命啊。

张公子在篮球话题下的浏览关注相关系数是0.818,神数据,也就是说,基本上张公子说篮球,大家就一脸痴迷得边听边点头即可。

张公子回答的答均字数前10个话题,除开“张佳玮”这个话题以外,全部是NBA及NBA的子话题,张公子的投入和专注程度可见一斑。

但是等等,张公子在篮球话题下的赞答比只有29.67,远低于他在所有话题下的平均值57.54.....
张公子一代篮球作者大神。。。在知乎的赞同收割机还是得依赖爱情,情感,调查类问题。。。
相类似的游叔,三水哥等一大票人的类似数据,我就不贴了,他们分别在电影啊,金融啊,日本啊等话题领域专注写作和大量投入,却都是在热门话题中大量高效得收获赞同。

所以吧,其实什么赞答比什么的,都是浮云,话题才是王道啊。。。

知友5:关注数:61,369
https://pic1.zhimg.com/50/a9db29e37aa2c69dd59a49d37ad1cb52_hd.jpg
https://pic3.zhimg.com/50/6d2152af092ca183d52e1790d98cb383_hd.jpg
恩,话题峰度643,偏度有24.9,但是方差只有79.5,数学领域全力开火,这个用不着匿了,陈浩大神是也。陈浩大神应该是对自己的答案做过清理的,要不话题分布数据不会这么诡异。这也应该是知乎话题分布数据中,我见过最有洁癖的数据了。
即便如此,“知乎建议反馈”依然在一片数学话题中,强有力得占据一席之地,如果这都不算爱。。。。继新快来看看吧!
基于这样的话题状况,陈浩大神能够拿到20以上的赞答比,在数学这么冷门的话题领域拿到13.6的赞答比,这份耕耘,值得让人脱帽致敬。
虽然平均赞答比要比数学领域高深多,但是数学领域浏览赞同相关系数要高很多,专业性一目了然。

知友6:关注者:46,546
https://pic2.zhimg.com/50/e4404a451eca5383041c914c940d1066_hd.jpg
https://pic1.zhimg.com/50/a58a6a4a33e3dc1e7bc67ef3e08899d9_hd.jpg
恩,这位知友的数据是我最喜欢看的,看来看去,百看不厌,看得心里那个舒服。
要是类似特征的数据出现在什么企业数据中,我最喜欢了。
稳定,厚重,扎实,用一句话形容叫“重剑无锋,大巧不工”
这是所有知友中数据最均衡厚重的一位了。
社科人文话题的集群全面凸显,这样的底蕴,让人赞叹。
即便如此,他的赞同收割机中,调查类问题,和人际交往两个话题,嘿嘿,也是漏一尖角啊

知友7:关注者 6,979
https://pic1.zhimg.com/50/06b5335c5a003f18a2ed742402cc9216_hd.jpg
https://pic1.zhimg.com/50/b2b87fe0fef072e99c89ed2661fc9aa3_hd.jpg
如果把知友在知乎的表现和热度看作股票的话,这位知友一定是我重金入仓的主力股。
赞答比70.70,39位知友中名列第二,仅次于开复先生
藏赞比0.46,39位知友中名列三,一代干货大神(另外向前两位干货大神MJ勺子和麦琪姐致敬,分别为0.56,0.51)
赞均浏览38.29,仅次于开复大神,和张公子,名列第三
答均字数是39位知友中唯一破1000的,位列第一

这可是只有不到7000关注者的知友啊!!他的话题主要是建筑学,没有大热话题收割机啊!!

唯一可以说说的是他目前答案还太少,才141个,未来回答多了,数据是否会变化,值得关注。
来知乎也才134天,平均每天作答1.05个,知乎运营团队应该好好关注下啊,毫无疑问的优质潜力知友,未来可必定是建筑类话题领域的一大神啊。

知友8: 关注者:1816
https://pic1.zhimg.com/50/df8775cdadd684552ebc7974cedae9c9_hd.jpg
https://pic2.zhimg.com/50/cf3daea5f43418772769ede60d7c8129_hd.jpg
这位知友的数据。。。怎么说呢,话题不缺浏览数和热度答均浏览4800+的数字远高于各位知友的平均值,在所有知友内排第5,不缺投入,答均457字在39位知友中也属于中上水平,话题专注也不错。但是收获赞同的情况颇不理想。
神话题:调查类问题的展现。

知友9:关注者 548人
https://pic4.zhimg.com/50/2b59859c948b306d4a21d22bdb18cdd7_hd.jpg
https://pic4.zhimg.com/50/9d08c18e9483efde1ea133a46e9638ed_hd.jpg
恩,这位知友的数据。。。
赞答比0.99,39位知友中倒数第二
答均字数22.2,39位知友中倒数第一
日均答题:22.21,39位知友中第一
答均评论:0.59,39位知友中倒数第一(引起不了兴趣和互动啊)
最诡异的数据是藏赞比是0.01,藏赞比不是藏答比啊,槽王三表哥在10万粉的簇拥下也就是0.08的水平啊。


IV 分析
我将39位知友中,知乎运营者3位去除,剩下36位知友,按照粉丝数量分为三个区间,做了一些统计:
20000粉丝以上:15位 称为为A区间
1000~20000粉丝:7位 称为B区间
1000粉丝以下:14位 称为C区间

做了一下分析,发现以下规律:

虽然有上面的建筑潜力大牛知友的特例,但是赞答比和用户的粉丝数量是强线性关联,其相关系数是0.853,这两者数字本来就是相互促进的事情,但是粉丝数量对赞答比的影响更直接一些,说明总得来说知乎光环效应是存在的。赞答比作为一个独立指数,价值并不大。(前不久有知友专门强调赞答比来着)

答案字数越多越容易获得赞同?初看似乎确实是这样,但是实际上答均字数和赞同数的相关系数总体只有0.330 ,对于不同的知友,字数多寡的价值完全不同。其中有一位知友的字数的赞同的相关系数达到了0.77,在其专注的话题内,这一关联系数达到了逆天的0.99,几乎就是硬相关了,潜力大大的啊(他的关注者只有181人)
而大多数知友,字数和赞同的相关系数都不高,甚至有部分知友是负相关。
大部分知友(72.2%),在其专注话题内,答案字数和赞同数的关联,比起他自己的平均数值,明显提高
[list]https://pic4.zhimg.com/50/70c00505d8038a5d955078a8908a58b5_hd.jpg

简单的说就是,一般来说,知友在自己专注和擅长的领域里,回答字数越多,获得赞同越多的几率就越大。
回答字数越多是不是越容易获得赞同?哪得看你是谁,也得看你回答什么话题。[/list]
一图胜千言?事实上,只有两位知友答案中图片和赞同的相关系数超过0.4.。。。

回答的问题越热门越容易获得赞同?事实上,名人大牛的光环能够保证自己的答案曝光率不要太低,而平均来说,答题的曝光率,名人大牛未必会更高:
https://pic3.zhimg.com/50/aa2e9788ad86dabe625cd65f84f2c8f1_hd.jpg
36位样本知友中,平均所答问题浏览量最高的两位,事实上都是C区间知友,甚至远超A1(开复先生),他们很会挑问题,但是这并没有帮助他们获得更多赞同和赞答比。
而和字数相关一样,大部分知友(77.78%)的答案获得赞与浏览次数相关的相关度,在其擅长的话题内,有明显提高,越是大牛用户,在其专注的领域,就越显得更专业:
https://pic2.zhimg.com/50/4c29f10de240c28de59b60844cadb42a_hd.jpg


越是明星大牛用户,一般来说,其话题相对越集中,越专注:(开复先生貌似是个例外,可能和他答题较少有关)
https://pic1.zhimg.com/50/b191850b35be2582e89b4b969dfc1f9b_hd.jpg

91.6%的用户,其答案回答时间和其获得的赞同是负相关,证明知乎考古事业有很大潜力可挖。
https://pic1.zhimg.com/50/4228d70a993341d9a2ab4283d762b66e_hd.jpg

回答时间久的答案,好处是获得更多浏览的机会比较大,缺点是过了热度过了被翻出来的机会更小,现在明显是后者占了主导

V 小结
篇幅所限,贴图太多,老出现红叉叉,暂且就贴这么多了。

对于知乎获得赞同这件事情,数据分析后可以发现,其实浏览量因素秒杀其他所有因素(例如字数啊,图片啊等等,虽然没有数据,但是我相信什么繁体字啊,泻药啊之类的因素更是浮云)
假如要在知乎获得更多赞同,选好问题,获得更多关注固然是重要的因素(浏览量),更重要多的是,专注自己擅长的领域,提高回答的质量和自身的水平,这个因素的重要性是秒杀一切其他因素的。
虽然短时间提高自身水平有点困难,但是选好自己专注和擅长的领域,是比较容易做到的

此外,“调查类问题”,“人际关系”,“生活”是三个神话题(排名分先后),是光环下的赞同收割机。

数据中可以读出的信息有很多,我就不一一列举了,这里毕竟只是为了说明大数据的概念。

需要着重说明的是,以上分析仅仅是为了数据分析,设定了赞同获得这样一个主题,并不代表我认为或者建议大家在知乎为了获得更多赞同去努力!

当然,这个问题主旨是为了举一个和大数据有关的例子,来形象得解释大数据的概念,所以以上模型和数据分析有诸多局限之处:例如
专门找过气的热门问题回答的人,数据很难说明问题
大量清理过自己答案的,数据的表现也会比较怪异。
知乎话题和子话题的关联关系,我没有抓取相应数据和统计在内。

但总的来说,为了说明这么一个大数据的概念,应该没啥太大问题。

大数据的作用和价值,基本上就是这么一回事,呵呵。

我又再次审视检查了问题,问题里没有“ 简单明了"之类的要求,长长的舒了一口气。第一为在知乎答一个问题作了这么多的准备工作,以前最多就花个10来20分钟收集些数据,这次居然花了2个星期收集数据。。。我不得不说,最近知乎的服务器太不给力了!
不过最近知乎服务器老是提问题可不关我事啊,我是模拟WEB端鼠标操作的,2~3秒才做一下点击,不应该对服务器增加太多负荷才是。

互联网金融中需要关注的风控逾期指标有哪些?

[b]本题已加入知乎圆桌 »

林雨 回复了问题 • 0 人关注 • 6 个回复 • 80203 次浏览 • 2016-10-14 11:04

国内大数据风控方面做的比较好的企业有哪些?数据的获得途径有哪些?

匿名用户 回复了问题 • 0 人关注 • 8 个回复 • 10902 次浏览 • 2016-07-29 22:58

大数据最核心的价值是什么?

有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从[b]庞杂的数据背后挖掘、分...

回复了问题 • 0 人关注 • 20 个回复 • 868379 次浏览 • 2014-04-04 10:09

如何准确又通俗易懂地解释大数据及其应用价值?

Wikipedia | Big ...

匿名用户 回复了问题 • 0 人关注 • 20 个回复 • 464052 次浏览 • 2013-05-06 12:00