大数据最核心的价值是什么? - 诺米粒 - 2024最新贷款口子论坛
登录 or

大数据最核心的价值是什么?

有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。 诸位同僚觉得大数据的核心价值是什么?
已邀请:

白米Ⅲ级

赞同来自:

2014年4月29日更新了两张图,修改一些拼写错误。
-
下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值。

“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲


本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。

我们知道:
  1. 第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
  2. 第二次工业革命以石油为基础,内燃机和电信技术为标志,
  3. 第三次工业革命以核能基础,互联网技术为标志,
  4. 第四次工业革命以可再生能源为基础,_________为标志。
空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。

一、大数据的应用
大数据挖掘商业价值的方法主要分为四种:
  1. 客户群体细分,然后为每个群体量定制特别的服务。
  2. 模拟现实环境,发掘新的需求同时提高投资的回报率。
  3. 加强部门联系,提高整条管理链条和产业链条的效率。
  4. 降低服务成本,发现隐藏线索进行产品和服务的创新。

  • Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》


  • 各种Data之间的关系图,注意Open Data是完全包含了Open government data(政府开放数据)





  • Mckinsey也列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。(感谢知友安阳提供的补充链接资料)


大数据的类型大致可分为三类:
  1. 传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
  2. 机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。
  3. 社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。

从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
1985年,我国国家统计局明确地把我国产业划分为三大产业:
  1. 农业(包括林业、牧业、渔业等)定为第一产业。
  2. 工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
  3. 把第一、二产业以外的各行业定为第三产业。

第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
  1. 第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
  2. 第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
  3. 第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
  4. 第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。

我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。
(1).第一产业
孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。

孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。

The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。

  • 土壤抽样分析服务商(Solum, Inc,农业
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。

了解更多:
大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?

(2).第二产业
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:

实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。


大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。

随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:

Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.


又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。

德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称TÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。TÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。

Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。

了解更多:
大数据在电力行业的应用前景有哪些?

(3).第三产业
这一个部分的内容比较多。这里只提出一些典型的应用例子,欢迎补充。

  • 视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。

When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.


  • 交通:车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台(Github:OpenTripPlannerMTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。


  • 电子商务:Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。

  • 政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term

  • 金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。

  • 电信: 美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。

一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。

宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。


二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
  1. 数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
  2. 数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  3. 价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
  4. 处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。

看看专家们怎么说。
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。

从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

、大数据的价值
了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。

Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.


大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。

举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。


随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。


实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。

  • 如果银行能及时地了解风险,我们的经济将更加强大。
  • 如果政府能够降低欺诈开支,我们的税收将更加合理。
  • 如果医院能够更早发现疾病,我们的身体将更加健康。
  • 如果电信公司能够降低成本,我们的话费将更加便宜。
  • 如果交通动态天气能够掌握,我们的出行将更加方便。
  • 如果商场能够动态调整库存,我们的商品将更加实惠。

最终,我们都将从大数据分析中获益。

四、结束语。

Here's the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变 因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了

数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。

祝每一个DMer都挖掘到金矿和快乐:)


参考文献:
[1].什么是大数据时代的思维?《大数据时代》作者维克托迈尔舍恩伯格的演讲
[2].New movie damns Monsanto's deadly sins
[3].American farmers confront 'big data' revolution
[4].The Industrial Internet: Even Bigger Than Big Data
[5].《信息化和工业化深度融合专项行动计划(2013-2018年)》印发
[6].Big data: The next frontier for innovation, competition, and productivity
[7].Big data: Crunching the numbers
[8].audit.gov.cn
[9].中国金融行业大数据应用市场研究白皮书
[10].The Secret Sauce Behind Netflix's Hit, "House Of Cards": Big Data
[11]. Open data: Unlocking innovation and performance with liquid information
-


-----------2017年1月更新-----

欢迎关注我存储知识的地方:预见未来——Han Hsiao的知乎专栏Foresee

-

刘飞 白米Ⅲ级

赞同来自:

从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户「口味」的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。


对于大数据在商业上的用途,这句话说得很清楚。前半句是重点,了解用户的行为习惯和爱好,这就是大数据的核心价值。


1. 元数据(Metadata)的概念

简单说,元数据是对数据本身进行描述的数据,或者说,它不是对象本身,它只描述对象的属性。

比如,一幅画本身,是数据。而这幅画的作者、完成时间、尺寸、价格、类型等等,就是它的元数据。

再比如,你妈逼你结婚,找了个男的让你相亲。你并不认识他,但你妈告诉你他的年龄、身高、体重、体貌特征、家庭背景、收入、爱好特长,你心里也就对他有了印象。即便你还不认识他。

元数据的价值,第一是能够从侧面描述对象,第二点就是可以结构化、信息化。

什么意思呢?

比如,我们要判断一幅画的价值,除了专家直接通过画的艺术性来评价,还可以通过元数据来判断。

这幅画是名家的还是二流画家的?这幅画是作者在他创作鼎盛时期的作品,还是在年轻时的作品?这幅画是作者擅长的类型还是他不熟悉的?

用这些描述的信息,我们居然就能把这幅画的价值算得八九不离十。虽然肯定会存在误差,但同样是科学合理的方法。

那用元数据而非数据本身描述对象的意义何在?

这就是在大数据上产生的价值了:对于非结构化的、非量化的对象本身,结构化的元数据可以用以快速计算和判断。

比如,你妈拿了 100 个单身男的资料,你要是一个一个去仔细翻阅,那几天都翻不完。但你告诉你妈,高学历的可能意味着素质很高,高收入的可能意味着能力很强,所以先把低学历低收入的筛掉,剩下的再依据身高体重年龄这些信息排序,那效率就高得多了。

注意,这样的方法仍然会有失误的,说不定真爱就在被筛掉的人里。但这样的概率微乎其微。

相亲里似乎还不太明显,但大数据在真正产品应用中,产生的效果就天翻地覆了。


2. 大数据应用的第一阶段:辅助产品。

最初的应用比较简单,就是用以辅助产品人员和市场人员做判断。

过去的实体产品做一次调研很麻烦。比如饮料公司,调研人员要用各种方式观看他们喝饮料的场景和步骤。

问卷是最常见的,但不准。所以会组织各种各样专业的现场试验,要搭建环境(一般是有单面玻璃或摄像头的)、邀请志愿者,然后引导他们按照日常的习惯去完成一些操作。

比如这样的通过摄像头监视观察室。


(图片摘自: http://210.38.160.80/jkx/newsdetail.asp?id=1038

显然这种办法非常笨重。

而现在的互联网产品则根本无须这么麻烦。用户所有的使用数据、行为,都是记录在案的,想知道什么,瞬间就能分析出来。

过去想知道用户有没有做一件事,比如有没有用过这个功能?太难了。

现在呢,就问点击这个行为,点击了几下、点击在哪里,什么时候点的,甚至这是在什么地方点的、点击之后又做了什么,一清二楚。

用户平时用不用这个功能、怎么用这个功能,也就一目了然。

对于产品设计者来说,这是至关重要的数据。而且,这是完整的数据!如果是互联网产品,那么我知道的是所有用户的数据,不是过去传统行业产品的样本数据。

腾讯知道所有微信用户有多少用朋友圈、知道这些用户每天都发几条朋友圈、知道这些用户每天都发了什么。每一个数据都是真实可用的。




(过去发行量再大的报纸也很难知道读者性别,然而现在再小的微信公众号也可以实时获取。)

在实体产品的行业,随着未来整个产品从生产到销售到使用的信息化,大数据也会渐渐起到更大的作用。过去我卖的一瓶水,可能到某个超市就断掉了,我不知道这瓶水被谁买走了。但现在我在天猫卖的一瓶水,我知道对方这个用户是每个月买十箱水的,他的地址是某个高档餐厅,那我就知道这瓶水的目标受众是谁了。

这是元数据的价值所在。

所以说,大数据的第一阶段是:辅助产品设计者做判断、让产品制造者更好地满足用户。



这时候的大数据主要是来为产品提供支持,产品再应用于用户。



3. 大数据应用的第二阶段:创造价值。

在数据的数量和质量达到一定程度后,事情开始变化了。元数据将不仅作为产品的辅助,而是变成了最有价值的产生本身。

很简单的,全中国最熟悉老百姓消费习惯的是工商局吗?是哪个协会吗?是哪个科研机构吗?都不是,是淘宝。

拥有最全面的个人信用信息的,是人事局吗?是银行吗?是咨询公司吗?都不是,是支付宝。

道理也简单得很,所有行为(消费、交易)发生在了这个平台上,而这个平台又有所有数据的记录,那这些数据就能产生巨大的价值。

你以为做医疗健康这方面的产品仅仅是关注你的健康吗?并不是,他们同时还能够记录你所有的体征,这是第一线的临床数据。

此时,大数据本身已经成为了产品,可以输出有价值的内容。

消费行为数据,卖给广告商,广告商就可以定向给你投送广告;信用数据,卖给银行,银行就可以判断出你的信用程度;健康数据,卖给保险公司...你懂的。

近几年,互联网公司已经能够对全国各领域的市场,给出最有说服力的统计报告了,这些之前可都是政府做的:

淘宝网发布中国互联网消费趋势报告
携程旅行网发布《2014年旅游者调查报告》
滴滴携两大机构发布首份智能出行年度报告


不仅仅是将数据出售,数据提供的内容完全可以创造出新的产品。尤其像 O2O 这样的产品/服务,上游是服务提供者和资源,下游是用户,都能够有价值可以发掘。

以前做美甲的时候,我们设想的商业模式,有一项就是从上游,了解美甲师用品的情况,跟生产厂家合作,把控渠道;另外就是从下游,知道用户的情况,从而也能够跟其他美业产品合作(定向帮你把产品带到家里,河狸家其实已经在做),来让用户数据产生价值。

我之前听说饿了么在尝试一项新服务,就是为餐馆提供食材。乍一听有点怪,但后来想想的确是再合理不过。除了饿了么还有谁更能清楚某块区域的餐品售卖数据呢?这地方萝卜白菜卖得多、有多少量,饿了么清楚得很,跟农场谈合作,可以很好地把控上游渠道。


这阶段的大数据,已经可以成为产品,为用户直接服务。

从另一个角度看,不知道你发现没,通过我们行为数据这些元数据,我们已经在慢慢被量化的信息给描述出来了。看到这些数字(一年花了多少钱、在哪方面花的钱等等)已经对这个人可以有相对粗糙的认识了。

而大数据最终的形态开始初现。


4. 大数据应用的第三阶段:塑造我们。


我之前也总是对行为数据表示不屑。你知道我在淘宝买了点东西、跟谁微信聊了几句话、去百度随便查了点东西,就能知道我是什么人了?

还真的可以。只要数据保质保量。

我知道你一个月没买避孕套这两天突然买了三盒,那可能是你要跟异地恋的女朋友见面了;我发现你微信跟异地的某个妹子聊得特别多、经常还视频,那这大概就是你异地的女朋友;我了解你在百度一直搜东南亚的机票和旅行攻略,那我知道你可能要去那里玩。

就是这么简单的三条元数据,我就能推测出来,你很大概率上,最近要跟女朋友一起去东南亚旅行。

说实话,做这么基础的逻辑推断,比下围棋容易多了

这是说明元数据能够推理信息的逻辑性。而对于可获取的元数据,也越来越多了。

你打电话时,可以知道你给谁打(妇科医生?要生孩子了。律师?最近有官司。)
你买东西时,可以知道你的消费能力、家庭状况、喜好甚至性格(高端笔记本?爱玩游戏。蜡笔和简笔画册?家里有小孩。)
你出门消费时,可以知道你的生活习惯和个人情况(健身房?应该很健康。经常大保健?可能身体比较虚。)
你加别人微信时,可以知道你的社交圈子(认识李开复?应该不是一般人。通讯录里都是快递员?那可能也是快递员。)

作为这些产品的数据的拥有者,我完全不需要派个私家侦探来跟踪你。只需要等你自己乖乖把这些数据送上来。

春节的时候,支付宝为什么要和微信争抢小额支付和社交场景的支付?不是为了那点手续费,就是为了它缺失的社交支付这一块。这块数据的价值,远超想象。


未来我们每个人的衣食住行、生活起居,都将有大量的数据记录。我们的行为会变成一串串数字成为可量化的数据,成为描述我们的信息。我们工作用云笔记、吃饭用饿了么、打车用滴滴、搜东西用百度、社交用微信,每一步都事无巨细被记了下来。

不信你可以翻出你历史所有在百度或者 Google 的搜索记录来,对你生活的描述绝对比你自己的日记都要真实。

这些数据将被转换成有价值的商业数据,来描述你各方面的信息。你喜欢黑色的衣服、你喜欢胸大的妹子、你比较文艺、你有高度近视、你最近刚失恋...... 关于你,可能这些数据比你爹妈都要清楚。


最终,我们本身就是可以被量化的大数据对象,不存在多层的逻辑了。


这样的未来自然有利有弊。利是我们无处不在享受着大数据带来的便利,我们看到的每一条广告都会是我们自己喜欢的,我们查的每一条搜索记录都是根据我们特点来推荐的,我们在加好友时系统甚至都可以说他是不是会跟我们合得来。

弊在于,我们的隐私就暴露无疑。只要数据的拥有者想做点坏事,那真的是什么都有可能。


大数据绝不会止步在为决策仅仅提供帮助,它的终极形态就是可以用海量的数据描述我们一个个具体的个体。当达到这一步时,现在所谓的市场调研、用户分析就都是小儿科了。

因为,大数据已经完全能够塑造出我们了。

王喆 白米Ⅲ级

赞同来自:

正好刚做过相关的报告,就把报告内容跟大家分享讨论一下。
先说结论:大数据的终极核心价值在于“资源优化配置”。

我觉得排名第一的 @Han Hsiao 的答案非常棒,也非常全面,但无论是大数据在农业的应用也好,工业的应用也好,抑或是在金融行业的应用也好,最终都是通过大数据技术来获知事情发展的真相,最终利用这个“真相”来更加合理的配置资源。

具体来说,要实现大数据的核心价值,还需要前两个重要的步骤,第一步是通过“众包”的形式收集海量数据,第二步是通过大数据的技术途径进行“全量数据挖掘”,最后利用分析结果进行“资源优化配置”。


只说概念大家肯定没法直观的理解上面的观点,那就将几个咱们都接触过的例子讲一讲大数据是怎么通过这三步发挥核心价值的?

第一步、通过“众包”产生和收集数据


高德地图、百度地图都有实时路况的功能,但大家有没有想过实时路况的数据是怎么收集的?实际上经过了三个阶段,开始是跟交通口的一些公司合作,获取交通流量监测设备的数据,这个方法缺陷很明显,一个是受制于人,一个是想扩大监测范围就要部署大量设备,费时费力,而且还受法律制约。于是一些专门做路况的公司开始用出租车当浮动车收集数据。但这种办法还是无法覆盖大量的大小路段,随着移动互联网的普及,高德地图的APP能够实时上传大量机动车的速度和位置信息,经过去噪和综合分析,就形成了覆盖率极高的实时路况信息。这就是一个典型的“众包”过程。

严谨一点来说,众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法

大数据的“海量数据”就是由“众包”产生的。广义上,用户的行为数据,各种传感器的数据,也都是“众包”的形式,只要是由过去集中式的产生模式扩散到分布式的模式,都是众包的形式。

第二步、通过“全量数据挖掘”获知“真相”

阿里巴巴-数据可视化
http://www.tudou.com/programs/view/Rxg-S-_98K0/
讲第二个特点之前希望大家能看一下上面的视频,通过分析阿里巴巴全年的数据得到的阿里巴巴的世界贸易与全国贸易的趋势。视频中体现的不仅是阿里巴巴集团的运营情况,其实也部分反映了整个中国的经济运行情况。而且这些数据不是通过采样得来的,就是真真切切的“全量数据”。我们再也不用通过“管中窥豹”的形式来推测全局,而是直接通过“上帝视角”来窥视真相。这就是大数据的魅力,我们获得了前所未有的获取真相的能力,而且对于大型互联网公司来说,即使是PB级别的数据分析也是准实时的,我们下一个小时就能够得知上一个小时的全量数据分析结果,这样的能力是前所未有的。

第三步 大数据的核心价值——“资源优化配置”

前段时间,滴滴打车曾通过投票和订单分析的方式得出了北上广深四地的加班大楼排行榜,敝司不幸排名第三,但事实真的是即使加班很晚也很难打到车啊啊!所以滴滴打车更名为“滴滴出行”之后,也抛出了他们伟大的愿景,那就是利用大数据分析实时综合调度“快车”、“专车”、“出租车”、“顺风车”甚至是滴滴巴士的资源,实现全局的交通资源优化。事实也是如此,滴滴的司机们越来越多的需要完成“指派任务”,而不是集中去抢高净值客户。也许对于个别单体来说他们的利益降低了,但全局的资源配置却避免了全局的资源浪费和过度竞争,无疑大大提高了交通资源的使用效率。

所以我们说,基于大数据分析的结果,进行资源优化配置,才是大数据应用的落地点和真正价值。




而“资源优化配置”的价值,又远远超出我们能够想象的层面,在资本寒冬即将来临的大背景下,利用大数据实现资源的高效利用,显得更加重要。广告行业利用DMP、DSP进行广告的精准投放,房地产行业利用大数据分析价值洼地,宜信利用大数据建设征信系统降低坏账率,券商陆续推出大数据基金,全部都是广义的“资源优化配置”的体现。大数据也远远不再停留在学术和“分析现象”的阶段,而是在各行各业实现了落地并发挥着非常非常重要的价值。

我是在互联网广告行业从事程序化购买系统建设的,而这个行业也是大数据最先发挥价值的地方。举个最简单的例子来说明大数据在广告资源优化配置上的作用。
宝洁集团是我们的客户,而宝洁的产品有非常强的用户性别倾向性,护舒宝的广告就应该投给女性,投给男性就是赤裸裸的浪费。而吉列的目标用户就只是男性。之前保洁集团是怎么做广告的?就是海投品牌广告,不分性别的海投,那这个做法在投放之前就已经确切无疑的知道有一半广告费用时浪费的。但没有办法,因为我们没有大数据技术来发掘用户的性别。

而随着DMP(Data Management Platform)技术的不断成熟,越来越多的广告主建立起自己的用户数据中心,可以不断积累客户的各种用户行为,进而判断出用户的性别,再通过DSP(Demand Side Platform)系统定向投放,最终可以为宝洁节省一半的广告预算。

上面的例子正是广告资源的优化配置,事实上DMP系统对用户画像的构建精确程度远超人们的想象,精准投放的各类筛选条件也越来越精细。现在微信支持精确到设备的精准投放,也就是未来完全可能实现精确到每个人终端的精准投放,这都依赖于大数据对于用户行为的挖掘,最终实现整个广告行业的效果提升。

很多同学可能会说大数据的核心是数据挖掘,是分布式存储,是NLP,是深度学习,但这一切其实只是大数据的技术途径,大数据的终极核心价值就在于“资源优化配置”。


最后欢迎大家关注我的微信公众号「科学投资」:kexuetouzi
http://weixin.qq.com/r/iElXTyzEeHEHrWgs9xya (二维码自动识别)

白米Ⅲ级

赞同来自:

图灵Don 白米Ⅱ级

赞同来自:

这个问题我想了三个月。

想三个月没想通的问题不多,这是一个。

昨天想通了。

信息,或者说数据的作用是什么?根据香农的定义,信息是减少事物不确定性的量度。

数据的根本用途就是提供决策依据,减少不确定性。

对未来、对未知领域,每个人、每个组织都会面临不确定。然而,尽管有各种不确定,每个人、每个组织、在每天都会作出决策;很多决策是明显错误的。

现有人类的决策,大多数是靠感觉,靠跟风,靠个人经验,只有很少部分是客观数据分析。海量数据,提供了一种更为可靠的决策依据。

如果有一个神器,可以显著消除不确定性,显著提高决策正确率,它有多大价值?

想想,全球有几千万家公司、有70亿人,这几千万公司、这70亿人每天都会决策。每天都会决策。



丨《未来知识图谱》,理解和洞察未来;请私信暗号“挥一挥匕首,不留一个活口”订阅
丨探讨虚拟现实、互联网金融、移动互联网O2O问题,我的微博:Sina Visitor System

白米Ⅲ级

赞同来自:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...

白米Ⅲ级

赞同来自:

大数据的5个小观点

2016 欧阳辰 互联居

有些流行词像雾霾一样浸透了北京的空气,偶尔清静几天,不时又卷土从来。“大数据”就是其中的一个词。
大数据外表光鲜亮丽,内则无可奈何越来越多程序员也涌入大数据行业,但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(Variety),价值(Value),但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。最核心的问题还不在数量和种类,而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格 ?它能够变现么?如何来变现却是大数据的核心问题。
做大数据的同学,外面看起来像是红楼梦的大观园一样,外表光鲜亮丽,身在其中的人,才知道各有各的无奈。大数据的处理通常分为,数据收集,数据清洗,数据加工。数据应用,数据可视化。数据收集同学总是抱怨数据源Garbage in, Garbage out的感觉,数据清洗的同学总有沙里淘金的感觉,数据加工的同学也经常受两头气,相比来说,做数据可视化的同学比较幸运,可以找到很多炫酷的感觉,但有不是大数据的主流技术。最难受的是做大数据应用/变现的同学,不得不靠着忽悠行走江湖。
好了,列举一下我对大数据的小观点,如有雷同,纯属偶合。
小观点1:大数据的信息熵值低
1948年,香农提出信息熵的概念,可以用于表述信息的价值,信息熵高的言简意赅,信息熵低的冗余拖沓。目前,很多大数据的来源都是一些系统的Log,图片,视频等。特别是日志系统数据,数据越来越多,越来越大,其中大部分是固定模板的数据,区分度差,信息量并没有随着数据的增加而线性增加。另外举个例子,之前我们使用胶卷照片的,我们会选择重要的场景,珍惜每一个照片,设计好角度和光圈,现在有数据相机了,内存近乎无限大了,大家肆无忌惮的自拍,哪怕都是同一个角度,大家照的废片也是一把一把的。同一类型的数据多了,信息熵也就降低了。
小观点2:大数据不是银弹,是蚂蚁效应
大数据应用常见,多见于推荐系统,业务流程优化,医疗,性能优化,预测,金融交易等,这些业务在传统的做法上,已经十分依赖于数据了,虽然以前不叫大数据,但是也都是数据驱动的业务。数据的规模和种类增多,处理方法的增多,会渐渐提高这些应用的精准性,这种提高一定是渐渐的,一点一滴的。也许一天两天感觉不错来的,但是经过多年的持续改进,这种效果是显而易见的。

举个例来说,语音识别起始于60年代,基于小型词汇库,在90年代,IBM推出的ViaVoice是语音识别的一个里程碑,基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟,数据也是基于大量的词汇库,语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库,效果有改进,但是还无法达到实用的程度。2009年以后,借助于互联网语料库的进一步丰富,数据料的增长,远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升,用户也不断使用语音识别反馈更多的数据。以至于,谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ,和他的同事在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题,例如自动驾驶,人工智能等。
3.大数据不解释因果关系,只关心相关性
《大数据时代》中定义了大数据的第三个特征,“不是因果关系,而是相关关系”。沃尔玛通过数据挖掘,发现蛋挞和飓风产品有很多关联性,并且放在一起销售提高销售量。没有人清楚其中的因果关系,当然,也可能有人牵强的解释,美国人喜欢飓风时期躲在家里吃蛋挞,通过数据我们获得了相关性,但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击:很多时候我们在二维世界的相关性,是无法在二维世界进行解释因果的,也许只有在三维或者多维世界才能够解释因果关系,而这种因果关系无法直接理解,只能进行归纳成相关关系。
4. 大数据资源公司最佳变现之路是被收购,最直接变现渠道是广告和泛征信
很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司),因为他们对于变现的能力和可持续性都有很多顾虑,他们也面临高风险的用户隐私挑战,因此很多大数据资源公司的PR工作,远远多于具体落地的数据服务工作。因此,各个专业大数据公司都忙于各种行业洞察报告和排行榜,数据可视化的工作一个比一个炫丽,一个比一个追热点。谈到大数据公司的变现,很多公司会提到“数据服务”,实际上数据服务的市场相对稳定,并没有因为大数据公司的发展而市场膨胀,因此“数据服务”实际上是一个明显的“僧多粥少”的状态,另外老牌的数据公司,例如Nielson等在客户方便还是有一定的优势。
收购成为大数据公司变现最佳方式,2014年Oracle收购BlueKai获得很多众互联网用户数据,BlueKai的数据来源于和很多小网站进行数据交换和购买,尼尔森公司收购了DMP公司eXelate,eXelate的数据来源各个合作伙伴的数据,它提供了数据共享和交换的平台,创建DMP支持广告优化投放。 2014年,农业技术公司孟山都宣布以9.3亿美元巨资收购意外天气保险公司Climate Corporation. Climate Corporation是一家分析历史天气数据的公司,如降雨和土地质量等来帮助农民预测作物产量。在中国阿里巴巴收购友盟也是觊觎数据资源。
既然数据服务不容易攒钱,那么有没有靠谱的变现途径呢?从目前来说,广告和泛征信是两个最有效的变现渠道,效果广告的精确投放,品牌广告主需要强烈的数据背书,这些都需要数据服务,因此在广告行业专业的DMP公司,对于程序化交易是必不可少的。另外,就是征信系统,金融的本质是一个套信用系统,这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存,主要依据就是风险控制,大数据是重要技术支持,因此很多P2P会采购大量数据资源,加强自己的征信系统。
  1. 大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进,例如摄像头,手机,智能穿戴设别等。 其中,大量用户隐私数据被收集,例如用户地址,交易数据,搜索数据,用户的地理位置信息,用户的脉搏,联系人列表等等。这些都是用户的个人数据,各大数据公司都通过改善服务为借口,获得用户的授权,而进行隐私的汲取和偷窥。
也有一种声音,这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先,服务商提供更好的服务,并不代表可以收集用户的隐私数据;其次,很多公司不提供不收集用户隐私数据的服务的选项,这让很多用户无法选择禁止用户隐私数据收集,这是一种利用市场地位的垄断和霸王条款;而后,所有数据公司没有提供数据清理功能,删除用户所有的历史数据。这意味着,你的隐私数据一旦被收集,可以被无限次的无范围的滥用。
6结束语
好了今天先谈这么多,大数据很忽悠,小观点也不一定靠谱,兼听则明,偏信则暗。希望大家在大数据的雾霾里面找到自己的新鲜空气。

沈浩翔 白米Ⅲ级

赞同来自:

关于题主的问题,@Han Hsiao 的概括更清晰明了:大数据的核心价值理解为核心商业价值。
然后我们再来细说核心商业价值,本人水平不高,讲不到面面俱到,但也许能帮大家管中窥豹见其一斑。

(利益相关,本人现在在芝麻信用,大数据用在征信场景;本人前公司淘淘搜,可以吹一些大数据相关牛逼。本人对大数据应用相关的产品:推荐、DSP、效果广告,使用较多,对其原理还算有一些了解。)

首先,不管你炒作什么概念,最后的目标都是为了让企业盈利,也就是大数据能怎么帮企业赚钱?
众所周知,互联网的盈利模式就三种:增值服务、广告、电商(商业服务),再加上互联网最基础的价值,用户量(或者流量)。
大数据最大的价值目前来看,最多的落地在广告和用户型产品上。远未来那些高举高打的数据价值和无限可能性,我们放下不表,我们具体来说说这个数据价值怎么落地。

1. 先谈谈大家最兴奋的商业产品(大部分大公司会将公司业务线分成两大分支:用户型产品和商业型产品)
先讲讲BAT三家的大数据在广告端的应用。
首先BAT三家中,B和A自身都是不生产流量的,而是需要大量的采购流量,特别是B。B和A最知名的广告场景就在搜索结果页。
无论是B的关键词匹配竞价广告,还是A的直通车和钻展,为了提高其广告价值,都需要不断强化该场景的广告价值。像B和A这么巨大的流量,广告不再强调聚合广告位,而是强调,流量分发能力。所以广告价值的提升,在于流量分发能力的强化。双方都在不断的强化个性化搜索,基于用户行为的推荐和搜索的融合。百度基于cookie(移动端基于cookie或imei等形成用户唯一标识),阿里基于更精细化的用户模型。当然,目前这些用户行为数据累积的很丰富,但是具体怎么用,怎么更好的挖掘,对于大家来说,都还处于摸索阶段。
第二,提升价值。首先,百度的搜索流量虽然巨大,但是其有效有商业价值的query其实并不多;相对来说阿里的内部搜索商业价值更丰富。但无论是百度还是阿里,其搜索都被大量无效结果干扰,因为他们有海量的数据——大量无价值的网站、信息,大量低质量的店铺和商品。提升搜索结果商业价值的本质就两条,一是增加优质内容的曝光量——将流量更多的分配给优质的网站或优质的;二是增加点击率——给用户符合他个人特征的优质结果。在这方面,大的用户数据有价值,但目前阶段,很讽刺,就年龄、性别、地域就解决大部分问题了,这是最有价值的数据;大的商品数据或网站数据并不一定有价值,很讽刺,像淘宝这样商品量级的网站,做个性化第一步,就是做小库优质库,第一步一定要做收敛。这点上,淘淘搜遇到的问题和他们一样,因为淘淘搜有4亿商品库,是除了阿里之外,全网最大的商品库;所以我们也采用了同样的处理手法。
第三,谈完了B和A的搜索广告,再聊聊更多其他的广告。百度还有相当大一块的收入是联盟广告收入,这个和大部分DSP类似,总之就是收集更多的流量,对这些流量的用户建模,有丰富的用户行为数据,然后对这部分用户在各种位置,推送他们感兴趣的内容,但不一定是在他们想要的时候。DSP应该算是非常成熟的模式了。(正因为模式成熟,所以DSP在国内不会有高估值,市场天花板明显 )
第四,我们该聊聊腾讯了,腾讯现在把搜搜原有的商业产品团队也全部归并到广点通团队了。腾讯的广告业务由广点通大一统了。以广点通和粉丝通(新浪微博)为代表的效果广告,和DSP类似,不同的是,广点通粉丝通的流量都来自于自身,流量质量相当高。腾讯和微博都属于能生产流量的公司。他们的广告收入,几乎是净利润,不像百度阿里还有流量采购成本。而广点通、粉丝通,最受广大广告主青睐的部分,又称为信息流广告~(恩,国外,非死不可和推特早就有了,国外牛逼,但我们还是专注于我们身边可用的东西吧)。可以说,搜索场景,远远超越了门户各种橱窗场景的广告价值;而信息流场景,则在逐步超越并甩开搜索场景。以至于广点通年会时和广大移动开发者说:应用市场已死,信息流广告永生之类的话。从当初简单网、蘑菇街在广点通内测初期,大把获得优质流量,到现在一年半过去,粉丝通也风生水起。效果广告平台的发展速度堪比火箭升空。广告主可以像在DSP平台一样定向投放精准广告,依赖的就是腾讯和微博的用户行为数据。目前,这是国内效果广告的朝阳期,朝阳期的意思就是,腾讯和微博对用户行为挖掘还不充分,还没有进一步放大效果广告的价值,恩,原因就是,目前还是很讽刺,年龄、性别、地域、OS、投放时间,解决了绝大多数问题。这对腾讯、微博等公司(今日头条将是下一个效果广告大平台)来说,未来空前美好,广告收入大大滴可以挖掘。而对于广告主来说,未来这些平台中优质流量就不再那么集中了,分配到自身的优质流量将慢慢稀释,广告费将逐步水涨船高。
第五,基于大数据的效果广告真那么牛逼,贴吧和豆瓣小组是否一样会是未来辉煌的效果广告平台。好吧,本人怀着这样的梦想,去发掘贴吧和豆瓣小组的流量红利。忧伤的是,贴吧有个短板,匿名用户比例太高,用户行为数据不精准。更忧伤的是,贴吧和小组,这种话题式的讨论,让内容主题更聚焦,从而本身和用户个人属性关系不大,在帖子内和吧内帖子列表或小组内帖子列表场景下,精准的信息流广告都显得格格不入,无法像QQ空间、微信、微博的信息流广告那样击中用户的兴奋点。

2. 再谈谈大家最熟悉的用户型产品
首先,目前应用场景最大的在推荐,不论是相关推荐还是基于用户行为的推荐或者其他杂交算法。但就像上文中所说的,垃圾数据太多没意义,推荐所需要的大数据,不需要大到无所不包。工程上最有效的相关性算法和协同过滤足够有用。就像和某大牛交流时,他说的,在业内,大家都是凡俗算法解决90%工程和生产场景的问题;然后前沿新潮算法,用于在圈子内装逼,刷逼格。
在电商平台上的各种推荐产品,只要能促进成交额,那也算是大数据在用户型产品和商业型产品上的双重价值。
其次,实质上最重要的场景,还是在搜索,或者说的不那么狭隘一些——普适计算(Ubiquitous computing)。引用一下《随意搜寻》里的装逼句,我们正在从原子大陆,步入比特海。我们所处的环境变成无处不在的数据,我们可以在任何时间任何地点,找到任何人任何东西,任何事情。
装逼的事情,放下不表。讲一下市面上除了百度的文字搜索之外的一些大数据实践吧。
首先就是语音识别。音频指纹什么的,各家都已经走得比较前列了。反正音频翻译成文字,再走传统的语义识别套路,实现一些人工智能的场景应用
其次是图像搜索,代表产品:百度识图、google图片搜索、淘淘搜、淘宝拍照购等。原理很简单,第一有海量的标的(比如一般图片或者商品图)数据;计算特征库、同款库,等等等等,反正就是做标识了。然后输入图片,去库中匹配同样的数据,或者匹配相关性数据。目前,淘淘搜更多的把这个能力应用于非标类商品的同款比价。所以可以看到,目前市面上,服饰鞋包的同款比价上,淘淘搜是比较领先的。
最后讲讲百度筷搜,基本是各种传感器收集数据,然后和云端的库中数据做匹配。其中PH检测什么的都简单,真正对大数据有要求的是成分分析,这一块目前还没有谁能做好。百度筷搜的筷座上装了近红外发射接收的传感器,这块是用于探测分子原子钟的一些CHO键,甚至其他键,然后以这个比例,去和数据库中各种食物实际上这些不同键的数量的食物,进行拟合。但那个丰富的食物内各种成分含量相关的数据库,即便是百度,目前要能拥有,也是天方夜谭。

结论
大数据很美,但不一定适合你的规模的企业。技术是手段,怎么持续挖掘其中的商业价值,请你继续大开脑洞。
目前淘淘搜在这块的使用和操作上很务实:比价、推荐、广告。

------补充-------

加入芝麻信用后,发现大数据用在互联网征信上,更美

白米Ⅲ级

赞同来自:

大数据的价值在方方面面,我认为目前最核心,也是有最广泛应用场景的,是让人类的生活变得更自动化,从方方面面提高我们生活工作的效率。以下的三个场景可以很好地说明:

很多互联网公司在做的推荐系统,本质上是替代用户搜索商品的行为,让你更快的找到符合自己兴趣的东西。以前你上网买书,可能先要花10分钟的时间看一下最近的新书榜和畅销榜,再花5分钟的时间搜索一下感兴趣的分类下有什么新的书目,这个过程是10+5=15分钟,如果有10万个用户,就是150万分钟。有了推荐系统,进去网站后展现在你的面前的,是你感兴趣分类下最新的并且是好评最高的书目,不用你去寻找,你感兴趣的东西自己找到你了。你买完一本书,这时页面下提示,购买了本书的读者还喜欢**书,这时你点进去看了下,觉得很感兴趣于是又付费购买,这时,网站本身的变现效率也提高了。这是大数据应用下一个典型的场景。

另外一个大数据应用下的典型场景,是滴滴打车和Uber。在没有打车软件的时候,打车的人和司机是这样的,乘客在A地点等附近的出租车路过,等了10分钟还是等不到车,司机在A地点附近的B地点等乘客,等了10分钟还是没有乘客上车,这时双方的时间损耗是10+10=20分钟。有了滴滴,场景变成了这样,乘客在A地点用滴滴,滴滴自动匹配了A地点附近的B地点空闲的司机,司机接到传唤立刻赶往A地点,整个匹配和沟通时间大约1分钟。那么这多出来的20-1=19分钟就是大数据的价值,打车软件通过对需求数据的高效匹配,提高了用户的乘车效率,降低了司机汽车的空置率。

场景三,这个场景发生在未来。A刚走入一家服装零售店,一个会说话的服装模特机器人立刻亲切地招呼A的名字,并告诉她,她一周前买的衬衣的配套裤子刚刚降价了,然后在自己身体的显示屏上显示这条裤子的图像。这个场景涉及到的是脸部识别数据,目前总部位于东京的NEC公司开发的NeoFace软件已经能立即识别人脸了。而Facebook公司已经一早嗅到这一块的商机,已经在偷偷建立世界上最大的私有消费者生物数据库,将其应用在“标签建议”功能上。据一家调研公司预测,到2020年,脸部识别设备的全球市场规模将达到62亿美元。

既然提到了未来,那大数据在未来的核心价值又是什么?让我们来开个脑洞,大数据在未来的价值,应该是让机器替代人类,至少是替代人类的某些职业(其实现在已经在发生了)。同样的,让我用三个场景说明:

四大会计师事务所的雇员中,相当大一部分是审计师,这些审计师每天的工作是给各种企业对账,看企业的现金进出是否合规,是否有财务漏洞。而未来是这样的,不需要审计师,只要把企业的财务资料对接到电脑的审计系统,只要几分钟,电脑就能出
审计报告。

第二个可以被替代的职业是司机,未来人们开车是这样的,对着汽车说一声“去最近的超市”,汽车通过网络下载最新的路面数据,快速匹配到路面距离和堵车情况最优的地点,自动驾驶过去,在路上通过匹配其他车辆的位置和速度,自动控制速度和规避事故。

前段时间有个很火的职业,叫鉴黄师(真实存在的职业),工作是每天看几十部网络视频,识别出其中含有成人画面的。未来,只要让电脑浏览几万部成人影片,这样只要某几部视频的几祯画面含有成人镜头电脑就能快速地识别出来,从而节省几个公务员编制(现在的技术已经可以做到了)。

白米Ⅲ级

赞同来自:

某比萨店的电话铃响了,客服人员拿起电话。
客服:XXX比萨店。您好,请问有什么需要我为您服务 ?
顾客:你好,我想要一份……
客服:先生,烦请先把您的会员卡号告诉我。
顾客:16846146***。
客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?
顾客:你为什么知道我所有的电话号码?
客服:陈先生,因为我们联机到CRM系统。
顾客:我想要一个海鲜比萨……
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,你的血压和胆固醇都偏高。
顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种的?
客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。
顾客:那可以刷卡吗?
客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款。
客服:陈先生,根据您的记录,您已经超过今日提款限额。
顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。
顾客当即晕倒。。。

白米Ⅲ级

赞同来自:

大数据科学创造了一个平行宇宙(data universe ).那个宇宙不断扩张,并与我们的物质宇宙高度相关。通过研究和观察数据宇宙,我们将获得许多这个宇宙的丰富的知识,并能利用这些观察结果来对物质宇宙的很多事件进行预测。

数据科学实现了一个重要的科技推进,就是它推进到了「科学的边缘」。科学对实证研究、论证、实验都有很高的要求,科学已经呈现出它的局限性,科学的局限就是「人类不可能对一切事物都做出科学的论断」。就是你不可能用科学研究一切 。
这时候,数据科学提供了一个突破性的解决方法,观察数据宇宙并预测。也就是说,我只要知道数据预测它将是怎样的,就够了。海量的数据 证明它99%的可能会怎样发展,我知道这个,就够了。至于科学有没有论证它,不重要了。
比如股市的涨跌,用科学实证研究、建模分析,都是不可能研究出什么来的。中国的股市,超级不理性,更不可能用模型去研究了。这时候,就是科学的局限到了。我们就能用数据科学来解决。如果我把极大极丰富的数据充分的利用起来,我就可以预测股市涨跌,人们的情绪。它基于极为海量的数据,不仅仅是金融数据还包括社交媒体数据 ,包括天气数据,包括新闻数据,一切数据都与此相关。然后得出一个结果 。这个结果究竟科学能不能解释,不重要。只知道99%的可能性下面,结果是上涨,就够了。

当然以上说的,目前尚未实现。

白米Ⅲ级

赞同来自:

大数据的本质就是消除不确定性。

白米Ⅲ级

赞同来自:

大数据的核心价值在于规律的总结,通过大数据得出规律,从而预测未来。

目前很多大数据的项目做的是通过大数据分析用户的行为习惯和喜好,这是大数据的价值,但是这只是一部分。

大数据其他方面比如:AlphaGo是通过下棋的数据来给出它对每一个棋子将来怎么下的一个判断方法。还有无人驾驶技术,这也是通过大数据,训练出一个会开车的技术产品。淘宝有定位基准的广告,这种广告是根据用户的历史行为数据推送。

再向上思考一个层面,通过大数据的分析可以得到一定的规律。

比如:地球的轨道是需要通过大量的观测来得出一个结论,所有规律性的事物都是可以从数据中找到它的规律。有时候,有很多规律是没法用特别简化的公式来表达,那可能就出现比如人工智能、神经网络这样的算法。这种规律是通过模型训练得到,虽然没法用特别简洁的公式来表达内在规律,但它的核心其实也是一个公式,也是一个规律。包括数据投递、广告投放,对于用户过去的行为数据做一些分析,会认为同样的行为大概率会发生同样的事情,这也是一些规律,而数据的核心在于它能得到一些背后的规律。

有规律就可以对未来的很多事情有判断作用,就可以对未来预测。

很多事情都是可以预测的,经济、宏观经济、人的部分行为、汽车该怎么行驶、棋该怎么下、某种疾病该怎么去诊断,这都是大数据可以预测的,它可以用到各行各业。有过往的数据就可以预测未来行为。

白米Ⅲ级

赞同来自:

大数据(其实就是数据,深深觉得大数据被大家玩烂了)让大家做决策有事实依据,摆脱以前靠拍脑袋和拍屁股来做决策的窘境。因为前者是群众随机决策,而后者是让老板随机决策。

——————————————————————————————————

更多文章关注我的专栏数据冰山 - 知乎专栏,更多精彩回答请看何明科的主页

白米Ⅲ级

赞同来自:

前面的写的太复杂了,核心就两条:提高决策质量,降低决策成本。

拿teenage sex来调侃的人,是自己不懂这个行业,也认为别人不懂。

白米Ⅲ级

赞同来自:

来源:readwrite

“大数据” 的概念其实并不新鲜。
大数据时代已经到来,但不是每个人都在接受它的洗礼。更准确的说,现如今我们所谓的 “大数据”,其实就是硅谷的互联网大佬们若干年前所做的事,之所以现如今被人们所重新认识,觉得它是新鲜有趣的,那是因为现在推动大数据的技术,已经完全开源,并且普及到了大部分的企业和公司。
在与传统企业的对话中,我们可以越发清楚的察觉到,大数据除了能够让开发应用项目在非硅谷的地方迅速成熟起来之外,无甚新奇之处。当我们看到公司都在郑重其事的谈论大数据项目,那么就意味着大数据的概念确实开始深入人心。

“大数据” 的概念,所涉及的范畴比我们想象的更为宽广。
Gartner 报道称:42%的 IT 企业领导已经深入到大数据项目的开发中。换句话说,它还有长足发展的空间。但我怀疑这个数字被低估了,这涉及到了如何定义"大数据"这样一个概念。比如,当我问一个 IT 企业的专家是否会开发一个大数据项目时,一般得到的回答都是"NO"。但当我进一步阐明我的意思,你所要从事的项目并不是那种涉及兆兆字节甚至更大规模的数据量,相反,是一种可以从分散的端口来拉取数据的软件,进而能够进行实时分析的项目产品。当换成这样一个问法的时候,往往她的答案就是 “YES"! 这样的项目当然也是在"大数据"的范畴内。但是"大数据"这样的字眼,让人们往往更加关注的是” 大 “,而非数据,所以人们就走进了误区。

这个结论在 NewVantage 的调查中,变得更加清楚明朗,其中只有 15%的受访者是在处理超大规模的数据。而从剩下的 85%的受访者那里,我们可以看到企业最关心的目标,是要有能力不断的管理日益多样化,并且不断膨胀的数据资源,而非简单的处理超大规模数据。所以,当我们看到连 Hadoop 公司,这家以存储及加工超大规模数据闻名的公司,更加频繁的介入到 ETL 过程中,也就不足为奇了。(ETL:即构建数据仓库的重要一环,数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去)

在大数据的概念里,规模真的并不重要。

Google 公司和 Facebook 公司早已经发明出 MapReduce 以及 NoSql 这样的数据库,来应付应用软件(这类软件主要由数据来驱动)对实时数据分析处理的需要。现在这样的技术已经开源,随处都可以得到并使用,以至于现在的互联网大佬们已经将目光投向 “更大规模数据” 的技术开发和利用,而其他人,将在若干年后享受这些技术带来的便利。也许,布莱恩·普罗斯特对 Hadoop 网站价值的揭示更加能够说明问题。他说:“Hadoo 也仅仅是让本该变得昂贵的数据存储变得便宜而已。” 而 GigaOm 的德里克·哈里斯(Derrick Harris) 也对 NoSql 这么评论道:“它并没有在管理复杂交易上,把其他数据库的角色取而代之。相反,NoSql 催生出来一系列的应用软件,能够在处理半结构化数据方面反映更加迅速。” 所以在我看来,定义大数据最好的的方式,应该站在你处理数据的角度,而跟所要处理的数据规模没有任何关系。
最近我遇到了一位 IT 企业老板,他说现在已经把他的工作团队从” 瀑布式” 的开发方式转换为更为灵巧机敏的开发方式。该团队面向市场上实时的客户反馈,从 3000 个服务器中读取信息,每天要生成 500G 的信息量,同时从开发到配置仅仅需要 24 分钟的时间。该公司毫无疑问,是在向由数据驱动的模式转型。这意味着他们要有能力一扫旧有僵化的数据基础系统,同时在转变过程中会遭遇很多阻力和挫折,但最终我相信能够达到他们的目标。

白米Ⅲ级

赞同来自:

“If you can’t measure it, you can’t manage it”
---彼得·德鲁克
“你如果无法度量它,就无法管理它”要想有效管理,就难以绕开度量的问题。
想必这就是小数据乃至大数据最终的核心的价值。

所以很喜欢这句话:不能度量,就无法改进。

白米Ⅲ级

赞同来自:

Han Hsiao收集整理的内容挺全的。:)
不过,做过数据分析后,你会发现,这些媒体炒作内容,基本是没有实际意义的。对于Volume、Variety、Value、Velocity的定义,你随便写个死循环,不断产生随机数,几天就可以满足Volume、Variety、Velocity的要求,而Value对任何事情都是可以做评判标准的,不光是大数据。
同时,也不要轻信《大数据时代》这本书,因为作者似乎没有什么机器学习的背景,本质上说书中的内容并不科学。
要说大数据的价值,主要是IT业界的商业需要(大家要卖服务器,卖存储,卖服务)。
另一方面,大数据这个概念的核心价值,是让全民重视数据分析的价值。
也就是说,“大数据”价值就在于宣传。“大数据”是个过程,而不是结果。
Gartner技术成熟度曲线,预测大数据的炒作,在2013年是最高峰,后面就会逐步下降,这是很准确的判断。

张亮 白米Ⅲ级

赞同来自:

大数据就是分析海量数据,获得有价值性东西的新方式。
之所以近几年大数据火热,是因为过去tm的处理不了这么多数据,技术受限,现在技术慢慢的能处理,发现一下子处理这么多数据,哎,好像发现了好多其他的以前发现不了的东西。其实还是排名第一的答案里提到的大数定律。
所以我觉得大数据的核心是不断发展的的技术。

张昊 白米Ⅲ级

赞同来自:

核心价值。。。好奇怪的说法,应该一千个人眼里有一千个哈姆雷特吧

我个人认为,核心价值在于,相比于原本的统计分析,我们需要假定一个模型,然后用数据去验证这个模型,比如,房价涨是因为有人在炒,然后搜集炒房人的炒房数和房价画出时序图,如果是符合递增状态,可以认为假设成立

但是,如果想知道这个是不是伪命题怎么办呢?就得头脑风暴出一堆和房价上涨有关的数据,整理好以后,用回归分析的方法提取一下公式,看是不是炒房人的系数是正且大的,这是一个很费力的方法而且可能答案只覆盖了一部分原因

当用数据挖掘的方法,问题就会得到简化(数据挖掘而不是大数据,因为老师没有教过大数据,只教过数据挖掘,大数据只是话题),将历史房价变化数据,所有和房价相关无关的数据都丢入模型中,简简单单的算个决策树的熵,答案也许就呼之欲出了...

(例子可能不准确,因为数据格式都是假想的)

要回复问题请先登录注册

var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();