摘要:首先我们看看大数据的概念。2008 年《Nature》先提出Big Data 的概念,后来主要由IBM 和麦肯锡把大数据概念做起来。
今天很高兴有机会,和高和的各位嘉宾分享我对大数据的理解。今天给大家主要讲一下关于大数据的基本战略,主要是一些大数据基本的概念,特别是包括理念的一些东西,以及大数据带来的商业模式的创新,还有我们团队的一些大数据通用的技术和核心挖掘技术。
首先我们看看大数据的概念。2008 年《Nature》先提出Big Data 的概念,后来主要由IBM 和麦肯锡把大数据概念做起来。
大数据通俗的讲是四个V:数据的总量很大;数据具有多样性;数据是高速产生的又需要高速处理的;数据本身有潜在的价值,但价值比较分散。
大数据和云计算结合起来,有可能会带来我们在信息产业中的第三次高峰,第一次是信息高速公路,第二次是互联网的话,第三次其实就是我们讲的数据加计算。站在国家战略层面上讲,我们希望大数据和云计算加在一起能够成为第三次工业革命,因为它会带来新的能源、材料,以及新的加工工艺。
今天主要给大家讲一些商业方面的东西。总体来说,我们认为大数据是一个基于多元异构、跨领域关联的这种数据运用,通过深入和分析产生的运用,它会带来我们生活各个方面的变化,这是一个理念的变化,也是未来所有的新型企业甚至包括新型政府和国家的一个核心战略。如果大数据是一个时代就像互联网化一样,它是能够影响和摧毁一切的时代。我相信每一个企业都需要做好这方面准备。
【商业模式的变革】
下面回到商业模式的变革,因为我们自己做了十几家企业,所以体会到大数据持有中整个商业模式会有什么变化。
大数据商业模式的变化不是一蹴而就的,本质上是原来的商务智能的一个延展。商务智能的报表数据实际上是一个结构化数据,一般的商务智能是从结构化数据,输入是结构化数据,输出也是结构化数据,中间也非常简单,比如线类回归,决策树等等。大数据1.0 的创新实际上是商务智能的延展,它的逻辑是一致的,都是自身的业务上产生大量的数据。利用更深入的分析方法,分析这个数据并不断优化,优化之后的业务产生更多数据,这是一个正向的循环,它跟商务智能最大的不一样是在于其分析技术得到很深的发展。
举一些例子,比如国外提出一个概念叫“量化自我”,我们也做了一个国内的社区,它的思路是用一些非单一的手段,比如腕环,腕表,戒指,项链,眼镜等等地,利用这些东西采集我们身体的信号,包括血压、心跳、基本的代谢指数等等,这些数据能够给我们做一些健康管理,看看我们每天运动情况,代谢怎么样,建议我们吃一些什么东西,对一些特定的病如心脏早搏、癫痫等能够进行早期的预警。
这对一些特定的人群,比如老年人、慢性病患者、婴儿还可以做更深入的。
比如我们和一个硬件厂商做一个产品,我们通过12个压力传感器和2个事物传感器给婴儿做了一个床垫,我们知道小孩是有很多问题的,比如有很少量的小孩会打鼾,这些小孩在两岁到三岁的时候明显比同龄小孩的智力偏低,这是因为小孩大脑对氧气需求量非常大,而打鼾会降低他的供氧量。小孩打鼾没有很大的声音,我们不能体会到,但在床垫(压力传感器)上出现很明显的出现这种震荡,通过不停的数据来进行时时预警。
刚才这一块可能会用到一些比较难的机器学习的技术,但它总体在逻辑上并没有创新。大数据在商业模式和逻辑上的创新是从2.0开始的。而2.0的一个关健词就是“外化”,就是怎么样把自身业务的数据用来解决业务以外的其它问题,或者怎么样用业务以外的数据解决自身业务的问题。
比如说谷歌用五千个搜索关健词搜索的数据来预测电价和传染病的流行,它低价买入电、高价卖出电赚了很多钱。这典型是把自己业务的数据(搜索的数据)用来解决其它的很多问题。
同样,搜索互联网评论,还有电网的数据,以及自来水的数据这些数据加在一起实际上是可以预测房价、地价。如果再加上GPS、交通线费、手机的数据,可以预测未来整个城市的布局规划,可以预测整个城市规模上未来人口的分布。