个人如何应用大数据，“大数据”有哪些具体的成功应用

这是一个很多人都比较关心的问题个人如何应用大数据，作为一名计算机领域的科研、教育工作者，我来回答一下。

首先，当前大数据技术正处在落地应用的初期，目前除了互联网领域之外，传统行业领域还没有开始大面积应用大数据技术，但是在工业互联网的推动下，目前大量的企业已经开始了上云计划，企业上云之后，大数据技术将逐渐开始落地应用，大数据与普通人的关联也会越来越多。

从当前大数据的落地应用情况来看，目前与互联网相关的业务或多或少都在应用大数据技术，比如电子商务领域应用大数据技术就比较普遍，推荐系统就是一个非常普遍的应用，基于推荐系统也会给用户带来更好的购物体验。从大的发展趋势来看，未来大数据的应用空间是非常大的，而且大数据的价值空间同样非常大。

除了电子商务领域之外，大数据在出行、医药健康、教育、金融等领域的应用也在不断增加，而这些领域当前与互联网的结合也走在了诸多传统行业的前面，相信在工业互联网时代，更多的行业领域都会逐渐网络化、智能化，这个过程也会推动大数据的落地应用。

相对于大数据技术来说，云计算的落地应用目前要多一些，而且企业要想借助于工业互联网来实现创新发展，往往都需要借助于云计算的支撑，所以也把云计算称为打开工业互联网大门的钥匙。目前云计算已经成为了大量互联网计算服务的支撑，尤其是与用户相关的互联网应用，所以普通用户只要在使用网络服务，包括各种App，几乎都离不开云计算。

我从事互联网行业多年，目前也在带计算机专业的研究生，主要的研究方向集中在大数据和人工智能领域，我会陆续写一些关于互联网技术方面的文章，感兴趣的朋友可以关注我，相信一定会有所收获。

如果有互联网、大数据、人工智能等方面的问题，或者是考研方面的问题，都可以私信我！

谈到大数据，一定会提到三个小案例：第一个例子是某个未婚少女怀孕了，甚至她老爸也不知道这件事儿，但是商家却打电话过来问需不需要买孕妇用品。第二个是经典的“啤酒和尿布”的例子，这个例子比较早，讲的是基于关联规则分析来预测超市里面顾客购买行为规律。第三个是近年来才吵吵的比较火热的例子，是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模。第一个例子背后是基于精准营销，是大数据针对个人级别的应用，第二个例子能够有效预测零售商需求，属于企业级别应用，而第三个例子则是地区级别和国家级别的应用。由此可看出，当大数据真正走进生活、走进社会，其施展能量的力度越来越大，越来越强。最后，大数据这个概念就被吹的神乎其神了。

当我们听到这些大数据的应用案例时，会很自然地去质疑这些案例的可靠性。心中不免默念，这玩意儿的确有如此靠谱么？而其中最让人感觉不靠谱的，无疑是第三个，Google预测流感这件事儿。2009年2月19日，Nature上面有一篇文章，“Detecting influenza epidemics using search engine query data”（感兴趣的朋友可以关注以下），论述了Google基于用户的搜索日志（其中包括，搜索关键词、用户搜索频率以及用户IP地址等信息）的汇总信息，成功“预测”了流感病人的就诊人数。

那么，Google为什么要干这件事儿呢？美国有个很牛的部门叫CDC，也就是疾控中心，这个部门统计美国本土各个地区的疾病就诊人数然后汇总，最后公布出来。但是呢，这个公布的数据的结果一般要延迟两周左右，也就是说当天的流感的全国就诊人数，要在两周之后才知道，Google呢就利用他的搜索引擎搭建了一个预测平台，把这个数据提前公布出来。所以说，Google做的工作并不是实际意义上的预测什么时候流感来，而是将CDC已经获得但是没及时公布的数据提前给猜出来，然后公布出来。当然，CDC为什么不及时公布数据，人家官方总是有自己的一堆理由的，我等草民不得而知，但是有一点是重要的，就是“越及时的数据，价值越高”，数据是有价值属性的。所以，Google的工作无论在公共管理领域还是商业领域都具有重大的意义。

Google的研究结果公布出来以后，大众对于这个研究案例的好评和差评都有不少，总之，引起了社会的热议，这个例子从而也成了经典的案例。那么社会为什么会对这个例子予以如此重要的关注呢？其原因就在于，如果在这个案例上成功了，Google就真正证明了大数据是“万能的”这件事，从而彻底颠覆社会对于大数据的看法。

首先，Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系，稍微有点儿高中数学基础的朋友很快就可以理解应用，但是却成功地预测了复杂的流感规模的问题。Google用了简单的方法，预测复杂的问题。这件事为什么能成？根本就在于，Google的数据量大。这就是Google对于大数据的价值观。而大就是一切！Google有着世界上最大的搜索引擎，全世界每个用户的搜索行为都给存在Google的数据库里，Google想，我有这么多数据，不是想知道啥就知道啥。于是Google就做了这个伟大的事儿！

回过头来看三个经典的案例，从系统的角度上来看，一个人是一个小系统，一家超市是一个中等规模的系统，而一个国家一个地区则是一个超大的社会系统。如果要对一件事进行预测和分析，数据分析师要做两件事，一、构造理论模型；二、获取实证数据来拟合构造模型。对于小型简单系统，构造理论模型是可行的，而对于大规模的复杂系统，模型的构造则十分艰难（这也正是社会学家们每天忙碌研究的课题，也正是为什么社会革命家和思想家是如此的伟大，像马克思等等…）。大数据的观点之一认为，海量的数据可以弥补模型的不足，如果数据足够大，理论模型甚至根本就不需要。这种观点目前仍然处于争论中，搞理论的和搞实证（强调数据和统计方法）的专家们对此的口舌之战从没有停歇过。但无论如何，Google对于流感预测的研究无疑站在了支持大数据的一方，如果Google的案例是成功的，那么或许，拥有海量数据就真的意味着可以解决任意复杂的问题，大数据解决大问题！

上面的论述讲了半天Google案例的重要性，所以接下来，业界就把所有的目光凝聚在了Google预测的结果上。截止到Nature上面那篇Paper发表出来的时候，Google的预测还是准确的，不过到后来就发生了很大的偏差，偏差最大甚至高出了标准值（CDC公布的结果）将近一倍。

开始理论学家们是沮丧的，看到Google仗着自己庞大的数据库，在医疗监控这种复杂问题的预测分析过程中为所欲为，觉得自己马上就要下岗。然而时间到了2012年中旬的时候，他们就乐了，发现Google也不过如此，自己还是有价值的，实际上情况也确实如此。Google预测的失败也确实是过度地依赖于数据，导致很多被忽略了的因素对预测的结果产生了很大的影响。对客观世界进行预测需要模型，模型首先来自于理论构造，其次需要数据对模型进行训练对模型进行优化完善。大数据观点强调模型对数据训练的依赖，而尽可能地忽略理论构造这一部分的意义，这就有可能带来隐患。

从更加批判的角度来看，理论模型当中的确有一部分因素可以用数据量的规模来弥补，而仍然有一部分是不可弥补的。可弥补的部分因素，往往在数据量比较大的时候，被均匀的数据分布内部平滑抵消掉了，从整体上不会对最终的结果产生显著影响；而不可弥补的部分，往往和系统背后的结构性因素有关，这些因素不仅不会随着数据规模的增加而被消除，反而会由于系统的规模效应逐级放大最终产生背道而驰的结论。那么当数据分析专家需要对复杂的社会系统进行分析时，就一定要严谨地考虑对数据的依赖程度。因此，Google的案例既是一个很好的大数据的应用，同时其也为大数据在未来的发展道路上起到了很好的指示灯的作用。最后还是那句调侃的话：”Big Data is like teenage sex. Everyone talks about it, nobodyreally knows how to do it, everyone thinks everyone else is doing it, soeveryone else claims they are doing it too”。

你又是对大数据怎么理解的呢？

最新文章

本站推荐