个人如何应用大数据,传言大数据下无隐私,个人隐私权如何保障

多谢邀请个人如何应用大数据,在大数据和人工智能伴随5G的应用,数据获取芯片发展时代的到来,一个全新的时代开始了,早在五年前,清华大学教授就预言,未来将是透明时代。个人信息在大数据时代一切将暴露无疑,物联网,通过智能家居,5G手机,上班打卡,智能办公设备,智能城市天眼,智能公交地铁,各种场景的智能摄象头,刷卡消费,等等,一个人一天一年一生的,起居,饮食,衣着,行程,工作,喜好,销费观念,挣多少,花多少,存欠多少,去什么地方,有什么习惯,都能准确掌握,隐私就成了公开的密秘,对于智能获取端从科研,物联网,供给侧,国家决策,监管,评估等多方来看,不支持屏蔽与保护,或者应屏蔽的坚决屏蔽,当保护的一定保护,但是在需求,使用,共享,传抪,泄露端必需严格管控,严历打击,制定严格的法律,研发过滤软件,设定自动销毁个人信息系统 ,把泄露个人信息与个人,企业的社会征信并轨监察,对失信泄露者给予,限制出行,冻结资产,限制购物,等惩制办法。

个人如何应用大数据,传言大数据下无隐私,个人隐私权如何保障

大数据即海量的数据,一般至少要达到TB级别才能算得上大数据,相比于传统的企业内数据,大数据的内容和结构要更加多样化,数值、文本、视频、语音、图像、文档、XML、HTML等都可以作为大数据的内容。

提到大数据,最常见的应用就是大数据分析,大数据分析的数据来源不仅是局限于企业内部的信息化系统,还包括各种外部系统、机器设备、传感器、数据库的数据,如:政府、银行、国计民生、行业产业、社交网站等数据,通过大数据分析技术及工具将海量数据进行统计汇总后,以图形图表的方式进行数据展现,实现数据的可视化,在此基础上结合机器学习算法,对数据进行深度挖掘,发掘数据的潜在价值。

应用部分,大数据不仅包括企业内部应用系统的数据分析,还包括与行业、产业的深度融合,大数据分析的应用场景具有行业性,不同行业所呈现的内容与分析维度各不相同,具体场景包括:互联网行业、政府行业、金融行业、传统企业中的地产、医疗、能源、制造、电信行业等等。

1. 互联网行业大数据的应用代表为电商、社交、网络检索领域,可以根据销售数据、客户行为(活跃度、商品偏好、购买率等)数据、交易数据、商品收藏数据、售后数据等、搜索数据刻画用户画像,根据客户的喜好为其推荐对应的产品。

2. 政府行业在大数据分析部分包括质检部门、公安部门、气象部门、医疗部门等,质检部门包括对商品生产、加工、物流、贸易、消费全过程的信息进行采集、验证、检查,保证食品物品安全;气象部门通过构建大气运动规律评估模型、气象变化关联性分析等路径,精准地预测气象变化,寻找最佳的解决方案,规划应急、救灾工作。

3. 金融行业的大数据分析多应用于银行、证券、保险等细分领域,在大数据分析方面结合多种渠道数据进行分析,客户在社交媒体上的行为数据、在网站上消费的交易数据、客户办理业务的预留数据,结合客户年龄、资产规模、消费偏好等对客户群进行精准定位,分析其在金融业的需求等。

4. 传统行业包括:能源、电信、地产、零售、制造等。电信行业借助大数据应用分析传感器数据异常情况,预测设备故障,提高用户满意度;能源行业利用大数据分析挖掘客户行为特征、消费规律,提高能源需求准确性;地产行业通过内外部数据的挖掘分析,使管理者掌握和了解房地产行业潜在的市场需求,掌握商情和动态,针对细分市场实施动态定价和差别定价等;制造行业通过大数据分析实现设备预测维护、优化生产流程、能源消耗管控、发现潜在问题并及时预警等。

伴随着信息化的快速发展、数据量加大,已经进入数据时代,相信各行业间日后对于大数据的应用会更多、更深入。

谈到大数据,一定会提到三个小案例:第一个例子是某个未婚少女怀孕了,甚至她老爸也不知道这件事儿,但是商家却打电话过来问需不需要买孕妇用品。第二个是经典的“啤酒和尿布”的例子,这个例子比较早,讲的是基于关联规则分析来预测超市里面顾客购买行为规律。第三个是近年来才吵吵的比较火热的例子,是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模。第一个例子背后是基于精准营销,是大数据针对个人级别的应用,第二个例子能够有效预测零售商需求,属于企业级别应用,而第三个例子则是地区级别和国家级别的应用。由此可看出,当大数据真正走进生活、走进社会,其施展能量的力度越来越大,越来越强。最后,大数据这个概念就被吹的神乎其神了。

个人如何应用大数据,传言大数据下无隐私,个人隐私权如何保障

当我们听到这些大数据的应用案例时,会很自然地去质疑这些案例的可靠性。心中不免默念,这玩意儿的确有如此靠谱么?而其中最让人感觉不靠谱的,无疑是第三个,Google预测流感这件事儿。2009年2月19日,Nature上面有一篇文章,“Detecting influenza epidemics using search engine query data”(感兴趣的朋友可以关注以下),论述了Google基于用户的搜索日志(其中包括,搜索关键词、用户搜索频率以及用户IP地址等信息)的汇总信息,成功“预测”了流感病人的就诊人数。

那么,Google为什么要干这件事儿呢?美国有个很牛的部门叫CDC,也就是疾控中心,这个部门统计美国本土各个地区的疾病就诊人数然后汇总,最后公布出来。但是呢,这个公布的数据的结果一般要延迟两周左右,也就是说当天的流感的全国就诊人数,要在两周之后才知道,Google呢就利用他的搜索引擎搭建了一个预测平台,把这个数据提前公布出来。所以说,Google做的工作并不是实际意义上的预测什么时候流感来,而是将CDC已经获得但是没及时公布的数据提前给猜出来,然后公布出来。当然,CDC为什么不及时公布数据,人家官方总是有自己的一堆理由的,我等草民不得而知,但是有一点是重要的,就是“越及时的数据,价值越高”,数据是有价值属性的。所以,Google的工作无论在公共管理领域还是商业领域都具有重大的意义。

Google的研究结果公布出来以后,大众对于这个研究案例的好评和差评都有不少,总之,引起了社会的热议,这个例子从而也成了经典的案例。那么社会为什么会对这个例子予以如此重要的关注呢?其原因就在于,如果在这个案例上成功了,Google就真正证明了大数据是“万能的”这件事,从而彻底颠覆社会对于大数据的看法。

首先,Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系,稍微有点儿高中数学基础的朋友很快就可以理解应用,但是却成功地预测了复杂的流感规模的问题。Google用了简单的方法,预测复杂的问题。这件事为什么能成?根本就在于,Google的数据量大。这就是Google对于大数据的价值观。而大就是一切!Google有着世界上最大的搜索引擎,全世界每个用户的搜索行为都给存在Google的数据库里,Google想,我有这么多数据,不是想知道啥就知道啥。于是Google就做了这个伟大的事儿!

回过头来看三个经典的案例,从系统的角度上来看,一个人是一个小系统,一家超市是一个中等规模的系统,而一个国家一个地区则是一个超大的社会系统。如果要对一件事进行预测和分析,数据分析师要做两件事,一、构造理论模型;二、获取实证数据来拟合构造模型。对于小型简单系统,构造理论模型是可行的,而对于大规模的复杂系统,模型的构造则十分艰难(这也正是社会学家们每天忙碌研究的课题,也正是为什么社会革命家和思想家是如此的伟大,像马克思等等…)。大数据的观点之一认为,海量的数据可以弥补模型的不足,如果数据足够大,理论模型甚至根本就不需要。这种观点目前仍然处于争论中,搞理论的和搞实证(强调数据和统计方法)的专家们对此的口舌之战从没有停歇过。但无论如何,Google对于流感预测的研究无疑站在了支持大数据的一方,如果Google的案例是成功的,那么或许,拥有海量数据就真的意味着可以解决任意复杂的问题,大数据解决大问题!

上面的论述讲了半天Google案例的重要性,所以接下来,业界就把所有的目光凝聚在了Google预测的结果上。截止到Nature上面那篇Paper发表出来的时候,Google的预测还是准确的,不过到后来就发生了很大的偏差,偏差最大甚至高出了标准值(CDC公布的结果)将近一倍。

开始理论学家们是沮丧的,看到Google仗着自己庞大的数据库,在医疗监控这种复杂问题的预测分析过程中为所欲为,觉得自己马上就要下岗。然而时间到了2012年中旬的时候,他们就乐了,发现Google也不过如此,自己还是有价值的,实际上情况也确实如此。Google预测的失败也确实是过度地依赖于数据,导致很多被忽略了的因素对预测的结果产生了很大的影响。对客观世界进行预测需要模型,模型首先来自于理论构造,其次需要数据对模型进行训练对模型进行优化完善。大数据观点强调模型对数据训练的依赖,而尽可能地忽略理论构造这一部分的意义,这就有可能带来隐患。

从更加批判的角度来看,理论模型当中的确有一部分因素可以用数据量的规模来弥补,而仍然有一部分是不可弥补的。可弥补的部分因素,往往在数据量比较大的时候,被均匀的数据分布内部平滑抵消掉了,从整体上不会对最终的结果产生显著影响;而不可弥补的部分,往往和系统背后的结构性因素有关,这些因素不仅不会随着数据规模的增加而被消除,反而会由于系统的规模效应逐级放大最终产生背道而驰的结论。那么当数据分析专家需要对复杂的社会系统进行分析时,就一定要严谨地考虑对数据的依赖程度。因此,Google的案例既是一个很好的大数据的应用,同时其也为大数据在未来的发展道路上起到了很好的指示灯的作用。最后还是那句调侃的话:”Big Data is like teenage sex. Everyone talks about it, nobodyreally knows how to do it, everyone thinks everyone else is doing it, soeveryone else claims they are doing it too”。

你又是对大数据怎么理解的呢?

2022-06-09

2022-06-09