区块链技术隐私，为什么说区块链技术能改变世界？

谢谢悟空问答的邀请区块链技术隐私！

之前回复了《区块链生态成熟需要多长时间？（

:///answer/6632032175610921219/）》，请先参阅。

从问题的本身就可看出，显然提问的网友被忽悠了。不管被圈内人士吹嘘得多么神通广大，区块链说穿了就是一个分布式的数据库，即每一个数据块都有一个数据库的备份，每一次数据更新，至少需要超过51%的节点同步更新才能生效，以保持它的去中心化、不可篡改性。但这是一件既浪费资源，又十分低效的事情，值得吗？

其实，去中心化是个伪命题。现在大家已经越来越多的人意识到，很多情况下它是不值得的。因为即使它能够保证线上（上链之后）的内容不被篡改，但首先无法保证线下（上链之前）的原始数据没有被篡改，因此它的可信度很难说。而且，所谓的不可篡改还牵涉到一个算力的问题，理论上来说，只要全球超过51%的节点串通起来，它一样可以篡改。

中国人民银行11月发布了2018年4号工作论文《区块链能做什么、不能做什么？》。文章中也指出，目前真正落地并产生社会效益的区块链项目很少，除了区块链物理性能不高以外，区块链经济功能的短板也是重要原因。

为什么之前区块链概念会那么受到追捧呢？币圈那些坑蒙拐骗的人姑且不论，一些热情高涨的专家学者，起到了推波助澜的作用。可是，他们真弄明白了，真清楚自己在说些什么吗？

你对这个问题有什么更好的意见吗？欢迎在下方留言讨论！

互联网时代背景下，个人隐私受到了极大的挑战，但是互联网时代与个人隐私的泄露没有绝对的联系，在互联网时代，个人隐私更应该被关注和重视。

随着最近不断发生的个人隐私数据泄露事件让互联网安全备受关注，这些隐私数据的泄露往往都有一些重要的特点，其中管理漏洞和黑客攻击是导致数据泄露的核心因素。

未来，如果互联网、大数据要想走得更远，数据安全（包括个人隐私）是重要的基础，没有安全的大数据和互联网一定走不远。同样，保证不了数据安全的公司（机构）也会失去采集、存储个人数据的权利。

在我看来，要想保证数据安全（个人隐私），需要关注以下几个方面：

第一，技术。我们往往说：模式变革技术先行，技术是保证安全的一个重要手段，随着区块链技术的发展，未来使用区块链技术来保证个人隐私安全是一个不错的发展方向。当然，安全是一个动态的过程，技术同样是一个动态的过程，技术要始终与安全要求相匹配。

第二，制度。很多公司（机构）的数据泄露都与制度有明显的关系，好的管理制度能够在很大程度上避免数据的泄露。随着大数据的发展，数据价值化成为一个大趋势，各家互联网公司一定会越来越重视数据的安全，而制度也一定会逐渐健全。

第三，法律。法律是保障安全的最后一道屏障，当技术手段、管理手段已经解决不了安全威胁的时候，法律就该出场了。目前我们国家也制定了相关的法律以保障个人隐私数据的安全，从数据的采集、存储到流通都有严格的规定，这是规范化互联网个人数据的重要举措。安全是动态的，同样就要求法律法规也要不断完善。

总之，随着互联网的发展，个人隐私一定会越来越受到重视，未来的互联网一定是一个能够有效保护个人隐私的互联网。

我的研究方向是大数据和人工智能，目前也在带大数据方面的研究生，我会陆续在头条写一些关于大数据方面的文章，感兴趣的朋友可以关注我的头条号，相信一定会有所收获。

如果有大数据方面的问题，也可以咨询我。

谢谢！

过去十年以来，我们收集与存储个人数据的能力呈现出爆炸式的增长。由于全球三分之二的人口能够访问互联网，电子病历成为常态，物联网亦快速兴起，这种趋势很可能迎来愈演愈烈之势。通过填写在线调查或者统计浏览习惯，从金融或者医疗服务当中大规模收集到的信息拥有令人意外的巨大潜力。其推动了医学、社会科学以及人工智能的科学进步，并有望彻底改变企业与政府的运作方式。

然而，大规模收集并使用详尽的个人级数据也带来了法律层面的隐私难题。最近，DeepMind共享英国国家健康服务局（NHS）医疗数据以及剑桥分析公司大量购买Facebook数据集等事件，都让人们愈发关注个人数据的保密性、隐私性与道德使用等问题。

为此，数据匿名化也开始受到了广泛关注。所谓匿名化，就是在共享数据集内容之前首先其其中的身份信息进行剔除，这也是各类研究与商业机构所采取的主要个人隐私保护范式。全球范围内的各类数据法普遍认为匿名数据不再属于个人数据，允许各方自由使用、共享以及销售。例如，学术期刊正越来越多地要求作者向研究界提供匿名数据。虽然匿名数据的标准各不相同，但现代数据保护法（例如欧盟〈通用数据保护条例〉（GDPR）以及〈加州消费者隐私法案〉（CCPA）等）都认为数据集中的每个人都应通过匿名化方式得到保护。GDPR提出的要求进一步明确了这种新的匿名化标准：数据不应包含可能导致真实身份复原的明显身份识别因素，这也将匿名化问题正式归入法律范畴。

而为了保护这些有意或者无意间将自己的个人信息交予数据库的用户，大多数机构也会消除数据中的身份信息。在具体流程中，他们会删除明显的个人身份标识，包括姓名与社保号码；有时也会采取其他预防性措施，例如向集合中引入随机“噪声”数据或者利用常规标识替换特定细节（例如将1990年3月7日出生，调整为1990年1月至4月间出生）。处理完成之后，代理机构即可发布或者出售这部分信息。

>>> 数据匿名化处理被证明无效

然而，事实证明，经过匿名化处理的数据集无法成功解决个人身份被复原问题。

2016年，记者从300万德国公民的匿名浏览历史数据集当中重新识别出多位政治家，并据此得到了其医疗信息与性取向结论。几个月前，澳大利亚卫生部公开发布了涵盖国内10%人口的去身份医疗记录，但研究人员仅在6周之后就完成了重新识别。在此之前，有研究表明，我们完全可以利用基本人口统计学属性结合诊断数据、出生年份、性别以及种族等基因组研究数据实现患者身份的唯一性识别。最后，研究人员们还发现，来自纽约的出租车路线、伦敦的共享自行车使用方式、里加的地铁出行数据以及移动电话与信用卡数据集等所谓匿名信息，都可用于对个人进行唯一性识别。

关于这个论题，伦敦帝国理工学院计算隐私助理教授Yves-Alexandre de Montjoye作为作者之一，日前在《自然：通讯》杂志发表了名为《利用生成模型估算通过不完整数据集复原个人身份的成功率》（论文链接：:///articles/s41467-019-10933-3）的研究论文，他表示，在过去25年当中，数据匿名化的基本作用就是在帮助我们在利用数据进行统计与研究之外，保护人们的隐私。然而，大部分常用的匿名化技术起源于二十世纪九十年代，也就是互联网快速发展之前。换言之，这些匿名技术并没有考虑到互联网在收集个人健康、财务、购物以及浏览习惯等细节方面的强大能力，从而使得我们能够相对容易地将匿名数据与特定个人关联起来。

例如，如果私人侦探打算在纽约市寻找某人，已经确定其为男性、年龄在30到35岁之间且患有糖尿病，那么搜索工作将简单得多。如果再配合其生日、孩子数量、邮政编码、所在企业以及所拥有的车辆型号，那么他们甚至可以很快推断出此人的真实身份。

过去几年以来，Montjoye和其他研究人员曾先后发表多份研究报告，探讨如何通过匿名购物数据或者健康记录复原个人身份。他们提出了一种基于copula的生成方法，其能够在完整度极低的数据集当中准确估算出特定人士被正确重新识别的可能性。在总计210名测试对象当中，他们的方法获得的个体唯一性预测AUC分数范围在0.84至0.97之间，代表其准确率已经非常可观。利用这套模型，他们发现在使用15项人口统计属性的任意数据集当中，美国普通民众的真实身份有99.98%的机率被成功复原。虽然15项人口统计信息听起来很多，但其中却蕴藏着不容忽视的大问题——2017年，一家营销分析公司曾意外发布了包含248项属性的匿名数据集，涵盖美国1.23亿个家庭。

配合社会人口统计学、调查与健康数据集，Montjoye及其团队证明这套模型在估算群体唯一性时的平均绝对误差（MAE）为0.018；即使仅利用1%的数据比例进行训练，其MAE仍可达到0.041。经过训练，模型能够准确预测出个体的重新识别结论是否正确：如果设定95%的准确度作为阈值(ˆ>0.95)，则其平均错误率低于6.7%——比现有最佳估算方法的错误率低39%。

而随着可用属性数量的增加，群体唯一性判断准确度也将快速提升。此外，他们的研究结果还表明，即使是在重度采集数据集当中，该模型仍可以相当高的准确度估算特定个体被正确重新识别的可能性。实际结果推翻了目前常被提及的两种观点：1）重新识别并不构成实际风险；2）抽样或者发布部分数据集能够提供理想的匿名保护效果。

也就是说，在大量采样条件下，即使是匿名数据集也很难满足GDPR提出的现代匿名化标准。这无疑给我们习以为常的匿名化处理后直接发布流程在技术与法律两个层面提出严重挑战。

>>> 数据保护需要跨学科研究与政策制定并行

那么，这会给我们的个人数据造成多大的风险？在这项新研究中，研究团队创建出一款数字工具，允许个人互联网用户查看利用匿名信息复原其真实身份的可能性。根据这款工具给出的结论，普通用户有83%的可能实现成功复原。除非拒绝信息收集，否则人们几乎没办法解决这个难题。

西北大学凯洛格管理学院营销学副教授Jennifer Cutler（并未参加此项研究）表示：“偏执的消费者可能会停止在网络上发布任何内容、停止使用互联网服务、不使用任何应用程序、放弃智能手机、不使用信用卡等等——但这些在如今这个时代下显然不切实际。我们目前的生活基本都与网络密不可分，而且必须要在各种因素之间做出权衡。政策制定者之所以没有完全限制数据的收集与共享，是因为数据收集与共享确实能够产生巨大的积极作用。”

相较于完全禁止收集数据，Montjoye给出的建议是，数据中间商应该开发出新的匿名化技术并加以严格测试，从而确保第三方无法根据统计数据识别出个人身份。他解释称，“这个问题主要针对当前匿名化方法。目前，我们看到的问题只是冰山一角。但令人担忧的是，其并不能达到防止个人身份曝光的作用。我们需要制定更高的标准，并对具体方法进行审查。”

由于个人的数据追索权非常有限，有些人认为数据中间商的标准提升之路可能需要立法层面的推动。此项研究的共同作者、比利时鲁汶天文教大学博士生Luc Rocher指出：“由于数据经过匿名化处理，因此数据收集方不必向数据主体征求意见。我认为，这更多属于法规责任范畴的问题，应由立法机构为我们的个人数据提供保护。”

Cutler也对立法支持这一观点表示赞同。她认为，“跨学科研究人员与政策制定者确实需要持续开展工作，按照论文中提到的方式建立基于证据的法规。只有这样，我们才能够在保护用户隐私与实现创新进步之间找到最理想的平衡点。”

最新文章

本站推荐