数据流通领域新晋“安全员”,隐私计算如何护航大数据产业?
发布时间: 2020-10-21
大数据时代,海量数据的交叉计算和人工智能的发展为各行各业提供了更好的支持,但这些被使用的数据往往包含用户的隐私数据,或企业/机构的内部数据。这些数据由于数据安全和隐私的考虑,往往是不对外开放的,例如政府数据由于政策保密性完全不能对外公布,运营商、互联网公司收集到的客户数据,也不能透露给第三者,因此形成了一个个数据孤岛,数据之间不能互通,数据的价值无法体现。如何应用海量的数据,实现数据流动,同时能够保护数据隐私安全、防止敏感信息泄露是当前大数据应用中的重大挑战。为了解决这些问题隐私计算应运而生。
《麻省理工科技评论》将差分隐私列入 2020 年“全球十大突破性技术”,差分隐私是一种数据分析中的隐私保护技术。苹果和 Facebook 已经使用这种方法来收集聚合数据,而不需要识别特定的用户。
第三届世界人工智能大会(WAIC)2020 云端峰会上,微众银行首席人工智能官杨强教授在「WAIC数据智能论坛」做了《联邦学习下的数据价值与模型安全》演讲分享:在国内外的数据监管法律趋严、用户隐私和数据安全保护的要求日益显著的背景下,一种隐私计算解决方案——联邦学习技术能够有效地将数据孤岛聚合起来。
2019 年 4 月微软发布两项专利申请表明其正考虑在拟推出的区块链产品中使用可信硬件(TEE)。2019 年 8 月,谷歌发布消息称,将推出新型多方安全计算(MPC)开源库,以隐私安全的方式进行数据协作。麻省理工学院背景的初创公司 Enigma 也推出了基于多方安全计算(MPC)的新加密系统。
中国各互联网巨头企业也在隐私计算领域加快布局,蚂蚁金服、腾讯云、百度在 2019 年纷纷推出了各自的多方安全计算(MPC)产品。阿里巴巴、微众银行、京东等企业也在各自的隐私技术领域形成了一定的优势。此外,华控清交、富数科技、数牍科技、锘崴科技、光之树科技、零知识科技等一批专注于隐私计算产品化的初创企业也不断涌现。诸多区块链企业、数据安全企业、金融风控企业、电信企业等也纷纷拥抱隐私计算技术。
1.什么是隐私计算
隐私计算,根据中国信息通信研究院的定义,是指在保证数据提供方不泄露敏感数据的前提下,对数据进行分析计算并能验证计算结果的信息技术。
广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程,想要达成的效果是使数据在各个环节中“可用不可见”。
随着信息技术的不断发展,数据逐渐成为政府、企业与个人的重要资产,其发掘、存储、处理与使用变得愈发重要,逐渐产生了隐私性需求。数据科学的发展使数据的应用场景不断扩展,相应的合作也开始涌现,隐私性问题也随之而来。随着云计算和区块链的发展,隐私计算的需求愈发涌现,隐私计算是一门交叉学科,它是数据科学与工程学、密码学、分布式计算与存储的综合工程,而不是单一的密码学。
隐私计算技术是密码学的一个前沿发展方向,填补了数据在计算环节隐私性问题的空白,将基于密码学的信息安全体系打造成完整的闭环,为云计算、分布式计算网络和区块链等技术的应用提供隐私性基础。
密码学通过数学理论将数据转化为密文状态,无私钥不能读取其内容,解决了在不安全的环境下隐私存储与通信的问题,但在使用环节仍存在空白。
到了信息的使用环节,在通讯和存储过程中处于加密状态的数据就不得不进行解密以用于查询和计算。所以,基于密码学的信息加密体系在使用环节是存在空白的,目前尚不能构成闭环的加密系统。当信息拥有者不得不提交数据使用第三方服务时,就面临着信息泄露的风险,其他环节的加密状态也就失去了意义。针对这种情况,学术界开展了加密状态下进行数据计算的研究,也就是我们所说的隐私计算。
2.为什么是隐私计算
数据本身,同金钱一样,并不具备价值,只是数据经过计算、分析,才被挖掘出巨大的价值。
在现实世界中,任何单一机构,即便强大如当下互联网巨头,也都只能掌握一部分数据,而片面的数据并不能全面、精准地勾画出目标对象的全部特性。
数据流动是数字经济时代企业的刚性需求,越来越多的企业或组织需要与产业链上下游业务伙伴在数据流通和交易领域进行深度合作。因为只有通过各方数据协同计算,才能更好地释放数据更大的价值,提升生产效率,推进产业创新。数据共享和流通将成为刚性业务需求。
保证个人信息、商业机密或独有数据资源等隐私信息在数据处理、流转过程中不会泄露,是企业或组织参与数据共享和流通合作的前提条件。
但出于数据权属、数据泄露及自身商业利益等诸多因素考虑,手握大量数据的企业或组织对于开放自己的内部数据尤其是核心数据保持极其谨慎的态度,导致数据隐私保护和数据高效流动之间的矛盾日益凸显。
隐私安全和隐私计算这两个概念正是为解决这一矛盾而诞生的,它们致力于打破数据在行业、企业间的流动壁垒,只有彻底解决隐私安全问题,数据隐私保护和数据高效流动之间的矛盾才能消解,数据孤岛问题才能得到根本解决。
3.隐私计算的分类
隐私计算是在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术,根据中国信息通信研究院的分类,主要分为密码学和可信硬件两大领域。
密码学的技术目前以多方安全计算(MPC)为代表。多方安全计算技术核心思想是设计特殊的加密算法和协议,从而支持在加密数据之上直接进行计算。目前 MPC 通过秘密分割、不经意传输、混淆电路或同态加密等专门技术实现,通用性相对较低、性能处于中等水平,但近年来性能提升迅速、应用价值极高。
可信硬件技术目前主要指可信执行环境(TEE),其核心思想是构建一个硬件安全区域,数据仅在该安全区域内进行计算。TEE 将信任机制交给硬件方(Intel的 SGX、ARM 的 TrustZone、AMD 的 SEV 等产品),严格来讲并不属于“数据可用不可见”,但其通用性高、开发难度低,使得在数据保护要求不是特别严苛的场景下存在价值发挥的可能。
此外,国内外还衍生出了联邦学习、共享学习、知识联邦、联邦智能等一系列“联邦学习类”技术。这类技术以实现机器学习、数据建模、数据预测分析等具体场景为目标,通过对上述技术加以改进融合,并在算法层面进行调整优化而实现。
4.中国隐私计算赛道主要玩家
蚂蚁金服、富数科技、华控清交、数犊科技、矩阵元等几家公司掌握多方安全计算的核心技术,完全自主研发,且尚未开源,更多的是直接给企业机构提供个性化的多方安全计算服务,解决业务实际的问题。
微众的 Fate、百度的 PaddleFL、富数科技 Avatar,蚂蚁集团 Morse,拥有联邦学习的自主知识产权,其中 Fate、PaddleFL 都是已开源项目,业内也有类似京东数科、平安科技等基于开源的内核搭建了上层应用平台。
国内包括蚂蚁金服、翼方健数等公司将 Intel 的 TEE 可信执行环境集成到自己的隐私计算平台。
5.隐私计算技术的未来应用趋势
尽管隐私计算技术的热度最近才刚刚兴起,但伴随着大数据产业的持续发展和数据安全共享需求的日益严重,隐私计算技术的落地场景会越来越多。
目前中国隐私计算产品主要应用于金融行业的风控和获客,即多家金融相关机构在不泄露客户个人信息的前提下对客户进行联合画像和产品推荐,在多头借贷等场景下能有效降低违约风险。
医疗行业正在成为隐私计算的关注重点。比如通过隐私计算技术,医疗机构与保险公司之间可以在不共享原始数据的情况下分析投保者的健康信息。
政务行业有望成为隐私计算的下一个应用重点。隐私计算提供了政府数据与电信企业、互联网企业等社会数据融合的解决方案。在部分地方政府的相关规划里,已经有所涉及。
隐私计算作为数据流通领域新晋的打法,其重要性从需求本身的亟待解决、到互联网巨头的纷纷下场、到政策层的倾斜,再到市场和媒体的关注度各个层面均得到了验证。
中国隐私计算技术产品正在逐步成熟、应用场景快速扩充,已经形成了一定的竞争优势,隐私计算技术有望引领数字经济找寻到新的商业模式,成为推动 AI 挖掘大数据价值的催化剂。
本文内容转载自:腾讯网 new.qq.com
原文作者:深科技 DeepTech
原文地址:https://new.qq.com/rain/a/20200804A0I5XG00
作者: 深科技 DeepTech