数据安全共享和价值转化既是政策导向,也是大数据和数字经济发展的关键。隐私计算技术,已成为数据流通安全的“最优技术解”。
政策法规加速落地,市场关注度快速提升。我国多部与数据安全相关的法律法规落地实施,形成了较为完备的安全法律体系,多部法规与政策明确鼓励运用隐私计算技术破局数据流通中的安全问题,使得隐私计算成为当下火热的新兴技术。
本文以隐私计算多种技术与未来发展为核心,带你一文快速读懂隐私计算多种技术路线,并对技术流变发展趋势做出预测。
隐私计算是在保护数据本身不对外泄露的前提下,实现数据分析计算的一系列技术路线的统称,可达到“数据可用不可见”的目的,在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。
隐私计算并非单一的技术,而是包含多种隐私保护技术、隐私增强技术,是一系列技术的统称,涉及密码学、安全硬件、信息论、分布式计算等多个学科。“隐私计算”这个概念虽然诞生时间不长,但从其现代密码学的本质来看,其相关技术理论的研究有着相当的一段历史。
从1949年香农开创现代密码学时代起,安全多方计算、零知识证明被陆续提出,多种新的技术路线和隐私计算方案(例如混淆电路、基于秘密分享的MPC、半同态加密等协议和算法等)也陆续出现。七十余年间,隐私计算经历多个里程碑,技术体系逐步发展和壮大,并开始有大规模的项目落地。
2019年后,隐私计算进入应用期,走出学院派与实验室,广泛与行业应用场景相结合。各类隐私计算厂商也如雨后春笋一般涌现出来,激发了隐私计算技术可用性的快速提升。
当前,隐私计算在应用中快速发展,领域内仍在持续涌现出更多新的技术特点和解决方案。
从技术层面来说,隐私计算主要有三类主流技术路线:一类是采用密码学和分布式系统,以多方安全计算(Secure Multiparty Compute,MPC)为代表;另一类是采用基于硬件的可信执行环境(Trusted Execution Environment,TEE);最后一类是近年来发展相当火热的联邦学习(Federated Learning,FL)。此外,还有零知识证明、同态加密、差分隐私等技术。各类技术路线融合应用趋势凸显。
多方安全计算(Secure Multiparty Compute,MPC)是一种将计算分布在多个参与方之间的密码学分支,参与者在不泄露各自隐私数据情况下,利用隐私数据参与保密计算,共同完成某项计算任务。
这项技术最早可追溯至1981年,Rabin首次提出通过Oblivious Transfer(OT) 协议实现机密信息交互。1982年,姚期智教授在论文《Protocols for Secure Computations》中提出“百万富翁问题“,即两个百万富翁在没有可信第三方、不透露自己财产状况的情况下,如何比较谁更富有,这标志着多方安全计算技术的产生。1986年,姚期智教授提出混淆电路技术,实现了第一个多方(两方)安全计算方案。1987年,Goldreich等人提出了基于电路的秘密共享方案GMW,并将其应用于多方安全计算。
同态加密(Homomorphic Encryption,HE)是一种通过对相关密文进行有效操作(不需获知解密秘钥),从而允许在加密内容上进行特定代数运算的加密方法。其特点是允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致。
1978年,Ron Rivest、Leonard Adleman和Michael L. Dertouzos提出同态加密问题,并在同年提出满足乘法同态的RSA算法。同态加密问题的提出将加密技术的研究从静态引向动态,是理论上的巨大革新,也开创了隐私计算的先河。2009年,Gentry提出了首个实用的全同态加密算法,标志着全同态计算时代的开始。2017年,国际同态加密标准委员会成立,标志着同态加密在全球进入高速发展阶段。
联邦学习(Federated Learning,FL)是一种具有隐私保护属性的分布式机器学习技术。在机器学习中,通常会从多个数据源聚合训练数据,并将其传送到中央服务器进行训练。然而这一过程容易产生数据泄露风险。在联邦学习模型中,运算在本地进行,只在各个参与方之间交换不包含隐私信息的中间运算结果,用于优化各个参与方相关的模型参数,最终产生联邦模型,并将应用于推理,从而实现了“原始数据不出本地”、“数据可用不可见”的数据应用模式。按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。
2012年,王爽等在期刊JournalofBiomedicalInformatics发表论文,首次解决医疗在线安全联邦学习问题,该框架服务于多个国家级医疗健康网络,也是联邦学习系统构架层面的突破。
零知识证明(Zero-Knowledge Proof,ZKP),是指证明者能够在不向监控者提供任何有用信息的情况下,使验证者相信某个论断是正确的。零知识证明实际上是一种涉及双方或更多方的协议,即双方或更多方完成一项任务需要采取的一系列步骤,证明者需要向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不向验证者泄露任何关于被证明消息的信息。
1985年,S. Goldwasser、S. Micali和C. Rackoff首次提出零知识证明(Zero-Knowledge Proof, ZKP)概念。目前在实际应用中,某些加密货币就采用了这一技术路线。
可信执行环境(TEE)是一种基于硬件的隐私保护方法,是指计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护。2009年,OMTP工作组率先提出一种双系统解决方案:在同一个智能终端下,除多媒体操作系统外再提供一个隔离的安全操作系统,这一运行在隔离硬件之上的隔离安全操作系统用来专门处理敏感信息以保证信息安全,该方案是可信执行环境的前身。
在实践层面,目前以Intel SGX和ARM TrustZone为基础的TEE技术起步较早,社区和生态已比较成熟。同时,国产化的芯片厂商在TEE方向上已经开始发力,国内芯片厂商如海光、鲲鹏、飞腾、兆芯等都推出了支持可信执行环境的技术,信创国产化趋势明显,相关生态也正在加速建立、完善。
2006年,C. Dwork提出差分隐私(Differential Privacy, DP),这一技术路线的主要原理是通过引入噪声对数据进行扰动,并要求输出结果对数据集中的任意一条记录的修改不敏感,使攻击者难以从建模过程中交换的统计信息或者建模的结果反推出敏感的样本信息。
除上述技术之外,还有图联邦、混淆电路、不经意传输等多种技术路线被先后提出,并不断在科研和产业的推动下得到发展和应用。
纵观隐私计算不同技术路线,可以发现各有其优势与不足,在可支持计算、隐私保护维度、隐私保护强度、安全性、性能等方面有较大差异,分别适合不同的应用和场景;同时,不同的技术路线目前正在持续融合、取长补短,实现1+1>2的应用效果。例如通过硬件加速的全同态加密算法构建强隐私、高性能的纵向联邦学习系统,就是一个不同技术路线深度融合的典型案例。
相信在未来,不同技术路线的融合以及与人工智能、区块链等新兴技术的结合,能够推动隐私计算大规模落地,实现海量数据要素的价值释放。