肖文棣:数据要素时代的平衡之道——隐私计算理论与实践

2025-03-26 10:04 肖文棣


作者简介:肖文棣,OWASP中国广东分会负责人、网安加社区特聘专家,现任某外企大中华区安全负责人,负责大中华区的安全工作。




引言

数字经济高速发展,数据已经成为国家的战略资源,国内外都纷纷建立自己的数据战略,包括欧盟的工业数据空间,美国的数据开放平台以及我们国家提出的国家数据大战略,以及创建国家数据局,建设国家数据基础设施以及组建数据市场。


同时数据价值具有两面性,一方面数据价值越大,风险越大,企业不敢流通。另一方面,数据产品的稀缺性容易遭到破坏,企业不愿流通。


这种风险与价值的冲突,将隐私计算带到了时代的中心,成为数据要素时代必须考虑的平衡之道。




隐私计算概述

隐私计算,从狭义上讲,就是在多个互不信任的参与方之间,在保护隐私信息的前提下,聚合数据进行计算。


隐私计算有个非常有名的公式:

其中F是任意类型的计算,X和Y是参与计算的数据,Z是计算结果,S表示安全锁,这里要求Z和F都要加安全锁,保证安全。


F表示密态计算,包括机器学习、数据分析以及任何数据函数。S表示基于密码学构建的可证可信可度量编译器运行时无感的透明安全的安全锁。X,Y表示多方数据,包括任意类型的数据以及数据组合。隐私计算用于隐私数据求交、隐私数据查询以及隐私数据分析等。


在数据要素时代,数据的流通带来巨大的价值,也带来隐私风险。为了保护企业的数据资产安全,同时满足一系列合规的要求,所以我们需要引入隐私计算来满足数据的可用不可见的要求。


隐私计算首先要对原始数据在运算前进行处理,个人数据要进行去标识化,对于敏感数据要进行脱敏处理。这是数据使用的合法合规的前提。


同时隐私计算的计算过程也要考虑隐私保护,计算环境要确保安全可信可靠,多方数据运算过程中不包含敏感数据,同时还要确保数据接收方无法重新识别或者关联个人数据。


最后隐私计算要确保隐私结果发布时的隐私保护,计算结果无法反推出原始数据信息,非结果拥有方无法获得结果信息,同时要防止结果信息的二次分发滥用。


隐私计算的基本原理不是非常复杂,隐私计算是基于秘密分享的三方求和原理,通过交换随机数保证安全,因为交换是随机的,所以交换过程不可逆,而且不可预测。然后通过安全的网络进行加密传输。同时计算过程是同态加密的,要求可证可信可度量。


下面是隐私计算求交的一个简单示例:

这里有三个参与方A、B、C,计算函数是求和。计算为求三方的和,结果是45。但是A、B、C的原始数据不能直接交换,所以要进行隐私计算。


具体步骤如下:

1. 将三个参与方A,B,C的数据随机分割,比如A分割为3、2、8;B分割为5、4、6;C分割为7、1、9。
2. 将分割后的数据进行交换,比如A保留3,然后将2、8通过安全通道传输给B和C,B与C也进行类似操作。
3. 交换后的数据进行重组得到新的A、B、C。其中A变为8,B变为16,C变为21。
4. A、B、C将自己新的数据用于计算,得到的结果是45。


上面的例子就证明在A、B、C三方都没有传递出原始数据的情况下,完成了一次求和操作,而且45这个数据,包括新得到的8、16、21数据都没有办法还原出A、B、C的原始数据。这就满足了数据可用不可见,数据结果不可逆的要求。



隐私计算的实践

隐私计算已经进入规模化应用的快速发展阶段。

首先,法律法规进行了产权结构分置,进行分类分级确权,将数据资源持有权、数据加工使用权和数据产品经营权分离,同时推进数据要素和数据资产入表,这个在法律法规层面让企业使用隐私计算成为可能。


其次,多学科融合推动了隐私计算的发展,比如联邦学习是机器学习AI与密码学的融合,多方安全计算是大数据BI与密码学的融合。通过这样的多学科的融合给出了隐私计算实现的路径。


再者,国家与行业对隐私计算提供了权威认证,比如工信部信息通信研究所率先搭建起隐私计算的相关专项评测;国家金融科技中心、银行卡检测中心等权威机构陆续跟进推出隐私计算专项测评。这些权威认证给了企业使用隐私计算的信心。


同时,政府积极推进隐私计算的发展,国家数据局诸多文件均鼓励探索基于隐私计算做数据要素流通的探索,同时对数据流通技术设施进行试点,隐私计算是六大方向之一。这些政策鼓励企业积极应用隐私计算进行数据流通并且利用数据创造更大的价值。


隐私计算的底层是依托于可证安全的高阶密码学,隐私计算的学术基础深厚,而且社区气氛活跃,隐私计算是可证安全的,是值得企业放心使用的。


隐私计算与行业结合,发展出多种模式。

第一种模式是点对点模式:

该模式是指数据需求方和数据提供方各自私有化部署一套隐私计算节点,点对点的网络连接,基于本地化的隐私计算节点实现不同场景的两方和多方的数据融合、研发和分析等需求。


该模式适用的场景是有明确数据源机构互通的意向和明确的场景数据的需求。该模式的成本比较低,仅需要承担自己本侧隐私计算节点和数据源本地的隐私计算节点的成本。但是该模式也有局限性。该模式仅能解决点对点的数据需求,如果节点过多,网络会非常复杂。


第二种模式是联盟模式:

该模式是指多个机构主体,包含不同的数据源机构和数据需求方机构,并且有愿意做主导牵头的监督机构或者行业龙头机构。监管机构或者行业龙头机构作为联盟主,其他为联盟成员,不同的成员均私有化部署隐私计算节点,通过节点做数据流的互通。


该模式的适用场景是需要有联盟主的角色,同时需要针对一个小型供需生态解决一个行业或者一系列特定的业务痛点的场景。该模式的成本比较高。该模式也有局限性,需要先识别出联盟主的角色,并且有机构愿意承担这个角色。


第三种模式是业务融合模式:

该模式是隐私计算已经走出了工具属性,开始探索与业务、管理、交易等具体业务属性融合的一种模式。用户往往不需要再关注点对点的数据安全,而是结合具体业务需求,以赋能、升级等模式作为一整套平台去推广。如基于隐私计算的外部数据管理平台。该模式下,隐私计算已经内生在平台里面,不需要额外集成。


该模式适合以隐私计算为亮点特性赋能,升级现有平台。该模式成本比较高,而且该模式还在不断探索中。


企业可以跟进各自的需要选择合适的模式。各个模式各有优劣,但是未来业务融合模式可能是主流,特别是一些产品会将隐私计算作为一个内生能力带入到系统中,让我们拭目以待。



总结与展望

隐私计算已经在一些行业落地,并且有一系列应用。

联邦建模:主要用于金融行业的风控和营销构建,比如风险ABC卡、消费画像、防骗反诈等。


隐匿查询:主要用于数据隐匿分享的场景,比如黑名单共享、多头数据查询等。


隐私集合求交:主要用于数据安全求交的场景,比如联合营销、特征人群交易匹配等。


多方联合计算:主要用于数据安全统计场景,比如不同机构的横向比较等。


未来还可能继续在金融、医疗健康和政务服务等行业有广阔的前景,这些行业现在也是AI的热点,也正在与AI深入融合,利用AI来降本增效,所以AI与隐私计算也有融合的趋势,甚至AI平台会将隐私计算作为该AI平台的内生属性。


根据相关的报道,DeepSeek提供了AI模型联邦学习框架,其核心在于实现了数据的分布式学习与处理,通过加密通信和协同计算技术实现了各参与方不暴露数据的情况,共同训练出一个全局的AI模型的目标。这种模式是DeepSeek内生的,不需要额外的隐私计算平台参与,可以从根本上解决数据隐私泄露风险,为AI模型的训练和应用提供更为安全的环境。


总的来说,隐私计算是海阔凭鱼跃,天高任鸟飞,天地广阔,大有可为。