AI热潮来袭,如何用联邦学习实现大数据的隐私计算?

发布时间 2023-04-06

本文以人工智能场景下的数据确权授权与安全合规使用为切入点,介绍了联邦学习的定义、思想架构、分类等内容,并探讨了联邦学习在不同行业场景的应用和实践落地,帮助大家对联邦学习这一安全技术有更为全面地了解。


人工智能B面:数据安全与隐私保护


在数字化转型加速背景下,人工智能(Artificial Intelligence,AI)取得迅猛发展。随着ChatGPT横空出世、百度文心一言发布,2023年人工智能再次成为人们最为关注的重点板块。


人工智能的成功建立在大量的数据基础之上,数据是驱动人工智能技术突飞猛进的关键要素。AI产品在模型训练、优化以及用户使用过程中涉及对个人数据、商业数据、知识产权等的收集和处理,其背后暗藏着隐私保护、数据保护合规等问题。


随着人们安全意识的提高,用户开始更加关注他们的隐私信息是否未经自己许可便被他人出于商业或者政治目的而利用,甚至滥用。如何兼顾高度智能化和高度隐私安全,从而享受AI带来的效率和成本优化,这个问题值得深思。


法规制定者和监管机构逐渐出台相关法律来规范数据的管理和使用。欧盟《通用数据保护条例》、美国《加利福尼亚州消费者隐私法》、《中华人民共和国网络安全法》等法律法规相继落地,对数据的收集和处理提出了严格的约束和控制要求。


一般来说数据是由不同组织产生并拥有的,传统的方法是收集数据并传输至一个中心点,这个中心点拥有高性能的计算集群并且能够训练和建立机器学习模型。但在愈发严格的法律环境下,不同组织间收集和分享数据将会变得越来越困难,进而形成各自孤立的数据孤岛。


数据孤岛的形成,正阻碍着数据的使用。一种可行的方法是由每一个拥有数据源的组织训练一个局部模型,之后让各个组织在各自的模型上交流,最终通过模型聚合得到⼀个全局模型。为了确保用户隐私和数据安全,各组织间交换模型信息的过程将会被精心地设计,使得任何组织不能够猜测到其他组织的隐私数据信息。


联邦学习(Federated Learning,FL)便采取了这一思想,它为数据安全与合规使用提供了技术方案。


什么是联邦学习?


联邦学习旨在建立一个基于分布数据集的模型,拥有数据源的组织训练一个局部模型,然后各组织的模型之间进行交换,最后通过模型聚合得到一个全局模型,且模型性能接近传统方式训练下机器学习模型的一种算法框架。


联邦学习具有以下特征:

1、有两个或以上的联邦学习参与方协作构建一个共享的机器学习模型,且每一个参与方都拥有若干能够用来训练模型的训练数据。

2、模型相关的信息以加密方式在各方之间进行传输和交换,并保证任何一个参与方都不能推测出其他方的原始数据。

3、在模型的训练过程中,每一个参与方拥有的数据都不会离开该参与方。

4、模型的性能要能够充分逼近理想模型的性能即将所有训练数据集中在一起训练而来的机器学习模型的性能。


联邦学习包括模型训练和模型推理两个过程。在模型训练的过程中,模型相关的信息(梯度、参数等)能够在各方之间交换或以加密形式进行交换完成训练,但不交换数据。模型推理即模型应用于新的数据实例并得到结果,并通过一个公平的价值分配机制来分配协同模型所获得的收益。


联邦学习的架构


根据场景的不同,联邦学习系统根据是否涉及中央协调方,从而可以分为客户端-服务器(Client-Server)架构和对等网络(Peer-to-Peer)架构。


在客户-服务器架构中,协调方是一台聚合服务器,其可以将初始模型发送给各参与方A~C, A~C分别使用各自的数据集训练该模型,并将模型权重更新发送到聚合服务器。聚合服务器将从参与方处接收到的模型聚合起来,并将聚合后的模型更新发回给参与方。这一过程将会重复进行直至模型收敛或达到最大迭代次数。这里参与方的数据不会离开自己,保护了参与方的隐私和数据安全。



在对等网络架构中,各方无须借助协调方直接通信,这种体系结构的优点是不需要协调方从而提高了安全性,但可能需要多的计算和通信开销。



联邦学习一方面保护了用户的隐私和数据安全,另一方面参与方协同训练的机器学习模型可能优于自己训练的模型。但是也面临一些挑战,比如参与方和聚合服务器之间的通信链接可能是慢速且不稳定的,这将会使系统变得不稳定且不可预测。还有来自不同参与方的数据会出现非独立同分布的情况,这可能导致联邦模型产生偏差,甚至失败。


联邦学习的分类


按训练数据集在样本、特征空间的分布可以将联邦学习分为横向联邦学习(Horizontal Federated Learning,HFL)、纵向联邦学习(Vertical Federated Learning,VFL)和联邦迁移学习(Federated Transfer Learning,FTL)。


横向联邦学习中参与方数据特征是对齐的,但是参与方拥有的数据样本是不同的,因此也可以将其称为按样本划分的联邦学习(Sample-Partitioned Federated Learning)。



当参与方是两家不同银行时,二者可能有较少的重叠客户样本,但是样本数据客户有非常相似的特征。这两家银行就可以通过横向联邦学习建立一个模型。


纵向联邦学习适用于参与方之间的数据样本是对齐的,但是在数据特征不同,因此可以将纵向联邦学习命名为按特征划分的联邦学习(Feature-Partitioned Federated Learning)。



当参与方两家公司提供不同的服务但在客户群体上有非常大的交集,且数据特征的重叠部分较小时,则可以通过纵向联邦学习训练模型。


当参与方的数据样本和数据特征重叠都很少的情况时称之为联邦迁移学习。



联邦学习的应用场景


联邦学习作为隐私计算三大技术路线之一,为解决数据流通过程中的数据安全提供了技术路径,对隐私计算这一新兴技术在重要垂直行业的落地及数据要素市场化的发展起到了重要推进作用。 


医疗行业


越来越多的医疗服务提供商开始使用人工智能技术,但是人工智能技术在医疗行业的应用仍处于起步阶段,其中的一个关键因素就是数据问题,即缺乏大量的、具有丰富特征的、可以用来全面描述患者症状的数据。


医疗数据与生命健康息息相关,具备复杂性及高度敏感性,强监管属性。目前,医疗数据主要产生并存储于医疗机构及政府平台之中,其处理涉及政府、医院、企业、个人等多个主体。在该场景下,为实现医疗数据共享与合规、个人隐私保护的平衡,可采用联邦学习将所有的参与方协作地训练一个共享模型而不交换或公开他们的私有数据。


通过联邦学习的应用,可打破医院、医药公司、第三方服务平台等医疗机构之间的数据孤岛实现数据建模,同时打通医院间的数据孤岛将促进AI医疗落地和发展。


金融行业


金融领域也是人工智能被广泛应用的领域,联邦学习能帮助显著改善风险量化能力、降低整体金融产品价格。如针对小微企业信贷、个人贷款等风险管理场景中征信报告相关数据存在的频次低、数据维度缺失等问题,银行可以针对小微企业引入发票数据,针对个人贷款引入个人消费数据和社交数据等来提高风控能力。


物联网行业


物联网已经渗透到生产生活的各个方面,同时也产生了海量的数据,如何有效利用这些数据是一个很重要的问题,将其收集到云端会可能会带来巨大的传输开销,也会违反数据隐私法规。联邦学习能够使得边缘计算设备在不向云服务器发送数据的情况下协作训练模型。


数据是数字经济时代涌现的新型生产要素,是数字经济时代社会价值和财富创造的关键驱动力,随着数据孤岛、用户隐私泄露等问题越来越受到关注,联邦学习的应用场景也将越来越多。启明星辰隐私计算平台基于不同场景化的需求,在数据流通过程中,解决计算环节的信息保密问题。


作为数据安全领域的标杆企业,启明星辰汇集近二十年的深厚数据安全技术经验,推出了数据安全体系和能力战略构建——数据绿洲,面向数据的系统属性、业务属性、经济属性提供全方位的安全技术及管理的体系化保障,以安全实践守护数字化转型中的各类用数场景,牢筑数字经济健康发展安全基石。