数据安全、隐私保护、数据孤岛是AI时代遇到的普遍难题。
在人工智能的发展道路上,除了算法、算力的要求,“喂养”人工智能模型需要海量、多维数据进行模型训练。在此过程中,数据安全、个人数据隐私等风险事件频发,数据孤岛现象频现。隐私与数据保护越发得到重视,相关的法律法规日渐严格和完善。
在此背景下,“联邦学习”为以上问题的解决提供了一个可行方案。
(资料图片仅供参考)
所谓“联邦学习”,其基本思想是建立一个共有模型,各个参与者的身份和地位相同,通过加密机制下的参数交换方式,实现不同企业、不同部门所拥有的数据不交换、不移动。在不违反数据隐私保护法律法规的前提下,模型利用全量数据进行训练和模型优化,从而得到最优模型结果。
香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会(CAAI)荣誉副理事长、微众银行首席人工智能官杨强教授曾以羊与草为喻,形容联邦学习的思路所在。
假设用一只羊来类比机器学习模型,我们希望羊吃了草以后能够长大。过去的做法是,把草买到一起来建立模型。羊不动,但是草被购买到中心。相当于用简单粗暴的办法来获取数据,形成大数据,来建立模型。
但我们希望能够保护各自的隐私,所以让草不动,让羊动。也就是说,我们带着模型到不同的草场去访问,那么久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。
“联邦学习”在解决数据共享和数据隐私保护领域展现出强大的吸引力。到目前为止,联邦学习已在金融、广告营销等方面获得落地。
比如,互联网平台推送“千人千面”式的营销信息时,其背后的推荐模型就需要大量用到用户的特征数据。但单一企业只拥有用户的一部分特征数据,如果可以接入更多其他互联网企业的数据或者是投放广告主关于用户的数据,那么将大幅提升广告推荐的效果,既能提升点击率也可以提升广告主的ROI,联邦学习的出现就很好的解决了这个问题。
金融领域同样如此,单个金融机构掌握的用户信息较少,除了个人征信系统之外,各平台数据之间彼此是不互通的。联邦学习的出现同样让各大金融机构之间可以联合建模,对于用户的资质进行全面客观的评价,降低贷款的违约率和资产的不良率。
不过在现实中,“联邦学习”商业应用仍然面临一些问题,且其在技术研究中也仍然存在一些难点有待突破。
比如,如何在效率、性能与安全性之间取得平衡是一个难题。目前“联邦学习”系统严格保护用户本地数据不外泄,只传输模型更新,而且即使是模型更新,也会对模型进行加密后再传输。对于更复杂的加密系统,就意味着回传也需要更多的资源和实践去解密。效率、性能与安全性之间有此存在冲突。
再如,“联邦学习”面临着的“数据下毒”的威胁。联邦学习的分布式特点以及安全聚合机制往往让数据造假变得更容易,更难被发现和举证。每一方都有可能通过构造“数据下毒”来控制整个模型的训练结果。
经过数年发展,“联邦学习”究竟在技术和商业应用层面有何发展?
对此,钛媒体App近日专访了杨强教授,杨强是国内联邦学习领域的知名学者。2018年,杨强带领的微众银行AI团队在国内国内引进了并延展了联邦学习(Federated Learning)概念,在国际首次系统性提出联邦学习理论。2019年,微众银行AI团队开源了首个工业级联邦学习技术框架FATE,同年6月捐献给Linux基金会。
不久前,杨强教授的团队与上海交通大学、中山大学等机构联合撰写的三篇论文被IJCAI 2022、TPAMI 2022、ACM TIST等国际人工智能顶级学术期刊和顶级学术会议收录发表。三篇论文分别为:《联邦学习中隐私与模型性能没有免费午餐定理》、《FedCG: 联邦生成对抗网络保护隐私保障性能》、《FedIPR:联邦学习模型所属权验证》。
在杨强教授的回答中,有三点观点值得关注。首先,在联邦学习的隐私保护、模型性能、算法效率三者需要平衡,且可以平衡,目前杨强教授的团队已经找到了一条在更好的隐私保护能力的同时,让模型性能上也具有竞争力的一条道路。
其次,长远来看,随着社会数智化的发展、数据要素的流通、数据交易所的落地,数据的定价、数据知识产权的认证,数据安全隐私的保护等环节都离不开联邦学习,这也是联邦学习发展的最大机遇。
第三,让技术和法律法规结合起来是一大挑战。关键是要让整个联邦学习决策过程变得可解释、透明,并且可监管、可问询、可追踪。
以下是钛媒体App与杨强教授的采访实录,经编辑后发布:
解读三篇论文:从理论到实践,再到规模化和工程化
问:近期发表的3篇论文,分别是从信息论、联邦学习效率提升以及模型版权验证切入,为什么会选择这3个角度作为研究的切入?背后有怎样的研究路径和规划?
杨强:计算机学科的发展往往是先有理论再有实践,然后进一步发展理论,我们现在处于第三步,那么这一步的理论要解决的问题是什么?
首先,我们要注意联合建模的安全性(这个是大家特别关心的)和联合建模的可用性。如果只是一个极端安全的模型,没有人能用,这东西也没用。模型质量要好、准确率高,同时训练速度要快,要安全,需要这三点的平衡。
基于这三点的平衡,我们就要做下面几件事,第一件事,是要证明这其中确实是需要做平衡的。因此,我们发布的文章《联邦学习中隐私与模型性能没有免费午餐定理》阐述,联邦学习的隐私和模型性能是没有免费午餐。两者必须要做出权衡和取舍。
第二,在联邦学习的安全和效率之间,有没有可能很聪明地发明一些算法,能够实现安全性和模型的效能,以及准确率的同时提升。我们发表 《FedCG:联邦条件对抗生成网络》阐述了,我们可以在每一个参与方都建立一个它的镜像模型,然后让这些镜像模型之间互相沟通,这样就大大的降低了隐私泄露的可能性,同时我们建模效率和效果都大为提升。
关于最后一篇文章,联邦学习不仅仅是一个训练、一个模型,而是从数据的收集、选择,模型的训练,到模型的治理,直至模型和别人进行交换。在这种情况下,我们就提出了“全生命周期的联邦学习的模型治理”。
具体来说,模型治理其实和数据治理一样重要。未来的世界我们看到是一个数字化的世界,而数字都是以模型的形式出现。但是,每个模型是谁做出来的,谁用过,谁从谁那买的,这个模型有什么危险性,有什么特别性等等,这些问题我们都叫模型的所属权验证。而在模型里面加入水印实现归属权的验证,目前在业界我们是第一个做出来。
我们基于这3个不同的角度,从理论到实践,到规模化,到工程化生命周期管理,应该说是一个全面的概括。这是“可信联邦学习”的一个里程碑。
行业应用及商业前景
问:从目前的应用,到未来可以预见的一些场景,联邦学习会产生哪几方面的影响?在与行业结合的过程中,还有什么问题需要注意?
杨强:越来越多的行业在提数字化和智能化,联合起来就是数智化。数智化的过程,离不开一个观念,就是数据要素的流通,数据从一个地方流到另外一个地方,通过数据交易所进行交易。所以需要对数据进行定价,数据的知识产权要有认证,数据的安全隐私要有保护,这些要求是未来金融的一些重要的特征,而所有这些都离不开联邦学习,联邦学习实现这些目标的一个有力工具。
未来要注意的一个重要方面,就是如何有机地让技术和法律法规结合起来。现在有数据安全法,还有很多金融行业的一些规章制度,其中有一部分是可以用技术来实现的,但是有一部分是需要有法律和监管来实现的,这两方面的有机结合,我们现在正在尝试。我们要做到这种无缝的对接,能够既有技术的保证,又有法律和规章的保证,同时又需要让整个决策过程变得可解释,透明,并且可监管、可问询、可追踪,这些都是我们所面临的一些挑战。
问:从商业化的角度来看,联邦学习未来的商业潜力是怎样的?
杨强:其实他们就像任何技术一样,是需要满足自然的发展规律的,比方说一个技术的出现,先适用在一些案例上,取得了成功,于是各方都想积极地参与试用,会发现一些挑战,会有一些新的解决方案,让这些技术进行升级,这样最后能够成熟到大家都普遍使用,所以联邦学习和刚才所说的这些技术,也是一样的,要满足这样的规律的。
这其中的市场空间应该是很广泛的,在我个人看来,未来的计算,一定是数据和模型的计算。为了保护数据安全和用户隐私,在我们管道里跑的不应该是原始数据,应该是由数据产生的模型,而模型的交流组合、更新迭代,认证审计,这些都需要我们整个人工智能行业和大数据行业的升级迭代,都离不开联邦学习。(本文首发于钛媒体APP,作者|蔡鹏程)