当前位置:首页 > IT资讯 >

为什么说共享智能是破解数据孤岛的“关键钥匙”IT资讯

来源:天之家 发表于:2021-04-05 09:10 阅读:

  人工智能时代,最重要的是什么?数据!

  使用数据时,最关心的问题是什么?隐私!

  随着经济全球化的发展,数据已然成为当今世界最具价值的资源。在人工智能领域,数据的地位无可取代,如果没有数据很难将AI更好的落地,然而数据与数据之间却往往存在着难以打破的壁垒,也就是我们常说的数据孤岛。同时,由于各界对数据安全重要性认知的不断加深和隐私保护法案的出台,互联网公司也更加难以收集和利用用户的隐私数据,数据孤岛成为了常态。

  如何在满足隐私保护和数据安全的前提下,打破数据孤岛,实现数据的流通与共享,成为AI行业需要解决的首要问题之一。为此,蚂蚁金服提出了共享智能解决方案。

  什么是共享智能?

  蚂蚁金服提出的共享智能(又称:共享机器学习)是为解决数据共享需求与隐私泄露和数据滥用之间矛盾的技术解决方案,在结合TEE与MPC两条路线的同时,结合蚂蚁的自身业务场景特性,聚焦于金融行业的应用。

  简单来说,共享智能的概念,或者说理念,是希望在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息进行分析和机器学习,并确保各参与方的隐私不被泄漏,信息不被滥用。共享智能具有以下特点:

多种安全计算引擎整合,可基于不同业务场景来选择合适的安全技术。既有基于TEE的集中式解决方案,也有基于MPC的分布式解决方案;既可满足数据水平切分的场景,也能解决数据垂直切分的诉求;既可以做模型训练,也可以做模型预测。

支持多种机器学习算法以及各种数据预处理算子。支持的算法包括但不限于LR,GBDT,Xgboost,DNN,CNN,RNN,GNN等。

大规模集群化。支持大规模集群化,提供金融级的高效、稳定、系统化的支撑。

  事实上,自2016年开始,蚂蚁金服就一直致力于共享智能的技术研发。基于数年沉淀与积累,目前共享智能已发布论文超过10篇,获得专利超过80余项,在标准立项上也在IEEE共享智能和ITU-T MPC国际标准、CCSA共享智能行业标准以及AIOSS / AIIA共享智能联盟标准方面都在同步立项推进,同时还荣获了2019中国人工智能峰会“紫金产品创新奖”、2019全球人工智能创业者大会“GAISC Award 2019 应用案例示范奖”、2019CCF科学技术奖科技进步优秀奖和2019世界人工智能大会“世界人工智能产业安全十大创新实践”等多个奖项,体现了业界对蚂蚁金服共享智能技术的认可。

  如何打破数据孤岛,实现数据可用不可见

  让数据孤岛安全的进行连接、合作、共创、赋能,是蚂蚁金服共享智能的核心使命。

  为了达到这一目标,蚂蚁金服使用了很多业界已有的技术,比如学术圈一直在研究的差分隐私、很多大数据厂商在探索的可信执行环境、随着计算力和硬件技术的提升+密码学突破而广受重视的多方安全计算等。

  具体来看的话,第一种方案是可信执行环境的方案,主要依赖中间的硬件级的保险箱Enclave,双方通过一些密码学的机制,把数据进行加密,加密之后只有在密码箱里面才能解密,解密以后做各式各样的计算,因为密码箱是第三方可信的密码箱,大家不信任彼此的情况下,信任密码箱即可,这样在数据隐私不会泄露的情况下,去做各式各样AI的算法。

  这种方案依赖可信硬件,通过数据加密的方式,集中传送到可信的平台。对于一些机构,本身就已经上云,把所有的东西都存放在云上面,所有的技术在云上面部署,那么采用这种方式非常快速便捷,同时又能达到很好的隐私保护的效果。

  第二种方案是偏软件级别的方案,我们在中间把数据做相应的处理后再进行计算。比如说像秘密分享的技术,通过把数据拆分完以后,几方通过发送随机数来完成运算,然后可以完成各式各样AI的计算和模型;还有像同态加密这样的方法,在加密后的空间里面做相应的运算来完成AI的计算,中间有一个控制模块来共同完成学习的目标。这个方式本身不涉及到硬件,是偏软件+密码学的方案,中间出去的是随机数/加密中间结果,目前业界隐私+AI结合的方向上,用这个方案相对来说比较多。