EN

数据开放实验室|致力于解决数据在受控环境下的安全价值挖掘

  • 2022年05月25日
  • 浏览量:1,726

数据是国家基础性战略资源,是21世纪的“钻石矿”。党中央、国务院高度重视大数据在经济社会发展中的作用,并积极推动保障大数据产业发展,党的十八届五中全会提出实施国家大数据战略。数据作为新的生产要素,为社会经济发展提供了新的引擎动力,必将引领未来数字经济时代新的认知和发展革命。

数字经济时代下各行业、各领域在数据融通、价值挖掘方面合作需求与意愿强烈,亟待发掘利用现有数据价值。但由于政府、企业各部门间不同系统和业务的闭塞性和阻隔性,数据信息共享困难、数据孤岛问题严重;而通过分布式建模计算整合数据源的方式,在数据的传输和处理方面效率低下;另外随着人工智能技术进一步发展和应用,数据隐私敏感性问题日益突出,传统的数据共享交换平台难以在兼顾安全和隐私的条件下实现数据融通共享,目前数据融通交易还是处于“不敢”“不能”“不愿”状态,导致数据融通的合作落地非常困难,形成了无数的“数据孤岛”。在数据合作和融通过程中,主要面临以下问题:

1.缺乏安全管控手段

2.安全保护不足

3.隐私防护不足

4.数据融通合作基础设施不完善

·数据开放实验室实现受控数据要素价值挖掘

数据开放实验室致力于解决数据在受控环境下的价值挖掘问题,在政府监管下,拉通数据供需,规避数据权属界定问题,即实现了数据要素的价值挖掘,又充分地保障了数据安全,致力于打造安全可信高效的数据分析及价值挖掘平台。

·两种模式保障数据安全性

为有效挖掘数据价值的同时保证数据的安全性,数据开放实验室的设计利用中心化与弱中心化两种模式,利用联邦学习等隐私计算技术,完成数据在提供方本地使用,完成加密联合建模,不仅提高数据共享和业务协同能力,同时确保数据不出域、保障数据隐私权。

模式一:中心化算法孵化模式

数据开放实验室中心化算法孵化模式通过封闭的网络环境和固定的物理空间,通过数据沙箱,结合统一的数据资源池,丰富的算力与算法资源,建立灵活的资源申请与回收销毁机制,充分保护数据的安全与资源的合理利用;满足用户的数据需求,实现数据的受控开放,并通过区块链技术,实现了数据协同开发过程的全流程存证记录。

模式二:弱中心化联邦学习模式

弱中心化联邦学习模式通过材料联邦学习方式保障数据不出域的价值碰撞,通过在数据拥有方部署本地计算节点,进行数据的加密样本对齐、加密训练等;数据拥有方不交换原始数据,仅在加密保护下交互中间计算结果,完成加密联合建模;消除不同数据所有方间的数据壁垒,让数据开发、数据共享、应用及管控更加便捷、高效和灵活。

产品架构

数据开放实验室面向数据所有者与数据需求方,依托于kubernetes容器化管理平台,进行数据资源、算力资源管理,实现资源隔离;依托区块链存证能力,实现数据审核、应用的全方位监管;其中,数据中台统一纳管数据,形成统一数据目录,为上层的模型训练、模型推理、数据处理、数据共享等应用提供数据源;并提供可信安全第三方平台,解决数据价值挖掘问题。

·为保障数据安全,数据开放实验室打造完整安全体系

针对数据侧,通过数据库审计、脱敏、终端防泄漏、存储防泄漏工具保障数据安全;面向服务侧,通过API网关监测、4A统一安全管控保障API访问安全;在应用侧,依托应用安全管控对应用安全进行保障;另外,在以上工具基础上构建数据安全治理管控平台形成数据全生命周期安全保障,面向用户提供数据安全可视化及管控能力。

产品优势

·低代码一站式数据开发工具

数据开放实验室支持针对结构化数据的数据分析建模、机器学习算法开发,针对非结构化(视频、文本、图片等)数据的深度学习的算法开发;同时,针对不出域的数据可以通过联邦计算的方式实现“数据可用不可见”。

图片

·一体化资源配置

数据开放实验室通过“申请-审批”机制实现数据资源、算力资源的统一管控、统一配置。数据需求者进行任务申请(涉及数据资源、算力资源申请),数据开放实验室平台运营方可以对任务进行审核并进行资源配置,从而实现数据资源和算力资源的整体运营。

·全方位安全管控

在数据开放实验室内部系统及底层平台符合“等保三级”的前提下,数据开放实验室还引入了以下安全技术手段:

(1)网络安全体系优化:在本地政务外网基础上,划分安全域,包括数据资源区、数据实验室区。数据实验区细分为数据工厂区、数据运营区,安全区间配备网络安全隔离设备,如物理防火墙、数据库防火墙及网闸设备等,确保分区间数据安全、有序、可控流转。

(2)数据全生命周期安全保障:针对数据接入、存储、传输、计算、交换、销毁流程,配备数据安全分类分级、终端数据防泄漏系统、数据存储防泄漏、网络异常行为阻断、数据库防火墙、数据库脱敏加密等系统,保障数据全生命周期安全。

(3)数据权限控制:以身份为中心,通过帐号管理、认证管理、集中授权、综合审计等软件子系统,实现应用系统及数据资源的最小实体级授权,统一的访问入口维护、运营、运维、技术及数据需求方各类用户角色的操作及生命周期进行管理。

用户价值

·激活数据要素市场,促使数据流通规范化

数据开放实验室针对数据融合困难、数据安全合规使用、数据难以流通等痛点问题,形成了完备的数据安全流通系统,在保障数据所有权的前提下对社会、企业进行数据衍生品的流通服务,为拥有海量数据的数据所有方实现最大化的数据挖掘价值,有效促进数字化建设的落地开展。

·平衡数据隐私保护与数据价值挖掘之间的矛盾

数据开放实验室基于“数据不动程序动,数据可用不可见”隐私保护新技术理念,在保证数据隐私安全的同时,还可对数据进行最大价值挖掘,从而实现数据所有权与使用权分离。该平台通过原始数据不可见、数据脱敏不可逆、隐私数据不出域保障数据开放实验室中的“数据可用不可见”,并通过实验室入驻实名、数据申请审批、数据流程区块链存证、以及数据开放实验室“固定地域+网络隔离”中心化算法孵化以及弱中心化联邦学习两种模式,保障数据开放实验室“数据使用可控可计量”,在数据加密、隐私保护前提下的数据挖掘,数据访问安全管控等能力,在保障数据所有权的前提下,可开放给社会、企业等对数据进行挖掘,充分发挥数据价值。

·分离数据所有权与使用权,打破数据壁垒

数据开放实验室用户仅能使用申请的脱敏后的样本数据进行数据价值挖掘,通过数据开放实验室可获取数据的使用价值,使用过后仅能带走数据结果,在数据开放实验室中用户仅可获得数据的使用权,而无法获取所有权,打消了数据所有者对于数据价值挖掘的安全顾虑。