海量新知
5 9 1 5 1 5 8

【案例】为金融企业搭建基于数据内容和行业词库的智能化数据分类分级平台

财经快报 | 2022/08/22 19:14:28

近年来,数据泄露事件越发频繁,企业也越发关注数据安全和数据保护。到目前为止,关于数据泄露的好消息是:与去年相比,每次网络攻击的受害者数量似乎都有所下降。但坏消息是,根据Identify Theft Research Center中心的数据显示,与2021年同期相比,2022年第一季度实际报告的数据泄露事件数量增加了14%,达到404起。

根据Identify Theft Research Center的数据显示,医疗机构、金融服务公司、制造企业和公用事业企业仍然是黑客的首要攻击目标。

御数坊拥有十年以上全栈数据治理经验,我们不仅在数据治理领域深耕细作,近些年也在数据安全解决方案中不断突破,为企业构建更智能的专属数据安全保护伞。 御数坊凭借,多年数据治理经验,同时结合数据安全实践成果,为客户提供可靠的数据安全治理一体化服务,实现咨询+产品的创新服务模式,依托强大的自主研发产品功能和出色的实践表现,帮助企业实现数据安全治理的落地见效。

御数坊凭借先进的数据安全治理一体化解决方案,为某证券公司成功完成了智能化数据安全分类分级平台的搭建。

项目方案介绍:

随着证券行业数字化转型的深入开展,数据已成为企业的重要资产。该公司以数据赋能业务为导向,开展了一系列的数字化工作,在保障客户服务、提高客户粘性、开展业务创新和控制业务风险方面,成效显著。在数据治理方面,围绕数据采集、传输、存储、使用和销毁全生命周期各个阶段,从保障机制、数据治理专项能力和技术手段方面发力,提高数据在业务过程中的价值。

随着数据应用渗透到公司的日常业务经营管理的方方面面,业务部门对数据提出了越来越高的要求,尤其是公司跨部门、跨系统的数据共享,以及数据的分析应用, 如何保障安全的情况下,提高数据共享的效率,成了摆在数据治理团队面前的重要任务。

该公司以数据认责为基础,参照《JRT 0158-2018 证券期货业数据分类分级指引-证监会》,对业务数据进行字段级的分类分级,针对每个级别的数据,制定相应的数据安全管理策略,开展数据保护工作。这样,一方面,提高了数据安全保障,另一方面,也优化了数据共享和数据应用机制。

数据分类分级,是落实《数据安全法》和《个人信息保护法》以及行业监管要求的第一步,也是最重要、最困难的一步。数据分级分类能够帮助企业建立一个数据安全风险保护的框架,其中风险包括但不限于未经授权的销毁、修改、公开、访问、使用和删除。数据安全分级分类为数据安全管理及管控提供了坚实的基础,可以帮助企业建立统一数据安全管控基础,以及满足行业监管要求。

在前期表级数据分类分级工作基础上,进一步开展字段级数据分类分级工作。通过采购专业智能化分类分级平台,解决前期在人工梳理过程中存在的百万级字段识别定级的效率低、准确度差和人工难以更新维护等问题。

智能化数据分类分级平台是在数据治理的基础上建立智能化的数据安全分类分级的能力,然后基于数据安全分类分级的结果来构建数据安全管理机制和管控策略,有助于推进企业数据安全建设的整体能力提升。

智能化数据分类分级平台可以与数据资产运营平台对接,充分利用数据资产运营平台的单点登录功能、用户和机构信息,在数据资产的管理上能做到字段级别的数据安全分类、分级、权限管理,为企业未来的数据安全管控打下坚实的基础。

智能化分类分级平台的部署架构图如下:

项目创新点:

该项目在数据安全分类分级的自动化处理上实现了创新,主要的创新点包括如下三点内容:

(1)行业安全词库构建: 在《中华人民共和国数据安全法》、《个人金融信息保护技术规范》、《金融数据安全 数据安全分级指南》、《证券期货业数据安全分类分级指南》的指导下,结合公司数据管理的现状,从业务文档与数据模型中提炼整理形成符合公司的数据分类与分级的标准,并在此标准的基础上细化形成了行业的安全特征词库,收录关键词条19758条;

(2)实现字段级别的智能分类分级: 构建了数据资产目录级别与数据内容级别两种颗粒度的数据安全分类分级技术定级能力;

  • 数据资产目录分类定级: 基于自然语言处理、机器学习与知识图谱实现基于行业安全特征词库的语义空间向量计算与关系计算,从而实现定级对象与分类分级标准之间的映射管理关系,为分类分级提供法律法规、行业规范的依据;

  • 数据内容级别分类定级: 在数据资产目录分类分级的基础上采用智能化数据辅助识别,一方面通过内容识别弥补数据资产目录中部分资产语义缺失带来的定级误差,另一方面通过内容识别对资产识别的结果做双保险校正,从而提高数据安全分类定级的准确度;在数据内容识别方面主要是利用智能特征数据提取识别、正则表达式与关键词的方式判断当前存储的数据内容代表的数据对象信息;

(3)基于数据安全的数据共享: 基于数据安全分类定级的结果设计了数据共享的差异化审批流程,在进行数据共享时根据使用人员的组织、业务等特征结合需要使用数据的数据安全分类定级结果自动构建差异化的审批流,在提高审批的效率的基础上促进数据的安全共享。

技术实现特点

自然语言处理: 通过自然语言处理的能力在知识建模本体的基础上解析企业内的相关资料获取业务以及技术的相关语义信息,丰富数据资产的治理内容,并按照业务、应用以及数据的管理逻辑构建企业内业务、技术及数据的知识图谱;在这方面主要是按照一定的规则对提取的内容做分词处理、经过语义向量计算、语义加权、维度评估、向量内积、词频平滑、权重评估等多个步骤实现语料库的构建与专业词典的建立;

知识图谱: 知识图谱为企业内数据间业务逻辑关系、应用归属关系与数据架构关系的图谱化体现,通过知识谱图可以快速获取到企业内数据与数据之间、数据与应用之间、数据与业务之间的关系,为数据安全分类定级的判定提供数据场景的识别支撑,并在一定程度上为数据安全分类定级的数据安全溯源提供服务;

智能算法服务: 通过智能算法服务为数据安全分类分级模型计算与算法库构建的综合服务能力;通过多维度空间、梯度下降、最长公共子序列、模型效果评估、递归神经网络等多种算法的组合应用为数据安全分类与分级提供算法上的支撑。

项目成效

经济效益: 在经济效益方面主要体现在如下几个方面:

(1)降低人工投入: 通过数据安全分类定级安全特征词库的构建与自动化智能分类定级,可有效降低数据安全分类定级工作中的人工投入成本达70%以上,将人工定级模式转化为基于经验与推荐结论的专家审核模式;

(2)增量数据资产及时定级: 可自动发现与识别企业内新增的数据资产信息,并自动化完成分类定级,及时将增量数据资产加入到数据安全管控的体系范围内,降低数据流通与使用的安全风险;

(3)数据共享效率提升,数据使用效率提升: 通过基于数据安全分类定级的数据共享体系的构建,提高了数据共享的审批效率与数据需求分析的建设效率达20%以上;

总体上说,这一案例的亮点在于通过数据治理项目也为企业建成了比较成熟的架构,全面提升公司数据治理的各个能力领域,完成了从数据支撑到数据赋能的数据治理模式。在未来,公司将以过程管理以及末端处理”的数据全生命周管理模式为基础,依托御数坊提供的智能化数据分类分级工具,为公司核心的数据安全应用与合规共享助力,持续支撑公司数据字化转型和业务发展的目标。

社会效益:

作为企业数据资产管理与安全管控的重要基础,为与外部企业和组织开展数据增值服务合作提供依据和保障,在一定的管理审核支撑下,向其他行业以及社会开放特定的数据,实现金融数据的社会赋能。

经验总结:

通过该项目的实施,通过数据安全分类定级的自动识别管理提高了企业数据使用的使用效率,在一定程度上实现了企业内数据增效企业外数据增值的数据管理目标,也为企业通过数据治理成果在语义层面实现智能化应用提供了一次有意义且成功的实践。

在实施过程中,企业内有一个好的数据治理的成果是数据安全分类分级成功的关键。企业内数据治理普遍遇到的问题是数据资产的质量并不高,很多企业都存在大量数据资产中文描述与业务描述信息缺失的管理情况,在这种情况下语义识别与知识图谱计算缺少必须的预料信息,从而造成推荐结论可能出现一定的偏差。

更多相关内容

更多相关内容

猿巴巴_商业服务平台精选

更多精选内容