随着学校业务增加,为了保证学校数据安全,特制定存储媒体安全管理规定。本规定适用于学校所有数据的管理工作。
一、组织机构及职责
各部门负责人是确定本部门敏感数据的责任人,部门负责人应定期向数据安全管理人员提供本部门敏感数据的备份或最新的备份。
二、数据脱敏原则
数据脱敏工作不仅要确保敏感信息被去除,还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多个因素。因此,为了确保数据脱敏的过程、代价可控,得到的结果正确且满足业务需要,在实施数据脱敏时,应从技术和管理两方面出发,符合以下原则。
(一)有效性
数据脱敏的最基本原则就是要去掉数据中的敏感信息,保证数据安全,这是对数据脱敏工作最基本的要求。有效性要求经过数据脱敏处理后,原始信息中包含的敏感信息已被移除,无法通过处理后的数据得到敏感信息;或者需通过巨大经济代价、时间代价才能得到敏感信息,其成本已远远超过数据本身的价值。此外,在处理敏感信息时,应注意根据原始数据的特点和应用场景,选择合适的脱敏方法。
(二)真实性
由于脱敏后的数据需要在相关业务系统、测试系统等非原始环境中继续使用,因此需保证脱敏后的数据应尽可能的真实体现原始数据的特征,且应尽可能多的保留原始数据中的有意义信息,以减小对使用该数据的系统的影响。
真实性要求脱敏过程需保持用于后续分析的数据真实特征,以助于实现数据相关业务需求。包括但不限于数据结构特征和数据统计特征:数据结构特征是指数据本身的构成遵循一定的规则(例如身份证号由地区编码、生日、顺序号和校验码组成);数据统计特征是指大量的数据记录所隐含的统计趋势(例如开户人地区分布、年龄分布等)。
为达到真实性要求,在开展数据脱敏工作时,一般情况下应注意:保持原数据的格式、类型,保持原数据之间的依存关系,保持语义完整性,保持引用完整性,保持数据的统计、聚合特征,保持频率分布,保持唯一性。
(三)高效性
应保证数据脱敏的过程可通过程序自动化实现,可重复执行。在不影响有效性的前提下,需注意平衡脱敏的力度与所花费的代价,将数据脱敏的工作控制在一定的时间和经济成本内。本质上,高效性是成本和安全性相互作用的结果,在确保一定安全底线的前提下,尽可能减少数据脱敏工作所花费的额外代价。
(四)稳定性
由于原始数据间存在关联性,为保障数据使用者可正常使用和分析数据,因此数据脱敏时需保证对相同的原始数据,在各输入条件一致的前提下,无论脱敏多少次,其最终结果数据是相同的。如最终结果是不稳定的,可能导致数据使用者无法将本有联系的数据正确的进行关联,从而造成数据的使用出现问题。例如,某ID有两条记录,但是由于脱敏结果的不稳定,得到了两个不同的脱敏ID1和ID2,则在使用该数据时,就无法得知ID1和ID2其实是同一个ID,从而使得数据分析结果出现错误。
(五)安全性
具备安全审计机制,一旦发生泄密事件可用于问题排查及数据追溯分析。
(六)可配置性
同一份原始数据,可能被用于不同的数据分析场景,由于不同场景下的安全要求不同,数据脱敏时的处理方式和处理字段也不尽相同。因此需通过配置的方式,按照输入条件不同生成不同的脱敏结果, 从而可以方便的按数据使用场景等因素为不同的最终用户提供不同的脱敏数据。
三、数据脱敏规则
一般的脱敏规则分类为可恢复与不可恢复两类。
(一)可恢复类。指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。
(二)不可恢复类。指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。
四、数据脱敏需求
学校数据脱敏需求包括:通过数据抽取、数据漂白、数据混淆等处理过程,用来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数据处理过程满足学校的敏感数据防护的政策规定。
具体脱敏需求包括:
(一)防止生产库中的敏感数据泄漏
通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用,防止生产库中的敏感数据泄漏。
(二)保证测试、开发、应用阶段的数据关联性
通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系),以提升测试、开发、应用环节的数据真实性和可用性。
(三)保证数据维护和数据共享的安全
对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者的不同访问策略,满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。
(四)保证隐私数据管理的政策合规性
数据的脱敏和数据处理必须在学校的相关政策规定允许的情况下进行,脱敏规则符合学校的数据管理要求。
五、数据脱敏方式
按照数据处理方式的不同,可以将数据脱敏分为静态数据脱敏和动态数据脱敏两大类。
(一)静态数据脱敏
静态数据脱敏指将数据文件进行去敏感、去隐私化的处理同时保证数据之间的关联关系。外发给第三方公司进行开发测试或是数据分析,得到的分析结果后能够将分析出的数据进行回溯。
静态数据脱敏适合数据拥有者在和多个外部开发团队的数据融合和数据共享中使用,保证开发、测试环节不会泄漏数据。
(二)动态数据脱敏
动态数据脱敏指用户在前端应用处调取后台数据库中敏感数据时,进行数据脱敏,再反馈至前台呈现。可在通讯层面上,通过代理部署方式,对业务系统数据库中敏感数据进行透明的、实时的脱敏。通常依据用户的角色、职责和其他定义身份特征,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,可确保不同级别的用户按照其身份特征恰如其分的访问敏感数据,并且不需要对生产数据库中的数据进行任何改变。动态数据脱敏同样支持同义替换、部分遮蔽、混合脱敏、确定性脱敏及可逆脱敏,通常可根据不同用户身份特征,指定对应的数据脱敏算法。
六、数据脱敏常用方法
(一)泛化技术
泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性,具体的技术方法包括但不限于:
数据截断:直接舍弃业务不需要的信息,仅保留部分关键信息,例如将手机号码13500010001截断为135;
日期偏移取整:按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,例如将时间20150101 01:01:09按照5秒钟粒度向下取整得到20150101 01:01:05;
规整:将数据按照大小规整到预定义的多个档位。
(二)抑制技术
抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术,具体的技术方法包括但不限于:
掩码:用通用字符替换原始数据中的部分信息,例如将手机号码13500010001经过掩码得到 135****0001,掩码后的数据长度与原始数据一样。
(三)扰乱技术
扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包括但不限于:
加密:使用加密算法对原始数据进行加密,例如将编号12345加密为abcde;
重排:将原始数据按照特定的规则进行重新排列,例如将序号12345重排为54321;
替换:按照特定规则对原始数据进行替换,如统一将女性性别替换为F;
重写:参考原数据的特征,重新生成数据。重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系;
均化:针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值;
散列:即对原始数据取散列值,使用散列值来代替原始数据。
(四)有损技术
有损是指通过损失部分数据的方式来保护整个敏感数据集,适用于数据集的全部数据汇总后才构成敏感信息的场景,具体的技术方法包括但不限于:
限制返回行数:仅仅返回可用数据集合中一定行数的数据;
限制返回列数:仅仅返回可用数据集合中一定列数的数据,例如在查询人员基本信息时,对于某些敏感列,不包含在返回的数据集中。
七、数据脱敏流程
数据脱敏的流程一般分为:敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤,结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据脱敏效果。
(一)敏感数据发现
敏感数据的发现分为人工发现和自动发现两种。对于相对固定的业务数据,可以采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据一般数据结构和数据长度不会有变化,大部分为数值型和固定长度的字符。比如:单位代码、户号、户名、用电地址等标识列,针对这些数据可以通过人工指定脱敏规则和不同的数据访问策略,保证敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特征,借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别可以减少工作量和防止遗漏。一般采用自动发现为主,结合人工发现和审核,来完成敏感数据的发现和定义,最终形成完善的敏感数据字典。
(二)敏感数据梳理
在敏感数据发现的基础上,完成敏感数据列、敏感数据关系的调整,以保证数据的关联关系。通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法,针对不同的数据类型进行数据掩码扰乱。
(三)脱敏方案制定
对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以制定最优方案。
(四)脱敏任务执行
脱敏任务的停止、启动、暂停等操作,支持任务并行处理,支持脱敏任务的中断续延等。
八、审计及追踪溯源
在数据脱敏的各个阶段需加入安全审计机制,严格详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析,一旦发生泄露事件可追溯到是在哪个数据处理环节发生的。
德州学院网络安全与信息化领导小组办公室
网络与教育技术中心(代章)
2024年3月5日