前言
2021年可以说是数据隐私与数据治理元年。社会各界都在觉醒,并探讨其规范与解决方案,这与2006年我开始关注这个问题时的社会环境大不相同!
在数据隐私方面,《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》相继出台,全面、多领域构筑了我国信息与数据安全的法律保障,隐私问题不再是模糊不清的法外之地。在数据治理方面,《“十四五”数字经济发展规划》《互联网信息服务算法推荐管理规定》分别关注了数据与算法中的治理问题。而继《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》提出将数据纳入生产要素后,中共中央网络安全和信息化委员会办公室更是在《“十四五”国家信息化规划》中进一步提出“加强数据治理”。
紧随国家的战略导向,企业也在不断尝试。在数据隐私方面,小米等手机厂商突破性地在系统中内置拦截网和隐匿面具等隐私功能,为用户隐私保驾护航。
如何将数据隐私与数据治理从法律文字落到实际应用仍不明晰,诸多问题依赖“行业自律”,而大多数企业仅聚焦于“合规”问题。社会各界都翘首以盼一套系统讲述数据隐私与数据治理概念和技术的读本!这正是本书关注的重点,以期对当下数据要素驱动下的数字经济所面临的数据挑战给出基本的应对之策。
本书由笔者的团队依据多年的研究编写而成,旨在从概念和技术的角度对数据隐私与数据治理进行系统阐述,为学术研究机构、政府部门、企业等梳理数据隐私与数据治理的知识体系提供入口,为提高全民的数据素养提供辅导材料。同时,要厘清问题,解决问题,需要从提升大家的“数据素养”着手。数据素养未来可能是科学素养的重要组成部分,而数据素养首要的任务就是让大家具备对数据与隐私的认识和处置能力。这也是促使我们编写此书的直接动力!
本书从四个方面对数据隐私与数据治理进行了深入浅出的论述。
第一篇“基础知识”,主要阐述数据隐私与治理的基础概念与方法体系。该篇基于对数据发展主线的认识,揭示数据隐私和治理产生的根源,并结合当下应用现状概述隐私的构成要素、管理框架、治理体系和治理实践。其核心要点是针对数据要素和数字经济,提出数据隐私要由被动保护变为主动防护,数据治理要由大数据全生命周期治理转变为后大数据时代的数据生态治理,更好地服务数字经济的发展。该篇内容尽可能减少晦涩的专业定理与描述,从多角度讲解数据隐私与数据治理,既可以帮助相关专业的技术人员建立完善的隐私保护与数据治理体系,也可以供普通用户阅读以增加认知。
第二篇“大数据隐私保护技术”,主要阐述面向共享与发布的隐私保护技术。该篇重点介绍当下主流的隐私保护技术,包括云平台场景下中心化的差分隐私技术,边缘计算场景下本地化的差分隐私技术,以及为提高数据可用性的隐私放大理论、差分隐私与密码学相结合的混合方法等。该篇内容较为专业翔实,具备前沿性,主要面向该方向的专业人员。
第三篇“人工智能隐私保护技术”,主要阐述面向机器学习模型的隐私保护技术。该篇重点介绍集中式机器学习和联邦学习两种场景下的隐私方法设计,包括机器学习中存在的因数据非法窃取导致的直接隐私泄露问题和因外部隐私攻击导致的间接隐私泄露问题,以及为提高模型可用性的个性化差分隐私方法。该篇内容与机器学习密切相关,具备前沿性,主要面向该方向的专业人员。
第四篇“数据生态与数据治理”,主要阐述面向数据市场和数据生态的治理技术。该篇基于数据要素的发展理念,重点介绍数据市场中数据交易与数据流通治理体系,以及数据生态中数据垄断、算法公平的治理方法。其核心要点是要建立数据透明的治理体系,实现对数据全链条、透明化的监督治理,做到治理的事前预警、事中防护、事后溯源,为数字经济的发展保驾护航。该篇内容从全新的视角介绍数据作为生产要素在市场流通中会产生的诸多问题,探讨其可能的解决方案,可供相关领域的专业人员、政务人员,以及普通用户阅读,帮助他们全面认识数据治理。
总之,本书梳理了数据隐私与数据治理的基本解决之道,并打破传统的认知体系,实现观念、技术、架构的转变,即观念上从数据生命周期观到数据生态观的转变、技术上从隐私保护到隐私防护(管理)的转变和架构上从溯源问责到数据透明的转变,才能跟上形势,从而保证数据要素在市场中发挥关键作用。希望本书为教育机构的人才培养和政府部门的管理提供有价值的参考资料,促进我国数字经济的发展。
该书构思于2020年年初,笔者与团队中的王雷霞、刘俊旭、范卓娅、叶青青、刘立新和李梓童一起,历经数次编撰、修改,形成了当前的版本。笔者团队尽可能将本书中所涉及的内容描述得清晰易懂,如有疑惑,可联系笔者团队进行交流。希望大家都能从本书中有所收获,能更加清晰地看到生活中无处不在的隐私问题,亦能有所行动!
孟小峰
中国人民大学
2023年1月1日