前言
2015年9月,国务院印发《促进大数据发展行动纲要》,明确提出要发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。
在国务院的部署与推动下,各行各业都在谋划自己的大数据中心和大数据产业,出版业也不例外。其实,人们对“大数据”的膜拜,再早可以追溯到《大数据时代》这本风靡一时的书,随着美国影视作品《纸牌屋》的播出和热评,使“大数据”又有了形象化的宣传效果。当人们热议“大数据”的时候,我们的出版业又拥有哪些数据呢?算是“大数据”吗?如果是的话,又该如何应用大数据技术呢?
基于以上原因,我们开始着手进行相关的调查和研究。首先,我们对我国出版业近十年出版的书刊报内容数据量进行了详细的测算和统计,同时也对近十年来的发行数据、印刷复制数据、进出口数据、版权数据等出版业相关数据进行了全面的统计。根据本书统计结果可以看出,2007~2016年我国传统出版业书刊报累计出版内容数据量(不含复本数)为2.87TB。可见,最近十年正式出版的书刊报累计内容数据量规模也就在TB级别,就某个单一出版单位的出版物来说,其数据规模仍然比较有限。
除此之外,我们还邀请了15家单位结合行业背景和各自大数据技术应用产品撰写了案例,就他们的业务特征、产品架构、实施步骤,以及对大数据的思考进行分享。这15家单位目前都建立了比较完整的大数据应用平台,已经投入市场并积累了一定用户,他们在大数据转型方面的经验或许可以让传统出版单位得到启发。
同时,本书从数据类型、数据特征、数据利用等方面分析了传统出版业与互联网新兴产业之间的异同,深入剖析了大数据对传统出版业的冲击与影响,也归纳总结了国家积极推动传统出版业进入大数据时代所采取的一些措施以及出版业在大数据时代的应对尝试,并为传统出版单位在大数据时代的发展提出了思考和建议,最后,我们在“写在后面的话:坚守与变革——一个值得思考的问题”中提出了对出版业开启大数据研发与应用的一些看法,仅供参考。
本书在研究和撰写过程中,得到了多方面的帮助与支持,也参考了大量的文献,并尽量标注了出处,在此一并致谢。由于大数据和出版业都在不断地更新发展中,数据测算及统计分析上或有不妥之处,恳请业内同行、读者谅解,并给予指正。
著者
2018年1月