坚守与变革?遭遇大数据时代的传统出版业
上QQ阅读APP看书,第一时间看更新

第二节 传统出版业数据规模

关于传统出版业的数据规模,目前国内外均无明确的统计,只笼统地认为规模不大,这也只是与网上数据比较而言。被引用较多的说法是“人类生产的所有印刷材料的数据量是200PB”,但在第一章开始部分我们已经认真考证过,这个数据究竟如何得出也无从追查。为了弄清楚我国传统出版业的数据规模究竟有多大,我们尝试着利用国家新闻出版广电总局每年发布的《中国新闻出版统计资料汇编》中的统计数据原新闻出版总署于1997年1月1日颁布了《新闻出版统计管理办法》,从1997年开始每年对我国新闻出版业基本情况进行统计,并向社会公布。,并通过一定的计算方法,来得出我国传统出版业的内容数据量,以便大家了解。

一 内容数据量的计算方法张立:《出版业有“大数据”吗?》,《出版人》2016年第8期,第52~55页。

为便于计算传统印刷媒体的整体内容数据量,著者分别以中国新闻出版研究院所属中国书籍出版社出版的图书、出版发行研究杂志社出版的期刊,以及中国知识产权报为例,制定了一个每面大约排字量的计算标准(见表1-2),为方便统计,将图书、期刊、报纸中的图片、公式等换算为同等面积的文字进行计算。

表1-2 每面大约排字量计算标准

二 出版业年度内容数据量——以2016年为例

1.2016年全国出版书刊报数据量总计10.31PB

以《2017中国新闻出版统计资料汇编》中的印张数为依据进行计算,得出2016年全国出版书刊报数据量如表1-3所示。可以看出,仅2016年一年,我国传统出版业(书刊报)的内容数据量已达5803.29万亿字,10.31PB。

表1-3 2016年全国出版书刊报数据量(含复本数)

注:①汉字量=1印张汉字数×总印张;②数据量=汉字量×2。

2.2016年平均每册(份)书刊报内容的数据量

(1)图书平均每本内容数据量为430KB

2016年全国共出版图书总印数90.37亿册(张),总印张777.21亿印张,用总印张除以总印数可以得出每本图书平均印张数,即777.21亿印张÷90.37亿册(张)=8.60印张。平均每本图书内容数据量为:8.60印张×25600(字/印张)=22.02万字=430KB。

(2)期刊平均每册内容数据量为316.60KB

2016年全国共出版期刊总印数26.97亿册,总印张151.95亿印张,每册期刊平均印张数为:151.95亿印张÷26.97亿册=5.63印张;平均每册期刊内容数据量为:5.63印张×28800(字/印张)=16.21万字=316.60KB。

(3)报纸平均每份内容数据量为169.14KB

2016年全国共出版报纸总印数390.07亿份,总印张1267.27亿印张,每份报纸的平均印张数为:1267.27亿印张÷390.07亿份=3.25印张。平均每份报纸内容数据量为:3.25印张×26640(字/印张)=8.66万字=169.14KB。

3.2016年新出版的书刊报内容数据量(不含复本数)为0.32TB

(1)图书内容数据量(不含复本数)为205.03GB

2016年全国共出版图书499884种,平均每种图书为22.02万字,2016年出版图书内容数据量(不含复本数)为:499884种×22.02万字=1100.74亿字=205.03GB。多卷本已计算在内,如多卷本书籍为同一书号,则图书种数算作1,印张数为所有卷本印张数之和;若多卷本中每本书都有一个书号,则图书种数为所有卷本数之和,印张数为所有卷本印张数之和。再版书按新书计算。

(2)期刊内容数据量(不含复本数)为59.07GB

2016年全国共出版期刊10084种,平均期印数13905万册,总印数26.97亿册;用总印数除以平均期印数,可以得知实际出版期数约每年19.4期,2016年出版期刊内容数据量(不含复本数)为:10084种×19.4期×16.21万字=317.12亿字=59.07GB。

(3)报纸内容数据量(不含复本数)为61.13GB

2016年全国共出版报纸1894种,平均期印数19494.94万份,总印数390.07亿份;用总印数除以平均期印数,可以得知实际出版期数约每年200.09期,2016年报纸出版内容数据量(不含复本数)为:1894种×200.09期×8.66万字=328.19亿字=61.13GB。

2016年出版书刊报合计内容数据量(不含复本数)为:1100.74亿字+317.12亿字+328.19亿字=1746.05亿字=0.32TB。

2016年书刊报数据量(含复本数)为:1989.66万亿字+437.62万亿字+3376.01万亿字=5803.29万亿字=10.31PB。

4.2016年度每家出版社平均出版图书内容数据量为0.35GB

截至2016年底,全国共有出版社584家(包括副牌社33家);平均每家出版社2016年度出版图书数据量为:1100.74亿字 ÷584家 =1.88亿字=0.35GB。

由于《2017中国新闻出版统计资料汇编》中无杂志社和报社数量,且实际情况复杂、统计困难,故此处不计算平均每家杂志社和报社新出报刊内容数据量。

5.全国大型出版集团2014年度出版图书内容数据量由于近年未发布按出版集团的统计数据,故以2014年数据进行分析。

根据《2014年新闻出版产业分析报告》,著者选取总体经济规模综合排名前三的出版集团进行图书(不含集团中的报刊出版数据量)内容数据量的统计,具体如下。

(1)排名前三的出版集团2014年总数据量

排名第一的江苏凤凰出版传媒集团:2014年总印数39499万册(张),总印张27.46111亿印张。总数据量为:27.46111亿印张×25600(字/印张)=703千亿字=127.87TB。

排名第二的湖南出版投资控股集团:2014年总印数30051万册(张),总印张21.77402亿印张。总数据量为:21.77402亿印张×25600(字/印张)=557.41千亿字=101.39TB。

排名第三的中国教育出版传媒集团:2014年总印数45035万册(张),总印张50.56242亿印张。总数据量为:50.56242亿印张×25600(字/印张)=1294.40千亿字=235.45TB。

(2)排名前三的出版集团2014年新出图书(不含复本数)数据量

排名第一的江苏凤凰出版传媒集团:总印张除以总印数可以得出每本图书平均印张数,即274611.1万印张÷39499万册(张)=6.95印张,每本图书平均内容数据量为:6.95印张×25600(字/印张)=17.80万字;已知2014年共出版图书16534种,可得出2014年新出图书(不含复本数)数据量为:16534种×17.80万汉字=29.4亿汉字=5.48GB。

排名第二的湖南出版投资控股集团:每本图书平均印张数为:217740.2万印张÷ 30051万册(张)=7.25印张,每本图书平均内容数据量为:7.25印张×25600(字/印张)=18.56万字;已知2014年共出版图书9095种,可得出2014年新出图书(不含复本数)数据量为:9095种×18.56万字=16.88亿字=3.14GB。

排名第三的中国教育出版传媒集团:每本图书平均印张数为:505624.2万印张÷ 45035万册(张)=11.23印张,每本图书平均内容数据量为:11.23印张×25600(字/印张)=28.75万字;已知2014年共出版图书14483种,可得出2014年新出图书(不含复本数)数据量为:14483种×28.75万字=41.64亿字=7.76GB。

三 最近十年全国出版业累计出版书刊报内容数据量

上一部分对单年内容数据量进行了分析,那么,全国出版业最近十年累计出版书刊报的内容数据量又是多少呢?以2007~2016年《中国新闻出版统计资料汇编》中的统计数据为依据,著者进行了详细的测算,具体如表1-4所示。

表1-4 2007~2016年书刊报出版品种数、总印数和总印张

1.2007~2016年,全国平均每种(份)书刊报数据量分别为417.97KB、316.60KB和221.10KB

平均每本图书数据量:2007年至2016年的十年间全国出版图书的总印数为772.61亿册(张),总印张数为6457.80亿印张,用总印张数除以总印数可以得出每本图书平均印张数,即6457.80亿印张÷772.61亿册(张)=8.36印张,每本图书内容数据量为:8.36印张×25600(字/印张)=21.40万字=417.97KB。

平均每册期刊数据量:2007年至2016年的十年间全国出版期刊的总印数为310.89亿册,总印张数为1749.96亿印张,则每册期刊平均印张数为:1749.96亿印张÷310.89亿册=5.63印张,每册期刊内容数据量为:5.63印张×28800(字/印张)=16.21万字=316.60KB。

平均每份报纸数据量:2007年至2016年的十年间全国出版报纸的总印数为4488.32亿份,总印张数为19074.07亿印张,则每份报纸的平均印张数为:19074.07亿印张÷4488.32亿份=4.25印张,每份报纸内容数据量为:4.25印张×26640(字/印张)=11.32万字=221.10KB。

2.2007~2016年,全国累计书刊报数据量(不含复本数)为2.87TB

十年累计图书数据量:2007~2016年全国累计出版图书3806095种,平均每种图书为21.40万字,则十年累计图书数据量为:3806095种×21.40万字=8145.04亿字=1.48TB。

十年累计期刊数据量:2007~2016年全国共出版期刊98409种,平均期印数160564万册,总印数310.89亿册;用总印数除以平均期印数可以得知实际出版期数约每年19.36期,则十年期刊累计出版内容数据量为:98409种×19.36期×16.21万字=3088.33亿字=0.56TB。

十年累计报纸数据量:2007~2016年全国累计出版报纸19230种,平均期印数214678.12万份,总印数4488.32亿份;用总印数除以平均期印数可以得知实际出版期数约每年209.07期,则十年报纸累计出版内容数据量为:19230种×209.07期×11.32万字=4551.11亿字=0.83TB。

则2007~2016年全国书刊报累计出版数据量(不含复本数)为:8145.04亿字+3088.33亿字+4551.11亿字=15784.48亿字=2.87TB。

3.2007~2016年全国累计书刊报数据量(含复本数)为128.58PB

图书十年累计印张数为6457.80亿印张,则总数据量为:总印张×每印张字数=6457.80亿印张×25600(字/印张)=16531.97万亿字=29.37PB。

期刊十年累计印张数为1749.96亿印张,则总数据量为:1749.96亿印张×28800(字/印张)=5039.88万亿字=8.95PB。

报纸十年累计印张数为19074.07亿印张,则总数据量为:19074.07亿印张×26640(字/印张)=50813.33万亿字=90.26PB。

2007~2016年书刊报累计出版内容数据量(含复本数)为:29.37PB+8.95PB+90.26PB=128.58PB。

以上计算说明,我国传统出版业正式出版的书刊报最近十年累计内容数据量整体也就在TB级别(不含复本数),就某个单一出版单位或出版物来说,其数据规模并不是很大。

四 其他相关数据量

1.发行数据量

著者根据2007~2016年《中国新闻出版统计资料汇编》中的相关数据,整理了十年来的出版物发行数据,具体情况见表1-5、表1-6。

表1-5 2007~2016年全国新华书店系统、出版社自办发行单位出版物发行情况(一)

注:2007~2011年数字出版物零售金额未给出统计。

表1-6 2007~2016年全国新华书店系统、出版社自办发行单位出版物发行情况(二)

(1)2016年度发行数据

2016年,全国新华书店系统、出版社自办发行单位出版物总购进量207.78亿册(张、份、盒),总销售量208.27亿册(张、份、盒),总销售金额2771.34亿元,纯销售量70.25亿册(张、份、盒),纯销售金额852.49亿元;非出版物商品销售金额319.46亿元(不含在销售总金额之内);库存数量65.75亿册(张、份、盒),库存金额1143.01亿元;发行网点163102处;从业人员67.12万人。

2016年全国出版物零售情况如下:① 图书零售量67.09亿册(张、份、盒),零售额795.56亿元;② 期刊零售量0.30亿册(张、份、盒),零售额11.76亿元;③ 报纸零售量0.11亿册(张、份、盒),零售额1.10亿元;④ 音像制品零售量0.39亿册(张、份、盒),零售额7.63亿元;⑤ 电子出版物零售量0.16亿册(张、份、盒),零售额11.39亿元;⑥ 数字出版物零售额5.66亿元。

(2)2007~2016年累计发行数据

2007~2016年,全国新华书店系统、出版社自办发行单位出版物销售数量及金额合计为:总销售量1831.08亿册(张、份、盒),总销售金额20344.29亿元;纯销售量667.61亿册(张、份、盒),纯销售金额6745.31亿元。

2007~2016年,出版物总购进量1855.56亿册(张、份、盒),总购进金额20904.24亿元;库存数量576.52亿册(张、份、盒),库存金额8480.58亿元;非出版物商品销售金额1084.14亿元(不含在销售总额之内);发行网点合计1666836处;从业人员合计714.39万人。

2007~2016年,出版物零售情况如下:① 图书零售量593.42亿册(张、份、盒),零售额6153.45亿元;② 期刊零售量9.45亿册(张、份、盒),零售额141.37亿元;③ 报纸零售量5.06亿册(张、份、盒),零售额18.08亿元;④ 音像制品零售量11.73亿册(张、份、盒),零售额149.26亿元;⑤ 电子出版物零售量2.28亿册(张、份、盒),零售额79.7亿元;⑥ 数字出版物零售额17.66亿元。

2.印刷复制数据

著者根据2007~2016年《中国新闻出版统计资料汇编》对印刷复制相关数据也进行了整理,具体情况见表1-7。

表1-7 2007~2016年印刷复制数据

注: 1.2007~2009年的印刷复制营业收入仅包括出版物印刷厂的营业收入金额,2010~2016年的印刷复制营业收入包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销。

2.2015~2016年工业销售产值数据缺失,在此,仅给出2007~2014年工业销售产值。

2016年,印刷复制(包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销)总体实现营业收入12711.59亿元,利润总额882.70亿元;全国出版物印刷企业(含专项印刷)8936家;图书、报纸、其他出版物黑白印刷产量31517.57万令,彩色印刷产量150688.38万对开色令;装订产量33668.54万令;印刷用纸量64299.06万令。

2007~2016年,印刷复制总体实现营业收入78334.83亿元,利润总额5427.38亿元;全国出版物印刷企业(含专项印刷)84102家;图书、报纸、其他出版物黑白印刷产量294288.64万令,彩色印刷产量1690138.69万对开色令;装订产量305001.04万令;印刷用纸量545632.08万令。

3.进出口数据量

根据2007~2016年《中国新闻出版统计资料汇编》,著者对全国出版物进出口数据进行了详细的整理。其中图书、报纸、期刊、音像制品、电子出版物与数字出版物的出口数据,来自对全国出版物进出口经营单位和部分出版单位、发行单位的出口数据统计,系不完全统计;进口数据来自对全国出版物进出口经营单位的进口数据统计。具体见表1-8。

表1-8 2007~2016年全国出版物进出口数据

2016年,全国出口图书、报纸、期刊2169.94万册(份),出口金额7785.11万美元;全国出版物进出口经营单位累计进口图书、报纸、期刊3108.18万册(份),出口金额30051.73万美元;全国出口音像制品、电子出版物与数字出版物11.75万盒(张),出口金额3225.66万美元;全国出版物进出口经营单位进口音像制品、电子出版物与数字出版物10.81万盒(张),出口金额25859.38万美元。

2007~2016年,全国累计出口图书、报纸、期刊16066.95万册(份),累计出口金额59273.74万美元;全国出版物进出口经营单位累计进口图书、报纸、期刊28453.20万册(份),累计进口金额271215.06万美元;全国累计出口音像制品、电子出版物与数字出版物282.64万盒(张),累计出口金额14414.03万美元;全国出版物进出口经营单位累计进口音像制品、电子出版物与数字出版物233.73万盒(张),累计进口金额148717.08万美元。

4.版权数据量

根据2007~2016年《中国新闻出版统计资料汇编》,版权管理与版权贸易相关数据的具体情况如表1-9所示。

表1-9 2007~2016年版权管理与版权贸易数据

注:2009~2012年版权管理中的受理、查处案件数以及收缴盗版品数未给出统计。

版权数据主要包括版权管理与版权贸易数据。2016年,全国版权合同登记19744份,作品自愿登记1895053份;全国共引进版权17252种,其中引进图书、音像制品和电子出版物版权17174种;全国共输出版权11133种,其中输出图书、音像制品和电子出版物版权9811种。

2007~2016年,全国版权合同登记167662份,作品自愿登记7950290份;全国共引进版权161274种,其中引进图书、音像制品和电子出版物版权154878种;全国共输出版权74390种,其中输出图书、音像制品和电子出版物版权62249种。

5.出版物元数据

本书在此仅对出版物中的图书元数据的数据量进行介绍,其他出版物元数据由于未获得具体数据量,故在此不做介绍。由于图书元数据中包含的大部分数据项在图书在版编目(CIP)图书在版编目(CIP)包括著录数据(书名、著作责任者项、版本项、出版项、丛书项、附注项、标准书号项等)和检索数据(图书识别特征的检索点和内容主题的检索点)两个部分,这为图书的分类标引、著录、检索等提供了很大的方便。中都有所体现。因此,对图书元数据量的统计将以中国版权图书馆CIP登记数量及新中国成立以来的馆藏数量作为基本的规模统计。图书在版编目数据国家标准《图书在版编目数据》于1990年7月31日发布,自1991年3月1日起实施,经过几年的实施和准备,于1999年4月1日起在全国强制性推广实施,截至2016年7月共登记约340万条数据,加上自新中国成立以来的馆藏数据100多万条,目前我国图书元数据量为400多万条。

6.出版业网站数据

根据中国新闻出版研究院2013~2015年《全国新闻出版业网站运营趋势分析报告》可以得到我国出版业网站的相关数据,该系列报告从三个指标来衡量出版业网站影响力,即页面浏览量、独立用户数及总访问次数(数据为网站月度平均值)。具体见图1-1~1-3。

图1-1 2013~2015年全国新闻出版业网站月均页面浏览量

图1-2 2013~2015年全国新闻出版业网站月均独立用户数

图1-3 2013~2015年全国新闻出版业网站月均访问次数

从以上图中可以看出,出版业网站中新闻门户和在线教育类网站影响力明显高于其他三类;新闻门户类网站页面浏览量、独立用户数及访问次数总体上呈逐年增长态势;而在线教育类网站则进入了调整期,2015年出现明显下降。