随着信息科技的迅猛发展和移动互联时代的到来,全球拥有数据的规模和总量正在像滚雪球一样快速膨胀。根据IDC(国际数据公司)的监测统计,2011年,全球数据已达1.8ZB(1ZB等于l万亿GB),这个规模将会以每两年翻一番的速度继续增长,预计到2020年,全球数据总量将会达到35ZB,增长约20倍。[1]数据体量的快速增长,催生孕育出“大数据”概念。所谓“大数据”,就是指因数据大爆炸产生的大小超出了典型数据库软件采集、储存、管理和分析能力的数据集。(1998年,《科学》杂志刊载的《AHandler for Big Data》一文中,较早使用了“大数据”概念。2008年,《自然》杂志发表了有关大数据的系列专题文章,使得“大数据”概念迅速流传开来。)大数据与传统数据(也有学者称之为“小数据”)既有联系,也存在重大区别:一方面,两者都是人类用以表情达意和记载历史的工具,都是信息传输的载体;另一方面,大数据通常是被电子化了的数据(亦称“电子数据”),在互联网作用下具有高度的灵活性,其体量庞大,存储、传递快捷简便,智能化程度高。
大数据的流行,加速了人类对大数据技术开发和利用的步伐,国际社会和各国政府纷纷制定了促进大数据相关产业发展的战略和规划。如美国政府,2012年以来分别制定并出台了《大数据:抓住机遇、保留价值》、《大数据研究发展计划》、《大数据与隐私:技术展望》等文件;欧盟继2010年11月发布题为《开放数据:创新、增长和透明治理的引擎》的报告后,很快于2014年又发布了《跨向欣欣向荣的数据驱动型经济》的报告。[2]中国政府也于2015年8月发布了《关于促进大数据发展的行动纲要》,将大数据定性为国家“基础性战略资源”,强调“要顺应潮流引导支持大数据产业发展”[3]。与此同时,国际学术界不同领域学者也争相探讨大数据与本学科、本专业发展的关系。当代中国史研究工作者应该发扬善于运用和处理数据的优良传统,正视大数据技术给学科发展带来的挑战,并在新的时代条件下有效回应这些挑战。
一、当代中国史研究运用和处理数据的优良传统
数据是指进行各种统计、计算、科学研究或技术设计等所依据的数值,它是人类在测量、记录和计算中用于记载事物、辨识数量的工具与手段,是信息的载体。通过数据来发挥记载历史和论证观点的作用是当代中国史研究的一个优良传统。
当代中国史研究萌生于20世纪50年代,到80年代初期形成规模。这一时期的代表性成果,如由河北北京师范学院历史系学生编写的《中华人民共和国史稿》,在阐述新中国成立初期的工农业生产、财政收支、物价、文教事业等问题时使用了大量数据。尤其难能可贵的是,在记叙主要工业产品产量和全国农副产品及主要商品销售情况时,还对大量数据进行了表格化处理。[4]此外,这一时期由南开大学历史系编写的《中华人民共和国大事记》[5]、复旦大学历史系学生编写的《中华人民共和国大事记(1949.10~1958.8)》(复旦大学历史系四年级中国现代史创造性学习小组编订:《中华人民共和国大事记(1949.10~1958.8)》,1958年。)、华中师范学院历史系编写的《中华人民共和国史讲义(初稿)》(华中师范学院历史系:《中华人民共和国史讲义(初稿)》,1960年。)等著作,在阐述经济、人口等量化问题时都运用了数据这一表达工具,有的还对数据进行了图表化处理,为准确记载历史做出了重要贡献。
20世纪70年代末80年代初,随着计量史学的传播和运用,中国一些学者开始尝试在史学研究中将定量分析和定性分析相结合,促成了80年代中后期中国计量史学热潮的形成。[6]这种研究新动向很快影响到当代中国史研究,一些学者开始运用计量史学方法来研究新中国成立后的历史,并形成了大量成果。相关研究将这些成果分为如下四个方面:一是对当代中国人口史的研究,如魏高峰等的《中国人口演化模型与中国未来人口预测研究》、龙姝名等的《人口演化的双指数模型与中国人口预测》;二是对当代中国经济史的研究,如董志凯运用计量方法对土地改革经济动因的分析等;三是对当代中国社会史的研究,如中国社会科学院社会学所朱庆芳等人对当代中国社会发展指标体系的研究;四是对当代中国军事史及政治史的研究,如徐焰对新中国军费开支历史演变的研究等。(详见王爱云:《计量史学方法在当代中国史研究中的运用》,《当代中国史研究》2013年第6期。)这些研究成果既为运用计量史学方法来研究当代中国史进行了有益探索,同时也将当代中国史学科运用和处理数据的水平提升到一个新高度。
进入21世纪之后,计量史学方法在当代中国史研究中得以进一步拓展,这其中又以日本学者村田忠禧的成果最引人瞩目。在《从〈人民日报〉元旦社论看中华人民共和国的历史》、《从改革开放以来的党代会政治报告的词语变化来看中共十六大的特点》等文中,村田忠禧以《人民日报》元旦社论、党代会政治报告等规范性很强的文献为素材,通过分析文献中的相关词频变化来研究中华人民共和国的历史发展规律,使读者眼前一亮。[7]此外,王冠中等的《新时期中国共产党涉农经济政策研究——基于政治报告字词使用的计量与语意分析》一文,强调用语意分析法来弥补计量方法遭遇汉语“一字多义”的不足,倡导将定量分析与定性分析有机结合。[8]这些尝试都涉及对数据的运用和处理,是对计量史学方法应用范围的拓展。
与以往研究相比,计量史学方法运用和处理数据有如下特点:其一,就数据的概念内涵而言,以往研究中数据仅仅被看成是一种量化符号,而计量史学方法则为这种量化符号创设了背景,从而为数据转化为信息(在数据、信息和知识三者之间的关系上,“数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息”。参见涂子沛:《数据之巅:大数据革命,历史、现实与未来》,中信出版社2014年版,第256页。)铺平了道路;其二,就数据的应用范围而言,一般在分析人口、经济、金融等数量问题研究时会广泛使用数据,计量史学方法则将数据的使用拓展到对文献字词使用频率的统计上,大大拓展了数据的应用范围;其三,就数据的使用频率而言,计量史学运用和处理数据较传统研究频繁得多;其四,就使用数据的方式方法而言,传统研究运用数据基本上都是靠人工处理、人脑分析,而计量史学方法则将计算机引入到数据分析和处理中,使数据的处理速度和精准度空前提高。在大数据兴起之前,数据因电子化程度低而使其流动和共享受限,数据与数据之间彼此孤立,很难形成“规模效应”,其价值得不到有效发挥。
二、当代中国史研究面临大数据的多重挑战
大数据技术兴起之后,在移动互联网、物联网、云计算和云存储等网络信息技术的作用下,人类所拥有的海量数据经历了由“死”到“活”的质变过程,彼此的互联互通使数据产生了“1+1>2”的“规模效应”。以当代中国史研究为例,经济史学者可能会运用到生产、消费、金融、财会、交通、电力、科技、能源等方面的统计数据;社会史和人口史学者可能会运用到人口、户籍、医疗、教育、社会组织等方面的统计数据;政治史学者可能会运用到选举、行政区划、阶级阶层、政治组织、国民幸福指数等方面的统计数据;军事史学者可能会运用到边防、海防、信息、军费开支、装备更新等方面的统计数据。这些数据如果各自为政,便只能记叙和表达某一方面的历史演化情况,其价值也就没能得到有效发挥。如果将这些数据电子化,通过软件编码整理建立数据库,并用互联网实现各数据库之间的关联,则能为研究者提供各自无法单独提供的互补、互证资料,为学科知识的更新“繁殖”获得了机遇,由此也使原有数据产生了价值溢价。所以说大数据之“大”,既指数据的体量、规模和灵活性增大,同时更强调数据价值增大以及由此产生的新知识和新思维。这种能够带来价值溢价和实现思维革新的数据,一方面,为当代中国史研究带来了巨大机遇,如在资料收集和运用、研究思维创新及研究成果转化等方面,大数据可以避免以偏概全和发挥跨学科、跨地域和跨时段的“跨界效应”;另一方面,大数据也会对当代中国史研究形成巨大挑战,具体体现在以下四个方面。
(一)对史料收集、存储和运用的挑战
广泛收集史料,科学存储和运用史料,是搞好当代中国史研究的前提。
在大数据技术出现之前,当代中国史研究的史料收集、存储和运用具有一些基本特征:首先,史料的电子化程度比较低,绝大多数史料的存储介质都是纸张,表现为对报刊、图书、档案、书信等资料的收集和运用,对其他介质的史料使用频率较低;其次,对于没被电子化的纸质史料,收集和存储任务艰辛,查阅、检索和运用也费时费力;最后,史料的时空和内容限制,会制约着研究选题的选择。一些超长时段或大跨度空间的选题,时常会因史料收集限制而遭舍弃。此外,在论证具体问题时,史料选择通常以代表性人物、典型事件为主,对普通大众和偶然事件则关注较少。大数据技术会在不同程度上破解史料收集、存储和运用上的这些难题,但也必然会带来新的挑战。
一些研究者将大数据的特征总结为“4V”,即体量大(Volume)、类型多样(Variety)、流动速度快(Velocity)和价值密度低(Value)。[9]2014年,IBM公司在《实现大数据承诺:实施大数据工程》的报告中进一步探讨了大数据的精确性(Veracity)、数据粘连性(Viscosity)、数据易变性(Variability)和有效性(Volatility)等问题,将大数据的特征由“4V”拓展为“Vs”。[10]
大数据的“Vs”特征给当代中国史研究的史料收集、存储和运用带来了如下挑战:其一,大数据的大体量、类型多样化等特征,大大增强了研究者收集史料的劳动强度,在体量庞大、类型复杂的资料中去筛选、整理与选题相关的史料,要比在体量小、类型简单的资料中去搜寻史料更费时费力;其二,大数据的易变、快速流动等特征,使当代中国史研究的资料收集在精准性和时效性等方面会随时面临考验,很可能花费九牛二虎之力找到的史料很快就被新发掘的史料证伪了;其三,大数据的电子化存在形式会带来史料存储的安全问题,史料存储介质的物理损伤可能带来数据的丢失和不可修复,而且在网络环境下,一些需要保密的史料,其泄密风险会大大增加;其四,大数据技术的应用,对研究者自身知识结构和研究习惯提出挑战。大数据要求研究者在史料收集、分析、整理和运用过程中,必须熟练掌握和运用相关的电脑和信息技术,对类似“布尔运算”这样的外文检索必备知识需要熟练掌握。就研究习惯而言,大数据技术之前,大多数研究者习惯于翻阅纸张材料,对电子化史料和无纸阅读不习惯,但随着信息技术的发展,科研工作的无纸化趋势会越发加速。据估算,2000年,数据存储信息只占全球数据量的1/4,另外3/4的信息都存储在报纸、胶片、黑胶唱片和盒式磁带上;2007年,只有7%是存储在报纸、书籍、图片上的模拟数据,其余全部是数字数据;而到2013年,世界上存储的非数字数据只占不到2%。[11]按照这一发展速度,未来的当代中国史乃至整个人类历史的研究史料,将会主要以数据的形式存在,这一发展趋势对研究者既有阅读和研究习惯也必将形成挑战。
(二)对研究主体思维方式的挑战
大数据给当代中国史研究带来的另一方面挑战,就是对研究主体思维方式的影响,集中体现在以下三个问题上。
第一,如何在看重抽样典型的同时更加关注整体?海量数据要求史学工作者在辨认史实和形成观点时,必须从“大”处着眼,更加关注和研究“大历史”,树立整体思维,全面认识事物。这势必会对此前研究中习惯于抽样和强调“小题大做”等思维方式形成挑战。有研究者以中国当代社会史研究为例,提出研究者在树立问题意识的同时,要有“整体观”和“全局意识”,“而不是就问题谈问题”。[12]在研究实践中要做到这一点并不容易。问题意识是从一个一个问题出发,然后运用史料去确证问题和分析问题,最后提出解决问题的对策。这是一个从特殊到一般的思维过程,其中“运用史料去确证问题”通常会运用抽样典型的方法。这种思维方式的理论依据是归纳推理,但难免会出现挂一漏万的问题。如美国学者珀金斯,在分析历史上和新中国成立初期土地改革的原因及成效时,非常主观地认为中国的土地改革“主要是由于政治的原因而不是经济的原因”,土地改革对农业生产“也许具有消极的影响”。[13]他的分析和论据聚焦于获地农民的贫困身份和富农“政治上的软弱地位”等,对生产力因素避而不谈,因此未能看到当时土地改革的经济必然性。这一观点当然会遭到批评,只分析政治因素而舍弃经济方面的考量,是一种厚此薄彼的抽样。董志凯等人运用计量方法,通过对1949~1953年中国农业总产值、主要农产品产量和人口平均粮食产量等方面数据的分析与比较,强调导致土地改革的根本原因“根植于经济之中”,对中国农业生产力的迅速恢复和发展产生了积极作用。[14]由此可见,分析当代中国史上类似土地改革等问题时,要从经济、政治、社会、文化、生态等多方面进行整体考察,由此得出的结论才更具说服力。
第二,如何在重视因果关系的同时更加关注相关关系?众所周知,当代中国史研究的基本对象通常是在历史上已然发生的事件和相关人物。史学家的一个基本使命就是通过对历史重大事件、重要人物及其活动进行研究,进而探寻历史事件发生的原因和历史发展的规律,对“为什么”的追问和探求已成为根植于当代中国史学者大脑的“先天基因”。大数据技术的出现将会挑战这种既有思维方式。如2009年,谷歌公司通过分析网民上网记录的相关关系,成功地预测到甲型H1N1流感的爆发;2011年,美国奥巴马政府利用大数据公司Palantir,通过寻找、对比上千个数据库内审讯记录、财务信息、DNA样本等资料的相关关系,为最终捕杀本·拉登提供了重要情报。这些事例表明,大数据对相关关系的运用无疑会挑战现有研究惯于探寻因果关系的思维定式。在当代中国史研究中,如何在重视因果关系的同时更加关注相关关系,也是对研究主体思维方式的重大挑战。
第三,怎样在接受混杂中追求精准?倡导秉笔直书和“给后人留一部信史”,一直是中国史家修史的优良传统,也被认为是当代中国史研究者史德的体现。著名史学家章学诚强调“辨心术以议史德”的目的,就是要“著信史”、“做信人”[15];李大钊在《史学要论》中也专门指出“凡学都所以求真,而历史为尤然”,并强调养成这种求真的态度和思维方式,对树立正确人生观的重要意义。[16]无论是“求信”还是“求真”,其基本前提都要求对史料、史实的精准把握,这些观点至今仍然不证自明。但20世纪80年代以来,执着精准的研究思维开始遭遇挑战。先是后现代主义认为,历史研究“探求真相的能力完全被否定了”,“撰写历史不是一件寻找真相的工作,而是在表现历史学家的政治理念”[17]。如今又有人借大数据之名,认为它会像后现代理论那样,使历史研究“放弃对‘真相’的执迷,退守叙事”[18]。这种观点显然是照搬西方大数据理论的结果。他们没有认识到,与小数据板着“精准确凿”的面孔不同,大数据更强调用概率说话。在数据的处理上,大数据使用的是简单算法,对数据因体量增大、类型多样和来源复杂带来的错讹采取宽容态度,其背后的理论依据是模糊理论和模糊逻辑。接受混杂不是要放弃精准,也不是要把史实搞模糊,更不是要放弃对历史真相的追求。正好相反,这是从事物量的规定性方面去“求信”和“求真”所应具有的科学思维,与运用考据等方法“求信”、“求真”殊途同归。
(三)对历史记录方式和叙事方式的挑战
人类历史记录方式会随着社会生产力的发展而不断演进。文字产生之前,人类历史的记录方式主要表现为口耳相传和结绳记事等;文字出现之后,人类历史的记录方式进入文字记录时代;图表、录音、视频等技术的出现进一步丰富了人类历史的记录方式。就当代中国史研究而言,大数据技术出现之前,承载历史记录的主要工具是文字,研究者若要运用数据和图表,都会配以大量文字说明,让读者知晓数据的用意和目标指向。与此记录方式相对应,当代中国史的叙事方式也比较单一,基本上都是以史实为基础的二维叙事,对历史事件的描述、历史人物的评价大多停留在以时空为经纬的二维结构中,对历史现象的分析也逃不出循因入果或由果溯因的单线程式。
大数据技术出现后,当代中国史的记录方式更加多样化。除文字、数据、图表外,录音、录像、拍照等技术的广泛应用使史实记录和场景再现方式更加多元,效果更为生动逼真。相应地,当代中国史的叙事方式也将更为多样。宏观、中观与微观相结合,长时段的整体叙事与某一时间点的个别叙事相结合,真实空间叙事与网络虚拟空间叙事相结合,从而使当代中国史的叙事方式由二维转向多维,由线性转向非线性。这种记录方式和叙事方式的多样化,必将对研究者的知识素养构成挑战。
(四)对当代中国史研究价值评价的挑战
对历史研究进行价值评价,“是史学研究内在的客观要求,是不以人的意志为转移的”[19]。对当代中国史研究开展价值评价,是发挥当代中国史学科资政育人功能的基本要求。
伴随着大数据技术的兴起,微信、微博、论坛等社交媒体广泛应用于百姓日常生活,这会加速当代中国史研究成果的大众化,为当代中国史知识的传播和普及做出重要贡献,但大数据技术在给知识传播带来方便、快捷和低成本的同时,也会给当代中国史研究的价值评价带来挑战:首先,大数据技术可能会使当代中国史研究价值评价主体更加“去专业化”,许多“草根史学家”的话语权增大,使当代中国史研究价值评价的整体水平有所下降;其次,大数据的互联互通,会引发当代中国史研究价值评价出现随意性、不负责任和以偏概全等不良倾向,尤其在网络虚拟空间责任追究机制不健全的情况下,如何科学开展当代中国史研究价值评价,也是摆在当代中国史学科发展面前的重大挑战;最后,网络时代对点击率的片面追求,会使当代中国史研究的价值评价不可避免地出现讨好粉丝等现象,如何避免以点击率论英雄,防止对大数据技术的误用,也是当代中国史研究需要正视的挑战。
三、当代中国史研究有效应对大数据挑战的思考
大数据给当代中国史研究带来的挑战是全方位的,既有史料收集、运用和存储,数据处理,信息化技术的掌握等技术问题,也有思维方式更新,史观、史德养成和史学理论完善等价值问题。面对挑战,当代中国史学科可以考虑从加快基础设施建设、搭建大数据平台、创立量化研究范式和更新研究方法等方面入手来有效应对。
(一)加快基础设施建设搭建大数据平台
大数据技术的开发和应用,需要一些配套的基础设施。在2014年召开的中国大数据技术大会上,一些业内专家专门探讨了建设与大数据配套的高速网络、大容量存储等基础设施的重要性。[20]结合当代中国史研究实际,要推进大数据在本学科应用的配套基础设施,可以概括为如下三个方面:
一是实施当代中国史研究史料的电子化工程。当前当代中国史研究可资利用的电子化数据非常有限,许多纸质史料转化为电子数据的工作滞后,未能形成规模,从而限制了数据的价值增值。当代中国史研究要应对大数据挑战,必须进一步加强对现有纸质资料和信息的数据化处理工作,可以设立专门的数据开发、管理机构和团队,通过数据采集、分类、编码、存储和挖掘分析等环节,实现对现有纸质史料的电子化,为研究者呈现大规模量化数据库。在这方面,相关专业报刊已加大了建立数据库的力度,如《人民日报》、《当代中国史研究》、《中共党史研究》等都推出过各自的文献资料光盘数据库或图文数据库,在互联网上能够实现全文检索,但著作、档案、书信等史料的电子化工作则相对滞后,可通过当代中国史研究史料的电子化工程来弥补这一缺憾。
二是整合现有数据资源,实现相关数据库的互联互通。在当前的当代中国史研究中,国内学者可能会利用中国学术期刊全文数据库、国家哲学社会科学学术期刊数据库、维普中文期刊数据库、万方数字化期刊库、中国统计年鉴数据库、《人民日报》图文数据库、读秀知识库等数据资料,但目前这些数据库之间处于“各自为政”状态,其数据价值的发挥受限。在确保安全、隐私的前提下,能否以开放共享、互利互惠的态度,通过网络实现这些数据库间的关联和对接,并将这些数据库与新中国成立以来的档案数据库、人口数据库、国土资源数据库、户籍数据库等进行关联,这将大大提高数据的时效性和可获得性。
三是打造集多种功能于一体的当代中国史研究大数据平台。当前国内当代中国史研究的权威网络平台,是由当代中国研究所主办的中华人民共和国国史网,可以考虑以该网为基础,建设一个汇聚当代中国史研究数据、促进当代中国史研究信息流动、实现数据资源共享和研究成果展现的大数据平台。此平台将进一步提高数据的开放和共享程度,打造成集智能研究、智慧管理、高效服务和实时传播于一体的当代中国史研究智能化网络平台。
(二)创立适应大数据技术的量化研究范式
加强基础设施建设的同时,还应对当代中国史研究进行“软件升级”,创立适应大数据技术的新研究范式。近年来,学界对研究范式的讨论表现出浓厚兴趣,相关成果频繁涌现。[21]根据这些研究成果,当代中国史研究现有基本范式包括革命史范式、现代化范式、社会史范式、思想史范式等,但遗憾的是这些范式都没能很好地回答当代中国史研究中该如何科学运用大数据技术问题。在当代中国史研究面临大数据洪流冲击的情况下,如果我们局限于这些既有范式,便难以有效应对大数据的挑战。要寻求从理论、思维到研究方法的整体性变革,创立适应大数据发展趋势、符合当代中国史研究实际的量化研究范式迫在眉睫。相关研究认为,量化研究范式是指“能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究”的一种研究框架。[22]这种从研究方法和过程角度对量化研究范式的概念界定,未能概括出这一研究范式的全貌。
适应大数据技术和当代中国史研究实际的量化研究范式,理应包括两个层面的架构:一方面,在具体内容和结构上,量化研究范式与上述既有研究范式存在重大区别。如在资料运用上,强调以网络和大数据技术为基础,更加关注选材的长时段、大规模和微观细节,要求资料和信息更加全面;在研究视野上,更加强调研究的宏观性和整体性,还要善于在时空上做“跨界”研究;在对研究主体的要求上,研究者应具备“跨界”的知识结构和本领,既要熟知当代中国史的理论和知识,也要具备信息科学和数据挖掘领域的知识素养。另一方面,在指导理论上,量化研究范式仍然坚持以唯物史观为指导。将大数据技术引入当代中国史研究,实际上就是要增加定量分析在历史研究中的比例,要“让数据说话”成为一种研究时尚。这一研究范式使对引起社会上层建筑变动的经济基础的变化,对生产力发展的具体表征,有更为清晰的量化指标和逼真的呈现方式。同时,在不放弃探寻因果关系的同时,更加注重分析相关关系,有助于实现物质世界普遍联系规律的数量化呈现。在史观、史德等价值层面,这种新范式通过运用大数据技术,扩大了史料收集范围,有利于实现研究者思维方式的变革,使对当代中国史的研究更加接近历史本真。确立这一新范式的理论地位,有利于在当代中国史研究中更好地坚持和发展唯物史观,也是实现当代中国史学科可持续发展的基本要求。
(三)大胆引入关联分析等新兴研究方法
中国社会科学院原副院长、当代中国研究所原所长朱佳木曾专门强调当代中国史研究方法的重要性,并将当代中国史研究与党史研究的学科属性、研究任务和社会作用区别开来。[23]发挥大数据技术在当代中国史研究中的作用,要注重学科研究方法的更新。以互联网为核心的信息技术广泛运用,使记录历史的数据每天都在不停地做着增量运动。中华人民共和国自成立以来,在政治、经济、文化、社会、人口、资源、环境等方面的数据,每时每刻都在不断变化与增长,引入大数据的关联分析法、预测分析法、非线性分析法和量化比较法等研究方法已是大势所趋。限于篇幅,下面以关联分析法为例进行具体说明。
关联分析法就是挖掘存在于大量数据(集)之间的事物相关性,以此找出事物发展的主要矛盾和一般规律,是注重事物相关关系在方法论上的体现,主要包括灰色关联分析、模糊关联分析、矩阵关联分析、系统关联分析、动态关联分析等类型。在当代中国史研究中这种方法大有可为,例如,在当代中国史研究的数据库建库和实行数据库关联时,便会用到关联分析。将气候、地质、水文、气象灾害(包括洪灾、旱灾、地震、泥石流等)等方面的数据与执政党和政府应急处置决策数据关联,可以探寻政府行为与生态变迁之间的演化规律,使当代中国生态史研究走向科学化;将人口统计、户籍资料、出生与死亡率等数据与不同时期恩格尔系数关联,可以找出家庭消费观念的演变对人口规模的影响,为当代中国人口史研究增添活力。再如,通过大数据技术,关联分析法还可以提高当代中国史研究者搜寻、筛选和处理资料的智能化程度。当前应用关联分析最典型的例子,就是电子商务中的“购物车”推送。当代中国史研究可以利用这一技术,在搭建的智能化网络平台上引导研究者注册获得“购物车”。“购物车”根据自动记录和存储的研究者上网痕迹和检索数据,进行关联分析并汇总,从而为研究者提供精准、及时的数据和资料。此外,基于大数据平台的“购物车”,还可以通过关联分析实时跟踪和“顺藤摸瓜”,为研究者推送意想不到的资料和信息,找出正在对相同选题感兴趣的其他同行。这既可以为研究团队的组建和实现科研协同创新提供技术支持,还可以避免当代中国史研究出现重复劳动。
综上所述,当代中国史研究要真正做到科学化和现代化,必须正视大数据技术的挑战,并尽早思量有效应对之策。早在1949年召开的中共七届二中全会上,毛泽东在总结党委会工作方法时专门强调:“对情况和问题一定要注意到它们的数量方面”,领导干部要“胸中有‘数’”,[24]这个道理同样适用于当代中国史研究。
[参引文献]
[1]中国电子信息产业发展研究院:《2013~2014年世界信息化发展蓝皮书》,人民出版社2014年版,第84页。
[2]“ObamaAdministrationUnveils‘BigData’Initiative:Announces$200MillioninNewR&DInvestments”,https://www.whitehouse.gov/sites/
default/files/microsites/ostp/big_data_press_release_final_2.pdf“BigData:SeizingOpportunities,PreservingValues”,https://www.whitehouse.
gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf“BigDataandPrivacy:ATechnologicalPerspective”,https://www.white
house.gov/sites/default/files/microsites/ostp/PCAST/pcast_big_data_and_privacy_-_may_2014.pdf;“TowardsaThrivingData-Driven
Economy”,https://ec.europa.eu/digital-single-market/news/communication-data-driven-economy,2015年12月15日。
[3]《李克强主持召开国务院常务会议》,《人民日报》2015年8月20日。
[4]河北北京师范学院历史系三年级集体编写:《中华人民共和国史稿》,人民出版社1958年版,第25、73~82页。
[5]南开大学历史系:《中华人民共和国大事记》,河北人民出版社1958年版。
[6]彭泽益:《中国经济史研究中的计量问题》,《历史研究》1985年第3期;伍丹戈:《定量分析法在中国经济史中的应用》上、下,《复旦学报(社会科学版)》1985年第5、6期;钱学森等:《用系统科学方法使历史科学定量化》,《历史研究》1986年第4期;王小宽:《国外计量史学的兴起与发展》,《史学理论》1987年第4期;马雪萍:《计量史学评估》,《红旗》1987年第23期。
[7]﹝日﹞村田忠禧:《从〈人民日报〉元旦社论看中华人民共和国的历史》,《中共党史研究》2002年第3期;﹝日﹞村田忠禧:《从改革开放以来的党代会政治报告的词语变化来看中共十六大的特点》,《中共党史研究》2003年第1期。
[8]王冠中等:《新时期中国共产党涉农经济政策研究——基于政治报告字词使用的计量与语意分析》,《党史研究与教学》2003年第4期。
[9]PaulC.Zikopoulosetal.,UnderstandingBigData,NewYork:McGrawHill,2013,pp.5~9.
[10]IBM,RealizingthePromiseofBigData:ImplementingBigDataProjects,NW:IBMCenterforTheBusinessofGovernment,2014,p.11.
[11]﹝英﹞维克托·迈尔-舍恩伯格等著、盛杨燕等译:《大数据时代:生活、工作与思维的大变革》,浙江人民出版社2013年版,第12~13页。
[12]姚力:《中国当代社会史研究的学术视野与问题意识》,《中共党史研究》2011年第1期。
[13]﹝美﹞德·希·珀金斯著、宋海文等译:《中国农业的发展(1368~1968年)》,上海译文出版社1984年版,第141页。
[14]董志凯:《土地改革与我国的社会生产力——回答对我国土改的一种看法》,《中国经济史研究》1987年第3期。
[15]章学诚:《文史通义》,世界书局1935年仿古字版,第45页。
[16]《李大钊全集》第4卷,人民出版社2006年版,第443页。
[17]﹝美﹞乔伊斯·阿普尔比等著、刘北成等译:《历史的真相》,中央编译出版社1999年版,第227~228页。
[18]陶程凯:《也谈历史学和大数据》,《东方早报》2014年7月13日。
[19]李树泉:《论历史研究价值评价的必然性》,《学术月刊》1996年第9期。
[20]《2014中国大数据技术大会落幕》,新华网,http://news.xinhuanet.com/info/2014-12/17/c_133861576.htm,2015年12月20日。
[21]刘建平:《世纪之交的问题意识与新范式探索》,《当代中国史研究》2001年第2期;周祥森:《走向史学的“常规状态”——改革开放以来的史学规范研究》,《史学月刊》2008年第8期。
[22]梁晨等:《量化数据库与历史研究》,《历史研究》2015年第2期。
[23]朱佳木:《论中华人民共和国史研究》,《中国社会科学》2009年第1期。
[24]《毛泽东选集》第4卷,人民出版社1991年版,第1442页。
[责任编辑:郑珺]
[作者简介]王冠中,政治学博士,副教授,首都师范大学政法学院,100089。
*本文为国家社会科学基金项目《新中国重大疫病防控中的政府协同及实现机制研究》(14BZZ088)的拓展性研究成果。 |