二、方志系统地情资料数据库建设现状
在介绍方志系统地情资料数据库之前,我们有必要界定一下“地情数据库”和“地情资料数据库”的区别。本人认为,“前者”概念大于并包含“后者”,前者包括任何地情载体转成电子版,如地方志书、年鉴、其他地情书等等形成的数据库,后者仅仅指系统的地情内容的资料数据库。目前两者概念运用起来有些混淆。
最早开展地情数据库建设的省级志办是山东省地方志办公室。山东为全国方志系统最早启动信息化建设的省份之一。1996年,山东省省情资料库一期工程顺利完成,成为全国方志系统第一家省情资料库。1998年创办了山东省情网。多年来,他们按照“资料数字化、编辑无纸化、传输网络化、办公自动化”的总体方向进行运作。其他各省级、副省级区域志办也先后建立了地情网,有“北京市地方志”、“上海通”、“黑龙江省情信息网”、“吉林省情网”、“广东省情信息网”、“湖北方志网”、“新疆通览”、“内蒙古区情网”、“安徽地方志”、“四川资源网”、“浙江通志”、“福建省情网”、“陕西省地情网”、“河南省省情网”、“贵州方志与地情网”、“广西地情网”,还有一些地州市级志办也建立了自己的地情网站,如上海的奉贤地方志网站、浦东地方志网站等等。
从目前建成的地情数据库看,基本是数据库纳入网站中,如山东省,省情资料库“共建有专题数据库99个、年鉴库19个、其他数据库6个。除山东省省情资料库外,山东省情网还设置近20个一级栏目、100多个二级栏目、4300个页面,共计3亿多字,形成了纵贯古今、横陈百科、内容丰富、特色鲜明的地情资料网站”。刘秋增、孙忠华、李坤:《信息化——地方志事业发展又好又快的助推器》,《中国地方志》2008年第5期。可见,当今所建的地情数据库基本是将首轮志书或其他地情书的文本转为电子版上网。地情资料库进行的“数字化资料的搜集”,“山东省史志办不但规定本系统内出版的志书、年鉴及其地情资料的数字化资料要及时报送省史志办”,同时还与省社会科学院、高校等建立资源共享。同上。从“上海通”网站的栏目也可以看出此点,除“总述”、“上海360度”是反映工作动态、志鉴研究、上海基本地情(概况)外,主要栏目包括区志、县志、专业志、上海通志、上海年鉴、区县年鉴、特色志,实际是首轮志书、地情书及年鉴的文本转电子版。其他全国各地地方志系统网站大体相同。另外,检索系统基本是以志种归类,以具体每部志书为资料库单元,以篇章节目为编次逐级打开进行检索、阅读、下载的。
三、方志系统地情数据库的定位
当今,各级地方志机构的地情数据库建设的速度是很快的,成效是巨大的,基本上把首轮修志以来的成果数字化并上网以供社会利用。
但地方志系统地情资料数据库要有自己的定位,是否就是将每轮修志的文本翻为电子版上网?我认为这是不够的,这只是我们工作的第一步。因为,地方志是资料性文献,资料性要素最重要的一条就是资料要有原始出处,而文本志书考虑篇幅是不注资料出处的,无资料出处的资料学者在研究时是不大敢使用的,即使用了在其他学科学者或某某核心期刊那里的评价也要大打折扣。故数据库采用文本地方志书、年鉴转成电子版,其资料层次实事求是地说是不够高的。另外,成书的地方志资料与修志征集来的资料在字数上差距悬殊。1999年6月,广西通志馆冼光位先生重点统计了广西已出版的40部志书,其中《广西通志》专志20部,市、县志20部,从这批志书的《后记》中了解,这40部志书共收集了各种资料42573万字,平均每部志书收集资料1064万字。这40部志书的出版字数共3738万字,平均每部志书9345万字。每部志书的出版字数只占资料收集字数的878%,即平均为每部志书出版提供1139倍的资料。冼光位:《续修地方志编纂的基本原则》,“广西地情网”2009年4月4日发布。也就是要编纂出100万字的志书,大致需搜集2000万~3000万字的资料,编纂600万字的资料长编。可见采用文本地方志转电子版建地情数据库在资料的量上也是不够大的。地方志系统数据库检索手段基本是按志书篇目设计的分类索引,分类检索到某篇目后,要么是阅读该部分全文,要么在该部分采用自己设想的“主题词”(人名、地名、文章名等)进行全文搜索。分类(篇章节目)索引是精确的,而“主题词”是模糊的,随着数据库资料量的不断增加,检索将越来越困难,如搜索“梅森”会出现大量的“周梅森”(著名作家)、“梅森素数”、“梅森公式”、“爱德华·梅森”、“乔治·梅森”等等词条的链接。所以说,目前地方志系统地情数据库的检索系统还需进一步完善。
地方志系统地情资料数据库的定位窃以为属地情二次性文献资料的数据库,一是主要收录地情资料(反映地情的大背景资料也可适当收录);二是资料必须经过筛选加工,为部分全文收录或大多节录的二次资料文献;三是资料具有存史价值。缺此三点必然雷同于其他的综合性网站、专业网站和其他社会网站,特别是一次性文献系统网站。
|