初试“中国地方志数据库”(华中师范大学中国农村研究院)

2019年4月19日,华中师范大学政治科学高等研究院/中国农村研究院召开新闻发布会,收录量达31483册,计82735卷的“中国地方志数据库”(网址:http://lcd.ccnu.edu.cn)正式向社会开放。
via微信公众号“华中师范大学中国农村研究院”:一库知古今!中国地方志数据库正式上线开放(2019-4-19)

看到此消息,关心两点:一是全文的版权与使用,一是数据与功能。

—— 中国地方志数据库:版权与使用 ——
网站首页底下“使用声明”提供了版权相关说明:
“3、本数据库为我们购买、获赠,以及从网上公开渠道下载的数据汇集,任何单位或个人认为本数据库中的内容侵犯其知识产权,请及时向本数据库提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。本数据库在收到上述法律文件后,将会依法尽快修改或者删除相关内容。”——感觉比较霸气,也许本身很有底气吧。
另外摘要“帮助”页面中常见问题,可了解其使用模式:
注册:……需要填写用户名称、真实姓名、密码、手机号、邮箱、出生年月、所在地区、学历、行业、所在单位,并通过手机验证码进行有效性验证……
积分:获取积分有两种途径,第一种是为我们捐献地方志获取积分。第二种是购买积分,该方式暂未开放。……
捐赠:第一步,捐赠之前您首先需要登录账号。 第二步,点击上面的“捐赠”按钮。第三步,您需要完善要捐献的地方志信息,并添加地方志,点击提交即可。特别说明:稀缺的地方志最多可以获得100分的积分。
下载:下载之前您需要获取积分,下载分为整本下载和分页下载,目前下载功能暂不开放。……每1积分可以下载10页地方志……

—— 中国地方志数据库:功能与数据 ——
关于数据库的功能与数据,由于没有注册、登录,只是表面浏览了一下。
地方志”页面:中间搜索框+查询结果,左栏分面限定、右栏统计
1、静态信息
首页提示:82736卷
左栏分面:
-地区级(全国、省、市、县、乡、村)
-年代层级(明代及以前、清、民国、1949年以后)
-地区名称(西南、西北、华南、华北、华中、华东、东北)
-分类(部门志、专业志、地方志、其他)
右栏统计
按年代统计:明代及以前4696,清38607,民国14786,1949年以后20086【合计78175】
按地区统计:山东7097,浙江6120,河南5781,江苏5729,河北4436【仅列前5】
【提示卷数82736与按年代统计的合计数量78175不符,原因?】

2、查询结果
分别选择年代分面:明代及以前1771,清29840,民国4
从结果清单看,其数量应该是书目种数,如此可以解释这里的数量与前述“右栏统计”的明显差距。但民国的数量差距过大,数据显然存在问题。
种与册在书目中时常是个问题,按新闻稿这里还涉及“卷”,数据统计恐怕更麻烦。比如《[万历]韩城县志八卷》有2条记录(卷一至卷四、卷五至卷八),通常意味着会算成2种,恐怕也是2册,但有8卷。

未注册无法查看详细的元数据,此点似乎不尽合理(点击“查看”提示:“出于对版权保护,地方志需要登录方可查看”),或许并没有更详细的元数据显示?不过仅目前的显示,也可看到4条民国记录中的2条元数据存在问题
其1:黄陂县地名志-黄陂县地名领导小组-1981年11月
年份:民国四年(从标题的责任者和年份都可以判断此信息有误)
其4:黄南藏族自治州概况
年份:民国四年;省份:西藏自治区(“自治州”应当是1949年以后的产物,并且黄南属于青海)
另外一条《民国邹平县志》也是“民国四年”,不知道此年有什么特别?查了下,《民国邹平县志》在不少收藏馆都是民国3年版。

题外感想:书目数据的质量,平时少人关注。做得好理所当然,做得不好也不大有感觉。只是当需要数据发挥作用时,问题就全显现了。

新发布国家标准《地方志索引编制规则》

近来正关注着方志,昨天去上师大参加中国索引学会上海工作站成立会,得知新发布了地方志索引编制的国家标准,便找来学习。

GB/T 36070-2018 地方志索引编制规则
2018-03-15 发布;2018-10-01 实施
全国信息与文献标准化技术委员会(SAC/TC 4)提出
起草单位:中国索引学会、佛山科学技术学院、复旦大学、北京印刷学院
主要起草人:衡中青、杨光辉、王彥祥、王有朋、温国强、王雅戈、康艳、郭丽芳、赵月南

本标准共15页,在国家标准全文公开系统(http://www.gb688.cn/bzgk/gb/)中可以在线浏览。摘编主要内容如下【加本人附注】。

1 范围
新编地方志

2 术语和定义
地方志 local chronicles :记载一定地区(或行政区划)自然和社会各方面历史和现状的综合性著述和资料性文献
注:1949年……以后编纂的地方志称为新编地方志,包括地方志书地方综合年鉴

6 地方志索引范围
具有实质检索意义的表达人、事、物的名称,文献表格题名与内容,图照题名与说明文字,以及主题事物和主题概念等;地方综合年鉴的条目、特载、专文以及年鉴其他内容中包含实质检索意义的语词。
不包括:序跋、目录、凡例、参考文献等。

7 地方志标引
7.1 人名标引【没有对人名进行规范的要求,也未说明对各种异名各自立目、并作参见处理】
不包括:没有检索价值的帝王年号,法律法规文件和讲话文章中不符合索引主题要求的人名,纪念物中的人名,以人名命名的路、街、村、屯中的人名【作为地名】,机构名称中的人名【作为机构】,人物传、略、录、表中重复出现的本传传主人名,地方志条目的撰稿人,参考文献的编著者等。

7.2 地名标引【题外:感觉应当要求方志编纂时为地名标上经纬度】
包括:行政区划名称,地形地貌名称,自然形成的居民地的省、市、县、州、村、屯、街、路、坟、里弄、胡同等名称,具有地名含义的交通、水电设施名称,名胜古迹及建筑物名称等。【竟然未明确说明“区”】
例如:“上海市徐汇区天平街道”“珠穆朗玛峰”“上海市邯郸路”“江湾立交桥”“贵阳孔学堂”等。

7.3 机构标引
包括:确指的、独立存在的各类机构、团体、企事业单位等名称;
不包括:虚拟的各级标题中的机构、团体、企事业单位名称,例如:“县处级以上领导机构群众路线教育实践活动”中的“县处级以上领导机关”、“在沪央企发展巡礼”中的“在沪央企”。【“虚拟”?宜称:泛指或非特指名称】

7.4 会议、展览、活动标引
包括:会议、展览、活动名称及其主题事物和主题概念等。
名称过长的,取其简称或自拟主题词;合并举办的,分拆标引、各自立目。

7.5 事件标引
事件名称及其主题事物和主题概念等。
可以直接抽取主题词作为标目,也可根据事件人物、时间、地点等要素自拟主题词。

7.6 物产标引
特产名称,包含正式名称和异名别称等。
容易产生歧义的加限义词界定。示例:竹叶青(蛇),竹叶青(酒)竹叶青(茶叶)【规范控制】

7.7 名胜、古迹标引【与7.2地名交叉】
如自然景观、人文景观及特色藏品等。
容易产生歧义的加限义词界定。示例:扬州八怪纪念馆(扬州),扬州八怪纪念馆(镇江)【规范控制】

7.8 文献题名标引【非指参考文献】
前后加有书名号的文献题名直接从文献中抽取,照录;文献名过长的,加自拟文献题名作为参照款目,自拟文献题名不加书名号。
有正、副书名的应分拆标引,各自立目。【很有意思的规定】
同书异名、各自立目,互为参照。
异书同名的加著者或出版机构等加以区分。【规范控制】

7.9 表格标引
表格题名或内容信息。
直接抽取表格题名或内容信息作为标目,表格题名过长的自拟主题词作为标目。
表格题名不能明确揭示表格类型的加“(表)”字。【规范控制】

7.10 图照标引
图片、照片题名或说明文字。包括:以图照形式存在的各类题词、书法作品、书影,计算机制作的图形等。
抽取图照题名作为标目,题名过长的自拟主题词作为标目。
图照没有题名的,对说明文字进行主题分析,自拟主题词作为标目。
题名如不能明确表达“图片”“照片”这种记述形式的,应在其后加“(图)”字样。【规范控制】

7.11 主题标引
主题事物或主题概念。
以自由标引为主,受控标引为辅。