孔夫子旧书网的元数据

前些天看胡文辉︱陈垣早年的两件尴尬事(2019-05-25),文中说到作者朋友宋希於在孔夫子旧书网上,查到陈垣科举替考那位的图书《甄祝三先生荣寿特刊》,“此系仅见的冷门文献,标价甚昂,实亦无关于学术史。考虑到事涉史学大家,毕竟想其人的结局,犹豫之下,终购得之”。出于好奇去孔夫子查了下,此书在2019-04-22以800元完成交易,确实有点贵。从网页照片,书中多位名人题字可以看个大概。

自2018年末开始的半年里,自己一直在查名人资料,当时就发现孔夫子(包括旧书网拍卖网)是个很有料的地方,尤多名人信札、手稿、题赠图书等。它最大的优点是已拍卖结束资料的信息全都保留着。虽然没法获取原物,但不少物品信息中包含原物的多幅照片,还是能获取不少有价值的信息。比如钱谷融先生在2011年处理家中藏书,这批书不久即大量出现在孔夫子旧书网,其中包含1979-2011年间钱先生收到的赠书,大多为作者签名本。现在孔夫子上可查到的有四五百册,题赠页文字等信息都比较清晰。以下是钱谷融藏书签名本赠送者云图(使用WordArt生成)。

钱谷融藏书-赠书者

为体现物品价值,孔夫子上的数据标注还是挺细致的,涉及名人的除在标题中注明外,还专门有人物介绍。但从元数据设计角度,还是过于粗泛,没有考虑到不同文献的特殊性。如名人信札、题赠图书,涉及发送者与接受者,还有相应的时间、地点等因素,如分别标注,以孔夫子上已经累积的大量实物数据,无疑能呈现丰富的人际关系网络,这是分别对单个人物进行研究时无法实现的。
孔夫子网站上的数据想来是提交拍品者自己提供的,自然不能过于复杂。但可以对提交数据做一些自然语言处理、进行自动填充,比如图书拍品标题文字中有如“签名”“签赠”等,可选择相应前后文字填为赠送人,供提交数据者确认,如此等等。只要对元数据方案稍加改进,孔夫子完全可以在实现拍卖交易的同时,本身成为从实物交往角度反映当代中国名人间关系的数字人文网站,对学术研究也会有更大的价值,或许还能对拍品收藏起到一定的推动作用。

以上图片来自:钱谷融先生的朋友圈(2019-5-22)

初试“中国地方志数据库”(华中师范大学中国农村研究院)

2019年4月19日,华中师范大学政治科学高等研究院/中国农村研究院召开新闻发布会,收录量达31483册,计82735卷的“中国地方志数据库”(网址:http://lcd.ccnu.edu.cn)正式向社会开放。
via微信公众号“华中师范大学中国农村研究院”:一库知古今!中国地方志数据库正式上线开放(2019-4-19)

看到此消息,关心两点:一是全文的版权与使用,一是数据与功能。

—— 中国地方志数据库:版权与使用 ——
网站首页底下“使用声明”提供了版权相关说明:
“3、本数据库为我们购买、获赠,以及从网上公开渠道下载的数据汇集,任何单位或个人认为本数据库中的内容侵犯其知识产权,请及时向本数据库提出书面权利通知,并提供身份证明、权属证明及详细侵权情况证明。本数据库在收到上述法律文件后,将会依法尽快修改或者删除相关内容。”——感觉比较霸气,也许本身很有底气吧。
另外摘要“帮助”页面中常见问题,可了解其使用模式:
注册:……需要填写用户名称、真实姓名、密码、手机号、邮箱、出生年月、所在地区、学历、行业、所在单位,并通过手机验证码进行有效性验证……
积分:获取积分有两种途径,第一种是为我们捐献地方志获取积分。第二种是购买积分,该方式暂未开放。……
捐赠:第一步,捐赠之前您首先需要登录账号。 第二步,点击上面的“捐赠”按钮。第三步,您需要完善要捐献的地方志信息,并添加地方志,点击提交即可。特别说明:稀缺的地方志最多可以获得100分的积分。
下载:下载之前您需要获取积分,下载分为整本下载和分页下载,目前下载功能暂不开放。……每1积分可以下载10页地方志……

—— 中国地方志数据库:功能与数据 ——
关于数据库的功能与数据,由于没有注册、登录,只是表面浏览了一下。
地方志”页面:中间搜索框+查询结果,左栏分面限定、右栏统计
1、静态信息
首页提示:82736卷
左栏分面:
-地区级(全国、省、市、县、乡、村)
-年代层级(明代及以前、清、民国、1949年以后)
-地区名称(西南、西北、华南、华北、华中、华东、东北)
-分类(部门志、专业志、地方志、其他)
右栏统计
按年代统计:明代及以前4696,清38607,民国14786,1949年以后20086【合计78175】
按地区统计:山东7097,浙江6120,河南5781,江苏5729,河北4436【仅列前5】
【提示卷数82736与按年代统计的合计数量78175不符,原因?】

2、查询结果
分别选择年代分面:明代及以前1771,清29840,民国4
从结果清单看,其数量应该是书目种数,如此可以解释这里的数量与前述“右栏统计”的明显差距。但民国的数量差距过大,数据显然存在问题。
种与册在书目中时常是个问题,按新闻稿这里还涉及“卷”,数据统计恐怕更麻烦。比如《[万历]韩城县志八卷》有2条记录(卷一至卷四、卷五至卷八),通常意味着会算成2种,恐怕也是2册,但有8卷。

未注册无法查看详细的元数据,此点似乎不尽合理(点击“查看”提示:“出于对版权保护,地方志需要登录方可查看”),或许并没有更详细的元数据显示?不过仅目前的显示,也可看到4条民国记录中的2条元数据存在问题
其1:黄陂县地名志-黄陂县地名领导小组-1981年11月
年份:民国四年(从标题的责任者和年份都可以判断此信息有误)
其4:黄南藏族自治州概况
年份:民国四年;省份:西藏自治区(“自治州”应当是1949年以后的产物,并且黄南属于青海)
另外一条《民国邹平县志》也是“民国四年”,不知道此年有什么特别?查了下,《民国邹平县志》在不少收藏馆都是民国3年版。

题外感想:书目数据的质量,平时少人关注。做得好理所当然,做得不好也不大有感觉。只是当需要数据发挥作用时,问题就全显现了。

联合国《文化权利:十周年报告》

联合国人权理事会第四十届会议(2019年2月25日至3月22日),发布《文化权利:十周年报告》,纪念文化权利任务创建十周年和《世界人权宣言》发表七十周年。
Cultural rights: tenth anniversary report – Report of the Special Rapporteur in the field of cultural rights (2019-01-17, A/HRC/40/53;英、法、西、阿、汉、俄6种文字)
报告概述了联合国自2009年设立文化权利领域特别报告员以来的工作、未解决的挑战、未来十年的任务及对各方提出的建议。

人权到底有哪些?公民权利,政治权利,经济、社会及文化权利,发展权……,留给感兴趣的人去探索吧。
报告中提到与文化权利有关的2个联合国文件《世界人权宣言》第二十七条和《经济、社会及文化权利国际公约》第十五条,从联合国官网找来相关条款备查。

—— 世界人权宣言 ——
《世界人权宣言》是人权史上具有里程碑意义的文件。它由来自世界各个地区不同法律和文化背景的代表起草,于1948年12月10日在巴黎召开的大会会议上以第217A(III)号决议通过。《世界人权宣言》作为所有国家和所有人民的共同成就,第一次规定了基本人权应得到普遍保护。《世界人权宣言》已被翻译成近500种语言。【2018年12月10日,纪念《世界人权宣言》发表70周年座谈会在北京举行
第一条
人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。
第二十七条
㈠ 人人有权自由参加社会的文化生活,享受艺术,并分享科学进步及其产生的福利。
㈡ 人人对由于他所创作的任何科学、文学或美术作品而产生的精神的和物质的利益,有享受保护的权利。

—— 经济、社会及文化权利国际公约 ——
联合国大会1966年12月16日第2200(XXI)号决议通过并开放给各国签字、批准和加入。按照第27条规定,于1976年1月3日生效。【中国1997-10-27签署,2001-3-21加入
第十五条
一、本公约缔约各国承认人人有权:
(甲)参加文化生活;
(乙)享受科学进步及其应用所产生的利益;
(丙)对其本人的任何科学、文学或艺术作品所产生的精神上和物质上的利益,享受被保护之利。
二、本公约缔约各国为充分实现这一权利而采取的步骤应包括为保存、发展和传播科学和文化所必需的步骤。
三、本公约缔约各国承担尊重进行科学研究和创造性活动所不可缺少的自由。
四、本公约缔约各国认识到鼓励和发展科学与文化方面的国际接触和合作的好处。
第二十七条
一、本公约应自第三十五件批准书或加入书交存联合国秘书长之日起三个月后生效。
二、对于在第三十五件批准书或加入书交存后批准或加入本公约的国家,本公约应自该国交存其批准书或加入书之日起三个月后生效。