孔夫子旧书网的元数据

前些天看胡文辉︱陈垣早年的两件尴尬事(2019-05-25),文中说到作者朋友宋希於在孔夫子旧书网上,查到陈垣科举替考那位的图书《甄祝三先生荣寿特刊》,“此系仅见的冷门文献,标价甚昂,实亦无关于学术史。考虑到事涉史学大家,毕竟想其人的结局,犹豫之下,终购得之”。出于好奇去孔夫子查了下,此书在2019-04-22以800元完成交易,确实有点贵。从网页照片,书中多位名人题字可以看个大概。

自2018年末开始的半年里,自己一直在查名人资料,当时就发现孔夫子(包括旧书网拍卖网)是个很有料的地方,尤多名人信札、手稿、题赠图书等。它最大的优点是已拍卖结束资料的信息全都保留着。虽然没法获取原物,但不少物品信息中包含原物的多幅照片,还是能获取不少有价值的信息。比如钱谷融先生在2011年处理家中藏书,这批书不久即大量出现在孔夫子旧书网,其中包含1979-2011年间钱先生收到的赠书,大多为作者签名本。现在孔夫子上可查到的有四五百册,题赠页文字等信息都比较清晰。以下是钱谷融藏书签名本赠送者云图(使用WordArt生成)。

钱谷融藏书-赠书者

为体现物品价值,孔夫子上的数据标注还是挺细致的,涉及名人的除在标题中注明外,还专门有人物介绍。但从元数据设计角度,还是过于粗泛,没有考虑到不同文献的特殊性。如名人信札、题赠图书,涉及发送者与接受者,还有相应的时间、地点等因素,如分别标注,以孔夫子上已经累积的大量实物数据,无疑能呈现丰富的人际关系网络,这是分别对单个人物进行研究时无法实现的。
孔夫子网站上的数据想来是提交拍品者自己提供的,自然不能过于复杂。但可以对提交数据做一些自然语言处理、进行自动填充,比如图书拍品标题文字中有如“签名”“签赠”等,可选择相应前后文字填为赠送人,供提交数据者确认,如此等等。只要对元数据方案稍加改进,孔夫子完全可以在实现拍卖交易的同时,本身成为从实物交往角度反映当代中国名人间关系的数字人文网站,对学术研究也会有更大的价值,或许还能对拍品收藏起到一定的推动作用。

以上图片来自:钱谷融先生的朋友圈(2019-5-22)