孔夫子旧书网的元数据

前些天看胡文辉︱陈垣早年的两件尴尬事(2019-05-25),文中说到作者朋友宋希於在孔夫子旧书网上,查到陈垣科举替考那位的图书《甄祝三先生荣寿特刊》,“此系仅见的冷门文献,标价甚昂,实亦无关于学术史。考虑到事涉史学大家,毕竟想其人的结局,犹豫之下,终购得之”。出于好奇去孔夫子查了下,此书在2019-04-22以800元完成交易,确实有点贵。从网页照片,书中多位名人题字可以看个大概。

自2018年末开始的半年里,自己一直在查名人资料,当时就发现孔夫子(包括旧书网拍卖网)是个很有料的地方,尤多名人信札、手稿、题赠图书等。它最大的优点是已拍卖结束资料的信息全都保留着。虽然没法获取原物,但不少物品信息中包含原物的多幅照片,还是能获取不少有价值的信息。比如钱谷融先生在2011年处理家中藏书,这批书不久即大量出现在孔夫子旧书网,其中包含1979-2011年间钱先生收到的赠书,大多为作者签名本。现在孔夫子上可查到的有四五百册,题赠页文字等信息都比较清晰。以下是钱谷融藏书签名本赠送者云图(使用WordArt生成)。

钱谷融藏书-赠书者

为体现物品价值,孔夫子上的数据标注还是挺细致的,涉及名人的除在标题中注明外,还专门有人物介绍。但从元数据设计角度,还是过于粗泛,没有考虑到不同文献的特殊性。如名人信札、题赠图书,涉及发送者与接受者,还有相应的时间、地点等因素,如分别标注,以孔夫子上已经累积的大量实物数据,无疑能呈现丰富的人际关系网络,这是分别对单个人物进行研究时无法实现的。
孔夫子网站上的数据想来是提交拍品者自己提供的,自然不能过于复杂。但可以对提交数据做一些自然语言处理、进行自动填充,比如图书拍品标题文字中有如“签名”“签赠”等,可选择相应前后文字填为赠送人,供提交数据者确认,如此等等。只要对元数据方案稍加改进,孔夫子完全可以在实现拍卖交易的同时,本身成为从实物交往角度反映当代中国名人间关系的数字人文网站,对学术研究也会有更大的价值,或许还能对拍品收藏起到一定的推动作用。

以上图片来自:钱谷融先生的朋友圈(2019-5-22)

IFLA胎死腹中的数字资源元数据指南:元数据类型和核心元素

元数据有很多不同的划分方法。如:
曾蕾与秦健教授的《元数据》分为4种:1数据结构标准,2数据内容标准,3数据值标准,4数据交换标准。参见:元数据和编目标准类型(2014-5-8)
NISO的《理解元数据》分为4种:1描述元数据;2管理元数据(技术/保存/权利);3结构元数据;4标记语言。参见:NISO发布入门读物《理解元数据》(2017-2-9)

新发现IFLA编目部“元数据方案使用工作组”2003年《数字资源和馆藏的元数据记录的结构、内容和应用指南》(草案),又是一种分类方法(详见后)。
Guidance on the Structure, Content, and Application of Meatdata Records for Digital Resources and Collections
Report of the IFLA Cataloguing Section, Working Group on the Use of Metadata Schemas
Draft – for Worldwide Review, 27 October, 2003
工作组成立于1998年IFLA年会上,1999-2003连续5年在IFLA年会上开会,最终形成了这个草案。不知什么原因停步于草案,没有如文件中希望的那样在2004年IFLA年会得到通过。
忘了在哪里看到这个IFLA文件了。因为是草案,在编目部的出版物和出版清单中没有,IFLA网站内搜索文件名也没有结果,只有搜索引擎可以查到这个在IFLA存档中的文件。

——— 通用元数据记录的类型或结构 ——-
本文件基于FRBR的用户任务(发现、识别、选择、获取),确定了10个核心元素,并与10种通用元数据方案作了映射(附录)。作为讨论的基础,在2.1节定义了6种元数据类型:
[1] 管理元数据:关于记录本身的“内务处理”信息 – 其创建、修改、与其他记录的关系等。元素如:记录号,记录创建日期,最后修改日期,记录创建者/修改者的标识,记录的语言,附注,本记录与其他记录的关系。
[2] 描述性元数据:描述数字项目或对象的物理和知识属性或内容的信息。元素如:题名,创建者,日期,出版者,唯一标识符,动态链接,摘要、描述性附注、评论等,受众层次,物理媒介、格式等,单件或对象的语言,版本。
[3] 分析元数据:分析和增强对资源内容的访问的信息。有时也称为“主题元数据”。元素如:受控主题词,主题/论题关键词,摘要、目次,分类代码、其他本地元素如所属部门、其他电子内容相关链接。
[4] 权利管理元数据:有关访问或使用数字单件或对象的限制(法律;财务等)的信息。元素如:使用限制,许可说明,订购/许可/每次使用费,致谢,版权声明,保留时间表,质量评级,使用免责声明。
[5] 技术元数据:用于将单项/对象转换为数字格式或存储、显示等的特定硬件或软件。元素如:数字化设备规格,相机位置,拍摄条件,编码参数,语音识别和/或回读硬件和软件,光学扫描仪规格,图像渲染设备,文件类型和转换软件要求
[6] 其他待定。例如,基于本地、区域和/或组织要求的特定元数据元素,或者根据国家规定的元数据标准,并且不包含在上面的任何元数据类型中。

——— 核心元素和常用元数据 ———
3.1节确定的核心元素
10个核心元素:主题,日期,使用条件,出版者,资源名称,语言/表达模式,资源标识符,资源类型,作者/创建者,版本

贯穿整个文件的元数据方案(从背景到附录)
10种元数据方案:MARC21,UNIMARC,DC,TEI,EAD,VRA,CSDGM/FGDC,CIMI,GILS,ONIX
其中:
CSDGM = Content Standard for Digital Geospatial Metadata(FGDC=美国联邦地理数据委员会,当前版本:Vers. 2 (FGDC-STD-001-1998))
CIMI = Consortium for the Interchange of Museum Information(始于1990,从wikipedia词条下网站链接看,大概率已经死掉了)
GILS = Government Information Locator Service [now Global Information Locator Service]

OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)