OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

OCLC的网站存档元数据(WAM)工作组2016年初开始工作。在与国际互联网保存联盟(International Internet Preservation Consortium)美国档案工作者学会网络存档部(Society of American Archivists Web Archiving Section)和互联网档案(Internet Archive)Archive-It计划的协商下完成工作,并得到很多社区的意见和反馈。2018年初发布成果,共3个出版物:建议、用户需求文献综述、网络收割工具述评。

Web Archiving Metadata Working Group 网站存档元数据工作组
* Descriptive Metadata for Web Archiving: Recommendations of the OCLC Research Library Partnership Web Archiving Metadata Working Group 网站存档的描述性元数据:OCLC研究图书馆合作伙伴网站存档元数据工作组的建议
* Descriptive Metadata of Web Archiving: Literature Review of User Needs 网站存档的描述性元数据:用户需求文献综述
* Descriptive Metadata of Archiving: Review of Harvesting Tools 存档的描述性元数据:收割工具评述

《建议》为网站存档描述元数据的使用指南,含14个描述数据元素的定义、详细说明、举例、取值以及与其他标准的对照(DC、EAD、MARC21、MODS、Schema.org)
本元数据建议使用DC 15个基本元素中的12个:完全沿用9个,其中Contributor还用于Collector,Description还用于Source of description(泛指用于专指);名称有所变化3个(泛指用于专指):Format用于Extent,Type用于Genre/Form,Identifier用于URL)。

以下摘译自《建议》(电子版有信纸58页和A4纸54页2个版本)。

【标准,p.14/58p;数据元素(p.15/58p)】小组既评估现有标准《描述档案:内容标准》(DACS)、《资源描述和检索》(RDA)、《都柏林核心》(Dublin Core),以及编码档案描述(EAD),MARC 21和MODS(元数据对象描述规范),也抽样了解实际做法,包括WorldCat(MARC记录)、ArchiveGrid(MARC记录和检索工具)、Archive-It(都柏林核心)和发现系统中存档网站的现有描述。结果未发现新的数据元素,但某些数据元素的做法或者理解存在不一致
网站创建者/所有者:是出版者、创建者、主体还是三者?
托管机构:选择、收割和托管网站的机构是否应被视为存储库、收集者、出版者、选择者或创建者?
题名:是否应该从网站头逐字转录?编辑以澄清网站的性质/范围?是否应该拼写首字母缩略词?题名是否应包含诸如“……的网站”之类的短语?
日期:哪些日期既重要又可用于记录?网站存在的开始/结束、抓取日期、内容日期或版权日期?
数量:如何最有效地表达? 1个存档的网站、1个在线资源、6.25 GB或约300个网站?
出处(Provenance):出处是指网站的创建者、收割网站和托管网站档案的存储库、网站进化的方式、抓取的频率和日期,还是所有这些?
评估(Appraisal):评估意味着网站保证存档的原因、存储库命名的网站集合或网站的部分是否已被收割?
格式:描述是否清楚地表明资源是网站档案是不是很重要?如果是这样,在题名、数量或描述中如何最好地做到这一点?
URL:应包含哪些URL?种子、访问或登陆页面?
MARC 21记录的类型:当以MARC 21格式编码时,网站是否应被视为连续性资源、集成资源、电子资源、文本出版物、混合资料、手稿或其中任何一种,取决于具体情况?

【数据元素和使用指南(p.17/58)】14个元素及其定义(选摘对应的DC、schema.org元素)
[1] Collector 收集者:负责存档网站或集合的保管和管理的组织。(DC-contributor;schema:OwnershipInfo)
[2] Contributor 贡献者:对存档网站或集合的内容负有次要责任的组织或个人。(DC=;schema:contributor)
[3] Creator 创作者:对创建存档网站或集合的知识内容负有主要负责的组织或个人。(DC=;schema:creator)
[4] Date 日期:与存档网站或集合的生命周期中的事件关联的单个日期或日期范围。(DC=;schema:dateCreated,schema:dateModified,schema:datePublished)【DC Term另有专指时间:dateAccepted,dateCopyrighted,dateSubmitted,不太适合】
[5] Description 描述:一个或多个注释,用于解释存档网站或集合的内容、上下文和其他方面。(DC=;schema:description)
[6] Extent 范围:存档网站或集合大小的指示。(DC-format;schema:description)
[7] Genre/Form 类型/形式:指定存档网站或集合中内容类型的术语。(DC-Type;schema:genre)
[8] Language 语言:存档内容的语言,包括带有语言组件的影音资源。(DC=;schema:inLanguage)
[9] Relation 关系:用于表示单个存档网站与其所属的任何集合之间的部分/整体关系。(DC=;schema 无)
[10] Rights 权利:知识产权法或其他法律协议授予的合法权利和许可声明。(DC=;schema:license,schema:isAccessiblrForFree)【DC Term另有专指权利:accessRights, rightsHolder,类RightsStatement】
[11] Source of description 描述来源:有关收集或创建元数据本身的信息,例如数据源或获取源数据的日期。(DC-Description;schema:description,schema:disambiguatingDescription)
[12] Subject 主题:描述存档网站或集合内容的主要主题。(DC=;schema:about)
[13] Title 标题:存档网站或集合为人所知的名称。(DC=;schema:name)
[14] URL:存档网站或集合的网址。(DC-Identifier;schema:url)

P.S.:纽约艺术资源联盟(NYARC)是Archive-It项目成员,其《描述存档版网站的元数据应用纲要》(27个元素)提到OCLC的“网站存档描述元数据指南”即本建议,并有两种元数据的对照。
参见:为网站编目:《描述存档版网站的元数据应用纲要》(2018-9-9)

为网站编目:《描述存档版网站的元数据应用纲要》

纽约艺术资源联盟(NYARC) 有一个网站存档项目 Archive-it ,目前有10个艺术资源存档集(1个始于2010、9个始于2014),共收录3千多个网站,存档网站包含视频等。存档集和网站均进行编目。
NYARC上月发布《描述存档版网站的元数据应用纲要》(第2版),基于NYARC使用MARC+RDA的编目实践,意在为图书馆和档案社群对网站编目(描述/著录)提供参考。文件存放于GitHub网站,由咨询师Rebecca Guenther制订,初版发布于2015年6月,此次修订发布于2018年8月,已应用于NYARC的10个存档集。内容包括概要及数据字典,MARC记录编码附注,记录样本。此外,数据字典款目包括其他元数据标准元素的映射,包括BIBFRAME、EAD、schema.org和OCLC的Web存档描述元数据指南等,方便相互间转换。
本文件的目的是为NYARC存档网站编目提供指引,但也适用于普通网站编目。大致看了一下,编目元素仅27个,大多数元素有可选值或固定值,需要完全填写的元素仅10个(其中5个可选),可称简洁实用。

via [BIBFRAME] Announcing Version 2.0 of NYARC Metadata Application Profile for Description of Websites with Archived Versions / Deborah Kempe (2018-8-31)

———NYARC《描述存档版网站的元数据应用纲要》笔记———
Metadata Application Profile for Description of Websites with Archived Versions, Version 2 (August 2018)
描述存档版网站的元数据应用纲要,第2版(2018年8月)
目次:
1. MARC/RDA环境中描述存档版网站的数据元素概要
2. 描述存档版网站的元素的数据字典
3. MARC记录编码附注
4. OCLC网络存档元数据(WAM)指南与NYARC【目次未列出】
5. 记录样例【目次标号为4】

1. MARC/RDA环境中描述存档版网站的数据元素概要【编目模板】
元素共27个(需要完全填写的仅10个,其中5个可选),四栏表格:
(1)元素(通用名);(2)对应MARC(字段/子字段);(3)强制性(M必备、M/A有则必备、O可选);(4)提供(可由工具获得,如抓取工具、固定值:8个*取固定值,2个-不采用,其他7个提供部分内容)
27个元素:1题名 2交替题名 3施事者名 4施事者职能 5*收集者(施事者+职能) 6体裁或作品类型 7*资源类型 8*形式 9发行方式 10发行地 11发行者 12发行日期 13抓取日期 14语言 15数量 16*附注(存档) 17摘要 18主题 19实际电子位置 20存档电子位置 21-收藏名 22-收藏URL 23*权利说明 24著录来源(根据模板填日期) 25*保存行动 26*责任者 27*机构代码

2. 描述存档版网站的元素的数据字典【MARC元素+与其他元数据标准的映射】
表格:
(1)元素名,MARC字段(子字段),定义,期望值(数据类型、受控词表、URI、字符串),重复性,强制性,MARC创建/维护附注,MARC使用附注
(2)映射(属性/元素名,映射附注):DC属性,MODS元素,BIBFRAME属性(类、属性),EAD元素,OCLC元素,Schema.org属性

3. MARC记录编码附注【主要是0XX字段的说明】

4. OCLC网络存档元数据(WAM)指南与NYARC【元素对照,目次未列出,估计WAM指南2018.2发布后添加】
三栏表格:(1)OCLC WAM元素;(2)NYARC AP元素(对应MARC);(3)附注
OCLC WAM元素(14项):
1收集者 2贡献者 3创建者 4日期(网站上线日期,种子URL抓取日期,网站查看日期) 5描述(传记和历史信息,收集理由,范围与内容,摘要,档案检索工具) 6数量 7体裁/形式 8语言 9关系(单个网站到收藏) 10权利(使用限制、访问限制) 11著录来源 12主题 13题名 14URL

5. 记录样例【编号有误】
4.1 艺术家网站
1.2 归还失落或被掠夺的艺术品
4.3 画册目录(Catalogue raisonné)
4.4 艺术资源
4.5 美术馆
4.6 存档集

如何评价元数据标准?

美国图书馆协会的“图书馆馆藏和技术服务协会”/“图书馆和信息技术协会”下属“元数据标准委员会”( ALCTS/LITA Metadata Standards Committee),正在制订一个“评价元数据标准”的文件,目的在于供图书馆、档案馆和博物馆(LAM)界开发、维护、治理、选择、使用和评估元数据标准。这里的“元数据标准”指结构标准(字段表、属性),不包括内容标准和取值词表。

文件最初名为“评价元数据标准的检查清单”,2015年1月20日发布草案,供委员会在2015年ALA仲冬会议期间讨论。检查清单共10项:
DRAFT Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · JANUARY 20, 2015
1. The future of metadata is in the network 元数据的未来在网络中
2. Metadata should only be created where there is value 元数据应当只在有价值的地方创建
3. Metadata and metadata standards should be open and re-usable 元数据和元数据标准应当是开放而可重用的
4. New metadata standards should support new research methods 新元数据标准应当支持新的研究方法
5. A metadata schema without a maintenance community is of little enduring value 没有维护社区的元数据格式鲜有持续价值
6. Metadata standards of the future should be web-enabled by default 未来的元数据标准应当默认支持web的
7. Standards should be extendable with properties/classes/elements from other communities/standards 标准应当可以由来自其他社区/标准的属性/类/元素来扩展
8. Standards should be applicable to multiple communities and support selective adoption 标准应该可用于多个社区,支持选择性采用
9. Standards should support aggregation, exchange, automation, and computational analysis 标准应该支持集成、交换、自动化和计算分析
10. Metadata schema should follow the rules of “graceful degradation ” and “responsive design” 元数据格式应当遵循“柔性降级”和“响应式设计”规则

委员会讨论结果于3月1日发布:
Discussion notes: Draft Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · MARCH 1, 2015

10月发布的新版草案吸收了不少讨论建议,由10点合并为7点,名称修改为“评价元数据标准的原则”(讨论曾建议用“声明”或“宣言”代替“检查清单”):
DRAFT Principles for Evaluating Metadata Standards, BY JENNIFER LISS · OCTOBER 27, 2015
1. Metadata and metadata standards should be part of the network 元数据和元数据标准应当是网络的一部分
2. Metadata and metadata standards should be open and reusable 元数据和元数据标准应当开放、可重用
3. Metadata creation should benefit user communities 元数据创建应当使用户社区得益
4. Metadata standards should support new research methods 元数据标准应当支持新的研究方法
5. Metadata standards should have an active maintenance and governance community 元数据标准应当有一个积极维护和治理的社区
6. Standards should be extensible, embeddable, and interoperable 标准应该可扩展、可嵌入、可互操作
7. Metadata standards should follow the rules of “graceful degradation” and “responsive design”元数据标准应当遵循“柔性降级”和“响应式设计”的规则

2016年ALA仲冬会议期间将有两场针对新版草案的报告。与年初草案博文下无人响应相比,新草案博文下已经有了7个评论,Diane Hillmann更是写了一篇博文逐点评论——可惜基本是负面的:
Metadata Matters: Review of: DRAFT Principles for Evaluating Metadata Standards, by Diane Hillmann, December 14, 2015

看完博文,首先感觉是元数据领域术语之缺乏共识,甚至对“元数据结构”“内容标准”“取值词表”竟然都被认为还需要定义来确定范围;至于如何评价元数据标准,更缺乏共识,这也是BIBFRAME讨论中常有的感觉。
Diane Hillmann在谈到互操作性时称:“互操作性尤其是我们应该都牢记的,但尽管很好,互操作性在实践中很少成功,因为不同模型实际上的不兼容。DC、MARC21、BIBFRAME、RDA和Schema.org就是例子——尽管它们“模块化”,总体上它们不能简单地用作“模块”,因为在模型背后的思考和各自的受众不同。”——也许是这样,但这不应该影响“互操作”作为元数据标准的追求目标或评价原则吧?
无论如何,Diane Hillmann的结论是,“评价元数据标准”很重要,但该文件目的未能在文件中达成,应该看看NISO的书目路标项目(NISO Bibliography Roadmap),暂停当前工作,先做个术语表。
对于本文件缺乏术语定义这一点,前述委员会讨论中也有提及。在共识缺乏的元数据领域,做一个术语表作为附录看来确实有必要。

关于NISO书目路标,参见:NISO发布新计划:开发书目词表交换标准(2015年3月19日)