为网站编目:《描述存档版网站的元数据应用纲要》

纽约艺术资源联盟(NYARC) 有一个网站存档项目 Archive-it ,目前有10个艺术资源存档集(1个始于2010、9个始于2014),共收录3千多个网站,存档网站包含视频等。存档集和网站均进行编目。
NYARC上月发布《描述存档版网站的元数据应用纲要》(第2版),基于NYARC使用MARC+RDA的编目实践,意在为图书馆和档案社群对网站编目(描述/著录)提供参考。文件存放于GitHub网站,由咨询师Rebecca Guenther制订,初版发布于2015年6月,此次修订发布于2018年8月,已应用于NYARC的10个存档集。内容包括概要及数据字典,MARC记录编码附注,记录样本。此外,数据字典款目包括其他元数据标准元素的映射,包括BIBFRAME、EAD、schema.org和OCLC的Web存档描述元数据指南等,方便相互间转换。
本文件的目的是为NYARC存档网站编目提供指引,但也适用于普通网站编目。大致看了一下,编目元素仅27个,大多数元素有可选值或固定值,需要完全填写的元素仅10个(其中5个可选),可称简洁实用。

via [BIBFRAME] Announcing Version 2.0 of NYARC Metadata Application Profile for Description of Websites with Archived Versions / Deborah Kempe (2018-8-31)

———NYARC《描述存档版网站的元数据应用纲要》笔记———
Metadata Application Profile for Description of Websites with Archived Versions, Version 2 (August 2018)
描述存档版网站的元数据应用纲要,第2版(2018年8月)
目次:
1. MARC/RDA环境中描述存档版网站的数据元素概要
2. 描述存档版网站的元素的数据字典
3. MARC记录编码附注
4. OCLC网络存档元数据(WAM)指南与NYARC【目次未列出】
5. 记录样例【目次标号为4】

1. MARC/RDA环境中描述存档版网站的数据元素概要【编目模板】
元素共27个(需要完全填写的仅10个,其中5个可选),四栏表格:
(1)元素(通用名);(2)对应MARC(字段/子字段);(3)强制性(M必备、M/A有则必备、O可选);(4)提供(可由工具获得,如抓取工具、固定值:8个*取固定值,2个-不采用,其他7个提供部分内容)
27个元素:1题名 2交替题名 3施事者名 4施事者职能 5*收集者(施事者+职能) 6体裁或作品类型 7*资源类型 8*形式 9发行方式 10发行地 11发行者 12发行日期 13抓取日期 14语言 15数量 16*附注(存档) 17摘要 18主题 19实际电子位置 20存档电子位置 21-收藏名 22-收藏URL 23*权利说明 24著录来源(根据模板填日期) 25*保存行动 26*责任者 27*机构代码

2. 描述存档版网站的元素的数据字典【MARC元素+与其他元数据标准的映射】
表格:
(1)元素名,MARC字段(子字段),定义,期望值(数据类型、受控词表、URI、字符串),重复性,强制性,MARC创建/维护附注,MARC使用附注
(2)映射(属性/元素名,映射附注):DC属性,MODS元素,BIBFRAME属性(类、属性),EAD元素,OCLC元素,Schema.org属性

3. MARC记录编码附注【主要是0XX字段的说明】

4. OCLC网络存档元数据(WAM)指南与NYARC【元素对照,目次未列出,估计WAM指南2018.2发布后添加】
三栏表格:(1)OCLC WAM元素;(2)NYARC AP元素(对应MARC);(3)附注
OCLC WAM元素(14项):
1收集者 2贡献者 3创建者 4日期(网站上线日期,种子URL抓取日期,网站查看日期) 5描述(传记和历史信息,收集理由,范围与内容,摘要,档案检索工具) 6数量 7体裁/形式 8语言 9关系(单个网站到收藏) 10权利(使用限制、访问限制) 11著录来源 12主题 13题名 14URL

5. 记录样例【编号有误】
4.1 艺术家网站
1.2 归还失落或被掠夺的艺术品
4.3 画册目录(Catalogue raisonné)
4.4 艺术资源
4.5 美术馆
4.6 存档集

如何评价元数据标准?

美国图书馆协会的“图书馆馆藏和技术服务协会”/“图书馆和信息技术协会”下属“元数据标准委员会”( ALCTS/LITA Metadata Standards Committee),正在制订一个“评价元数据标准”的文件,目的在于供图书馆、档案馆和博物馆(LAM)界开发、维护、治理、选择、使用和评估元数据标准。这里的“元数据标准”指结构标准(字段表、属性),不包括内容标准和取值词表。

文件最初名为“评价元数据标准的检查清单”,2015年1月20日发布草案,供委员会在2015年ALA仲冬会议期间讨论。检查清单共10项:
DRAFT Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · JANUARY 20, 2015
1. The future of metadata is in the network 元数据的未来在网络中
2. Metadata should only be created where there is value 元数据应当只在有价值的地方创建
3. Metadata and metadata standards should be open and re-usable 元数据和元数据标准应当是开放而可重用的
4. New metadata standards should support new research methods 新元数据标准应当支持新的研究方法
5. A metadata schema without a maintenance community is of little enduring value 没有维护社区的元数据格式鲜有持续价值
6. Metadata standards of the future should be web-enabled by default 未来的元数据标准应当默认支持web的
7. Standards should be extendable with properties/classes/elements from other communities/standards 标准应当可以由来自其他社区/标准的属性/类/元素来扩展
8. Standards should be applicable to multiple communities and support selective adoption 标准应该可用于多个社区,支持选择性采用
9. Standards should support aggregation, exchange, automation, and computational analysis 标准应该支持集成、交换、自动化和计算分析
10. Metadata schema should follow the rules of “graceful degradation ” and “responsive design” 元数据格式应当遵循“柔性降级”和“响应式设计”规则

委员会讨论结果于3月1日发布:
Discussion notes: Draft Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · MARCH 1, 2015

10月发布的新版草案吸收了不少讨论建议,由10点合并为7点,名称修改为“评价元数据标准的原则”(讨论曾建议用“声明”或“宣言”代替“检查清单”):
DRAFT Principles for Evaluating Metadata Standards, BY JENNIFER LISS · OCTOBER 27, 2015
1. Metadata and metadata standards should be part of the network 元数据和元数据标准应当是网络的一部分
2. Metadata and metadata standards should be open and reusable 元数据和元数据标准应当开放、可重用
3. Metadata creation should benefit user communities 元数据创建应当使用户社区得益
4. Metadata standards should support new research methods 元数据标准应当支持新的研究方法
5. Metadata standards should have an active maintenance and governance community 元数据标准应当有一个积极维护和治理的社区
6. Standards should be extensible, embeddable, and interoperable 标准应该可扩展、可嵌入、可互操作
7. Metadata standards should follow the rules of “graceful degradation” and “responsive design”元数据标准应当遵循“柔性降级”和“响应式设计”的规则

2016年ALA仲冬会议期间将有两场针对新版草案的报告。与年初草案博文下无人响应相比,新草案博文下已经有了7个评论,Diane Hillmann更是写了一篇博文逐点评论——可惜基本是负面的:
Metadata Matters: Review of: DRAFT Principles for Evaluating Metadata Standards, by Diane Hillmann, December 14, 2015

看完博文,首先感觉是元数据领域术语之缺乏共识,甚至对“元数据结构”“内容标准”“取值词表”竟然都被认为还需要定义来确定范围;至于如何评价元数据标准,更缺乏共识,这也是BIBFRAME讨论中常有的感觉。
Diane Hillmann在谈到互操作性时称:“互操作性尤其是我们应该都牢记的,但尽管很好,互操作性在实践中很少成功,因为不同模型实际上的不兼容。DC、MARC21、BIBFRAME、RDA和Schema.org就是例子——尽管它们“模块化”,总体上它们不能简单地用作“模块”,因为在模型背后的思考和各自的受众不同。”——也许是这样,但这不应该影响“互操作”作为元数据标准的追求目标或评价原则吧?
无论如何,Diane Hillmann的结论是,“评价元数据标准”很重要,但该文件目的未能在文件中达成,应该看看NISO的书目路标项目(NISO Bibliography Roadmap),暂停当前工作,先做个术语表。
对于本文件缺乏术语定义这一点,前述委员会讨论中也有提及。在共识缺乏的元数据领域,做一个术语表作为附录看来确实有必要。

关于NISO书目路标,参见:NISO发布新计划:开发书目词表交换标准(2015年3月19日)

媒体(影音)资源元数据格式大全

Ontology for Media Resources 1.0, W3C Recommendation 09 February 2012
W3C的《媒体资源本体》提供描述媒体资源属性的核心词表,以及核心词表与Web上发布的媒体资源元数据格式的映射,目的在于提供元数据表达,以可互操作的方式描述媒体资源的特征与行为,使不同应用能共享和复用这些元数据。
元数据格式(18种):cableLabs 1.1, DIG35, Dublin Core, EBUCore, EXIF 2.2, ID3, IPTC, LOM 2.1, Media RSS, MPEG-7, OGG, QuickTime, DMS-1, TTML, TV-Anytime, TXFeed, XMP, YouTube Data API Protocol
元数据容器格式(6种):3GP, FLV, QuickTime, MP4, OGG, WebM
描述属性核心集(核心词表,28个属性[红色为dc元素,方括号内为dc标签])
Identification 标识4种identifier, title, language, locator
Creation 创作4种contributor, creator, date, location [coverage]
Content description 内容描述4种description, keyword [subject], genre [type], rating
Rational 关系2种relation, collection [source]
Rights 权利2种copyright, policy
Distribution 发布2种publisher, targetAudience
Fragment 片断2种:fragment, namedFragment
Technical Properties 技术属性8种:frameSize, compression, duration, format, samplingRate, frameRate, everageBitRate, numTracks

附:PBCore 2.1
《媒体资源本体》 号称收录所有在Web公开发布的元数据格式,但PBCore并未包含在内。或许因为是XML格式?
PBCore(维基百科)是声音和动态图像的元数据规范,起源于2001年“公共广播公司”(Public Broadcasting),宣称是基于都柏林核心的扩展(从名称上也可以看出)。2015年8月发布的2.1版定义有80多个元素(Elements),为向下兼容先前格式,仍定义有约50个特性(Attributes),而不是定义为独立的元素。PBCore目前正共同维护《媒体资源本体》中的EBU(欧洲广播联盟元数据规范)。
特别有参考价值的,是2011年PBCore在开放元数据注册网站(OMR)上注册的30个左右取值词表,用于影音资源的描述,相当丰富。
通用的如:创作者职能(21个),贡献者职能(146个),出版者职能(5个),受众层次(15个)
专业的如:载体(269个),代(182个),屏幕长宽比、位深、帧大小、采样率等。