如何评价元数据标准?

美国图书馆协会的“图书馆馆藏和技术服务协会”/“图书馆和信息技术协会”下属“元数据标准委员会”( ALCTS/LITA Metadata Standards Committee),正在制订一个“评价元数据标准”的文件,目的在于供图书馆、档案馆和博物馆(LAM)界开发、维护、治理、选择、使用和评估元数据标准。这里的“元数据标准”指结构标准(字段表、属性),不包括内容标准和取值词表。

文件最初名为“评价元数据标准的检查清单”,2015年1月20日发布草案,供委员会在2015年ALA仲冬会议期间讨论。检查清单共10项:
DRAFT Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · JANUARY 20, 2015
1. The future of metadata is in the network 元数据的未来在网络中
2. Metadata should only be created where there is value 元数据应当只在有价值的地方创建
3. Metadata and metadata standards should be open and re-usable 元数据和元数据标准应当是开放而可重用的
4. New metadata standards should support new research methods 新元数据标准应当支持新的研究方法
5. A metadata schema without a maintenance community is of little enduring value 没有维护社区的元数据格式鲜有持续价值
6. Metadata standards of the future should be web-enabled by default 未来的元数据标准应当默认支持web的
7. Standards should be extendable with properties/classes/elements from other communities/standards 标准应当可以由来自其他社区/标准的属性/类/元素来扩展
8. Standards should be applicable to multiple communities and support selective adoption 标准应该可用于多个社区,支持选择性采用
9. Standards should support aggregation, exchange, automation, and computational analysis 标准应该支持集成、交换、自动化和计算分析
10. Metadata schema should follow the rules of “graceful degradation ” and “responsive design” 元数据格式应当遵循“柔性降级”和“响应式设计”规则

委员会讨论结果于3月1日发布:
Discussion notes: Draft Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · MARCH 1, 2015

10月发布的新版草案吸收了不少讨论建议,由10点合并为7点,名称修改为“评价元数据标准的原则”(讨论曾建议用“声明”或“宣言”代替“检查清单”):
DRAFT Principles for Evaluating Metadata Standards, BY JENNIFER LISS · OCTOBER 27, 2015
1. Metadata and metadata standards should be part of the network 元数据和元数据标准应当是网络的一部分
2. Metadata and metadata standards should be open and reusable 元数据和元数据标准应当开放、可重用
3. Metadata creation should benefit user communities 元数据创建应当使用户社区得益
4. Metadata standards should support new research methods 元数据标准应当支持新的研究方法
5. Metadata standards should have an active maintenance and governance community 元数据标准应当有一个积极维护和治理的社区
6. Standards should be extensible, embeddable, and interoperable 标准应该可扩展、可嵌入、可互操作
7. Metadata standards should follow the rules of “graceful degradation” and “responsive design”元数据标准应当遵循“柔性降级”和“响应式设计”的规则

2016年ALA仲冬会议期间将有两场针对新版草案的报告。与年初草案博文下无人响应相比,新草案博文下已经有了7个评论,Diane Hillmann更是写了一篇博文逐点评论——可惜基本是负面的:
Metadata Matters: Review of: DRAFT Principles for Evaluating Metadata Standards, by Diane Hillmann, December 14, 2015

看完博文,首先感觉是元数据领域术语之缺乏共识,甚至对“元数据结构”“内容标准”“取值词表”竟然都被认为还需要定义来确定范围;至于如何评价元数据标准,更缺乏共识,这也是BIBFRAME讨论中常有的感觉。
Diane Hillmann在谈到互操作性时称:“互操作性尤其是我们应该都牢记的,但尽管很好,互操作性在实践中很少成功,因为不同模型实际上的不兼容。DC、MARC21、BIBFRAME、RDA和Schema.org就是例子——尽管它们“模块化”,总体上它们不能简单地用作“模块”,因为在模型背后的思考和各自的受众不同。”——也许是这样,但这不应该影响“互操作”作为元数据标准的追求目标或评价原则吧?
无论如何,Diane Hillmann的结论是,“评价元数据标准”很重要,但该文件目的未能在文件中达成,应该看看NISO的书目路标项目(NISO Bibliography Roadmap),暂停当前工作,先做个术语表。
对于本文件缺乏术语定义这一点,前述委员会讨论中也有提及。在共识缺乏的元数据领域,做一个术语表作为附录看来确实有必要。

关于NISO书目路标,参见:NISO发布新计划:开发书目词表交换标准(2015年3月19日)

媒体(影音)资源元数据格式大全

Ontology for Media Resources 1.0, W3C Recommendation 09 February 2012
W3C的《媒体资源本体》提供描述媒体资源属性的核心词表,以及核心词表与Web上发布的媒体资源元数据格式的映射,目的在于提供元数据表达,以可互操作的方式描述媒体资源的特征与行为,使不同应用能共享和复用这些元数据。
元数据格式(18种):cableLabs 1.1, DIG35, Dublin Core, EBUCore, EXIF 2.2, ID3, IPTC, LOM 2.1, Media RSS, MPEG-7, OGG, QuickTime, DMS-1, TTML, TV-Anytime, TXFeed, XMP, YouTube Data API Protocol
元数据容器格式(6种):3GP, FLV, QuickTime, MP4, OGG, WebM
描述属性核心集(核心词表,28个属性[红色为dc元素,方括号内为dc标签])
Identification 标识4种identifier, title, language, locator
Creation 创作4种contributor, creator, date, location [coverage]
Content description 内容描述4种description, keyword [subject], genre [type], rating
Rational 关系2种relation, collection [source]
Rights 权利2种copyright, policy
Distribution 发布2种publisher, targetAudience
Fragment 片断2种:fragment, namedFragment
Technical Properties 技术属性8种:frameSize, compression, duration, format, samplingRate, frameRate, everageBitRate, numTracks

附:PBCore 2.1
《媒体资源本体》 号称收录所有在Web公开发布的元数据格式,但PBCore并未包含在内。或许因为是XML格式?
PBCore(维基百科)是声音和动态图像的元数据规范,起源于2001年“公共广播公司”(Public Broadcasting),宣称是基于都柏林核心的扩展(从名称上也可以看出)。2015年8月发布的2.1版定义有80多个元素(Elements),为向下兼容先前格式,仍定义有约50个特性(Attributes),而不是定义为独立的元素。PBCore目前正共同维护《媒体资源本体》中的EBU(欧洲广播联盟元数据规范)。
特别有参考价值的,是2011年PBCore在开放元数据注册网站(OMR)上注册的30个左右取值词表,用于影音资源的描述,相当丰富。
通用的如:创作者职能(21个),贡献者职能(146个),出版者职能(5个),受众层次(15个)
专业的如:载体(269个),代(182个),屏幕长宽比、位深、帧大小、采样率等。

不列颠图书馆之馆藏元数据战略2015-2018

不列颠图书馆(British Library,BL)11月23日发布《解锁价值:不列颠图书馆之馆藏元数据战略 2015-2018》。
Unlocking the Value – The British Library’s Collection Metadata Strategy, 2015-2018

本战略充满企业管理术语:资产、价值、潜在价值,治理、商业利益,投资、投资回报,效率、优先级等(不由得联想到数十年前就经营得相当不错的BL外借部;似乎BL也是最早——如果不是唯一——馆长称Chief Executive的)。
本战略的核心目标:转变馆藏元数据,由被动的副产品主动的使能者,提供更大的效率、互操作性和实用性(enabler“使能者”,据说最近也是相当流行——题外话:即将举行的上海图书馆学会2015年会,标题:图书馆:变革时代的使能者
馆藏元数据的三个优先级,可以抽出三个关键词:效率、投资回报、开放

本战略附《馆藏元数据战略路线图 2015-2018》(Collection Metadata Strategy Roadmap, 2015-2018),初看感觉是把N维化成了平面表,实际上就是年份的二维表,但可视化做得相当好:
9个方面:标准,许可和权利管理,元数据管理,处理效率,沟通,保存、维护和强化,开放元数据,发现和传递,技术基础架构;
4种类别:活动、评估、里程碑、成果,包罗在2015-2018年间要做的数十项工作;
最终在2020年达到2个结果:统一且标准化的元数据管理基础架构,提供综合性开放元数据服务。

前面所引都是关键词。浅显的理解是:馆藏元数据的价值在于广泛取用而非金屋藏娇。为达到此目的,需要从上述各方面开展工作。

———摘要(p.2)———
“我们的愿景是,到2020年,本馆的馆藏元数据资产将是综合、清晰、权威且可持续的,解锁其全部价值,用于改进内容管理、更多协作和馆藏的更广泛使用。”
馆藏元数据是一个涵盖性术语,指元数据,应用于:管理、获取、保存和描述馆藏。本文件联合本馆的馆藏元数据活动的战略讨论,确认必要的基本原则、优先级和治理结构,可以通过改进我们元数据资产的管理,提供更广泛的商业利益,支持传递我们的核心宗旨和方案。
馆藏元数据既是代表数世纪的人年投资的关键资产,也是潜在的当前运作和未来发展的使能者。但是,除了其对众多利益相关者的战略重要性,馆藏元数据对服务改进和强化馆藏管理的潜在价值,仍有待开发。
本馆藏元数据战略确认开始解锁我们馆藏元数据中潜在价值所需的主要优先级。核心目标将是其转变,由被动的副产品到主动的使能者,提供更大的效率、互操作性和实用性。
战略优先级是:
推动在馆藏元数据创建、管理和开发中的效率,以支持传递本馆的的战略优先级和方案
改进本馆在其馆藏元数据资产中的投资回报,通过确保其长期价值为未来活动而维护
开放更多本馆的馆藏元数据,以改进对图书馆内容的访问,促进更广泛的重用
本战略也包括管理本优先级的实施所需的治理与测度,以及在此期间的高层目标。由于快速进化的运作环境,实施细节将由每一财政年的年度计划覆盖,由同期本馆的优先级确定。

via 台湾……编目园地:大英圖書館公布館藏詮釋資料策略(2015-11-25 )
不列颠图书馆新闻:British Library publishes Collection Metadata Strategy (2015-10-23)