媒体(影音)资源元数据格式大全

Ontology for Media Resources 1.0, W3C Recommendation 09 February 2012
W3C的《媒体资源本体》提供描述媒体资源属性的核心词表,以及核心词表与Web上发布的媒体资源元数据格式的映射,目的在于提供元数据表达,以可互操作的方式描述媒体资源的特征与行为,使不同应用能共享和复用这些元数据。
元数据格式(18种):cableLabs 1.1, DIG35, Dublin Core, EBUCore, EXIF 2.2, ID3, IPTC, LOM 2.1, Media RSS, MPEG-7, OGG, QuickTime, DMS-1, TTML, TV-Anytime, TXFeed, XMP, YouTube Data API Protocol
元数据容器格式(6种):3GP, FLV, QuickTime, MP4, OGG, WebM
描述属性核心集(核心词表,28个属性[红色为dc元素,方括号内为dc标签])
Identification 标识4种identifier, title, language, locator
Creation 创作4种contributor, creator, date, location [coverage]
Content description 内容描述4种description, keyword [subject], genre [type], rating
Rational 关系2种relation, collection [source]
Rights 权利2种copyright, policy
Distribution 发布2种publisher, targetAudience
Fragment 片断2种:fragment, namedFragment
Technical Properties 技术属性8种:frameSize, compression, duration, format, samplingRate, frameRate, everageBitRate, numTracks

附:PBCore 2.1
《媒体资源本体》 号称收录所有在Web公开发布的元数据格式,但PBCore并未包含在内。或许因为是XML格式?
PBCore(维基百科)是声音和动态图像的元数据规范,起源于2001年“公共广播公司”(Public Broadcasting),宣称是基于都柏林核心的扩展(从名称上也可以看出)。2015年8月发布的2.1版定义有80多个元素(Elements),为向下兼容先前格式,仍定义有约50个特性(Attributes),而不是定义为独立的元素。PBCore目前正共同维护《媒体资源本体》中的EBU(欧洲广播联盟元数据规范)。
特别有参考价值的,是2011年PBCore在开放元数据注册网站(OMR)上注册的30个左右取值词表,用于影音资源的描述,相当丰富。
通用的如:创作者职能(21个),贡献者职能(146个),出版者职能(5个),受众层次(15个)
专业的如:载体(269个),代(182个),屏幕长宽比、位深、帧大小、采样率等。

URI、URL和URN,标识符体系和命名空间

11月初BIBFRAME 2.0草案在邮件组提出,很奇怪地安静了一周,接下来一周忽然就吵得昏天黑地。特别是针对单件,有各种讨论,其中一个涉及URL。
开始的引发问题是为什么在2.0中URL作为文字(而不是标识符)。期间RSC主席Gordon Dunsire插上一脚,介绍RDA有关URL和URI讨论,基本结论是:“URI是一个thing(RDF资源),URL是一个字符串(非可解析标识符)”。对此结论,多位表示不赞同。
Karen Coyle认为URL就是URI。并且“如果你有一个URL,你不能知道它是非可解析的,直到你试着解析它……你可以自己决定你不希望解析某些构造良好的URI,把它们当成字符串,但把这些称为URL似乎不正确。”
LC的Ray Denenberg直截了当地表示,“把URL当作一个非可解析标识符是严重的错误。”在为LC编目员编写的BF的RDF简单入门中,他指出,两者“没有在解释上有任何价值的实质性区别,因此假定它们是相同的。”
OCLC的Jeff Young提供了一份W3C Note,称有助于理解URL和URI的区别。
面对质疑,Dunsire的解释是:anyone can say anything about any thing. RDA认为URL是远程访问资源的地址,这里“资源”指RDA/FRBR实体载体表现。在承认URL不是不可解析后,举例说明如果把URL处理为URI,将形成同义反复。
他的解释很长,但显然没有说服其他人。
对我来说,重要的还是仔细看看Young提供的文件。

——— URI、URL和URN:澄清和建议 ———
URIs, URLs, and URNs: Clarifications and Recommendations 1.0 / Report from the joint W3C/IETF URI Planning Interest GroupW3C, Note 21 September 2001

关于URI:
– 传统视角(1990年代中期),认为标识符(URI)可以指定资源的位置(URL)或资源的名称(URN),因此URI是URL或者URN,还可能是URC(指向资源的元数据即引用)。
– 当代视角(此文件所处的2001年),只有一个通用的URI体系,http:和urn:都是URI体系。urn:定义的URI体系子空间即命名空间,http URI即是URL。
– 附加URI(未在文中考虑的):
— 使用URI作为标识符,不标识网络资源,而是标识抽象对象(概念)或者物理对象(一本书甚至一个人)【关联数据世界中的thing?】
— 国际资源标识符IRI:URI语法扩展到非ASCII字符【2001年就考虑到了】

关于注册:
在2001年,就已有了IANA(Internet Assigned Numbers Authority)负责维护的两个标识符体系注册,目前仍在更新:
Uniform Resource Identifier (URI) Schemes
Last Updated 2015-11-25(当年有30个;目前约300个,如ftp, http, feed, tv, z39.50)
Uniform Resource Names (URN) Namespaces
Last Updated 2015-10-19(当年有8个,包括issn;目前有约60个,包括isbn)

文中提到未注册的命名空间如hdl:有猜测指该体系未注册,是因为拥有者不清楚应该注册为URI体系还是URN命名空间
确实,我也不知道这两种注册的本质区别是什么。
目前很多著名的命名空间都没有注册,只在应用中声明。

研究数据服务关注点

IFLA Journal计划明年十月出版专辑《研究数据服务》,征稿信息在IFLA网站上发布,也发到了研究数据管理、机构库、数字图书馆、开放科学、开放获取等相关邮件组:
IFLA Announcement. Call for Papers: IFLA Journal special issue on Research Data Services. 2 October 2015

征稿论题,可视为当前研究数据服务的关注点:
* Data literacy, reference, and outreach 数字素养、参考咨询和延伸服务
* Data repository services and collection management 数据存储库服务和收藏管理
* Preservation of digital data 数字数据的保护
* Data management plans 数据管理计划
* Metadata and data documentation 元数据和数据文档
* Data citation and identifiers 数据引用和标识符
* Data policy, licensing, and privacy 数据政策、许可和隐私
* Libraries, Long Tail, and Big Data 图书馆、长尾和大数据
* Training and staffing library data services 图书馆数据服务的培训和人员配置

投稿截止期2016年5月16日。
两位客座编辑:
Wolfram Horstmann, Director, Göttingen State and University Library
Michael Witt, Head, Distributed Data Curation Center, Purdue University Libraries
邮件发布者:Dr. Birgit Schmidt, Scientific Manager, Goettingen State and University Library – Electronic Publishing –
果然高端的大学图书馆都进入出版领域了