信息技术:元数据及其注册国际标准

ISO/IEC JTC1(国际标准化组织与国际电工委员会联合技术委员会)是信息技术国际标准的制订机构,也是制订ISO标准最多的技术委员会。旗下数据管理和交换部(Data management and interchange)有元数据工作组(ISO/IEC JTC1 SC32 WG2),负责制订元数据及其注册的国际标准。2019年发布的标准有3项:

  • ISO/IEC 11179-2:2019 Information technology — Metadata registries (MDR) — Part 2: Classification【第3版】
  • ISO/IEC 11179-7:2019 Information technology — Metadata registries (MDR) — Part 7: Metamodel for data set registration【第1版】
  • ISO/IEC 19583-1:2019 Information technology — Concepts and usage of metadata — Part 1: Metadata concepts【第1版】
  • ISO/IEC 19583-2(Part 2: Metadata usage)同样在2015年提出,目前仍停留在初始状态(10.99)

元数据工作组有网站http://metadata-standards.org/,主页左侧导航栏有开发维护标准清单(标题与标准不尽相同),各标准页面汇聚从开发到发布各阶段的文档,包括标准最终文本——只要接受 ISO Customer Licence Agreement,即可下载正式发布标准。不过2014年后该网站仅更新项目状态,新内容移到ISO技术委员会(ISOTC)的统一网站,文档大多只能在ISO网站付费下载。ISOTC网站除了有技术委员会结构图,详细列出下属二级的部门(SC)和工作组(WG),对普通用户来说几乎没有其他可用内容。ISO官网有部门(SC)页面(如数据管理和交换部),包罗工作组开发的ISO标准,但没有标出相应的工作组。要了解元数据工作组的工作,还是需要到其原网站。以下为其名下ISO标准一览(*有多部分):

11179-* Metadata registry (MDR)
· Part 1: Framework【1999第1版,2004第2版,2015第3版】
· Part 2: Classification【2000第1版,2005第2版,2019第3版】
· Part 3: Registry metamodel and basic attributes【1994第1版,2003第2版,2013第3版】
· Part 4: Formulation of data definitions【1995第1版,2004第2版/通过2015评审】
· Part 5: Naming and identification principles【1995第1版,2005第2版,2015第3版】
· Part 6: Registration【1997第1版,2005第2版,2015第3版】
· Part 7: Metamodel for data set registration【2019第1版】
14957  Representation of data element values — Notation of the format【1996第1版,2010第2版/通过2016评审】
19583-* Concepts and usage of metadata
· Part 1: Metadata concepts【2019第1版】
· Part 2: Metadata usage【2020开发中】
19763-* Metamodel Framework for Interoperability (MFI)
· Part 1: Reference model【2007第1版,2015第2版】
· Part 3: Metamodel for ontology registration【2007第1版,2010第2版】
· Part 5: Metamodel for process model registration【2015第1版】
· Part 6: Registry Summary【2015第1版】
· Part 7: Metamodel for service registration【2015第1版】
· Part 8: Metamodel for role and goal registration【2015第1版】
· Part 9: (Technical Report) On Demand Model Selection (ODMS) 【2015第1版】
· Part 10: Core model and basic mapping【2014第1版】
· Part 12: Metamodel for information model registration【2015第1版】
· Part 13: Metamodel for forms registration【2016第1版】
19773  Metadata registries (MDR) Modules【2011第1版/通过2019评审】
20943-* Procedures for Achieving Metadata Registry Content Consistency
· Part 1: Data Elements【2003第1版】
· Part 2: XML Structured Data【搁置】
· Part 3: Value Domains【2004第1版】
· Part 4: Overview【搁置】
· Part 5: Metadata Mapping Procedure【2013第1版】
· Part 6: Framework for generating ontologies【2013第1版】
20944-* Metadata Registry Interoperability & Binding (MDR-IB)
· Part 1: Framework, common vocabulary, and common provisions for conformance【2013第1版】
· Part 2: Coding Bindings【2013第1版】
· Part 3: API Bindings【2013第1版】
· Part 4: Protocol Bindings【2013第1版】
· Part 5: Profiles Bindings【2013第1版】
24706  Metadata for technical standards and specifications documents【项目无进展而取消】
· Part 1: Document description elements
· Part 2: URI naming and resolution techniques
24707  Common logic (CL) — A framework for a family of logic-based languages【2007第1版,2018第2版】 

孔夫子旧书网的元数据

前些天看胡文辉︱陈垣早年的两件尴尬事(2019-05-25),文中说到作者朋友宋希於在孔夫子旧书网上,查到陈垣科举替考那位的图书《甄祝三先生荣寿特刊》,“此系仅见的冷门文献,标价甚昂,实亦无关于学术史。考虑到事涉史学大家,毕竟想其人的结局,犹豫之下,终购得之”。出于好奇去孔夫子查了下,此书在2019-04-22以800元完成交易,确实有点贵。从网页照片,书中多位名人题字可以看个大概。

自2018年末开始的半年里,自己一直在查名人资料,当时就发现孔夫子(包括旧书网拍卖网)是个很有料的地方,尤多名人信札、手稿、题赠图书等。它最大的优点是已拍卖结束资料的信息全都保留着。虽然没法获取原物,但不少物品信息中包含原物的多幅照片,还是能获取不少有价值的信息。比如钱谷融先生在2011年处理家中藏书,这批书不久即大量出现在孔夫子旧书网,其中包含1979-2011年间钱先生收到的赠书,大多为作者签名本。现在孔夫子上可查到的有四五百册,题赠页文字等信息都比较清晰。以下是钱谷融藏书签名本赠送者云图(使用WordArt生成)。

钱谷融藏书-赠书者

为体现物品价值,孔夫子上的数据标注还是挺细致的,涉及名人的除在标题中注明外,还专门有人物介绍。但从元数据设计角度,还是过于粗泛,没有考虑到不同文献的特殊性。如名人信札、题赠图书,涉及发送者与接受者,还有相应的时间、地点等因素,如分别标注,以孔夫子上已经累积的大量实物数据,无疑能呈现丰富的人际关系网络,这是分别对单个人物进行研究时无法实现的。
孔夫子网站上的数据想来是提交拍品者自己提供的,自然不能过于复杂。但可以对提交数据做一些自然语言处理、进行自动填充,比如图书拍品标题文字中有如“签名”“签赠”等,可选择相应前后文字填为赠送人,供提交数据者确认,如此等等。只要对元数据方案稍加改进,孔夫子完全可以在实现拍卖交易的同时,本身成为从实物交往角度反映当代中国名人间关系的数字人文网站,对学术研究也会有更大的价值,或许还能对拍品收藏起到一定的推动作用。

以上图片来自:钱谷融先生的朋友圈(2019-5-22)

IFLA胎死腹中的数字资源元数据指南:元数据类型和核心元素

元数据有很多不同的划分方法。如:
曾蕾与秦健教授的《元数据》分为4种:1数据结构标准,2数据内容标准,3数据值标准,4数据交换标准。参见:元数据和编目标准类型(2014-5-8)
NISO的《理解元数据》分为4种:1描述元数据;2管理元数据(技术/保存/权利);3结构元数据;4标记语言。参见:NISO发布入门读物《理解元数据》(2017-2-9)

新发现IFLA编目部“元数据方案使用工作组”2003年《数字资源和馆藏的元数据记录的结构、内容和应用指南》(草案),又是一种分类方法(详见后)。
Guidance on the Structure, Content, and Application of Meatdata Records for Digital Resources and Collections
Report of the IFLA Cataloguing Section, Working Group on the Use of Metadata Schemas
Draft – for Worldwide Review, 27 October, 2003
工作组成立于1998年IFLA年会上,1999-2003连续5年在IFLA年会上开会,最终形成了这个草案。不知什么原因停步于草案,没有如文件中希望的那样在2004年IFLA年会得到通过。
忘了在哪里看到这个IFLA文件了。因为是草案,在编目部的出版物和出版清单中没有,IFLA网站内搜索文件名也没有结果,只有搜索引擎可以查到这个在IFLA存档中的文件。

——— 通用元数据记录的类型或结构 ——-
本文件基于FRBR的用户任务(发现、识别、选择、获取),确定了10个核心元素,并与10种通用元数据方案作了映射(附录)。作为讨论的基础,在2.1节定义了6种元数据类型:
[1] 管理元数据:关于记录本身的“内务处理”信息 – 其创建、修改、与其他记录的关系等。元素如:记录号,记录创建日期,最后修改日期,记录创建者/修改者的标识,记录的语言,附注,本记录与其他记录的关系。
[2] 描述性元数据:描述数字项目或对象的物理和知识属性或内容的信息。元素如:题名,创建者,日期,出版者,唯一标识符,动态链接,摘要、描述性附注、评论等,受众层次,物理媒介、格式等,单件或对象的语言,版本。
[3] 分析元数据:分析和增强对资源内容的访问的信息。有时也称为“主题元数据”。元素如:受控主题词,主题/论题关键词,摘要、目次,分类代码、其他本地元素如所属部门、其他电子内容相关链接。
[4] 权利管理元数据:有关访问或使用数字单件或对象的限制(法律;财务等)的信息。元素如:使用限制,许可说明,订购/许可/每次使用费,致谢,版权声明,保留时间表,质量评级,使用免责声明。
[5] 技术元数据:用于将单项/对象转换为数字格式或存储、显示等的特定硬件或软件。元素如:数字化设备规格,相机位置,拍摄条件,编码参数,语音识别和/或回读硬件和软件,光学扫描仪规格,图像渲染设备,文件类型和转换软件要求
[6] 其他待定。例如,基于本地、区域和/或组织要求的特定元数据元素,或者根据国家规定的元数据标准,并且不包含在上面的任何元数据类型中。

——— 核心元素和常用元数据 ———
3.1节确定的核心元素
10个核心元素:主题,日期,使用条件,出版者,资源名称,语言/表达模式,资源标识符,资源类型,作者/创建者,版本

贯穿整个文件的元数据方案(从背景到附录)
10种元数据方案:MARC21,UNIMARC,DC,TEI,EAD,VRA,CSDGM/FGDC,CIMI,GILS,ONIX
其中:
CSDGM = Content Standard for Digital Geospatial Metadata(FGDC=美国联邦地理数据委员会,当前版本:Vers. 2 (FGDC-STD-001-1998))
CIMI = Consortium for the Interchange of Museum Information(始于1990,从wikipedia词条下网站链接看,大概率已经死掉了)
GILS = Government Information Locator Service [now Global Information Locator Service]