伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上,“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面(Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition)对报告的介绍如下:
UIUC图书馆在内部创新拨款项目支持下,研究人员转换并强化该馆目录中近30万电子图书记录,由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码,然后使用附加python处理,这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化,研究人员在线索引了BIBFRAME资源,创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当(Bento)视图,让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎

BIBFRAME at University of Illinois
项目首页的描述:“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图,汇集相似内容,帮助用户确定相关书目元数据集。”
项目为期一年,从2014年秋到2015年夏,选择该校近30万册电子书记录,由MARC转换至BIBFRAME,并用关联开放数据强化。
关联数据来源
作品标识符:WorldCat的xISBN【这是OCLC的作品级Web Service,好像OCLC去年宣布结束这个服务了】
实例标识符:该馆目录Vu-Find
人名、团体名、地名:VIAF
主题:LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
研究者和机构:国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一(记录清单)随便找了一条记录
记录显示分成四个部分:Access(获取)、Item Description(描述)、Subject Terms / Creators(检索点)和Bibframe RDF。
这是一本中文书(Zhong wai jun zhi he zhi hui can mou di xi de yan jin),记录没有显示汉字,“获取”和“描述”信息少到用户应该没法确认是不是所需要的(出版者不详、未显示出版日期)。
因为显示的信息太过简陋,所以第一感觉是:Garbage in, Garbage out。没有优质的记录,用什么格式都是一样的。【编目员的价值?职责?】

“获取”部分e-Book链接,取自原记录的856字段。链接到HathiTrust后,因为我的IP不在可访问范围,看不到电子书,但可通过侧栏点击HathiTrust书目记录链接,该记录优于UIUC的记录,有中文题名(中外軍制和指揮參謀體系的演進)和基本书目信息。

“主题词和创作者”部分是项目的亮点,即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据,是实际应用中的关键点。从本记录看:
(1)创作者,用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会,但本书台北出版,作者Shi, Zhi,从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码,作品转换时还真是用搜索方式获取VIAF的URI,且结果按馆藏量排序后,返回第一个?这里肯定有问题,或是获取代码的、或是VIAF搜索机制的,或者就是因为原数据问题而根本无法解决的。
(2)主题词,三个主题词串看上去差不多,却分别链接到不同的关联数据项目:
第1个有复分,链接到OCLC实验的分面主题FAST(http://experimental.worldcat.org/fast/1020859/)
第2个无复分,链接到LC关联数据服务的LCSH(http://id.loc.gov/authorities/subjects/sh85085236.html)
第3个有复分,链接到伊大本身(即本记录)
看作品转换程序源代码,也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类(Work、Instance、Annotation和Authority)的rdf文件链接,可点击下载,比如作品类的RDF。从这些RDF文件中,可以看到所用bf:命名空间的各种类和属性,如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见:http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性,相关关系及与外部数据源的联系。

使用上,本项目提供了两个检索界面
1、Google定制搜索
说明是:检索BF记录时,检索界面提供带结构化数据的结果。做查询,竟然什么都查不到【当然没有,因为Google被墙了!】
2、便当视图
即分栏的多库检索结果,除本项目中的电子书外,其他两栏为文章和其他目录数据。
不过,用题名部分“Zhong wai jun zhi”查所有字段或题名,用作者“Shi, Zhi”查作者或所有字段,竟然都没有查到结果。
目前来说,强化内容没有整合到记录内容中。看上去对检索没有贡献,在检索结果的呈现上也只是最简单的链接,还有提升的空间。

按项目说明,bibframe/html中也有Schema.org结构数据,看HTML文件源代码,本记录用了三种:
http://schema.org/Book 电子书、主题词(为什么主题词用Book?)
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富,但源代码中Schema.org也只多了一种:
http://schema.org/CreativeWork 体裁主题(genre,电子书、词典)
总体来说,Schema.org的使用似乎还比较初步,或许只是表明一种对搜索引擎优化的态度吧。

如何评价元数据标准?

美国图书馆协会的“图书馆馆藏和技术服务协会”/“图书馆和信息技术协会”下属“元数据标准委员会”( ALCTS/LITA Metadata Standards Committee),正在制订一个“评价元数据标准”的文件,目的在于供图书馆、档案馆和博物馆(LAM)界开发、维护、治理、选择、使用和评估元数据标准。这里的“元数据标准”指结构标准(字段表、属性),不包括内容标准和取值词表。

文件最初名为“评价元数据标准的检查清单”,2015年1月20日发布草案,供委员会在2015年ALA仲冬会议期间讨论。检查清单共10项:
DRAFT Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · JANUARY 20, 2015
1. The future of metadata is in the network 元数据的未来在网络中
2. Metadata should only be created where there is value 元数据应当只在有价值的地方创建
3. Metadata and metadata standards should be open and re-usable 元数据和元数据标准应当是开放而可重用的
4. New metadata standards should support new research methods 新元数据标准应当支持新的研究方法
5. A metadata schema without a maintenance community is of little enduring value 没有维护社区的元数据格式鲜有持续价值
6. Metadata standards of the future should be web-enabled by default 未来的元数据标准应当默认支持web的
7. Standards should be extendable with properties/classes/elements from other communities/standards 标准应当可以由来自其他社区/标准的属性/类/元素来扩展
8. Standards should be applicable to multiple communities and support selective adoption 标准应该可用于多个社区,支持选择性采用
9. Standards should support aggregation, exchange, automation, and computational analysis 标准应该支持集成、交换、自动化和计算分析
10. Metadata schema should follow the rules of “graceful degradation ” and “responsive design” 元数据格式应当遵循“柔性降级”和“响应式设计”规则

委员会讨论结果于3月1日发布:
Discussion notes: Draft Checklist for Evaluating Metadata Standards, BY JENNIFER LISS · MARCH 1, 2015

10月发布的新版草案吸收了不少讨论建议,由10点合并为7点,名称修改为“评价元数据标准的原则”(讨论曾建议用“声明”或“宣言”代替“检查清单”):
DRAFT Principles for Evaluating Metadata Standards, BY JENNIFER LISS · OCTOBER 27, 2015
1. Metadata and metadata standards should be part of the network 元数据和元数据标准应当是网络的一部分
2. Metadata and metadata standards should be open and reusable 元数据和元数据标准应当开放、可重用
3. Metadata creation should benefit user communities 元数据创建应当使用户社区得益
4. Metadata standards should support new research methods 元数据标准应当支持新的研究方法
5. Metadata standards should have an active maintenance and governance community 元数据标准应当有一个积极维护和治理的社区
6. Standards should be extensible, embeddable, and interoperable 标准应该可扩展、可嵌入、可互操作
7. Metadata standards should follow the rules of “graceful degradation” and “responsive design”元数据标准应当遵循“柔性降级”和“响应式设计”的规则

2016年ALA仲冬会议期间将有两场针对新版草案的报告。与年初草案博文下无人响应相比,新草案博文下已经有了7个评论,Diane Hillmann更是写了一篇博文逐点评论——可惜基本是负面的:
Metadata Matters: Review of: DRAFT Principles for Evaluating Metadata Standards, by Diane Hillmann, December 14, 2015

看完博文,首先感觉是元数据领域术语之缺乏共识,甚至对“元数据结构”“内容标准”“取值词表”竟然都被认为还需要定义来确定范围;至于如何评价元数据标准,更缺乏共识,这也是BIBFRAME讨论中常有的感觉。
Diane Hillmann在谈到互操作性时称:“互操作性尤其是我们应该都牢记的,但尽管很好,互操作性在实践中很少成功,因为不同模型实际上的不兼容。DC、MARC21、BIBFRAME、RDA和Schema.org就是例子——尽管它们“模块化”,总体上它们不能简单地用作“模块”,因为在模型背后的思考和各自的受众不同。”——也许是这样,但这不应该影响“互操作”作为元数据标准的追求目标或评价原则吧?
无论如何,Diane Hillmann的结论是,“评价元数据标准”很重要,但该文件目的未能在文件中达成,应该看看NISO的书目路标项目(NISO Bibliography Roadmap),暂停当前工作,先做个术语表。
对于本文件缺乏术语定义这一点,前述委员会讨论中也有提及。在共识缺乏的元数据领域,做一个术语表作为附录看来确实有必要。

关于NISO书目路标,参见:NISO发布新计划:开发书目词表交换标准(2015年3月19日)

《Web注释数据模型》对注释的分类

《Web注释数据模型》的W3C工作草案于2015年10月15日发布,该模型基于较早的社区草案《开放注释数据模型》,其自定义类和属性仍采用后者的命名空间(oa:) 。
Web Annotation Data Model (W3C Working Draft 15 October 2015)
Open Annotation Data Model (Community Draft, 08 February 2013)

首先,什么是注释?制订本规范的目的是什么?以下译自其摘要:
– 注释典型地用于表达有关资源的信息或者资源间联系。简单例子包括对单个网页或图像的评论或标签,或有关新闻报道的一篇博文。
– Web注释数据模型规范,描述一个结构化的模型和格式,使注释能跨软硬件平台被分享和复用。通用案例可用简单方便的方式建模,与此同时,可有更复杂的需求,包括链接任意内容到特定数据点或定时多媒体资源的片断。
– 本规范提供适应这些使用案例的概念模型,以及表达它的术语词表。为方便创建和消费注释,推荐特定的JSON格式。

本模型有三个主要成分:注释(Annotation)、主体(Body)、目标(Target)。简单地说,注释关联主体与目标,提供主体“关于(about)”目标的信息。
annotation
主体和目标是Web资源(有URI,但主体可以是文字),也可以是资源的片断(如文本被高亮选中的部分、地图的特定区域、视频的某一段),而主体和目标还可以包含在注释中(嵌套)。
“注释”、“主体”和“目标”有各自的属性和关系,比如创建(如谁、何时)和描述信息(比如语言、文件格式)。创建者除了个人机构,还可以是软件

“注释”有一个重要属性是创建的理由,被称为“动机(Motivation)”资源。动机的实例(Instance),可视为注释的类别,目前有13种。
———- Motivation 动机———-
bookmarking 书签
classifying 分类(确定类别)
commenting 评论
describing 描述
editing 编辑(修改)
highlighting 强调/高亮
identifying 标识(给URI)
linking 链接
moderating 评分
questioning 提问
replying 回复
reviewing 评介(评估,而非简单评论,如书评)
tagging 加标签

———- 题外话:BIBFRAME的“封面”在哪里? ———-
BIBFRAME 2.0取消了“注释”类,理由大致是可以直接采用《Web注释数据模型》。
如果拿BIBFRAME 1.0的注释类型对照的话,上述列表中没有对图书来说很重要的“封面”(Cover Art)。虽然我当初就有点疑惑,封面难道不是资源本身的特征?作为“注释”或许本来就可斟酌?不过原方案是考虑用户上传封面图片等情况,把封面作为外部资源的。
《Web注释数据模型》 附录D“扩展动机”称,本规范中的动机表衍生自注释领域的扩展调查,但许多场合需要或者希望更准确的定义;在这种情况下,推荐创建新的“动机”资源,关联到一个或多个已有(动机),作为下位关系
看上述清单,大概只有“描述”勉强可以。BIBFRAME 2.0会如何处理“封面”?