ALA 2016仲冬会议的BIBFRAME更新论坛

2015年11月初LC发布BIBFRAME 2.0的7个草案(题名、施事者和职能、单件、事件、标识符和附注、管理元数据、类别),表示希望在2016年1月初正式发布2.0版。3个月来,除题名外,其他草案陆续在BIBFRAME邮件组中得到甚至不止一轮连绵而热烈的讨论,从LC成员在讨论中的回应看,似乎2.0版还没到发布的火候。

近日2016年初ALA仲冬会议上的“BIBFRAME更新论坛”的PPT放出。从负责BF开发的LC网络开发与MARC标准办公室主任Sally McCallum的报告看, 感觉BIBFRAME离完成还有很长的路要走。

BIBFRAME Update Forum at ALA Midwinter Meeting 2016
本届论坛内容丰富,除LC、OCLC及最初为BF建模的Zepheira公司的报告外,还有1个供应商报告、3个大学图书馆的LD4P项目报告。

One Supplier’s Approach to BIBFRAME/Linked Data / Tiziana Possemato, Casalini libri
Casalini libri是意大利的编目供应商,目前在做三项关联数据及BF相关工作:
1、强化MARC记录以简化BF转换(主要是为检索点提供URI)。
2、使用ALIADA框架自动由MARC转换到RDF,使用BF词表及其他词表。
3、开始由书目和规范记录创建FRBR/BF层(个人簇、作品族,通过API从外部规范档如VIAF检索数据开始),在LOD实现中帮助图书馆员和最终用户。
看后觉得欧洲在关联数据方面确实走在前头。有两方面值得关注:
1、工具:ALIADA框架(关联数据范式下自动发布图书馆数据,www.aliada-project.eu)。欧盟资助项目,意大利、西班牙、匈牙利参与,成果开源。
2、BIBFRAME-UP三层架构:个人/作品:Sparql端点;实例:Solr搜索引擎&分面、导航;单件:本地系统及OPAC

LD4P(Linked Data for Production)项目
目前项目资助应该还没有到位,因此还在计划阶段,三个馆的报告分别关注某一特藏,普林斯顿是德里达特藏、哥伦比亚是艺术收藏品、康奈尔是嘻哈音乐传单 。本项目关注的是“生产”或者说“原编”(而非原有数据的转换),扩展BF会是一种选择或至少是关注重点【感觉并不一定采用BF】。
附关于LD4P:在哈佛大学的LD4P页面,有更多项目为申请梅隆基金的准备信息,成员共7家,即康奈尔大学、哥伦比亚大学、哈佛大学、普林斯顿大学、斯坦福大学、LC及后加入的马里兰大学

参见:
BIBFRAME词表2.0草案发布(2015-11-4)
ALA 2014仲冬会议中的BIBFRAME(附会议规模)(2014-2-5)
LC书目框架转换行动:首届更新论坛(2012-2-7)

伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上,“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面(Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition)对报告的介绍如下:
UIUC图书馆在内部创新拨款项目支持下,研究人员转换并强化该馆目录中近30万电子图书记录,由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码,然后使用附加python处理,这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化,研究人员在线索引了BIBFRAME资源,创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当(Bento)视图,让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎

BIBFRAME at University of Illinois
项目首页的描述:“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图,汇集相似内容,帮助用户确定相关书目元数据集。”
项目为期一年,从2014年秋到2015年夏,选择该校近30万册电子书记录,由MARC转换至BIBFRAME,并用关联开放数据强化。
关联数据来源
作品标识符:WorldCat的xISBN【这是OCLC的作品级Web Service,好像OCLC去年宣布结束这个服务了】
实例标识符:该馆目录Vu-Find
人名、团体名、地名:VIAF
主题:LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
研究者和机构:国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一(记录清单)随便找了一条记录
记录显示分成四个部分:Access(获取)、Item Description(描述)、Subject Terms / Creators(检索点)和Bibframe RDF。
这是一本中文书(Zhong wai jun zhi he zhi hui can mou di xi de yan jin),记录没有显示汉字,“获取”和“描述”信息少到用户应该没法确认是不是所需要的(出版者不详、未显示出版日期)。
因为显示的信息太过简陋,所以第一感觉是:Garbage in, Garbage out。没有优质的记录,用什么格式都是一样的。【编目员的价值?职责?】

“获取”部分e-Book链接,取自原记录的856字段。链接到HathiTrust后,因为我的IP不在可访问范围,看不到电子书,但可通过侧栏点击HathiTrust书目记录链接,该记录优于UIUC的记录,有中文题名(中外軍制和指揮參謀體系的演進)和基本书目信息。

“主题词和创作者”部分是项目的亮点,即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据,是实际应用中的关键点。从本记录看:
(1)创作者,用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会,但本书台北出版,作者Shi, Zhi,从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码,作品转换时还真是用搜索方式获取VIAF的URI,且结果按馆藏量排序后,返回第一个?这里肯定有问题,或是获取代码的、或是VIAF搜索机制的,或者就是因为原数据问题而根本无法解决的。
(2)主题词,三个主题词串看上去差不多,却分别链接到不同的关联数据项目:
第1个有复分,链接到OCLC实验的分面主题FAST(http://experimental.worldcat.org/fast/1020859/)
第2个无复分,链接到LC关联数据服务的LCSH(http://id.loc.gov/authorities/subjects/sh85085236.html)
第3个有复分,链接到伊大本身(即本记录)
看作品转换程序源代码,也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类(Work、Instance、Annotation和Authority)的rdf文件链接,可点击下载,比如作品类的RDF。从这些RDF文件中,可以看到所用bf:命名空间的各种类和属性,如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见:http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性,相关关系及与外部数据源的联系。

使用上,本项目提供了两个检索界面
1、Google定制搜索
说明是:检索BF记录时,检索界面提供带结构化数据的结果。做查询,竟然什么都查不到【当然没有,因为Google被墙了!】
2、便当视图
即分栏的多库检索结果,除本项目中的电子书外,其他两栏为文章和其他目录数据。
不过,用题名部分“Zhong wai jun zhi”查所有字段或题名,用作者“Shi, Zhi”查作者或所有字段,竟然都没有查到结果。
目前来说,强化内容没有整合到记录内容中。看上去对检索没有贡献,在检索结果的呈现上也只是最简单的链接,还有提升的空间。

按项目说明,bibframe/html中也有Schema.org结构数据,看HTML文件源代码,本记录用了三种:
http://schema.org/Book 电子书、主题词(为什么主题词用Book?)
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富,但源代码中Schema.org也只多了一种:
http://schema.org/CreativeWork 体裁主题(genre,电子书、词典)
总体来说,Schema.org的使用似乎还比较初步,或许只是表明一种对搜索引擎优化的态度吧。

《BIBFRAME音像评估:技术、结构和保存元数据》概要

BIBFRAME针对音像资源的第2个报告于2016年1月4日发布,同样由LC委托AVPreserve准备,“研究在书目环境中,音像资源的技术、结构和保存元数据,推荐扩展BIBFRAME ”:
BIBFRAME AV Assessment: Technical, Structural, and Preservation Metadata (September 23, 2015; revised January 4, 2016) By Bertram Lyons and Kara Van Malssen, AVPreserve

根据2015年1月OCLC与LC的报告《共同基础:探索LC和OCLC关联数据模型间兼容》 ,对BF的定位有长期保管功能,据此本研究确定BF包括检索、发现及某种程度的保管和馆藏管理(p.3)【注意不同于长期保存】。另外,由于BF以取代MARC为目标,因此本研究也确保现在MARC记录中发现的数据能升级到RDF属性,或者用BIBFRAME、或者用其他推荐的外部命名空间定义。
问题的关键是:BIBFRAME应该粒度化到什么程序,才能全方位支持音像(AV)资源的书目数据管理需要?什么时候应该用其他命名空间?两者界线何在?(p.3-4) 本研究的假设和基础是,BF为书目描述,保存和细粒度分别交给PREMIS和EBUCore/PBCore(p.4-6)。
【总之一句话:本报告并未坚持全部用BF自己的命名空间。要描述资源间复杂关系,或者达到细粒度,采用其他命名空间或许是必然的选择

第1部分:保存元数据(p.8-15)
-实例/对象模型(Instance / Object Model)
对PREMIS对象实体及4个子类(智力实体、表达、文件、位流)与BIBFRAME1.0实体(作品、实例、单件/拥有馆藏)做映射,并用一个音频资源样例说明各自的类与属性的应用(图4),该样例也用在下面“事件模型”的说明中。
-事件模型(Event Model)
BF事件依据2014年第1个报告《BIBFRAME音像建模研究》,由原来仅记录事件的时间和地点,扩展到记录在“实例”中采集和附着的、在时空中发生的事件。报告建议用BF事件表达与原始内容创建有关的事件(如音频资源的录制),而用PREMIS事件类表达“长期保存”事件(如从音频资源由模拟格式转为数字格式、稳定性校验)。【虽然用PREMIS可以表达与内容创建有关的事件,而BF扩展后也能够表达长期保存事件】

第2部分:结构元数据(p.16-20)
继续用PREMIS和BIBFRAME示例表明资源的层次(作品、实例、文件、位流)。
基本建议是“假设和基础”部分确定的:限制BF实例为扁平结构,更深层(子实例)结构(如音轨、比特流、文件流、帧、组成部分)的复杂描述,应当由长期保存【如PREMIS】和书目环境外的专业音像命名空间【如EBUCore/PBCore】作深入处理(p.6)。

第3部分:技术元数据(p.21-44)
技术元数据部分,分析元数据结构标准和内容标准中与音像有关的特性(即属性或元素):
– MARC字段007和3XX,及其在WorldCat库中出现的频次(表明其是否被使用);
– 通用与专用内容标准RDA、AACR2、ISBD、AMIM编目手册、IASA编目规则、MLA音乐编目最佳实践、FIAF编目手册,并统计在7个内容标准中出现的频次;
– 对照通用特性在内容标准、MARC、PBCore、EBUCore中出现情况;
由上述分析对照,根据8个准则(p.40),确定推荐的技术元数据集:广泛使用、使用中、搜索、可用性、检索、播放、可获得性、数据专指性。
最终建议的AV相关特性(属性)由9个增加到近40个,包括把尺寸分解为3个:长、宽和直径。新增如基底材料、代、极性、录音媒介、播放速度等等,熟悉MARC/RDA的会很亲切。

7个附录,A-D是AV技术元数据的对照表及最终建议属性清单,E-G分别是使用建议的AV特性制作的视频、音频和电影三种资源样例,类型包括实物模拟资源、实物数字资源和文件资源。

比较有意思的是报告对“电子资源”概念的认识:“许多电子资源存储在有形媒介载体上,如软盘、光盘、硬驱、U盘。很多情况下,单单这些载体并不提供所含媒介类型的提示。……当对象及所含内容统一(如CD包含CD音频),则对象描述会提供足够信息用于内容的发现、使用和保管。但当CD包含混合数据文件时(如CD包含100个tiff文件、20个PDF、1个MOV),光盘作为资源的描述对理解所含内容没有意义。”(p.24)

via [BIBFRAME] BIBFRAME report on technical metadata for AudioVisual resources (2016-1-4)

参见:
关于2014年5月首个AV报告:《BIBFRAME音像建模研究》笔记(2016-1-2)
关于《共同基础:探索LC和OCLC关联数据模型间兼容 》:LC和OCLC关于BIBFRAME和Schema书目扩展的白皮书(2015-2-12)
关于EBUCore/PBCore:媒体(影音)资源元数据格式大全(2015-12-5)