“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛(BIBFRAME Update Forum at ALA Midwinter Meeting 2016)上,介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释,因而可以较全面了解:
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说,印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记;更意想不到的是,使用档案系统,记录每本书在原藏地(德里达家中)的相对位置,可了解哪本书边上放的是哪本书(如果接收图书时没有深思熟虑,随便扎捆打包,就无法复原当时的场景了)。
基本印象:对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴(首期作者题词部分尚可视为单件层书目描述)。

背景:
普林斯顿大学2015年3月完整购入著名哲学家德里达(1930-2004)个人图书馆计1.6万件藏书及其他单件,是为“德里达图书馆”。
在这些书上,有德里达阅读时留下的大量标记/注释(折角、划重点线、页边标记、报时贴、夹其他文字材料)。这些书有相当部分为原作者在书上题词后送给德里达的(超过6300册),对这些书中提及自己的部分,德里达基本上都作有标记。
所有这些信息(包括相邻放置图书信息),对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者(其中超过10册的有12位),可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息;档案标准EAD和EAC-CPF稍好,可以记录更多属性,但不具有链接、跳转功能。也就是说,即使信息都记录下来了,也只是文字(字符串),而没有包含标识符。

计划概述:
希望扩展BIBFRAME的单件层描述,采用并扩展W3C的Web注释以包括珍本书特征,揭示所有标记/注释及题词信息,最终生成机器可操作格式的数据,提供给学者做研究。
分担工作:评估BF及与德里达收藏相关的词表,识别需扩展和修订的领域,尤其在:
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述(期望2018年3月完成)【更艰巨的标记/注释部分,是否将会通过众包解决?】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下,独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用,不同图书馆有相当大的差异。
国内最多的是秘藏,近年有通过影印出版方式提供利用。出版还可取得收益,多少可补偿获得时的付出,虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用,近年有越来越多图书馆开放电子版网上利用,甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光,提供利用则体现图书馆的存在价值,深度揭示更展现图书馆的专业能力,由此而吸引更多的捐赠、资助等投入,从而进一步增强图书馆在业界的地位。
不同的环境,产生不同的结果。

ALA 2016仲冬会议的BIBFRAME更新论坛

2015年11月初LC发布BIBFRAME 2.0的7个草案(题名、施事者和职能、单件、事件、标识符和附注、管理元数据、类别),表示希望在2016年1月初正式发布2.0版。3个月来,除题名外,其他草案陆续在BIBFRAME邮件组中得到甚至不止一轮连绵而热烈的讨论,从LC成员在讨论中的回应看,似乎2.0版还没到发布的火候。

近日2016年初ALA仲冬会议上的“BIBFRAME更新论坛”的PPT放出。从负责BF开发的LC网络开发与MARC标准办公室主任Sally McCallum的报告看, 感觉BIBFRAME离完成还有很长的路要走。

BIBFRAME Update Forum at ALA Midwinter Meeting 2016
本届论坛内容丰富,除LC、OCLC及最初为BF建模的Zepheira公司的报告外,还有1个供应商报告、3个大学图书馆的LD4P项目报告。

One Supplier’s Approach to BIBFRAME/Linked Data / Tiziana Possemato, Casalini libri
Casalini libri是意大利的编目供应商,目前在做三项关联数据及BF相关工作:
1、强化MARC记录以简化BF转换(主要是为检索点提供URI)。
2、使用ALIADA框架自动由MARC转换到RDF,使用BF词表及其他词表。
3、开始由书目和规范记录创建FRBR/BF层(个人簇、作品族,通过API从外部规范档如VIAF检索数据开始),在LOD实现中帮助图书馆员和最终用户。
看后觉得欧洲在关联数据方面确实走在前头。有两方面值得关注:
1、工具:ALIADA框架(关联数据范式下自动发布图书馆数据,www.aliada-project.eu)。欧盟资助项目,意大利、西班牙、匈牙利参与,成果开源。
2、BIBFRAME-UP三层架构:个人/作品:Sparql端点;实例:Solr搜索引擎&分面、导航;单件:本地系统及OPAC

LD4P(Linked Data for Production)项目
目前项目资助应该还没有到位,因此还在计划阶段,三个馆的报告分别关注某一特藏,普林斯顿是德里达特藏、哥伦比亚是艺术收藏品、康奈尔是嘻哈音乐传单 。本项目关注的是“生产”或者说“原编”(而非原有数据的转换),扩展BF会是一种选择或至少是关注重点【感觉并不一定采用BF】。
附关于LD4P:在哈佛大学的LD4P页面,有更多项目为申请梅隆基金的准备信息,成员共7家,即康奈尔大学、哥伦比亚大学、哈佛大学、普林斯顿大学、斯坦福大学、LC及后加入的马里兰大学

参见:
BIBFRAME词表2.0草案发布(2015-11-4)
ALA 2014仲冬会议中的BIBFRAME(附会议规模)(2014-2-5)
LC书目框架转换行动:首届更新论坛(2012-2-7)

伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上,“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面(Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition)对报告的介绍如下:
UIUC图书馆在内部创新拨款项目支持下,研究人员转换并强化该馆目录中近30万电子图书记录,由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码,然后使用附加python处理,这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化,研究人员在线索引了BIBFRAME资源,创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当(Bento)视图,让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎

BIBFRAME at University of Illinois
项目首页的描述:“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图,汇集相似内容,帮助用户确定相关书目元数据集。”
项目为期一年,从2014年秋到2015年夏,选择该校近30万册电子书记录,由MARC转换至BIBFRAME,并用关联开放数据强化。
关联数据来源
作品标识符:WorldCat的xISBN【这是OCLC的作品级Web Service,好像OCLC去年宣布结束这个服务了】
实例标识符:该馆目录Vu-Find
人名、团体名、地名:VIAF
主题:LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
研究者和机构:国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一(记录清单)随便找了一条记录
记录显示分成四个部分:Access(获取)、Item Description(描述)、Subject Terms / Creators(检索点)和Bibframe RDF。
这是一本中文书(Zhong wai jun zhi he zhi hui can mou di xi de yan jin),记录没有显示汉字,“获取”和“描述”信息少到用户应该没法确认是不是所需要的(出版者不详、未显示出版日期)。
因为显示的信息太过简陋,所以第一感觉是:Garbage in, Garbage out。没有优质的记录,用什么格式都是一样的。【编目员的价值?职责?】

“获取”部分e-Book链接,取自原记录的856字段。链接到HathiTrust后,因为我的IP不在可访问范围,看不到电子书,但可通过侧栏点击HathiTrust书目记录链接,该记录优于UIUC的记录,有中文题名(中外軍制和指揮參謀體系的演進)和基本书目信息。

“主题词和创作者”部分是项目的亮点,即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据,是实际应用中的关键点。从本记录看:
(1)创作者,用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会,但本书台北出版,作者Shi, Zhi,从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码,作品转换时还真是用搜索方式获取VIAF的URI,且结果按馆藏量排序后,返回第一个?这里肯定有问题,或是获取代码的、或是VIAF搜索机制的,或者就是因为原数据问题而根本无法解决的。
(2)主题词,三个主题词串看上去差不多,却分别链接到不同的关联数据项目:
第1个有复分,链接到OCLC实验的分面主题FAST(http://experimental.worldcat.org/fast/1020859/)
第2个无复分,链接到LC关联数据服务的LCSH(http://id.loc.gov/authorities/subjects/sh85085236.html)
第3个有复分,链接到伊大本身(即本记录)
看作品转换程序源代码,也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类(Work、Instance、Annotation和Authority)的rdf文件链接,可点击下载,比如作品类的RDF。从这些RDF文件中,可以看到所用bf:命名空间的各种类和属性,如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见:http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性,相关关系及与外部数据源的联系。

使用上,本项目提供了两个检索界面
1、Google定制搜索
说明是:检索BF记录时,检索界面提供带结构化数据的结果。做查询,竟然什么都查不到【当然没有,因为Google被墙了!】
2、便当视图
即分栏的多库检索结果,除本项目中的电子书外,其他两栏为文章和其他目录数据。
不过,用题名部分“Zhong wai jun zhi”查所有字段或题名,用作者“Shi, Zhi”查作者或所有字段,竟然都没有查到结果。
目前来说,强化内容没有整合到记录内容中。看上去对检索没有贡献,在检索结果的呈现上也只是最简单的链接,还有提升的空间。

按项目说明,bibframe/html中也有Schema.org结构数据,看HTML文件源代码,本记录用了三种:
http://schema.org/Book 电子书、主题词(为什么主题词用Book?)
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富,但源代码中Schema.org也只多了一种:
http://schema.org/CreativeWork 体裁主题(genre,电子书、词典)
总体来说,Schema.org的使用似乎还比较初步,或许只是表明一种对搜索引擎优化的态度吧。