乱花迷眼 – 第 20 页 – 编目精灵III

“德里达图书馆”关联数据计划

普林斯顿大学图书馆在ALA 2016仲冬会议的BIBFRAME更新论坛（BIBFRAME Update Forum at ALA Midwinter Meeting 2016）上，介绍了该馆将进行的德里达特藏关联数据计划。PPT备注页有详细解释，因而可以较全面了解：
De-“framing” Derrida: BIBFRAME, inscriptions, and library of Jacques Derrida / Jennifer Baxmeyer

对我来说，印象特别深刻的是他们对特藏揭示的全方位设计。比如图书“折角”也当作一种需要记录的标记；更意想不到的是，使用档案系统，记录每本书在原藏地（德里达家中）的相对位置，可了解哪本书边上放的是哪本书（如果接收图书时没有深思熟虑，随便扎捆打包，就无法复原当时的场景了）。
基本印象：对该特藏的完整揭示更接近“数字人文”而非“书目描述”范畴（首期作者题词部分尚可视为单件层书目描述）。

背景：
普林斯顿大学2015年3月完整购入著名哲学家德里达（1930-2004）个人图书馆计1.6万件藏书及其他单件，是为“德里达图书馆”。
在这些书上，有德里达阅读时留下的大量标记/注释（折角、划重点线、页边标记、报时贴、夹其他文字材料）。这些书有相当部分为原作者在书上题词后送给德里达的（超过6300册），对这些书中提及自己的部分，德里达基本上都作有标记。
所有这些信息（包括相邻放置图书信息），对研究德里达的学者都会是感兴趣的内容。比如目前已统计出题词图书的作者（其中超过10册的有12位），可显示其专业及社交网络。
目前的MARC记录很难确切揭示上述信息；档案标准EAD和EAC-CPF稍好，可以记录更多属性，但不具有链接、跳转功能。也就是说，即使信息都记录下来了，也只是文字（字符串），而没有包含标识符。

计划概述：
希望扩展BIBFRAME的单件层描述，采用并扩展W3C的Web注释以包括珍本书特征，揭示所有标记/注释及题词信息，最终生成机器可操作格式的数据，提供给学者做研究。
– 分担工作：评估BF及与德里达收藏相关的词表，识别需扩展和修订的领域，尤其在：
— 手稿注释/题词的语义
— 原始和转录注释/题词的关系
– 交付产品
— 德里达特藏中包含作者题词的单件子集的BF资源描述（期望2018年3月完成）【更艰巨的标记/注释部分，是否将会通过众包解决？】
— 用于特藏资料的原始资源描述的BF扩展本体

——— 联想的分割线 ———
在图书馆馆藏日益趋同的当下，独一无二的特藏是最能体现专业与学术图书馆价值的部分。
在获得特藏以后如何提供利用，不同图书馆有相当大的差异。
国内最多的是秘藏，近年有通过影印出版方式提供利用。出版还可取得收益，多少可补偿获得时的付出，虽然先前的付出与后来的收益多半是完全不同的两条线。
美国不少图书馆的方式则是直接提供利用，近年有越来越多图书馆开放电子版网上利用，甚至如普林斯顿大学上述工作那样以深度揭示提供利用。拥有特藏本身就已表明图书馆的独特眼光，提供利用则体现图书馆的存在价值，深度揭示更展现图书馆的专业能力，由此而吸引更多的捐赠、资助等投入，从而进一步增强图书馆在业界的地位。
不同的环境，产生不同的结果。

ALA 2016仲冬会议的BIBFRAME更新论坛

2015年11月初LC发布BIBFRAME 2.0的7个草案（题名、施事者和职能、单件、事件、标识符和附注、管理元数据、类别），表示希望在2016年1月初正式发布2.0版。3个月来，除题名外，其他草案陆续在BIBFRAME邮件组中得到甚至不止一轮连绵而热烈的讨论，从LC成员在讨论中的回应看，似乎2.0版还没到发布的火候。

近日2016年初ALA仲冬会议上的“BIBFRAME更新论坛”的PPT放出。从负责BF开发的LC网络开发与MARC标准办公室主任Sally McCallum的报告看，感觉BIBFRAME离完成还有很长的路要走。

BIBFRAME Update Forum at ALA Midwinter Meeting 2016
本届论坛内容丰富，除LC、OCLC及最初为BF建模的Zepheira公司的报告外，还有1个供应商报告、3个大学图书馆的LD4P项目报告。

– One Supplier’s Approach to BIBFRAME/Linked Data / Tiziana Possemato, Casalini libri
Casalini libri是意大利的编目供应商，目前在做三项关联数据及BF相关工作：
1、强化MARC记录以简化BF转换（主要是为检索点提供URI）。
2、使用ALIADA框架自动由MARC转换到RDF，使用BF词表及其他词表。
3、开始由书目和规范记录创建FRBR/BF层（个人簇、作品族，通过API从外部规范档如VIAF检索数据开始），在LOD实现中帮助图书馆员和最终用户。
看后觉得欧洲在关联数据方面确实走在前头。有两方面值得关注：
1、工具：ALIADA框架（关联数据范式下自动发布图书馆数据，www.aliada-project.eu）。欧盟资助项目，意大利、西班牙、匈牙利参与，成果开源。
2、BIBFRAME-UP三层架构：个人/作品：Sparql端点；实例：Solr搜索引擎&分面、导航；单件：本地系统及OPAC

– LD4P（Linked Data for Production）项目
目前项目资助应该还没有到位，因此还在计划阶段，三个馆的报告分别关注某一特藏，普林斯顿是德里达特藏、哥伦比亚是艺术收藏品、康奈尔是嘻哈音乐传单。本项目关注的是“生产”或者说“原编”（而非原有数据的转换），扩展BF会是一种选择或至少是关注重点【感觉并不一定采用BF】。
附关于LD4P：在哈佛大学的LD4P页面，有更多项目为申请梅隆基金的准备信息，成员共7家，即康奈尔大学、哥伦比亚大学、哈佛大学、普林斯顿大学、斯坦福大学、LC及后加入的马里兰大学。

参见：
BIBFRAME词表2.0草案发布（2015-11-4）
ALA 2014仲冬会议中的BIBFRAME（附会议规模）（2014-2-5）
LC书目框架转换行动：首届更新论坛（2012-2-7）

伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上，“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面（Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition）对报告的介绍如下：
UIUC图书馆在内部创新拨款项目支持下，研究人员转换并强化该馆目录中近30万电子图书记录，由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码，然后使用附加python处理，这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化，研究人员在线索引了BIBFRAME资源，创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当（Bento）视图，让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎。

BIBFRAME at University of Illinois
项目首页的描述：“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图，汇集相似内容，帮助用户确定相关书目元数据集。”
项目为期一年，从2014年秋到2015年夏，选择该校近30万册电子书记录，由MARC转换至BIBFRAME，并用关联开放数据强化。
关联数据来源
– 作品标识符：WorldCat的xISBN【这是OCLC的作品级Web Service，好像OCLC去年宣布结束这个服务了】
– 实例标识符：该馆目录Vu-Find
– 人名、团体名、地名：VIAF
– 主题：LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
– 研究者和机构：国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一（记录清单）随便找了一条记录。
记录显示分成四个部分：Access（获取）、Item Description（描述）、Subject Terms / Creators（检索点）和Bibframe RDF。
这是一本中文书（Zhong wai jun zhi he zhi hui can mou di xi de yan jin），记录没有显示汉字，“获取”和“描述”信息少到用户应该没法确认是不是所需要的（出版者不详、未显示出版日期）。
因为显示的信息太过简陋，所以第一感觉是：Garbage in, Garbage out。没有优质的记录，用什么格式都是一样的。【编目员的价值？职责？】

“获取”部分有e-Book链接，取自原记录的856字段。链接到HathiTrust后，因为我的IP不在可访问范围，看不到电子书，但可通过侧栏点击HathiTrust书目记录链接，该记录优于UIUC的记录，有中文题名（中外軍制和指揮參謀體系的演進）和基本书目信息。

“主题词和创作者”部分是项目的亮点，即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据，是实际应用中的关键点。从本记录看：
（1）创作者，用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会，但本书台北出版，作者Shi, Zhi，从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码，作品转换时还真是用搜索方式获取VIAF的URI，且结果按馆藏量排序后，返回第一个？这里肯定有问题，或是获取代码的、或是VIAF搜索机制的，或者就是因为原数据问题而根本无法解决的。
（2）主题词，三个主题词串看上去差不多，却分别链接到不同的关联数据项目：
第1个有复分，链接到OCLC实验的分面主题FAST（http://experimental.worldcat.org/fast/1020859/）
第2个无复分，链接到LC关联数据服务的LCSH（http://id.loc.gov/authorities/subjects/sh85085236.html）
第3个有复分，链接到伊大本身（即本记录）
看作品转换程序源代码，也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类（Work、Instance、Annotation和Authority）的rdf文件链接，可点击下载，比如作品类的RDF。从这些RDF文件中，可以看到所用bf:命名空间的各种类和属性，如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见：http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性，相关关系及与外部数据源的联系。

使用上，本项目提供了两个检索界面：
1、Google定制搜索
说明是：检索BF记录时，检索界面提供带结构化数据的结果。做查询，竟然什么都查不到【当然没有，因为Google被墙了！】
2、便当视图
即分栏的多库检索结果，除本项目中的电子书外，其他两栏为文章和其他目录数据。
不过，用题名部分“Zhong wai jun zhi”查所有字段或题名，用作者“Shi, Zhi”查作者或所有字段，竟然都没有查到结果。
目前来说，强化内容没有整合到记录内容中。看上去对检索没有贡献，在检索结果的呈现上也只是最简单的链接，还有提升的空间。

按项目说明，bibframe/html中也有Schema.org结构数据，看HTML文件源代码，本记录用了三种：
http://schema.org/Book 电子书、主题词（为什么主题词用Book？）
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富，但源代码中Schema.org也只多了一种：
http://schema.org/CreativeWork 体裁主题（genre，电子书、词典）
总体来说，Schema.org的使用似乎还比较初步，或许只是表明一种对搜索引擎优化的态度吧。