刚结束的ALA仲冬会议上,“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面(Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition)对报告的介绍如下:
UIUC图书馆在内部创新拨款项目支持下,研究人员转换并强化该馆目录中近30万电子图书记录,由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码,然后使用附加python处理,这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化,研究人员在线索引了BIBFRAME资源,创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当(Bento)视图,让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎。
BIBFRAME at University of Illinois
项目首页的描述:“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图,汇集相似内容,帮助用户确定相关书目元数据集。”
项目为期一年,从2014年秋到2015年夏,选择该校近30万册电子书记录,由MARC转换至BIBFRAME,并用关联开放数据强化。
关联数据来源
– 作品标识符:WorldCat的xISBN【这是OCLC的作品级Web Service,好像OCLC去年宣布结束这个服务了】
– 实例标识符:该馆目录Vu-Find
– 人名、团体名、地名:VIAF
– 主题:LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
– 研究者和机构:国际标准名称标识符ISNI、ORCiD
从项目的BIBFRAME HTML网站地图之一(记录清单)随便找了一条记录。
记录显示分成四个部分:Access(获取)、Item Description(描述)、Subject Terms / Creators(检索点)和Bibframe RDF。
这是一本中文书(Zhong wai jun zhi he zhi hui can mou di xi de yan jin),记录没有显示汉字,“获取”和“描述”信息少到用户应该没法确认是不是所需要的(出版者不详、未显示出版日期)。
因为显示的信息太过简陋,所以第一感觉是:Garbage in, Garbage out。没有优质的记录,用什么格式都是一样的。【编目员的价值?职责?】
“获取”部分有e-Book链接,取自原记录的856字段。链接到HathiTrust后,因为我的IP不在可访问范围,看不到电子书,但可通过侧栏点击HathiTrust书目记录链接,该记录优于UIUC的记录,有中文题名(中外軍制和指揮參謀體系的演進)和基本书目信息。
“主题词和创作者”部分是项目的亮点,即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据,是实际应用中的关键点。从本记录看:
(1)创作者,用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会,但本书台北出版,作者Shi, Zhi,从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码,作品转换时还真是用搜索方式获取VIAF的URI,且结果按馆藏量排序后,返回第一个?这里肯定有问题,或是获取代码的、或是VIAF搜索机制的,或者就是因为原数据问题而根本无法解决的。
(2)主题词,三个主题词串看上去差不多,却分别链接到不同的关联数据项目:
第1个有复分,链接到OCLC实验的分面主题FAST(http://experimental.worldcat.org/fast/1020859/)
第2个无复分,链接到LC关联数据服务的LCSH(http://id.loc.gov/authorities/subjects/sh85085236.html)
第3个有复分,链接到伊大本身(即本记录)
看作品转换程序源代码,也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。
“BIBFRAME RDF”部分是4个核心类(Work、Instance、Annotation和Authority)的rdf文件链接,可点击下载,比如作品类的RDF。从这些RDF文件中,可以看到所用bf:命名空间的各种类和属性,如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见:http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性,相关关系及与外部数据源的联系。
使用上,本项目提供了两个检索界面:
1、Google定制搜索
说明是:检索BF记录时,检索界面提供带结构化数据的结果。做查询,竟然什么都查不到【当然没有,因为Google被墙了!】
2、便当视图
即分栏的多库检索结果,除本项目中的电子书外,其他两栏为文章和其他目录数据。
不过,用题名部分“Zhong wai jun zhi”查所有字段或题名,用作者“Shi, Zhi”查作者或所有字段,竟然都没有查到结果。
目前来说,强化内容没有整合到记录内容中。看上去对检索没有贡献,在检索结果的呈现上也只是最简单的链接,还有提升的空间。
按项目说明,bibframe/html中也有Schema.org结构数据,看HTML文件源代码,本记录用了三种:
http://schema.org/Book 电子书、主题词(为什么主题词用Book?)
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富,但源代码中Schema.org也只多了一种:
http://schema.org/CreativeWork 体裁主题(genre,电子书、词典)
总体来说,Schema.org的使用似乎还比较初步,或许只是表明一种对搜索引擎优化的态度吧。