ALA 2019仲冬会议的BIBFRAME更新论坛

德国国家图书馆的Reinhold Heuvelmann在BIBFRAME邮件组发消息,看到BIBFRAME更新论坛的所有报告都上线了(官方未发信息)。

2011年书目框架行动启动以来,自2012年冬起更新论坛每年2次在ALA仲冬和夏季年会中举办。参见:
LC书目框架转换行动:首届更新论坛(2012-2-7)
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29)
2016 ALA年会BIBFRAME更新论坛(2016-8-27)
2017年BIBFRAME更新论坛(2017-7-26)
2018年BIBFRAME更新论坛(2018-11-14)

今年照例除美国国会图书馆(LC)本身外,还请了其他机构,除从不缺席的OCLC,特别是欧洲的出席,共4家5个报告。
BIBFRAME Update Forum at ALA Midwinter Meeting 2019 (2019-1-27)

一、LC的BIBFRAME试验扩展
1、Expanding the Pilot / Sally McCallum, Library of Congress (PPT, 76KB)
【完成了从MARC到BIBFRAME转换,开始反向转换。】
转换的动机。
转换中遇到的问题,包括:BIBFRAME作品到MARC题名规范或者书目作品?非拉丁文字880字段;来自BIBFRAME数据的URI(带入MARC);MARC子字段末尾标点(不再有)。

2、Anonymous Resources, Blank Nodes, And Providers, Oh My! / Kevin Ford, Library of Congress (PPT, 392KB)
【本次会议最有意思的报告:BIBFRAME转换的匿名资源或空节点问题,实验通过规范控制或实体URI减少空节点】
使用匿名资源会导致大量重复资源,匿名资源的数量正在导致或将导致性能和扩展问题。
以“提供者”(主要是出版者)为例:在1800万MARC书目记录中=约1500万匿名提供者Agent资源。其中许多(大多数?)表达相同实体,比如Harcourt Brace, Penguin Books, Harper Collins。1500万中有120万独特提供者。
因此我们创建了一个“提供者”文档……做实验【即出版社规范档:id.loc.gov/bfentities/providers/…,实验对出版社使用URI】

二、LD4P2
3、LD4P Status update / Philip Schreur, Stanford University (PPT, 868KB)
介绍使用Sinopia作为BIBFRAME编辑器,使用SHARE-VDE转换记录为BIBFRAME(2018年BIBFRAME更新论坛上有SHARE-VDE介绍),以及LD4P的成果。
参见:
BIBFRMAE应用进展:LD4P实施之路(2018-7-8)
LD4P2走向实施之路:目标与工作(附LD4系列)(2019-1-8)

三、欧洲BIBFRAME研讨会
4、European BIBFRAME Workshop / Reinhold Heuvelmann, German National Library (PPT, 3.23MB)
欧洲BIBFRAME研讨会已经召开两届,每年9月召开:
2017.9.26-27 European BIBFRAME Workshop 2017, German National Library, Frankfurt https://wiki.dnb.de/display/EBW
2018.9.17-19 European BIBFRAME Workshop 2018, European University Institute, Fiesole (Florence), Italy http://www.casalini.it/EBW2018
2019.9.17-18 European BIBFRAME Workshop 2019, National Library of Sweden, Stockholm,

四、OCLC
5、OCLC BIBFRAME Update / Nathan Putnam, OCLC (PPT, 13.61MB)
介绍OCLC研究部的BIBFRAME相关工作:
* 使用LC的转换器,将WorldCat中的MARC记录转换为BIBFRAME数据,得到的经验教训是:[1]作品ID很重要,在处理开始就有用;[2]URI很重要,空节点=不可互操作;[3]OCLC处理书目记录=很少单件/实例数据【?】。
* OCLC研究部当前活动:创建可用的BIBFRAME数据图,供最终用户测试,已经完成:[1]Hash URI代替空节点;[2]移除已经有VIAF或FAST的额外实体属性【指哪些?】;[3]评审BIBFRAME管理数据【BF管理元数据放在作品下有点奇怪】;[4]在WorldCat记录集上测试图修改。
* 现在:OCLC研究部与全球产品管理部共享信息,前进的道路取决于回答有关问题:[1]工作流程,[2]用例,[3]期望成果/服务。
* 向前走,我们知道我们将提供BIBFRAME数据,需要答案的问题集中在社区需要和期望的内容上:[1]重要的是什么(标识符来源,转换选项,质量等);[2]如何评估数据?(API、下载、导出等)[3]应当强化什么?[4]WorldCat中的编目工作流程是什么?
* 与成员馆合作:
与RLP成员合作:[1]焦点小组,[2]收集需求,[3]期望的工作流程,[4]实践工作流程开发。
与成员馆和小组合作,如PCC、OCLC元数据首创咨询组、MOUG(音乐OCLC用户组 )、OLAC(关注非印刷资料的编目员组织)、OCLC CJK用户组等。

大学未来、图书馆未来:美国大学图书馆服务分析

看着国内大学图书馆阅读推广热火朝天日甚一日以至于到一枝独秀的地步,不免疑惑:大学图书馆的作用到底是什么?它的主要工作难道不是为教学科研服务?尤其是研究型大学,为科研服务不应该是重中之重?在高等教育本身面临转折的大环境下,图书馆究竟应该把工作重点放在哪里,才能在去中介的网络环境中,维持其在高等教育体系中的地位?

2018年10月OCLC发布研究报告《大学未来、图书馆未来:图书馆战略与机构方向的结合》:
Malpas, Constance, Roger Schonfeld, Rona Stein, Lorcan Dempsey, and Deanna Marcum. University Futures, Library Futures: Aligning Library Strategies with Institutional Directions. Dublin, OH: OCLC Research, 2018. https://doi.org/10.25333/WS5K-DD86. ISBN: 978-1-55653-076-0
本报告得到Andrew W. Mellon基金会部分资助,由OCLC研究部和Ithaka S+R成员撰写,通过调查分析美国不同类型大学的图书馆在提供服务方面的差异。报告很长,我只关注美国高校图书馆(尤其是研究性大学)的情况,具体来说,就是:第4章“图书馆服务框架”,第5章一部分“调查发现:图书馆在关键服务领域的投资”。

报告开发了一个图书馆服务框架,把高校图书馆提供的服务分成如下9个关键领域(第4章):
1 聚集校园社区:为社区广泛或特定的子群体提供空间和设施项目,以促进参与、推广和包容。
2 实现学业成功:支持教学、促进学习、提高信息素养和/或最大限度地保留、升级、毕业和以后的生活成功。
3 促进信息获取:能够发现和使用任何格式或所有权的信息资源;提供一般馆藏的长期保存。
4 培养学术和创造:提供支持研究和创造性工作的专业知识、帮助、工具和服务。
5 包容和支持校园外用户:为非全日制学生、远程和在线学习者以及其他主要校园外/非校园/远程用户提供公平访问。
6 长期保存和促进独特馆藏:确保稀有资料和特藏的长期管理,并最大限度地利用它们。
7 提供学习空间:为学术合作、安静学习以及技术增强教学和/或学习提供物理空间。
8 展示学术专长:促进学者和员工的卓越研究和主题专业知识;包括开放存取预印资料的存储库活动。
9 转变学术出版:推动现代化格式、改进商业模式、降低市场集中度。

第5章按当前实际、当前理想和未来5年,分别提供不同类型图书馆在上述9个领域的投资配额(图表)。本人特别关注研究图书馆协会(ARL)成员馆。由于数据集还没有发布,以下数据大多根据图示估计:
当前资源配额(仅列10%左右及以上)
p.68 所有馆:促进信息获取<23.5%,实现学业成功 22%,提供学习空间 16%,培养学术和创造10.5%,包容和支持校园外用户<9.5%
p.69 ARL:促进信息获取 23%,实现学业成功 18%,提供学习空间 14.6%,长期保存和促进独特馆藏 12%,培养学习和创造 11%【特别重视:长期保存和促进特藏,所有馆 8%】

当前理想(应当优化;仅列10%左右及以上)
p.71 所有馆:实现学业成功 22%, 促进信息获取 19.7%, 提供学习空间 15%,培养学术和创造 10.5%,包容和支持校园外用户<9.5%
p.72 ARL:实现学业成功 20%,促进信息获取 19.5%,培养学术和创造 14.5%,长期保存和促进独特馆藏 14%,提供学习空间 11.5 %【从14.6明显下降】

未来5年资源配置(仅列10%左右及以上) p.73 所有馆:实现学业成功 20.5%,促进信息获取 19.5%,提供学习空间 13%,培养学术和创造 10.5%,包容和支持校园外用户 10% p.74 ARL:促进信息获取 19.5%,实现学业成功 15%,培养学术和创造 14%,长期保存和促进独特馆藏 13.5%,提供学习空间 12.5%

几个注意点(数据请看报告原文):
(1)“3促进信息获取”配额下降明显(23.5%->19.5%),以至低于“2实现学业成功”。是因为用户在信息获取上对图书馆依赖下降?
(2)“2实现学业成功”排名由第二升至第一,但配额不增反降(22%->20.5%)。奇怪的是ARL成员馆认为理想状态是增加“2实现学业成功”投入,但未来5年配额反而减少(18%->20%->15%)。
(3)“7提供学习空间”排名保持第三,但配额呈下降趋势(16%->13%);ARL成员馆此排名更降至第五。是对近年强调“空间服务”的一种反思,还是已经完成了对空间的投资?
(4)减少的投入到了哪里?所有馆主要在“8展示学术专长”(3.5%->5%);ARL成员馆在此方面原就较高,且希望增加(5.5%->6.5%->6.5%)。机构库、学者库……仍是投入方向。
(5)ARL成员馆希望投入增加最多的是“9转变学术出版”(4.5%->7%->6%),仍然保持配额是所有馆的2倍(2%->3.5%->3%)。
(6)ARL成员馆特别重视“6长期保存和促进独特馆藏”,且呈提高趋势(12%->14%-13.5%);所有馆基本上维持在8%,差距明显。
(7)“4培养学术和创造”在所有馆排名稳定在第四、投入10%左右。但在ARL成员馆,此排名由第五升至第三(11%->14%),在“2实现学业成功”上减少的投入,加到了这里——对一般教学的支持,逐渐转向对研究与创新的支持?
(8)“5包容和支持校园外用户”在所有馆排名稳定在第五、投入10%左右。在ARL成员馆虽然期望配额有较大上升(4.5%->6.5%),但相对不受重视,原因何在?

报告指出的总体结论是:“重点从馆藏管理转向以参与为导向的服务。”是不是这么绝对?在馆藏趋同的大背景下,或许特藏是例外。
【我的结论】其实投入排名不是那么容易改变的,比如“3 促进信息获取”上的投入再减恐怕也不会超过“9 转变学术出版”。关注ARL成员馆与所有馆的差异,才是研究型大学图书馆可以参照的发展方向吧?

2018国际关联数据实施者调查分析

OCLC研究部曾在2014年和2015年进行过2次国际关联数据实施者调查。为了解近三年的变化,以及格式化元数据为关联数据或者后续使用关联数据的新项目或服务,OCLC研究部于2018.4.17-5.25再次进行同样的调查,Karen Smith-Yoshimura综合三次调查结果,写了分析文章,发表在网刊code4lib Journal:
Karen Smith-Yoshimura. Analysis of 2018 International Linked Data Survey for Implementers. code4lib Journal, Issue 42, 2018-11-08
调查包括:概述,发布什么关联数据及为什么,消费什么关联数据及为什么,忠告,结论。内容太丰富,很难概括总结,只能摘录部分如下。

【一】概述
【机构与项目数量】共有23个国家的143家机构参加了一次或多次调查(见文后附录)。参加2018年调查的81家机构中,46家参加过先前一次或两次调查。但参加过先前调查者介绍的也不一定是同样的关联数据项目或服务【换言之,原项目已不再继续】。在2018年介绍的104个关联数据项目或服务中,仅42个以前介绍过。即使介绍同样的项目或服务,有时回复也与以前不同【应该是项目本身有变化】。
【国别】2018年调查中美国回复34家机构占42%,接下来是西班牙12家,英国8家,荷兰4家,加拿大、德国、挪威各3家,意大利2家,1家的是澳大利亚、奥地利、中国【终于有了,竟然不是上海图书馆,而是敝校】、捷克、芬兰、法国、匈牙利、日本、卢森堡、葡萄牙、南非和瑞士。
【机构类型】研究图书馆23家28%,国家图书馆13家16%,研究机构11家14%,图书馆网络和政策各8家10%,服务供应商6家7%,公共图书馆5家6%,博物馆4家5%,其他2家(1家音乐厅、1家出版社)。此分布基本上与前次调查相同,只有一个例外——第一次收到来自服务供应商的回复,是向其客户提供关联数据服务。
【项目运行时间】2018年的104个关联数据项目或服务中,18个已运行2年以上4年以下,31个已运行4年或以上。3个还不可访问,3个“私有”仅供本机构使用。
【协作】大部分关联数据项目或服务完全在内部完成(61个),部分为多机构实施(23个),20个由外部厂商或服务供应商提供。不过,即使回复说工作所由内部完成的,也报告与外部小组或机构协作。仅25个实施为“仅本机构”。
【员工】大部分机构把关联数据加到了当前员工的职责(86家),仅15家没有。与2015年调查相比最大不同是,有员工专门从事关联数据的数量增加了50%。
【资助】22个关联数据项目或服务收到基金资助,73个由图书馆/档案馆和/或母机构资助。6个关联数据项目接受来自伙伴机构的支持,5个私人资助,1个接受团体资助。8个从未申请项目,但计划申请。
【成功评估】2018年比2015年有更多回复者报告其关联数据项目或服务成功或“大多”成功。已经运作至少4年的提出以下成功指标:[1]使用;[2]数据重用;[3]互操作;[4]用户满意;[5]影响;[6]专业发展
【发布与消费】在2018年和2015年的调查中,大多数项目/服务既消费也发布关联数据。2018年的调查中,只发布关联数据的项目更少。【更重视消费?】

【二】发布什么关联数据、为什么?
【LD类型】鉴于回复者中图书馆的代表性相对较大,描述性元数据(51)和书目数据(47)是最常见的数据类型,规范数据紧随其后(45)。其他数据类型:关于人的数据(33)、本体/词表(33)、数字馆藏(27)、地理数据(23)、数据集(19)、关于博物馆实物的数据(12)、组织数据(12)、编码档案描述EAD(3)和统计数据(3)等。
【三元组数量】超过10亿三元组的关联数据集数量从3个增加到11个,其中3个超过50亿三元组:Biblioteca de Galicia的数字图书馆(63亿三元组)、Europeana (略高于50亿)和OCLC的WorldCat关联数据(超过100亿三元组)。 但是大多数关联数据集都很小。在报告其数据集大小的63个回复中,33个不到1000万个三元组,9个在10到1亿个三元组之间,10个在1亿到10亿个三元组之间。
【发布动机】比较2018年和2015年的调查结果,发布关联数据的主要动机似乎没有变化。2018年依次为:在Web上迥更多受众曝光数据(74%);证明数据集作为关联数据可做什么(65%);听说关联数据,想试试曝光某些本地数据为关联数据(45%);探索发布数据为关联数据,是否会改进本地资源的搜索引擎优化(SEO)(24%);管理层要求我们曝光我们的数据为关联数据(11%)。
【使用情况】超过半数回复要么不知道、未保留或无法访问使用统计数据,要么尚未使用(103家回复中61家) 。通过每天平均请求数衡量的八个使用最多的关联数据集(每天超过10万个请求):
[1]美国钱币学会的nomisma(钱币概念叙词表)
[2]法国国家图书馆的data.bnf.fr
[3] Europeana,汇集欧洲各地博物馆、档案馆和视听档案馆的数字对象元数据
[4]美国国会图书馆的关联数据服务
[5]日本国立国会图书馆的NDL搜索,提供日本图书馆、档案馆、博物馆和学术研究机构的书目数据
[6]北莱茵 – 威斯特伐利亚图书馆服务中心的关联开放数据服务,提供对书目资源、图书馆和相关组织以及规范数据的访问
[7]OCLC的虚拟国际规范档(VIAF),来自不同国家和地区的40多个规范档的汇总
[8]OCLC的WorldCat关联数据,包含超过4亿条书目记录的目录
另外3个关联数据集每天收到5-10万请求:
[9]不列颠图书馆的《英国国家书目》
[10]芬兰国家图书馆的芬兰叙词表和本体服务
[11]OCLC的FAST(标题表的分面应用),一种来自《美国国会图书馆标题表》的分面主题标题表
【RDF词表与本体】大多数项目使用多个。使用SKOS的百分比从2015年的60%下降到2018年的44%【第2位】,这与使用Schema.org的增加相反(2015年为30%,2018年为46%【第1位】)。类似减少出现在使用DC基本元素集【第3位】、DCMI元数据术语【第5位】和foaf【第4位】,使用RDF Schema的略微减少【并列第5位】。BIBFRAME词表使用率从2015年的15%增加到2018年的27%【第7位】。
【许可】32个项目/服务未宣布任何明确的许可,19个采用CC0 1.0 Universal,这是2018年调查受访者使用的最常见的许可。
【访问及格式】在发布关联数据的70个项目或服务中,19个目前不可在其机构之外访问其数据。
那些提供多种访问格式的,网页是最常见的,随后是文件转储【批下载】、内容协商、SPARQL端点、SPARQL编辑器、嵌入式标记和应用程序。
最常用的关联数据序列化是RDF/XML,其他较少使用的序列化,依引用频率:Turtle,JSON-LD,N-Triples,RDF/JSON,RDFa,N3 RDF三元组和N-Quads。
【技术】发布关联数据所使用的技术是多种多样的,并且大多数使用多种技术。最多有20多家提到:SPARQL、Java。……
【障碍】2018年和2015年调查中出版关联数据的障碍或挑战排名大致相同。最大障碍是员工陡峭的学习曲线【要学的东西太多】,其次是遗留数据中的不一致【数据清洗吧】,第三是选择适当的本体。

【三】消费什么关联数据、为什么?
【关联数据源】2018年前10(超过12个项目或服务使用):id.loc.gov;VIAF;DBPedia;GeoNames;Wikidata;WorldCat.org;Getty Vocabularies;FAST;ISNI;我们自己转换为关联数据的资源。
与2015年相比的最大变化:维基数据使用激增(排名第5,2015年排名第15),与WorldCat.org使用情况相当。ISNI也升至“前10名”,而“我们自己转换为关联数据的资源”从2015年的第5下降到2018年的第10。
【动机】消费关联数据的主要原因在2018年和2015年的调查中排名相同:[1]为本地用户提供更丰富的体验;[2]通过消费其他来源的关联数据强化本地数据。百分比及排名下降较多的有:实现更有效的内部元数据管理(从2015年的47%【第3】到2018年的30%【第4】)。
为本地用户提供更丰富的体验
【障碍】主要障碍是对来源数据和关联数据源进行匹配、消歧和对齐。最大的区别在于2018年指向不稳定端点和服务可靠性的回复数量的增加。

【四】忠告【每一句都是经验之谈,须自己看原文体会】

【五】结论
对2018年调查的回应可能被视为仍在发展的关联数据环境的另一部分快照。这种观点受限于哪些机构对调查作出回复以及谁作的回复【这个对结果的影响确实很大】,因为早期调查中描述的关联数据实施的回复可能因个体观点的不同而不同。
【与2015年调查的显著差异】
[1]只发布关联数据的项目或服务更少,对照那些发布和消费链接数据的项目或服务增加。
[2]更多专门从事关联数据的员工。
[3]用schema.org和BIBFRAME发布关联数据的增加,对照用SKOS的减少。
[4]维基数据Wiki作为关联数据源的兴起。

参见:
2018年国际关联数据实施者调查(2018-5-18)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)