BIBFRAME试验第1阶段报告

美国国会图书馆(LC)的BIBFRAME试验第1阶段从2015年9月8日到2016年3月31日,评估报告6月上线:
BIBFRAME Pilot (Phase 1): Report and Assessment(June 16, 2016)
报告分两个部分:一是LC合作与教学项目部(COIN)的“准备和培训”;一是LC网络开发与MARC标准办公室(NDMSO)的“第1阶段试验系统”。另有附录A“培训计划”。
报告大大丰富了今年3月底在BIBFRAME邮件组中发布的“BIBFRAME试验项目进展”:
[BIBFRAME] Library of Congress BIBFRAME Pilot update / Paul Frank. 2016-3-31 (参见:《LC有关BIBFRAME开发立场的声明》及试验进展,2016-4-1) 。摘译附后。

via 台国图编目园地:BIBFRAME先導實驗第一階段(2016-08-22)

——— 试验开始前提出“要探索的问题”(摘译)———
PILOT PHASE ONE SYSTEM (Network Development and MARC Standards Office—Sally McCallum, chief)

“第一阶段试验系统”摘译:试验开始前提出“要探索的问题”【及答案】
– 编目员能否录入BF描述到面向BF的系统
使用1.0版编辑器,试验参与者提交了2000余个描述到系统。建立了8个不同资源类型的纲要,帮助录入:专著、乐谱、有声CD、连续出版、地图、蓝光DVD、35mm影片、印刷图片/照片。
– 作品/实例二分法对编目员是否清晰有用?
作品和实例模型清晰,某些属性属于实例、其他特指作品。但试验参与者通常只查RDA规则,查看或录入取值,因此如何了解模型包装不那么重要。
– 录入提示和下拉框是否方便工作?
下拉选择和查找是通用功能。如所期望的改进了数据串的准确性,提供数据链接URI而不需要输入,让录入更有效。若干术语表用RDF描述创建,在下拉框和录入提示支持下赋予URI。
– 编辑器上的标签是否清晰有用?【RDA术语】
标签近乎与RDA同步,并尽可能链接到该元素的主要RDA条款。
试验参与者发现标签和RDA规则链接很有帮助。BF模型中内容表达的处理要求附加解释,因为RDA热衷于内容表达,而BF模型认为内容表达是一个作品,是RDA作品和RDA内容表达间的链接。
– 能否实施适当的检索?
实施搜索适当,但可改进。录入提示字段对已知项检索很有用,因为随录入得到近似所要的,也加速数据录入。也有些“猜你喜欢”搜索,但由于编目员手头有单件,正查找它或它的作品,已知项搜索通常足够了。
有时编目员要搜索未知项,如主题标目或名称、浏览等级而非搜索特定结果。这种情况建议他们首先使用外部工具,再把确认的已知项带回编辑器。第2阶段中,本办公室将与培训部合作,识别与增加附加搜索和浏览功能,以满足编目员的需求。
– MARC记录能否适当转换供编目员使用?【分拆为BF作品、BF实例】
决定试图模拟全BF环境,要求转换LC全部1800万MARC书目记录文档,提供BF模型的后备文件供编目。1350万MARC记录被分为作品和实例记录,产生1340万作品记录和1385万实例记录。转换是可靠的,但仍在进行中。很好地说明作品/实例分离,尽管没有在试验中彻底测试。转换的困难部分是转换题名和名称/题名MARC规范记录到BF框架作为BF作品描述,然后与相关MARC书目记录数据合并,要求转换主题和分类到新作品描述。
编目员需要的MARC规范记录已经转换至RDF,载入已有5年的LC关联数据服务(LDS)。为此试验,LC名称规范在LDS的更新由每周载入到每天载入,以提供及时规范查找。需要提供录入新规范描述到BF系统,但一段时间内不能满足。

结论:
试验达到了其目的,是成功的。参与系统测试的编目员的录入,让那些开发BF者在开发中做出相当大的进步。BF2.0模型和词表已发布,将构成2016年秋下一阶段试验的基础。2.0下创建的数据将不同于第1阶段创建的数据。

PCC 2015-2017战略规划

PCC(Program for Cooperative Cataloging,合作编目项目)是美国重要的合作编目项目,包括专著、连续出版物、名称规范、主题规范4个子项目 (BIBCO、CONSER、NACO、SACO)。原以为它与OCLC差不多古老(明年50周年),其实它成立于1994年,比国内主要联编机构早不了几年。
PCC网站在美国国会图书馆网站下,现在成员已不限于北美而成为国际性合作编目组织。作为以“贡献”为主的项目,参与机构共900多家,数量上无法与“共享”为主的OCLC相比,但强烈的使命感是其重要特征。
PCC 2015-2017年战略规范,显示(美国)编目界正为应对信息技术环境的改变做着实实在在的准备。三年行动计划中,4个战略方向共14个行动,为应对特定任务而准备(或已经)成立4个工作小组、1个咨询委员会,每个行动都规定了承担的委员会与时间表。以下仅录对“行动”的描述,可了解其具体动向,而愿景、使命及战略方向的描述则从略【方括号中为本人添加】。

——— PCC 2015-2017战略规划:愿景、使命和战略方向 ———
Vision, Mission, and Strategic Directions: January 2015-December 2017 (Revised: November 20, 2015)

战略方向1:开发课程,推进社群理解关联数据(2个行动)
1.1 执行环境扫描以评价:所需关联数据培训的类别;PCC可以使用的现有培训资源;应该委托本领域专家的培训项目;PCC需要自己开发的培训【培训
1.2 与CONSER和其他潜在合作伙伴,提供讨论平台、沙盒和测试平台,实验关联数据标准与应用(如BIBFRAME纲要与编辑器)【实验

战略方向2:PCC活动与投入与全球数据环境中有最高影响的(活动)保持一致(5个行动)
由基于记录的环境,转变到基于元数据陈述【三元组】与身份管理【唯一标识符】的动态集。
2.1 建立新的咨询委员会,代表来自有早期关联数据实验的项目和机构(如BIBFRAME、BIBFLOW、哈佛ISNI项目、LD4L及其后续项目),以指导关联数据运动将如何影响PCC标准和政策,并定位PCC能够对这种演变作出具体贡献的理想领域。【咨询委员会】
2.2 决定PCC如何参与书目中心与供应商界(ILS厂商、自动规范控制供应商、订约编目供应商和出版者),确保及时创建与采用可用于关联数据的产品与服务。【关联数据产品与服务】
2.3 建立在早期工作的建议,如何扩展PCC元数据贡献到RDA和MARC以外(如MODS最终报告)。把这些以前的努力放在新的关联数据机会环境中,进行当前需求评估,确认PCC能够如何更有效、更策略地贡献于数字馆藏的元数据提供。【数字馆藏的元数据】
2.4 评估关联数据环境对PCC当前采用的测度对项目贡献的计量与报告方法的影响。没有目录“记录”,决定什么具有足够的计数价值,以及为什么。【计量metrics】
2.5 建立工作组,建立转换现有MARC书目和规范记录/数据到关联数据格式以供共享所需的标准与准则【格式转换】

战略方向3:在规范控制从主要基于创建文本串的方法,转换到专注于管理身份与实体的方法中,提供领导(4个行动)
3.1 建立工作组,开发使用除LC名称规范档之外的规范数据源的最佳实践【新的规范数据源】
3.2 与其他机构、项目合作伙伴及社群(W3C、ISNI、ORCID、code4lib)合作,探索模型及建立合作身份管理所必要的基础设施【个人ID;没有包括VIAF?】
3.3 产生一份白皮书,给出围绕作品实体识别问题的高层概要。本文件应当考虑不同社群(如BIBFRAME、JSC、PRESSoo、Zepheira丛编组及其他)提出的作品实体的概念比较,以及多数据模型协同的影响。白皮书将解释作品标识符在关联数据环境中能够起到的作用,概述它们所引起的建模和元数据管理问题,向PCC提供灵活选项,以推进作品级元数据的提供与使用。【作品实体、作品级元数据】
3.4 调查选项并开发计划,扩展社群参与创建标识符与规范数据【扩大参与】

战略方向4:探索品牌与资助模型,支持PCC的战略方向与整个项目的可持续性(3个行动)
拓展其重心到RDA、MARC和LC词表之外。
4.1 在全球数据环境背景中定义PCC品牌。考虑一个名称,反映新的、更广泛的方向。评估战略方向对PCC成员和治理结构的影响。【改名】
4.2 寻求适当资助,支持PCC首创活动(如转换PCC到新数据环境;工具开发;培训开发)【项目资助】
4.3 考虑获取赞助的方式,开发对PCC项目和服务的某些方面的捐赠支持【赞助】

LC联机目录的“专家搜索”

有时候,需要查找一些特别的MARC记录,作为例子,比如最近在编写教材,就有这样的需求。由于没有确切的书名和作者等信息,无法通过一般的搜索途径查找。此时,最佳工具就是美国国会图书馆(LC)联机目录,其新版与旧版都有专家搜索功能(Expert Search),面对的正是专业的编目人员。它支持布尔检索,更强大的是其“索引代码”检索功能,每一种索引代码就是一个检索途径,可以达到对MARC记录中几乎所有著录数据与代码的精准检索,特别适用于查找特定MARC21记录实例的情况。

“索引代码”为4位的字母数字组合,对应到MARC21的大量字段、子字段或其组合。代码本身具有一定的助记性,大部分熟悉后无需查看代码表即可直接使用。可按代码构成方式,分成以下几类助记:
1、字段名+子字段名,比如020A,即020字段$a子字段(ISBN)
2、字段名+单一字母表示的子字段组合,如020R,即同时查020$a和$z(正确和错误的ISBN)
3、K(关键词索引)+字段名,如K020查020字段
4、K(关键词索引)+ 缩略词,如KFRQ查出版频率(310、321字段)
5、其他字母起始:H馆藏,I国际标准号,M索书号,N名称,其他。比如ISBL,可用于查找020$a$z(ISBN,同020R)
由上可知,相同需求可以通过不同的索引代码查询。一般而言,数字起始的字段名方式多为前方一致检索,字母起始的多为关键词检索。当然这不是绝对的,在代码清单中有注明,并有更详细的配置说明(详见后附说明)。
不同索引代码的差别需要在使用中体会。系统似乎有时不太稳定,常遇应该有但查不出结果的情况(显示检索式有问题,而不是没有结果)。一般而言,关键词检索查得较全,前方一致查得较准。

实例一:查找RDA记录
查询:040E rda
背景:在LC目录中RDA记录很少的时候,直接输入以上检索式找RDA记录很方便。现在查询结果超过1万条,不显示所有结果了。可以增加检索条件,结合布尔检索查找到合适的RDA记录。不过出版年为2015年及以后的记录,基本上都是RDA记录了。
如果想看看早些年的出版物,在LC目录中有多少是RDA记录,比如2010年RDA发布那年:
查询:040E rda AND 260C 2010
结果:5533条

实例二:查找在编文献另有印刷版的记录
查询:K776 print
结果:776 08 $i Print version: $t …
说明:776字段其他载体形态款目$i关系信息,但检索代码没有776I

实例三:查找目次由机器自动生成的记录
查询:K505 machine
结果:505 8_ $aMachine generated contents note: …
说明:使用505A machine查不到
背景:LC多年前有个书目强化咨询小组(BEAT),其中一项工作是强化目次。开始是提供目次链接,用856字段;后来(2005年2月)直接用505字段,存放扫描后OCR的目次,即:Machine-generated Contents Notes(在项目说明页即有相应的例子)。

实例四:查找使用Meeting作会议类属词的会议名称
查询:K111 (Meeting)
结果:3466条,括号被忽略,因而不全是所需要的,但可从中找到符合要求的,如:
111 2_ $a AADIOS (Meeting)
111 2_ $a Nature of Creativity in the Brain (Meeting)
说明:使用111H (meeting)或111H Meeting查不到
背景:会议如果从名称上看不出是会议,需要加上会议类属词,常用Conference,但也可以用其他。

—— Expert Search in Library of Congress Online Catalog ——
– 旧版(目前访问网址:catalog2.loc.gov)专家检索入口在基本检索(Basic Search),检索类型选择Expert Search即可。
页面下部有检索提示,找到专家检索部分,有基本说明及索引代码链接,链接到检索样例及解释页面。
样例及解释页面并有完整索引代码清单链接,分别按“索引名”及“搜索代码”排列。

– 新版(访问网址:catalog.loc.gov)专家检索入口在关键词检索(Keyword Search),途径选择Expert Search即可。
选择专家检索后,页面下部会显示Keyword (EXPERT) – Search Tips,点选索引代码链接,在Search/Browse Help – Index Descriptions页面,介绍:
1、索引类型:关键词索引、左匹配索引(前方一致检索)、标目索引
2、索引名称和搜索代码:索引代码清单链接,分别按“索引名”及“搜索代码”排列
3、索引配置:三种索引所对应的详细信息(索引类型、浏览显示字段、排序字段、索引的字段与子字段)