PCC 2015-2017战略规划

PCC(Program for Cooperative Cataloging,合作编目项目)是美国重要的合作编目项目,包括专著、连续出版物、名称规范、主题规范4个子项目 (BIBCO、CONSER、NACO、SACO)。原以为它与OCLC差不多古老(明年50周年),其实它成立于1994年,比国内主要联编机构早不了几年。
PCC网站在美国国会图书馆网站下,现在成员已不限于北美而成为国际性合作编目组织。作为以“贡献”为主的项目,参与机构共900多家,数量上无法与“共享”为主的OCLC相比,但强烈的使命感是其重要特征。
PCC 2015-2017年战略规范,显示(美国)编目界正为应对信息技术环境的改变做着实实在在的准备。三年行动计划中,4个战略方向共14个行动,为应对特定任务而准备(或已经)成立4个工作小组、1个咨询委员会,每个行动都规定了承担的委员会与时间表。以下仅录对“行动”的描述,可了解其具体动向,而愿景、使命及战略方向的描述则从略【方括号中为本人添加】。

——— PCC 2015-2017战略规划:愿景、使命和战略方向 ———
Vision, Mission, and Strategic Directions: January 2015-December 2017 (Revised: November 20, 2015)

战略方向1:开发课程,推进社群理解关联数据(2个行动)
1.1 执行环境扫描以评价:所需关联数据培训的类别;PCC可以使用的现有培训资源;应该委托本领域专家的培训项目;PCC需要自己开发的培训【培训
1.2 与CONSER和其他潜在合作伙伴,提供讨论平台、沙盒和测试平台,实验关联数据标准与应用(如BIBFRAME纲要与编辑器)【实验

战略方向2:PCC活动与投入与全球数据环境中有最高影响的(活动)保持一致(5个行动)
由基于记录的环境,转变到基于元数据陈述【三元组】与身份管理【唯一标识符】的动态集。
2.1 建立新的咨询委员会,代表来自有早期关联数据实验的项目和机构(如BIBFRAME、BIBFLOW、哈佛ISNI项目、LD4L及其后续项目),以指导关联数据运动将如何影响PCC标准和政策,并定位PCC能够对这种演变作出具体贡献的理想领域。【咨询委员会】
2.2 决定PCC如何参与书目中心与供应商界(ILS厂商、自动规范控制供应商、订约编目供应商和出版者),确保及时创建与采用可用于关联数据的产品与服务。【关联数据产品与服务】
2.3 建立在早期工作的建议,如何扩展PCC元数据贡献到RDA和MARC以外(如MODS最终报告)。把这些以前的努力放在新的关联数据机会环境中,进行当前需求评估,确认PCC能够如何更有效、更策略地贡献于数字馆藏的元数据提供。【数字馆藏的元数据】
2.4 评估关联数据环境对PCC当前采用的测度对项目贡献的计量与报告方法的影响。没有目录“记录”,决定什么具有足够的计数价值,以及为什么。【计量metrics】
2.5 建立工作组,建立转换现有MARC书目和规范记录/数据到关联数据格式以供共享所需的标准与准则【格式转换】

战略方向3:在规范控制从主要基于创建文本串的方法,转换到专注于管理身份与实体的方法中,提供领导(4个行动)
3.1 建立工作组,开发使用除LC名称规范档之外的规范数据源的最佳实践【新的规范数据源】
3.2 与其他机构、项目合作伙伴及社群(W3C、ISNI、ORCID、code4lib)合作,探索模型及建立合作身份管理所必要的基础设施【个人ID;没有包括VIAF?】
3.3 产生一份白皮书,给出围绕作品实体识别问题的高层概要。本文件应当考虑不同社群(如BIBFRAME、JSC、PRESSoo、Zepheira丛编组及其他)提出的作品实体的概念比较,以及多数据模型协同的影响。白皮书将解释作品标识符在关联数据环境中能够起到的作用,概述它们所引起的建模和元数据管理问题,向PCC提供灵活选项,以推进作品级元数据的提供与使用。【作品实体、作品级元数据】
3.4 调查选项并开发计划,扩展社群参与创建标识符与规范数据【扩大参与】

战略方向4:探索品牌与资助模型,支持PCC的战略方向与整个项目的可持续性(3个行动)
拓展其重心到RDA、MARC和LC词表之外。
4.1 在全球数据环境背景中定义PCC品牌。考虑一个名称,反映新的、更广泛的方向。评估战略方向对PCC成员和治理结构的影响。【改名】
4.2 寻求适当资助,支持PCC首创活动(如转换PCC到新数据环境;工具开发;培训开发)【项目资助】
4.3 考虑获取赞助的方式,开发对PCC项目和服务的某些方面的捐赠支持【赞助】

LC联机目录的“专家搜索”

有时候,需要查找一些特别的MARC记录,作为例子,比如最近在编写教材,就有这样的需求。由于没有确切的书名和作者等信息,无法通过一般的搜索途径查找。此时,最佳工具就是美国国会图书馆(LC)联机目录,其新版与旧版都有专家搜索功能(Expert Search),面对的正是专业的编目人员。它支持布尔检索,更强大的是其“索引代码”检索功能,每一种索引代码就是一个检索途径,可以达到对MARC记录中几乎所有著录数据与代码的精准检索,特别适用于查找特定MARC21记录实例的情况。

“索引代码”为4位的字母数字组合,对应到MARC21的大量字段、子字段或其组合。代码本身具有一定的助记性,大部分熟悉后无需查看代码表即可直接使用。可按代码构成方式,分成以下几类助记:
1、字段名+子字段名,比如020A,即020字段$a子字段(ISBN)
2、字段名+单一字母表示的子字段组合,如020R,即同时查020$a和$z(正确和错误的ISBN)
3、K(关键词索引)+字段名,如K020查020字段
4、K(关键词索引)+ 缩略词,如KFRQ查出版频率(310、321字段)
5、其他字母起始:H馆藏,I国际标准号,M索书号,N名称,其他。比如ISBL,可用于查找020$a$z(ISBN,同020R)
由上可知,相同需求可以通过不同的索引代码查询。一般而言,数字起始的字段名方式多为前方一致检索,字母起始的多为关键词检索。当然这不是绝对的,在代码清单中有注明,并有更详细的配置说明(详见后附说明)。
不同索引代码的差别需要在使用中体会。系统似乎有时不太稳定,常遇应该有但查不出结果的情况(显示检索式有问题,而不是没有结果)。一般而言,关键词检索查得较全,前方一致查得较准。

实例一:查找RDA记录
查询:040E rda
背景:在LC目录中RDA记录很少的时候,直接输入以上检索式找RDA记录很方便。现在查询结果超过1万条,不显示所有结果了。可以增加检索条件,结合布尔检索查找到合适的RDA记录。不过出版年为2015年及以后的记录,基本上都是RDA记录了。
如果想看看早些年的出版物,在LC目录中有多少是RDA记录,比如2010年RDA发布那年:
查询:040E rda AND 260C 2010
结果:5533条

实例二:查找在编文献另有印刷版的记录
查询:K776 print
结果:776 08 $i Print version: $t …
说明:776字段其他载体形态款目$i关系信息,但检索代码没有776I

实例三:查找目次由机器自动生成的记录
查询:K505 machine
结果:505 8_ $aMachine generated contents note: …
说明:使用505A machine查不到
背景:LC多年前有个书目强化咨询小组(BEAT),其中一项工作是强化目次。开始是提供目次链接,用856字段;后来(2005年2月)直接用505字段,存放扫描后OCR的目次,即:Machine-generated Contents Notes(在项目说明页即有相应的例子)。

实例四:查找使用Meeting作会议类属词的会议名称
查询:K111 (Meeting)
结果:3466条,括号被忽略,因而不全是所需要的,但可从中找到符合要求的,如:
111 2_ $a AADIOS (Meeting)
111 2_ $a Nature of Creativity in the Brain (Meeting)
说明:使用111H (meeting)或111H Meeting查不到
背景:会议如果从名称上看不出是会议,需要加上会议类属词,常用Conference,但也可以用其他。

—— Expert Search in Library of Congress Online Catalog ——
– 旧版(目前访问网址:catalog2.loc.gov)专家检索入口在基本检索(Basic Search),检索类型选择Expert Search即可。
页面下部有检索提示,找到专家检索部分,有基本说明及索引代码链接,链接到检索样例及解释页面。
样例及解释页面并有完整索引代码清单链接,分别按“索引名”及“搜索代码”排列。

– 新版(访问网址:catalog.loc.gov)专家检索入口在关键词检索(Keyword Search),途径选择Expert Search即可。
选择专家检索后,页面下部会显示Keyword (EXPERT) – Search Tips,点选索引代码链接,在Search/Browse Help – Index Descriptions页面,介绍:
1、索引类型:关键词索引、左匹配索引(前方一致检索)、标目索引
2、索引名称和搜索代码:索引代码清单链接,分别按“索引名”及“搜索代码”排列
3、索引配置:三种索引所对应的详细信息(索引类型、浏览显示字段、排序字段、索引的字段与子字段)

利用关联数据、验证名称和主题(LC和VIAF)

MARC数据,除了控制字段,总意在被人而非机器消费与理解,如同早期HTML被人读,而非被机器理解”—— Nate Trail

最近BIBFRAME邮件组围绕LC新近提出的BIBFRAME修订建议展开热烈讨论。美国国会图书馆(LC)网络开发与MARC标准办公室的Nate Trail谈到,即使没有BIBFRAME,用“资源”代替“实体”的工作也可以开始:现在虽然仍使用MARC,但LC已经开始鼓励编目员在多个字段放LC控制号(LCCN)和其他标识符,而不是写出题名或实体名,这样系统已经可以做链接。——换言之,MARC也可以与关联数据结合。
Nate Trail提到“Terry Reese正在其MARC转换器中建立实体解析过程,把标识符转为链接”。顺邮件中的链接看Terry Reese的博文,发现MarcEdit 6利用LC关联数据服务(查询id.loc.gov),增加了验证名称与主题规范(1XX、6XX、7XX字段)功能。目前MarcEdit 6.1已经发布,“验证标目”功能已上线(与博文截屏大致相同)。

关于MarcEdit另见:MarcEdit的RDA助手(2013年1月29日)

———- MarcEdit 博文摘译 ———-
MarcEdit 6 Wireframes — Validating Headings (Aug 09, 2015)
在过去一年中,我花了很多时间,寻求集成很多成长中的关联数据服务到MarcEdit的途径。这些服务,主要围绕词表发展,提供某些有兴趣的机会,增强现有MARC数据,或者强化使用这些特定词表的本地系统。如在Bentley这样的例子,是计算机能够如何利用这些端点(endpoints)的真实世界证明。
在MarcEdit,至今我已经创建和测试链接工具近一年,我期望探索的领域之一,是图书馆是否能使用链接服务建立自己的规范工作流程。概念上,应该是可能的——存在必需信息……确实只是放在一起的问题。因此,这就是我正致力的。使用图书馆在MarcEdit中发现的关联数据,我正致力于创建一项服务,将帮助用户识别无效标目以及带这些标目的记录”。

MarcEdit Validate Headings: Part 2 (Aug 23, 2015)
验证标目工具加为MarcEditor的一个新报告,让用户取一个记录集,返回一个报告,详细了解多少记录有相应的LC规范标目。本工具设计验证在1XX、6XX和7XX字段中的数据。本工具设置只使用LC规范档查询标目和主题。在适当时候,我会寻求扩展到其他词表。
目前本工具必须在MarcEditor内部运行——尽管在未来某个时点,我会把此(工具)由MarcEditor抽出,提供一个独立功能,与其他命令行工具集成。
……
如果该值为变体(即非规范形式),结果报告“返回记录号、术语的标准化形式、当前LC首选术语及该术语的URL”:
Record #612
Term in Record: bible.–criticism, interpretation, etc., jewish
LC Preferred Term: Bible. Old Testament–Criticism, interpretation, etc., Jewish
URL: http://id.loc.gov/authorities/subjects/sh85013771
Heading not found for: Bible.–Criticism, interpretation, etc
……我马上会增加代码,让用户选择按报告更新变体标目。

———- Bentley的例子 ———-
博文中提及的Bentley,是密歇根大学Bentley历史图书馆。该馆的ArchivesSpace项目,使用Google Refine,通过VIAF API查询LC规范记录,增强档案记录中的名称和主题。其中还用到Python的FuzzyWuzzy库处理字符串的模糊匹配
代码主要采用GitHub上Matt Carruthers的:LCNAF-Named-Entity-Reconciliation
介绍博文(来自blogspot,有墙):
Arkheion and the Dragon: Archival Lore and a Homily on Using VIAF for Reconciliation of Names and Subjects (Friday, July 24, 2015)
Order from the chaos: Reconciling local data with LoC auth records (Friday, July 31, 2015)
Arkheion and the Dragon, part II