LC联机目录的“专家搜索”

有时候,需要查找一些特别的MARC记录,作为例子,比如最近在编写教材,就有这样的需求。由于没有确切的书名和作者等信息,无法通过一般的搜索途径查找。此时,最佳工具就是美国国会图书馆(LC)联机目录,其新版与旧版都有专家搜索功能(Expert Search),面对的正是专业的编目人员。它支持布尔检索,更强大的是其“索引代码”检索功能,每一种索引代码就是一个检索途径,可以达到对MARC记录中几乎所有著录数据与代码的精准检索,特别适用于查找特定MARC21记录实例的情况。

“索引代码”为4位的字母数字组合,对应到MARC21的大量字段、子字段或其组合。代码本身具有一定的助记性,大部分熟悉后无需查看代码表即可直接使用。可按代码构成方式,分成以下几类助记:
1、字段名+子字段名,比如020A,即020字段$a子字段(ISBN)
2、字段名+单一字母表示的子字段组合,如020R,即同时查020$a和$z(正确和错误的ISBN)
3、K(关键词索引)+字段名,如K020查020字段
4、K(关键词索引)+ 缩略词,如KFRQ查出版频率(310、321字段)
5、其他字母起始:H馆藏,I国际标准号,M索书号,N名称,其他。比如ISBL,可用于查找020$a$z(ISBN,同020R)
由上可知,相同需求可以通过不同的索引代码查询。一般而言,数字起始的字段名方式多为前方一致检索,字母起始的多为关键词检索。当然这不是绝对的,在代码清单中有注明,并有更详细的配置说明(详见后附说明)。
不同索引代码的差别需要在使用中体会。系统似乎有时不太稳定,常遇应该有但查不出结果的情况(显示检索式有问题,而不是没有结果)。一般而言,关键词检索查得较全,前方一致查得较准。

实例一:查找RDA记录
查询:040E rda
背景:在LC目录中RDA记录很少的时候,直接输入以上检索式找RDA记录很方便。现在查询结果超过1万条,不显示所有结果了。可以增加检索条件,结合布尔检索查找到合适的RDA记录。不过出版年为2015年及以后的记录,基本上都是RDA记录了。
如果想看看早些年的出版物,在LC目录中有多少是RDA记录,比如2010年RDA发布那年:
查询:040E rda AND 260C 2010
结果:5533条

实例二:查找在编文献另有印刷版的记录
查询:K776 print
结果:776 08 $i Print version: $t …
说明:776字段其他载体形态款目$i关系信息,但检索代码没有776I

实例三:查找目次由机器自动生成的记录
查询:K505 machine
结果:505 8_ $aMachine generated contents note: …
说明:使用505A machine查不到
背景:LC多年前有个书目强化咨询小组(BEAT),其中一项工作是强化目次。开始是提供目次链接,用856字段;后来(2005年2月)直接用505字段,存放扫描后OCR的目次,即:Machine-generated Contents Notes(在项目说明页即有相应的例子)。

实例四:查找使用Meeting作会议类属词的会议名称
查询:K111 (Meeting)
结果:3466条,括号被忽略,因而不全是所需要的,但可从中找到符合要求的,如:
111 2_ $a AADIOS (Meeting)
111 2_ $a Nature of Creativity in the Brain (Meeting)
说明:使用111H (meeting)或111H Meeting查不到
背景:会议如果从名称上看不出是会议,需要加上会议类属词,常用Conference,但也可以用其他。

—— Expert Search in Library of Congress Online Catalog ——
– 旧版(目前访问网址:catalog2.loc.gov)专家检索入口在基本检索(Basic Search),检索类型选择Expert Search即可。
页面下部有检索提示,找到专家检索部分,有基本说明及索引代码链接,链接到检索样例及解释页面。
样例及解释页面并有完整索引代码清单链接,分别按“索引名”及“搜索代码”排列。

– 新版(访问网址:catalog.loc.gov)专家检索入口在关键词检索(Keyword Search),途径选择Expert Search即可。
选择专家检索后,页面下部会显示Keyword (EXPERT) – Search Tips,点选索引代码链接,在Search/Browse Help – Index Descriptions页面,介绍:
1、索引类型:关键词索引、左匹配索引(前方一致检索)、标目索引
2、索引名称和搜索代码:索引代码清单链接,分别按“索引名”及“搜索代码”排列
3、索引配置:三种索引所对应的详细信息(索引类型、浏览显示字段、排序字段、索引的字段与子字段)

利用关联数据、验证名称和主题(LC和VIAF)

MARC数据,除了控制字段,总意在被人而非机器消费与理解,如同早期HTML被人读,而非被机器理解”—— Nate Trail

最近BIBFRAME邮件组围绕LC新近提出的BIBFRAME修订建议展开热烈讨论。美国国会图书馆(LC)网络开发与MARC标准办公室的Nate Trail谈到,即使没有BIBFRAME,用“资源”代替“实体”的工作也可以开始:现在虽然仍使用MARC,但LC已经开始鼓励编目员在多个字段放LC控制号(LCCN)和其他标识符,而不是写出题名或实体名,这样系统已经可以做链接。——换言之,MARC也可以与关联数据结合。
Nate Trail提到“Terry Reese正在其MARC转换器中建立实体解析过程,把标识符转为链接”。顺邮件中的链接看Terry Reese的博文,发现MarcEdit 6利用LC关联数据服务(查询id.loc.gov),增加了验证名称与主题规范(1XX、6XX、7XX字段)功能。目前MarcEdit 6.1已经发布,“验证标目”功能已上线(与博文截屏大致相同)。

关于MarcEdit另见:MarcEdit的RDA助手(2013年1月29日)

———- MarcEdit 博文摘译 ———-
MarcEdit 6 Wireframes — Validating Headings (Aug 09, 2015)
在过去一年中,我花了很多时间,寻求集成很多成长中的关联数据服务到MarcEdit的途径。这些服务,主要围绕词表发展,提供某些有兴趣的机会,增强现有MARC数据,或者强化使用这些特定词表的本地系统。如在Bentley这样的例子,是计算机能够如何利用这些端点(endpoints)的真实世界证明。
在MarcEdit,至今我已经创建和测试链接工具近一年,我期望探索的领域之一,是图书馆是否能使用链接服务建立自己的规范工作流程。概念上,应该是可能的——存在必需信息……确实只是放在一起的问题。因此,这就是我正致力的。使用图书馆在MarcEdit中发现的关联数据,我正致力于创建一项服务,将帮助用户识别无效标目以及带这些标目的记录”。

MarcEdit Validate Headings: Part 2 (Aug 23, 2015)
验证标目工具加为MarcEditor的一个新报告,让用户取一个记录集,返回一个报告,详细了解多少记录有相应的LC规范标目。本工具设计验证在1XX、6XX和7XX字段中的数据。本工具设置只使用LC规范档查询标目和主题。在适当时候,我会寻求扩展到其他词表。
目前本工具必须在MarcEditor内部运行——尽管在未来某个时点,我会把此(工具)由MarcEditor抽出,提供一个独立功能,与其他命令行工具集成。
……
如果该值为变体(即非规范形式),结果报告“返回记录号、术语的标准化形式、当前LC首选术语及该术语的URL”:
Record #612
Term in Record: bible.–criticism, interpretation, etc., jewish
LC Preferred Term: Bible. Old Testament–Criticism, interpretation, etc., Jewish
URL: http://id.loc.gov/authorities/subjects/sh85013771
Heading not found for: Bible.–Criticism, interpretation, etc
……我马上会增加代码,让用户选择按报告更新变体标目。

———- Bentley的例子 ———-
博文中提及的Bentley,是密歇根大学Bentley历史图书馆。该馆的ArchivesSpace项目,使用Google Refine,通过VIAF API查询LC规范记录,增强档案记录中的名称和主题。其中还用到Python的FuzzyWuzzy库处理字符串的模糊匹配
代码主要采用GitHub上Matt Carruthers的:LCNAF-Named-Entity-Reconciliation
介绍博文(来自blogspot,有墙):
Arkheion and the Dragon: Archival Lore and a Homily on Using VIAF for Reconciliation of Names and Subjects (Friday, July 24, 2015)
Order from the chaos: Reconciling local data with LoC auth records (Friday, July 31, 2015)
Arkheion and the Dragon, part II

LC关联数据服务:数据集现状(2015)

两年前曾记录了美国国会图书馆关联数据服务提供的数据集(LC关联数据服务现状(2013年7月27日))。这个数据集已有所扩大,特别是增加了很多取值词表与代码表(Schemes and smaller codelists)。再作备记如下。
页面及子页面均有检索框,可以一站或分类查找数据集中的术语。

– 规范部分(主题、名称、分类)【由6种增加到10种】
LC Subject Headings(LC主题词表)
LC Name Authority File(LC名称规范档)
LC Classification(LC分类法)
LC Children’s Subject Headings(LC儿童主题词表)
LC Genre/Form Terms(LC体裁/形式术语表)
LC Medium of Performance Thesaurus for Music(LC音乐演奏媒介叙词表)【新增】
LC Demographic Group Terms(LC人口组别术语表)【新增;参见小河尘日志:LCDGT简介
Thesaurus for Graphic Materials(图像资料叙词表)
AFS Ethnographic Thesaurus(美国民俗学会人种学叙词表)【新增】
Cultural Heritage Organizations(文化遗产组织表)【新增】

– 保存词汇表(Preservation Vocabularies)【由15种增加到25种】
Preservation Vocabs (all)
Actions Granted
Agent Type
Content Location Type
Copyright Status
……

– MARC代码部分【8种不变】
MARC Relators(包含来自12种RDA和2种BIBFRAME的关系词)
MARC Countries
MARC Geographic Areas
MARC Languages
ISO639-1 Languages
ISO639-2 Languages
ISO639-5 Languages
Extended Date/Time Format

– 取值词表与代码表(Schemes and smaller codelists)【新增,来自MARC文档,共11种】
Identifiers(标识符:标准号或代码体系)
Carriers(载体类型,RDA用)
Content Types(内容类型,RDA用)
Media Types(媒介类型,RDA用)
Resource Types(资源类型,MARC21书目数据格式及MODS用)
MARC Genre/Form Schemes(体裁/形式表)
MARC Subject Schemes(主题法)
Classification Schemes(分类法)
Description Convention Schemes(著录法)
Publication Frequencies(出版频率,MARC21书目数据格式字段008/18)
Resource Components(资源组成部分,MARC21书目数据格式字段041【指041语种子字段区分依据】)