LC联机目录的“专家搜索”

有时候,需要查找一些特别的MARC记录,作为例子,比如最近在编写教材,就有这样的需求。由于没有确切的书名和作者等信息,无法通过一般的搜索途径查找。此时,最佳工具就是美国国会图书馆(LC)联机目录,其新版与旧版都有专家搜索功能(Expert Search),面对的正是专业的编目人员。它支持布尔检索,更强大的是其“索引代码”检索功能,每一种索引代码就是一个检索途径,可以达到对MARC记录中几乎所有著录数据与代码的精准检索,特别适用于查找特定MARC21记录实例的情况。

“索引代码”为4位的字母数字组合,对应到MARC21的大量字段、子字段或其组合。代码本身具有一定的助记性,大部分熟悉后无需查看代码表即可直接使用。可按代码构成方式,分成以下几类助记:
1、字段名+子字段名,比如020A,即020字段$a子字段(ISBN)
2、字段名+单一字母表示的子字段组合,如020R,即同时查020$a和$z(正确和错误的ISBN)
3、K(关键词索引)+字段名,如K020查020字段
4、K(关键词索引)+ 缩略词,如KFRQ查出版频率(310、321字段)
5、其他字母起始:H馆藏,I国际标准号,M索书号,N名称,其他。比如ISBL,可用于查找020$a$z(ISBN,同020R)
由上可知,相同需求可以通过不同的索引代码查询。一般而言,数字起始的字段名方式多为前方一致检索,字母起始的多为关键词检索。当然这不是绝对的,在代码清单中有注明,并有更详细的配置说明(详见后附说明)。
不同索引代码的差别需要在使用中体会。系统似乎有时不太稳定,常遇应该有但查不出结果的情况(显示检索式有问题,而不是没有结果)。一般而言,关键词检索查得较全,前方一致查得较准。

实例一:查找RDA记录
查询:040E rda
背景:在LC目录中RDA记录很少的时候,直接输入以上检索式找RDA记录很方便。现在查询结果超过1万条,不显示所有结果了。可以增加检索条件,结合布尔检索查找到合适的RDA记录。不过出版年为2015年及以后的记录,基本上都是RDA记录了。
如果想看看早些年的出版物,在LC目录中有多少是RDA记录,比如2010年RDA发布那年:
查询:040E rda AND 260C 2010
结果:5533条

实例二:查找在编文献另有印刷版的记录
查询:K776 print
结果:776 08 $i Print version: $t …
说明:776字段其他载体形态款目$i关系信息,但检索代码没有776I

实例三:查找目次由机器自动生成的记录
查询:K505 machine
结果:505 8_ $aMachine generated contents note: …
说明:使用505A machine查不到
背景:LC多年前有个书目强化咨询小组(BEAT),其中一项工作是强化目次。开始是提供目次链接,用856字段;后来(2005年2月)直接用505字段,存放扫描后OCR的目次,即:Machine-generated Contents Notes(在项目说明页即有相应的例子)。

实例四:查找使用Meeting作会议类属词的会议名称
查询:K111 (Meeting)
结果:3466条,括号被忽略,因而不全是所需要的,但可从中找到符合要求的,如:
111 2_ $a AADIOS (Meeting)
111 2_ $a Nature of Creativity in the Brain (Meeting)
说明:使用111H (meeting)或111H Meeting查不到
背景:会议如果从名称上看不出是会议,需要加上会议类属词,常用Conference,但也可以用其他。

—— Expert Search in Library of Congress Online Catalog ——
– 旧版(目前访问网址:catalog2.loc.gov)专家检索入口在基本检索(Basic Search),检索类型选择Expert Search即可。
页面下部有检索提示,找到专家检索部分,有基本说明及索引代码链接,链接到检索样例及解释页面。
样例及解释页面并有完整索引代码清单链接,分别按“索引名”及“搜索代码”排列。

– 新版(访问网址:catalog.loc.gov)专家检索入口在关键词检索(Keyword Search),途径选择Expert Search即可。
选择专家检索后,页面下部会显示Keyword (EXPERT) – Search Tips,点选索引代码链接,在Search/Browse Help – Index Descriptions页面,介绍:
1、索引类型:关键词索引、左匹配索引(前方一致检索)、标目索引
2、索引名称和搜索代码:索引代码清单链接,分别按“索引名”及“搜索代码”排列
3、索引配置:三种索引所对应的详细信息(索引类型、浏览显示字段、排序字段、索引的字段与子字段)

平等获取信息的自由——关于《里昂宣言》

联合国千年发展目标将于2015年到期,现正开启2015年后进程。IFLA在2014年会上发布《信息获取和发展里昂宣言》,希望联合国在协商制定制订2016-2030年新的发展议程和需要实现的新目标中,能包括图书馆在各项目标中的作用,从而使图书馆发展继续得到支持。
The Lyon Declaration: On Access to Information and Development
参见建中读书:关于《里昂宣言》 (2014-08-20)。其中说“到目前为止国内还没有一家在宣言上签名”,那是八月。

12月4日联合国秘书长向会员国提交了关于2015年后日程的非正式预览版报告《到2030年通往尊严的道路》(正式报告将于12月31日以6种官方语言发行),其中包含访问信息和开放互联网。IFLA于12月10日发布了回应,并为各国图书馆组织提供了一个专门的《工具套件: 图书馆与 “联合国后2015 发展议程”》,指导图书馆组织如何在此问题上去跟负责联合国事务的政府部门沟通,以期在国家发展计划中加入图书馆信息获取战略。
The “Road to Dignity by 2030” includes access to information and an open Internet (11 December 2014)
Toolkit: Libraries and the UN post-2015 development agenda

《里昂宣言》征求图书馆签名,4个月时间签名馆[及机构]已有近500家,不过似乎仍然是“到目前为止国内还没有一家在宣言上签名”[update 刚发现宣言网址需架梯]。这个新的工具套件,在我国应该是为中图学会或者高校图工委准备的,估计我们也用不上。
中文为IFLA官方语言之一,上述IFLA文件都有中文版。很好奇翻译者是不是来自大陆。

———-《信息获取和发展里昂宣言》———-
大致看了《里昂宣言》的内容,比较敏感的大概是“基于人权的框架下”的第4条:
d) 推动和保障平等获取信息、言论自由、结社和集会自由及隐私等权利,并视之为保障公民个人独立的关键。

查了下我国现行宪法
第三十五条 中华人民共和国公民有言论、出版、集会、结社、游行、示威的自由。

相当猛的“自由”都有,还真就没有“平等获取信息”的自由。
或可以此解释为什么国内没有图书馆机构在《里昂宣言》上签字?

———-关于IFLA/FAIFE的掌故———-
2005年,IFLA的“自由获取信息和自由表达委员会”(FAIFE)曾对中国信息获取受限提出指责,引来若干国内图林大佬在IFLA-L邮件组中为现状辩护。刚查了下,相关内容在博客网上还有留存,不妨一看(IFLA-L邮件组存档中也可按篇搜索找到):
cnlibs:IFLA/FAIFE关于中国因特网信息过滤的对话(2005-07-27)

顺便暴露下自己当时的想法:听上图馆长吴建中报告(2006年4月12日)

如何快速录入古籍繁体汉字(附:推荐“汉典”)

这里所称的录入“古籍繁体汉字”,是指按古籍上的繁体汉字录入。Word有简繁转换功能,可以录入简体字后整体转换,不过不适合录入古籍汉字。因为古籍汉字异体字多,批量转换后需逐字检查对照,完全没有效率。

【输入法】目前大多数汉字输入法都带繁体字功能,录入基本繁体字不是问题(但不能录入所有):
– 拼音输入:只要在同音字中选择繁体字即可。
– 五笔输入:选择“繁体”+“大字符集”,可以输简出繁,按原来熟悉的键码录入。当然也可以按繁体拆字录入。

【异体字】录入古籍繁体汉字,最大的问题是异体字多。简体字偶然也有异体字,但大多数情况下差一笔就是不同的字,而繁体字中异体字则非常普遍。常见的异体字形式有:
字形相同或相似,笔画数不同,可能多一个构件。如:“寛”和“寬”(后者多一点),“為”和“爲”。更多可见“榨”的异体字。http://www.zdic.net/z/1c/js/69A8.htm
构件相同、字型不同。最常见的是左右型变为上下型(或反之)。比如草字头、火字底的字,如:“勳(勋)”现为左右型,古籍中更常见的是火在下面形成上下型“勲”;同样如“樵”,偶见火在下面形成上下型(U+236D1);“启”则二种字型都很常见:“啟”和“啓”。
原来是异体字,现在是不同字:“间(間)”和“闲(閒)”。
避讳字。比如清朝皇帝名,产生了一系列少笔画、少部件的避讳字,比如康熙“玄烨”,不但导致“玄”少了最后一点(U+248E5),连带着含“玄”部件的字如“弦”、“铉”、“炫”等一起少一点;嘉庆“顒琰”导致“琰”空出“炎”下面的“火”或者用“又”代替(U+2494E),因为“火(上)又(下)”(U+2418C)是“炎”的异体字;等等。

【相同字判断】古籍中还有些汉字在目前的字库中根本没有,相比空着不录入(或用拆分部件表示),以字形相近的异体字代替或许是更好的方式——好的检索系统应该能够同时检出各种异体字。只是古籍中异体字多,兼之笔画常很随意,还因为避讳刻意减少、增加笔画。如此种种,要判断到底是不同字、还是异体字,对于没有很深古文根底的人,实在是件相当困难的事。

【组合输入】如何在不认字的情况下录入繁体字?以下方法组合,可以快速达成:
1、常用输入法
1-1、五笔输入:对录入繁体字而言,五笔最大的优势除了重码少,还有可以不认字,只要照样拆字即可录入,速度有相当的保证。只是目前收录的字不够多,很多字打不出来。
1-2、部首录入(搜狗拼音):不会五笔时,用拆字法,即“u”+部件拼音。只是当拆分部件不知如何读音,就无法录入了。同时此法击键数较多,影响速度。
2、手写输入
搜狗拼音有此扩展功能,识别能力很强,可用于录入绝大多数繁体字,当然速度与键盘录入无法相提并论。当常用输入法打不出字时,可用此法作为补充。
3、汉典(详见以下“附”)
最近发现的强大网站,可以大大提高录入质量。每个字都会显示异体字等。通过“汉字拆分”及其中的部首、构件查询等,与前述手写输入结合,可以快速准确录入绝大部分汉字。
– 当笔画多或录入不易时,在此查字比手写输入速度快。
– 凡在此查不到的,可认为不存在(Unicode未收录),只能用拆分部件表示。
– 更重要的是:通过此网站,可以查到目前尚不可录入的汉字(就用不着在手写输入中反复尝试了)。如“(上)閒(下)”(U+7C21),查出有此字,但不可录入。其为“簡”的异体字,可以考虑代替录入。
– 用此网站,才知道有些看上去很相似的字,其实是不同的字。比如:“各(左)+隹(右)”=“雒”,“名(左)+隹(右)”=(U+28FC5)。后者无法录入,且没有异体字,只能用拆分部件表示(或者用Unicode码)。

【认字】关于录入,最后但其实是最重要的:认识繁体汉字,无疑可以大大加快录入速度。比如“蠶繭”,笔画多、手写输入有点慢,构件查找数笔画也难。但如果你知道就是“蚕茧”,瞬间录入有没有?至少五笔如此。

———-附:汉典———-
汉典 http://www.zdic.net:协作编写的在线汉语辞典,有汉语字典、词典等。目的:推广汉语学习,规范汉字使用。
【字典】有传统的部首索引、笔画索引等。不过最快速的查字方式则是“汉字拆分”:由部首、构件查询汉字。
汉字拆分有12种字形,如上下、左右、包围等;部首、构件查询不限所在位置,按笔画列出,相当灵活。
网站做得相当好,可以由查询结果链接到该字。每个汉字列有拼音、异体字、统一码(unicode)等,以及基本解释(含字义、广韵、方言等)、详细解释、康熙字典、说文解字、字源字形、网友讨论(论坛)。
基本用法:
1、通过查询快速找到复杂繁体字
– 选择“汉字拆分”,按字形,通过汉字构件拼合查询(如:各+隹)。
– 在“汉字拆分”中,选择(或输入)部首(或构件)查询后,会按笔画数显示所有含该部首(或构件)的字,尤其适用于字形复杂、某些构件无法录入、因而不能通过“汉字拆分”查找的情况。
2、验证是否可以录入该字。有些字可以查到,但只有图形,无法录入,或可用标示的“统一码”代替。
3、无法录入时,或可以根据找到的汉字,在列出的异体字中,用构造相近的字代替。
4、查不到的汉字,只能通过拆分部件表示。