日志标签 ‘MARC’

以一条虚拟记录概览RDA与AACR2之不同

2010年4月29日

RDA编撰历经五年,到底对AACR2做了哪些改变,做编目的都很关心。然而超大的篇幅,令人不免对RDA望之却步。年初Barbara Tillet做了RDA对AACR2所做改变的演讲[1],点出了变化的精髓。看的过程中把她举的多个例子凑成一条虚拟MARC记录,以此概览RDA与AACR2之不同:

100 $a Brown, Susan.
245 $a Teusday’s tasks / $c by Susan Brown, Melanie Carlson, Stephen Lindell, Kevin Ott, and Janet Wilson ; translated by Tiina Nunnally.
246 $i Corrected title: $a Tuesday’s tasks
250 $a Third revised edition
260 $a Chicago : $b [Publisher not identified], $c 2010.
300 $a 1 online resource (39 pages) : $b illustrations ; $c 26 cm.
336 $a text $2 marccontent
337 $a unmediated $2 marcmedia
338 $a volume $2 marccarrier …
700 $a Nunnally, Tiina, $d 1952- $etranslator

首先,在所有的例子中,字段指标符都没有了。
245$c,第一责任者有4个。RDA摒弃了同一责任方式作者以3为界原则(rule of 3),全部著录。AACR2只著录第一个作者的规定在RDA中为可选。
与之相应,第一责任者人数不影响100的选取。AACR2在此种情况下以题名为主要款目,没有100。
245$a,题名拼写有误的情况下不插入更正或说明,而是在246用$i说明并更正(注:连续出版物不同)。
250采用照录方法,不用特定缩写。(根据国际编目原则声明,RDA 1.7.1规定转录包括大小写、标点、符号、数字、缩写及错误。245依据的是同样原则。也可选择其他方式。不过附录A对大小写、附录B对缩写仍有规定)
同样,300也不再使用特定的缩写,如p.改用pages,ill.改用illustrations。各行业通用缩写cm仍然保持不变。
出版信息不明时,摒弃拉丁缩写词S.l.及S.n.,260采用直白的说明语,仍加方括号表明非取自出版物:[Publisher not identified]。(其他拉丁文缩写如ca., i.e., et al.均不用)
700$e,100/700的关系词$e并非新定义,但在目前的MARC记录中都是被忽略的,只在旧记录中有。现在又捡回来了,目的就是要揭示责任者与资源间的具体关系。(用词见RDA附录I)
336-338为新增,由原位于245$h的一般资料标识(GMD)扩展而成。原来普通文本不用,但在RDA中,336内容类型与338载体类型是核心元素(即必备项),337媒体类型为可选。$a用词取自$2所指词汇表。[update 2010-05-07: 见LC标准网站的 Value Lists for Codes and Controlled Vocabularies]

根据LC的RDA测试培训资料[2],还有一些变化:
头标18=i原来头标第18位=a,代表AACR。LC决定继续采用ISBD标识符,故用i;不知道像德国那样不用ISBD标识符的,如改用RDA,头标第18位用什么)
用040$e rda,说明以RDA为编目规则

感觉上,RDA少了特例(如超过三个以上作者的规定),少了特定的缩写词(250、260、300),方便了编目入门。336-338基本上可以用编目模板搞定。然而,要用RDA进行编目,还有很多繁琐的规定,仍然不是那么容易掌握的。
另外,RDA采用FRBR术语(如作品、内容表达、载体表现、单件),同时改变了不少AACR2的词汇,但编目的基本方式并未改变。可能少了某些“行话”,改用了另一些“行话”,比如“标目”变为“规范检索点”,“主要款目”变成“首选题名”或“创建者规范检索点”,“统一题名”变成“首选题名”,“参见”变为“变异检索点”,“主要信息源”改为“首选信息源”……。另外“必备”改为“核心”。

刚看到 Christine Schwartz 介绍 Adam Schiff 很强大的报告[3],100页PPT,以MARC格式对照AACR2与RDA的不同,适合细细品读。E-LIS上的pdf竟然无法访问,幸亏有RDA-JSC网站上的PPT原件

参见:
[1] Barbara B. Tillett. RDA: Changes from AACR2 for Texts. LC Digital Futures and You, Jan. 12, 2010

http://www.loc.gov/today/cyberlc/feature_wdesc.php?rec=4863

[2] LC的RDA测试培训资料上网 (2010-04-22)

http://catwizard.net/posts/20100422220045.html

[3] Cataloging Futures: Changes from AACR2 to RDA: a comparison of examples / by Christine Schwartz. April 28, 2010

http://www.catalogingfutures.com/catalogingfutures/2010/04/changes-from-aacr2-to-rda-a-comparison-of-examples.html

ISO 3166和LC国家代码表

2010年4月17日

整理书目数据库的时候,发现有不少记录出版国为塞内加尔(代码sg),显然是不可能的,便问编目部同事原因,回答sg是新加坡,塞内加尔是sn,于是把系统代码表中sg的说明改了,又增加了代码sn。接下来处理没有语种的记录,发现MARC21记录中新加坡用的是si,大呼上当。把系统代码表改回,再去“质问”同事,为何误导我?同事说查过CNMARC手册,没错,并进一步说明依据的是ISO 3166。
难道LC的国家代码与ISO标准不同?网上查到ISO 3166国家代码(country code) ,和LC的国家代码表(MARC Code List for Countries) 对照,还真是不同。或者说,UNIMARC和MARC21所用国家代码表是不一样的。
想起来以前就知道,CNMARC中国家代码中国是cn,而MARC21是cc,cn是加拿大的代码。因为加拿大基本上用带省的3位码,所以一般不会冲突,在本馆系统代码中早就把cn改成了中国,因此系统中cc和cn都是中国。但实际上还是会有不确定出版地的加拿大出版物用cn的。
没有逐一对比ISO 3166和MARC21的国家代码表,不知道还有多少是冲突的。本馆系统二种MARC格式的记录导入系统后放在同一个库中,并且语种、国家等代码单独抽出用于限定检索,同一国家有二个代码已经成问题,同一个代码还有不同含义,更令人头痛。
联想到如果用现在很热的关联数据,给每个值都加上URI,那么MARC21国家代码表的cc有一个URI,ISO 3166的cn也有一个URI。做到这一步还没什么用,还要有机制把这两个URI关联起来,说明都是代表的中国,并关联到某个地理信息系统,有关中国的各种信息应有尽有……
扯远了。附ISO 3166 Codes (Countries)的HTML版,可保存到本地备查。

美国政府出版局的MARC记录

2010年4月4日

达特茅斯学院(Dartmouth College)图书馆目录中看到一条出版于2008年、类型为Web的记录,有点好奇,难道现在还有精力给Web资源编目?
这是一份美国国会欧洲安全与合作委员会的听证会文件:《上海合作组织:是否损害美国在中亚的利益?》。切换到MARC格式,发现记录来自OCLC,但却是由出版者──美国政府出版局(GPO)做的原始编目。并且链接用的是永久URL(PURL)http://purl.access.gpo.gov/GPO/LPS106426,虽然实际URL早已改变,但并不影响访问。

LEADER 00000nam 2200385 a 4500
001 ocn279238930(控制号采用OCLC记录号)
003 OCoLC(来自OCLC)
006 m d f
007 cr bn|||||||||
008 081211s2008 dcu sb f000 0 eng c
035 (GPO)99261276(GPO记录号)
040 GPO|cGPO|dGPO|dMvI(GPO原始编目)
042 pcc(来自合作编目项目)
043 ac—–|an-us—(内容涉及中亚、美国)
074 1089-E (online)(GPO编号)
086 0 Y 4.SE 2:109-2-10(政府文件分类号)
110 1 United States.|bCongress.|bCommission on Security and Cooperation in Europe.
245 14 The Shanghai Cooperation Organization|h[electronic resource] :| bis it undermining U.S. interests in Central Asia? : hearing before the Commission on Security and Cooperation in Europe, One Hundred Ninth Congress, second session, September 26, 2006.
260 Washington :| bU.S. G.P.O.,|c2008.
300 iii, 52 p. :| bdigital, PDF file.
500 Title from title screen (viewed on Dec. 11, 2008).
500 “CSCE 109-2-10.”(美国国会欧洲安全与合作委员会文件编号)
504 Includes bibliographical references.
538 Mode of access: Internet from the CSCE web site. Address as of 12/11/08: http://csce.gov/index.cfm?FuseAction=ContentRecords.ViewDetail&ContentRecord%5Fid=381&Region%5Fid=0&Issue%5Fid=0&ContentType=H,B&ContentRecordType=H&CFID=8362489&CFTOKEN=20517818 ; current access available via PURL.
610 20 Shanghai Cooperation Organisation.
650 0 National security|zAsia, Central.
651 0 Asia, Central|xForeign relations|zUnited States.
651 0 United States|xForeign relations|zAsia, Central.
776 0 United States. Congress. Commission on Security and Cooperation in Europe.|tShanghai Cooperation Organization :| bis it undermining U.S. interests in Central Asia|hiii, 52 p.|w(OCoLC)279173355(其他版本:印刷本)
856 40 |uhttp://purl.access.gpo.gov/GPO/LPS106426(访问网址)
948 LTI 03/05/2009
976 United States. Congress. Commission on Security and Cooperation in Europe.|tShanghai Cooperation Organization :| bis it undermining U.S. interests in Central Asia|hiii, 52 p.|w(OCoLC)279173355

(以上记录的永久链接:http://libcat.dartmouth.edu/record=b4625860~S1)

通过点击其他版本链接,可知该馆拥有印刷本(MARC记录同样由GPO原编)。编目员应该是在套录印刷本记录时,一并下载了配套的电子版记录。

如果我们的“政府信息公开”的文件也能提供MARC记录,将有利于进入图书馆OPAC,方便公众获取信息、扩大利用。准备一个MARC模板,做起来不会太复杂的。

OCLC关于MARC的最新报告

2010年3月14日

Implications of MARC Tag Usage on Library Metadata Practices / Karen Smith-Yoshimura … Dublin, Ohio : OCLC, March 2010. 72 p. ISBN: 1-55653-378-0 (978-1-55653-378-5)
PDF下载 (778KB):http://www.oclc.org/research/publications/library/2010/2010-06.pdf

OCLC近年大量发布研究报告,才3月中旬,关于MARC的这份报告编号已是2010-06。
本报告是OCLC研究部活动“搜集证据说明MARC元数据实践需要改变”的成果,由RLG Partnership MARC Tag Usage Working Group在2008-2009年研究完成。2009年9月OCLC曾发布报告《联机目录:用户和馆员需要什么》,本报告是其延续。与其他OCLC报告不同的是,本报告由五个独立论题组成,每个论题由不同人撰写。[以下方括号中为本人观点]

1. Requirements for Enhanced Library Data Mining
OCLC首席科学家研究部Timothy J. Dickey撰写的报告引论,强调需要强化图书馆数据挖掘。[这也是OCLC近年来一直在做的事]

2. MARC Tag Usage in WorldCat
OCLC研究部的Karen Smith-Yoshimura分析2009年9月时,WorldCat数据库中1.45亿条书目记录中MARC 21字段的出现情况。[记得某大牛曾说过我很认同的话,不能根据现有记录中MARC使用情况,确定用户需要什么,决定未来用什么]

3. MARC Fields and Subfields Used in Machine Matching
剑桥大学的Hugh Taylor建立了五个集成数据库,即检索记录用的英国研究图书馆联合目录(RLUK)、COPAC(由RLUK数据库衍生的公共联合目录)、WorldCat、前RLG联合目录及澳大利亚图书馆目录(Libraries Australia),分析进行记录匹配的MARC字段的使用,并与合作编目计划(PCC)的BIBCO与CONSER标准、OCLC编目级别3(简编)记录规定的必备字段进行比较。[机器处理是未来的重点,不仅有大量载入或上传判重需要的联合目录需要关心]

4. Comparison of Search Interfaces and Data Elements
澳大利亚国家图书馆的Catherine Argus分析了五个集成数据库的MARC索引字段,包括AMICUS(加拿大全国联合目录)、COPAC、澳大利亚图书馆目录(Libraries Australia)、WorldCat.org及OCLC的FirstSearch。[传统的检索系统中不是所有MARC字段都做索引]

5. Encoding Level and Tag Occurrences in WorldCat
明尼苏达大学的Chew Chiat Naun按不同的编目等级,分析了WorldCat记录中的MARC字段。[简化编目?]

6. Relator Terms and Form/Genre Designations in MARC Tagging
OCLC研究部的Timothy J. Dickey与纽约公共图书馆(NYPL)的Peter Hirsch合作,比较了NYPL本地目录与WorldCat中形式/类别指示词(655$a)及责任关系词(1xx/7xx$e)的使用。[这两方面有助于目录实现FRBR化。责任关系词在MARC 21实践中曾被舍弃但现在又想重拾]

报告最前部分照例是Executive Summary,除介绍五个论题外,点出研究的主要发现[很多已经是老生常谈了]。列举部分如下:
WorldCat中只使用很小的MARC 21字段子集
即使包括非书格式常用字段,出现在10%以上记录中的仅21-30个字段
在基于MARC数据元素对记录进行机器匹配时,大家各行其事
用于记录匹配的共同字段只有:头标5个元素,4个定长字段(008,010,020,022),核心书目数据(1XX,245,246,250,260)。
尽管机器匹配系统一般使用核心字段与子字段,但某些时候需要超过核心范围,以验证匹配的准确性
不可低估使用MARC数据进行匹配算法的复杂性。[做过匹配的机构如CALIS对此肯定深有体会]
一般图书馆检索系统仅对字段的一个子集做索引
许多与某一类型文献相关的字段,对检索可能很有用,但未被本研究中的主要图书馆系统索引。[这是编目员的悲哀]
附注字段常用,但机器不一定擅长解释文本内容
大量使用通用附注500…其他附注字段5XX相对用得少。[机器无法识别是关于什么的附注。当要提高效率、简化编目时,不区分5XX、改入500是最常见的]
用编目等级作为依据选择“最完整”记录全然不可靠
[很多时候原始编目就用一个模板,编目员并不根据记录完整性更改头标]
目前图书馆系统抓取的检索日志数据,通常不能对用户行为提供足够信息
许多系统不能提供用户的检索字段,以及结果是否满足其提问。[命中情况,命中后点击详细记录情况,最终借阅情况?]

Executive Summary的第二部分:对图书馆MARC元数据实践的意义。对目前的编目实践有指导意义,摘录部分如下:
√ 满足本地用户的需求。用户希望你花时间点图版数,还是链接到目次或全文?[人人都明白,但...]
√ 未来几年网上提供全文的文献数量将持续增加,对“描述性元数据”的需要将减少。应专注于全文关键词检索不会提供的规范名称、分类和控制词汇。
√ 使用合适的字段反映资源。对特定类型附注使用特定的MARC字段,而不是通用的500附注。[目前CNMARC在实践中做得比较好,MARC 21由于LC的示范作用未能践行]
√ MARC数据不仅用于用户检索与识别,还用于出版物的机器匹配、链接、机器操作、收割、内容分析、排序、系统视图。在使用关联数据利用其他来源生成的更完整描述及其他相关信息的环境中,机器匹配用字段的精确性正变得越来越重要。[参看前述机器匹配字段,未来机器利用数据是重点]

Executive Summary的第三部分:MARC’s Future? 2009年末与Nalsi合写了一篇MARC未来的文章(预计将于3月刊出),因而对此特别关注。本报告或者说工作组的观点已由标题中的那个问号显示,但未来仍不明朗:
√ MARC是特定领域的数据通讯格式,正接近其生命周期的终点。
[此句经典,值得原文抄录:MARC is a niche data communication format approaching the end of its life cycle.]
√ 未来的系统,如果能够在FRBR所述方法上满足用户需求,并利用新的RDA标准所设想的关联数据的优势,将需要更关联的方法存储数据。MARC不是解决办法。
√ 未来的编码方案需要有一个强大的MARC转换对照表,以摄入现有成百上千万记录。
√ 自问:如果我们不必使用MARC,如果我们不局限于以MARC为中心的图书馆系统,我们会如何创建、抓取、建构、存储、检索及显示对象与元数据?
√ 考虑如何最佳利用关联数据的优势,避免创建相同冗余元数据。考虑传统图书馆环境外的来源。
√ 与其强化MARC及基于MARC的系统,不如与其他编码方案和系统互操作。我们必须满足其他信息体产生的信息需求。

参见:
新闻报道:New Report, “Implications of MARC Tag Usage on Library Metadata Practices” (2010-3-12)
工作组活动主页:OCLC Research activity: Gather Evidence to Inform Changes Needed in MARC Metadata Practices

参见:OCLC报告——联机目录:用户和馆员需要什么 (2009-04-25)

update 2010-05-14
OCLC网络会议主页(Webinar)有3月17日关于此报告的网络会议音频及文字记录,报告的几位撰写者与会。

用ISBD和MARC给猫狗编目

2010年2月1日

    在国外图书馆,给实物做编目并不鲜见。曾在网上找到过一张编目员与人体骨架的合影,名为 I cataloged this,这个实物就有点特别了:
I cataloged this

    在2000年的时候,Arlene G. Taylor教授为了说明编目是有未来的,在演讲中指出,可以用ISBD编目任何东西(Using ISBD to Catalog Anything),并以宠物猫举例(p.14):

Calli [realia] : beloved pet / raised and loved by Arlene Taylor, Debbie Dowell, and Jon Dowell. – Final ed. / overseen by a Higher Power. – Tabby. – Manhasset, N.Y. : Community Church Manse, 1992.

1 cat : male, black and white, 15 lbs. ; 62 cm., in casket 20 x 36 x 12 cm. + 1 collar (red ; 10 in.). – (Taylor cat series ; no. 3)

Original title: Callimachus.
Earlier version published: Durham, N.C. : SPCA, 1979.
ISCN: 101-01-0101 : priceless : available in the next life

    在大约2004年的时候,Rick Block(2008年LJ教学奖获得者)对原PPT的内容进行了增强,把例子中的宠物猫变成了宠物狗(p.19):

Rocky [realia] : beloved pet / raised and loved by Rick Block and Bill Vosburg. — Shih tzu. — Missouri : Farm, 1999-

1 dog : male, black and white, 18 lbs. ; 51 x 33 cm. (Block/Vosburg dog series ; no. 1)

ISDN: 101-01-0101 : priceless.

    上面给出的都是卡片格式,Rick Block进一步给出了MARC记录(p.20)

OCLC:  NEW                 Rec stat:    n
Entered: 20030207  Replaced: 20030207  Used: 20030207
Type: r    ELvl: I    Srce: d    Audn:      Ctrl:      Lang:  dog
BLvl: m    Form:      GPub:      Time: nnn  MRec:      Ctry:  mou
Desc: a    TMat: r    Tech: n    DtSt: m    Dates: 1999,9999 

040    $a ZCU $c ZCU 
020    $a 101010101 : $c priceless 
090    $a SF429.S64 $b R62 1999 
092    $a 636.76 $2 21 
049    $a ZPSA 
245 00 $a Rocky $h [realia] : $b beloved pet / $c raised and loved by Rick Block and Bill Vosburg. 
256    $a Shih tzu 
260    $a Missouri : $b Farm, $c 1999- 
300    $a 1 dog : $b male, black and white, 18 lbs. ; $c 51 x 33 cm. 
490  1 $a Block/Vosburg dog series ; $v no. 1 
650 0  $a Shih tzu.
830  0 $a Block/Vosburg dog series ; $v no. 1.

    上面的例子说明,只要不给自己设限,不需要RDA,也可以给任何东西编目。

出处1(共28页PPT):
CATALOGING: Ticket to the Past, the Present, and the Future
Arlene G. Taylor
Presented for the Resources and Technical Services Forum,
Iowa Library Association Annual Conference, October 20, 2000

出处2(共57页PPT,应未正式发表):
CATALOGING: Ticket to the Past, the Present, and the Future
Rick J. Block