MARC21书目的元素集及值词表的注册

继给RDA的元素与词表注册以后,开放元数据注册(OMG)又给MARC21书目格式做了元素集及值词表注册。与RDA注册先提出、后出版(并且至今还没有全部完成)不同,这次MARC21书目的注册在9.11当天一次性直接发布。
开放元数据注册(Open Metadata Registry, OMG)受美国国家科学基金(NSF)三年资助,曾称NSDL Registry。现资助期结束,服务由元数据管理协会(Metadata Management Associates, MMA)管理,承诺将其作为一个开放系统来维护注册服务,其主要负责人为Diane Hillmann,也就是RDA注册的主导者。

此次发布的版本被称为采用RDF的MARC21元素和词表的MMA版(The MMA version of MARC 21 elements and vocabularies in RDF),是MARC21书目格式的关联数据版。据称是为了顺应图书馆界走出MARC的需要──用MARC抛弃MARC,有点讽刺?
Diane说这个版本与LC(MARC21标准维护机构)无关,但顺应了LC的书目框架转换行动(Bibliographic Framework Transition Initiative)。
此版本所用URI是http://marc21rdf.info/。这不禁令人想起2008年LC员工Ed Summers注册的lcsh.info,用SKOS将LCSH发布为语义网应用,不久即被LC叫停。2009年LC自己以SKOS将LCSH(及其他关联数据应用)发布于id.loc.gov。这个MMA版的MARC21会是同样结局吗?
再联想到OMG与RDA官方间不太和谐的关系,其RDA注册的命运又将如何?
会不会先驱变先烈?悲观了。

MARC21的注册包括14个元素集与115个词表:
MARC21 Element Sets
根据MARC字段特性组成14个元素集:
00X, 0XX-5XX(6个), 60X(个人主题), 61X(团体、会议主题), 63X(统一题名主题), 64X(时间主题), 65X, 7XX, 8XX
主题分得这么细,却没有把76X-78X(链接款目)从7XX中分出来,有点出乎意料。
元素集中最少有80个元素(64X)、最多有2000个元素(63X),合计10740个元素。这些元素并不与子字段等同,而是组合了2个字段指示符、子字段等(未及细看),如63X只有630一个字段、25个子字段,却有2000个元素(第1指示符为0-9不排序字符,第2指示符为0-7不同主题词表)。另外00X也是没有子字段的,其367个元素当根据字符位等区分。
MARC21 Vocabularies
115个词表包括:定长字段006(1个)、007(94个)、008(20个)中各字符位的取值。
006是008的补充,除第1位(15种资料类型)外,其他定义均同008/18-34字符位,故只有1个表。内容值合计1262个。

Via Metadata Matters: ELEMENTS OF MARC21 BIBLIOGRAPHIC STANDARD REPRESENTED IN RESOURCE DESCRIPTION FRAMEWORK BY METADATA MANAGEMENT ASSOCIATES / By Diane Hillmann, September 12, 2011

参见:
关联数据:官方版与山寨版(DDC和LCSH)(2009年8月21日)
准备抛弃MARC?美国国会图书馆启动“书目框架转变行动”(2011年5月24日)

编目中文献类型的划分

在看RDA的内容、媒介和载体类型,先对前RDA时代的各种文献类型做一梳理。
对于文献类型,原来就有各种分类。一方面标准、粒度不同,一方面也与实践中需要处理的文献有关。

———-AACR2———-
AACR2分为11种(前面的数字为章节):
2 图书/小册子/印刷单页
3 舆图资料
4 手稿
5 乐谱
6 录音
7 电影和录像
8 图片资料
9 电子资源
10 三维物品及教具
11 缩微品
12 连续性资源

———-中国文献编目规则———-
《中国文献编目规则》(第2版)为13种(前面的数字为章节)。与AACR2相比,细化了3-5特种文献,没有三维物品及教具:
2 普通图书
3 学位论文、科技报告、标准文献
4 古籍
5 拓片
6 测绘制图资料
7 乐谱
8 录音资料
9 影像资料
10 静画资料
11 连续性资源
12 缩微文献
13 电子资源
14 手稿

———-ISBD———-
ISBD在统一版之前有9种,除总论及组成部分,有7种:
ISBD (G) 总论
ISBD (M) 专著
ISBD (CR) 连续性资源,取代ISBD (S) 连续出版物
ISBD (CM) 测绘资料
ISBD (ER) 电子资源,取代ISBD (CF)计算机文档
ISBD (NBM) 非书资料
ISBD (PM) 印刷乐谱
ISBD (A) 古籍
ISBD (Component Parts) 组成部分

———-西文文献著录条例———-
《西文文献著录条例》(修订扩大版)只有6种(前面的数字为章节),基本与ISBD一致,但没有“古籍”:
2 普通图书
3 连续性资源
4 测绘制图资料
5 电子资源
6 非书资料
7 乐谱

———-MARC21———-
MARC21有7种资料类型(type of material,见008字段),但与ISBD不完全对应:
1图书 Books
2计算机文档 Computer Files
3地图 Maps
4音乐 Music
5连续性资源 Continuing Resources
6视觉资料 Visual Materials
7混合资料 Mixed Materials

MARC21还有资料类别(category of material,见007字段),除去“未指定”类型,共有14种,是008类型的扩展:
1地图 Map (007/00=a)
2电子资源 Electronic resource (007/00=c)
3地球仪 Globe (007/00=d)
4触觉资料 Tactile material (007/00=f)
5投影图像 Projected graphic (007/00=g)
6缩微品 Microform (007/00=h)
7非投影图像 Nonprojected graphic (007/00=k)
8电影 Motion picture (007/00=m)
9套件 Kit (007/00=o)
10乐谱 Notated music (007/00=q)
11遥感图片 Remote-sensing image (007/00=r)
12录音 Sound recording (007/00=s)
13文本 Text (007/00=t)
14录像 Videorecording (007/00=v)
15未指定 Unspecified (007/00=z)

[update]MARC21另有记录类型(Type of record,见头标06位),共14种,也与文献有关:
a – Language material 语言资料
c – Notated music 乐谱
d – Manuscript notated music 乐谱手稿
e – Cartographic material 舆图资料
f – Manuscript cartographic material 舆图资料手稿
g – Projected medium 投影介质
i – Nonmusical sound recording 非音乐录音
j – Musical sound recording 音乐录音
k – Two-dimensional nonprojectable graphic 二维非投影图像
m – Computer file 计算机文档
o – Kit 套件
p – Mixed materials 混合资料
r – Three-dimensional artifact or naturally occurring object 三维人工制品或天然物品
t – Manuscript language material 语言资料手稿

———-UNIMARC———-
[update 2011-8-26]UNIMARC的记录类型(头标06)共13种,与MARC21的记录类型相比,名称与代码可谓和而不同(少了“套件”):
a = language materials, printed
b = language materials, manuscript
c = music scores, printed
d = music scores, manuscript
e = cartographic materials, printed
f = cartographic materials, manuscript
g = projected and video material (motion pictures, filmstrips, slides, transparencies, video recordings) 投影与视频资料
i = sound recordings, nonmusical performance
j = sound recordings, musical performance
k = twodimensional graphics (pictures, designs etc.)
l = electronic resources
m = multimedia
r = threedimensional artefacts and realia

———-一般资料标识(GMD)[有更新]———-
ISBD统一版(预备版)附录C之一般资料标识(General Material Designation, GMD):
1舆图资源 Cartographic resource
2电子资源 Electronic resource
3图像 Graphic
4全息图 Hologram
5缩微 Microform
6电影 Motion picture
7多媒体资源 Multimedia resource(包括:套件Kit)
8乐谱资源 Notated music resource
9打印文本 Printed text
10录音 Sound recording
11录像 Videorecording
12视觉投影 VIsual projection

AACR2之1.1C1所列GMD,MARC21中可选用于245|h。
英国用List 1,与ISBD及MARC21的“资料类别”近似,比较纯粹:
1盲文 braille
2舆图资料 cartographic material
3电子资源 electronic resource
4图像 graphic
5手稿 manuscript
6缩微 microform
7电影 motion picture
8多媒体 multimedia
9乐谱 music
10物体 object
11录音 sound recording
12文本 text
13录像 videorecording

澳、加、美三国用List 2,分得比较细:
activity card
art original
art reproduction
1 盲文 braille
2 舆图资料 cartographic material
航海图 chart
diorama
3 电子资源electronic resource
filmstrip
flash card
game
kit
5 手稿 manuscript
6 缩微 microform
microscope slide
model
7 电影 motion picture
9 乐谱 music
4 图片 picture
realia
slide
11录音 sound recording
technical drawing
12文本 text
toy
transparency
13录像 videorecording

“MARC21作为数据初步”读后感

MARC21 as a Data: A Start / By Karen Coyle. Code4Lib Journal, Issue 14, 2011-07-25. ISSN 1940-5758
一、子字段关系类型
以前看远洋师解说词汇间关系,老觉得自己脑子不够用。本文“Finding Patterns”部分对MARC21的子字段与同一字段其他子字段及资源(当指字段)关系的明确划分,也是需要类似的清晰头脑才能分析出来的。
Figure 1.Types of Relationships Between MARC Subfields
二、控制字段00X
从计算机处理角度,控制字段(主要是006、007、008定长字段)虽显复杂但含义明确,可以直接使用“00X+文献类型+位置”生成标识,如:
007microform05 表示缩微品的压缩比
008map22-23 表示地图的投影
推理:再配以取值词汇表,可以很方便地变成“数据”。
三、字段指示符
MARC21的字段指示符使用非常广泛,这使得同一字段可表达更多的不同含义。0XX数字与代码字段从定义上只能容纳不足100种含义,但由于字段指示符的使用而有很大的扩展余地(如024第1指示符=7标准号类型在$2说明,使包含的标准号类型可任意扩充)。但如此增加了将MARC21记录处理为“数据”的复杂性。
字段指示符还有完全不同的用法:“是或否”──当指050第2指示符LC馆藏;单个值或多个值,如034第1指示符比例尺是单个还是范围,这个被指完全没有必要。
四、被取消的标准号(024字段)
文中对于024中其他子字段与$a依存关系的认识或有不足:
$c获得条件与标准号的依存,是因为在同一条记录中,会有多个号码,不同号码有各自的获得方式(如标价)──即使不同载体如纸本与电子版做多条记录仍是如此,最常见的有精平装、不同卷册,除非一号一记录。由于美国出版物上标价的不多,所以现有记录中少见$c,或许因之Karen不明如此设计的理由?
$z取消号的情况同样如此。所以文中表格的下面部分或许应当更改:
ISRC Cancelled     024 0  $a024$z
UPC Cancelled     024 1  $a024$z
ISMN Cancelled     024 2  $a024$z
EAN Cancelled     024 3  $a024$z
SICI Cancelled     024 4  $a024$z
UNKnown Number Cancelled     024 8  $a024$z
Other number cancelled     024 7  $a024$z 024$2
五、特例(XXX描述字段)
本文更多关注特例字段,或许因为这些字段特别需要花精力分析,只是不免显得MARC21似一无是处了。

1、功能而非语义的240字段

对编目员而言,选择240还是130是考试点;机器则无法理解文中后两例(作品集统一题名)。MARC21其实定义了243字段作品集统一题名,可惜实际应用中多采用240字段,用243的极少。
2、冗余字段的存在是为了提供关联,76X-78X连接款目字段就更是如此。
但在MARC21实践中,如773这类字段实际使用不多,这种形式间有差异的情况,对关联记录是负面的。
六、UNIMARC更胜一筹?
比较而言,UNIMARC字段指示符多为缺省值,其1XX代码字段基本一字段一含义,或许比MARC21语义更清晰些。
由于采用嵌套方式(后来增加的子字段可选方式也一样),连接字段形式不一致问题在UNIMARC中应该不存在。