MARC记录中使用ISO 639-3语言代码指南(PCC)

合作编目计划(PCC)日前发布《MARC记录中使用ISO 639-3语言代码指南》。

目前MARC(包括CNMARC)所用语言代码为ISO 639-2,ISO 639-3是在其基础上扩展的,含近8千个语言代码(也是3字母)。

PCC提出在书目和规范记录中使用ISO 639-3进行编码,目的是为用户提供更准确精细的语言信息,特别是对于土著语言、手语、历史语言和人工语言,以及更好地识别某些语言(如汉语和阿拉伯语)的视听资料记录中的口语或歌唱语言。

需要说明的是, ISO 639-2实际上由两个标准组成:ISO 639-2/B(书目,MARC所用语言代码)和ISO 639-2/T(术语)。两者涵盖相同的语言,但在某些情况下代码不同,而ISO 639-3使用ISO 639-2/T代码。

指南规定继续使用MARC语言代码进行编目(书目记录008/35-37及041字段),只在找不到具体代码的情况下,选用附加的041字段记录ISO 639-3语言代码。无论代码是否相同,只要使用ISO 639-3代码没有增加有关资源语言的附加信息,就无需使用ISO 639-3代码创建041字段。如果有多种语言,找不到MARC语言代码但有ISO 639-3代码,则只做ISO 639-3编码的041字段。

未来可能会开发宏或其他自动化手段,由ISO 639-3语言编码生成ISO 639-2语言代码字段,从而避免重复编码。

指南规定,对于ISO 639-3中认为的宏语言(语言家族),应尽可能使用最具体的代码。以汉语为例,其标准书面语使用代码cmn(普通话/国语),不用对应MARC代码chi的宏语言代码zho(汉语)。示例5.4. 粤语影音资料:

008/35-37 (Lang): chi
041 1# $a chi $j chi $j eng $h chi(中文对话,中英双语字幕,译自中文)
041 17 $a yue $a cmn $j cmn $j eng $h yue $2 iso639-3(粤语、普通话对话,普通话、英语字幕,译自粤语)
245 00 $a 少林足球 = $b Shaolin soccer / $c 寰宇娛樂有限公司 ; 星輝海外有限公司 ; 編劇周星馳, 曾 謹昌 ; 監製楊國輝 ; 周星馳導演.
245 00 $a Shao lin zu qiu = $b Shaolin soccer / $c Huan yu yu le you xian gong si ; Xing hui hai wai you xian gong si ; bian ju Zhou Xingchi, Zeng Jinchang ; jian zhi Yang Guohui ; Zhou Xingchi dao yan.
546 ## $a In Chinese (Cantonese or Mandarin) with optional subtitles in traditional Chinese, simplified Chinese or English.【中文(粤语或普通话),可选繁体中文、简体中文或英文字幕。】

Guidelines for the use of ISO 639-3 language codes in MARC records (Approved Nov. 22, 2022; last revised: Nov. 30, 2022)

MARC记录中使用ISO 639-3语言代码指南(目次)

[一] 如何录入
[1] 书目记录:041字段语言代码
示例  041 07 $a fra $a gsl $2 iso639-3【字段第2指示符=7=来源由$2说明,子字段$2来源代码=iso639-3】
[2] 规范记录:377字段相关语言
示例  377 #7 $a leh $2 iso639-3
[二] 哪里找代码
[三] 宏语言
[四] 历史语言
[五] 示例
1. ISO 639-3为与资源相关的所有语言添加新信息【强烈建议添加】
2. ISO 639-3为与资源相关的某些语言添加新信息【强烈建议添加】
3. 与资源相关语言的ISO 639-3和MARC语言代码等效【不需要手动添加】
4. 无法确定与资源相关的至少一种语言的ISO 639-3语言代码【使用und表示未知;如果所有语言均未知,可不做】
5. 宏语言中的语言【首选具体代码而非宏语言代码】
附录:ISO 639-3和MARC语言代码(ISO 639-2/B)的不同
代码不同含意无不同【如汉语chi为zho,藏语tib为bod】
其他历史语言【有更多历史语言】
其他类型语言的附加代码【手语、人工语、古语言、已灭绝语言】
宏语言【如汉语宏语言zho与16种语言相关】
集合语言【ISO 639-3无等效代码,如凯尔特语(其他)cel,比亚语nub】
特殊代码【与MARC语言代码相同:mis(混杂语言)mul(多语言[6种以上])und(不确定)zxx(内容无语言)】

—— ISO 639-3 汉语代码 ——

指南提供了几个ISO 639-3代码来源,其中官方维护者SIL:https://iso639-3.sil.org/code_tables/639/data,缺点是没有语言名称的交叉引用(即异名参照)。

网站的ISO 639-3宏语言映射列表(ISO 639-3 Macrolanguage Mappings)https://iso639-3.sil.org/code_tables/macrolanguage_mappings/read,其中汉语列出16种(见下,除手语、洋泾滨英语外的15种在用语+文言文)。文言文lzh之外另有古汉语och,猜想或许用于甲骨文、金文之类的古文字。

附:在SIL查chinese结果近20个。显然不完整,但闽语、粤语分得特别细。大致按地域分类重排如下:

  • Collective+Genetic 集合【ISO 639-3无集合语言代码】

(639-5: zhx),Chinese (family)    

  • Macrolanguage+Living 宏语言+在用

zho(639-2/T: zho,639-2/B: chi,639-1: zh),Chinese【汉语】

  • Individual+Living 单个+在用
cmn,Mandarin Chinese【普通话/国语】
csl,Chinese Sign Language【中文手语】
cpi,Chinese Pidgin English【洋泾浜英语】
cjy,Jinyu Chinese【晋语】
czh,Huizhou Chinese【徽州话】
wuu,Wu Chinese【吴语】
gan,Gan Chinese【赣语】
hsn,Xiang Chinese【湘语】
hak,Hakka Chinese【客家话】
cdo,Min Dong Chinese【闽东话】
nan,Min Nan Chinese【闽南话】
cpx,Pu-Xian Chinese【莆仙话】
mnp,Min Bei Chinese【闽北话】
czo,Min Zhong Chinese【闽中话】
yue,Yue Chinese【粤语】
csp,Southern Ping Chinese, Southern Pinghua【桂南平话】
cnp,Northern Ping Chinese, Northern Ping Chingese, Northern Pinghua【桂北平话】
  • Individual+Ancient 单个+古代

och,Old Chinese【古汉语】

  • Individual+Historical 单个+历史
ltc,Late Middle Chinese【中古汉语】
lzh,Literary Chinese【文言文】

W3C推荐标准《万维网数据最佳实践》

万维网数据最佳实践(Data on the Web Best Practices, DWBP) 2015年2月发布为草案,而后成为W3C推荐标准。当前版本2017年1月31日:Data on the Web Best Practices, W3C Recommendation 31 January 2017.

近年使用 Web 发布的数据持续增长:世界各国政府在线共享开放数据,研究数据联盟(RDA)等组织鼓励研究数据在线发布,社交数据的收集、分析和在线发布媒体数据,信息的众包,网络上重要文化遗产收藏,以及关联开放数据云。数据发布者旨在公开或以受控访问共享数据。

数据发布者旨在公开或以受控访问共享数据,数据消费者则希望能够找到、使用和链接到数据,这就产生了在数据发布者和数据消费者之间达成共识的基本需求。为界定 Web 上数据最佳实践的范围并引出所需的功能,DWBP 工作组编制了一组用例,代表数据通常如何在 Web 上发布以及如何在被使用,由用例派生的需求集用于指导最佳实践的开发。为鼓励数据发布者采用 DWBP,确定了8个益处:理解、可处理、可发现、重用、信任、可链接、使用权(访问/获取)和互操作,并与用例/最佳实践相关联。

虽然 DWBP 建议使用关联数据,但也鼓励其他开放格式(如 CSV)网络数据的最佳实践。

文件主要部分是第8节最佳实践的例子,内容包括:为什么,预期结果,可能的实施方法,人读、机读样例,如何测试,证据(相关需求)及益处等部分。以下是第8节最佳实践清单与第11节最佳实践益处合并处理后的表格(数字代表益处提及顺序)。

8.最佳实践/BP(益处)C理解P可处理D可发现R重用T信任L可链接A访问/获取I互操作
8.2Metadata
BP1,提供元数据(RCDP)
2431
BP2,提供描述元数据(RCD)231
BP3,提供结构元数据(RCP)231
8.3Data Licenses
BP4,提供数据许可证信息(RT)
12
8.4Data Provenance
BP5,提供数据出处信息(RCT)
213
8.5Data Quality
BP6,提供数据质量信息(RT)
12
8.6Data Versioning
BP7,提供版本指示(RT)
12
BP8,提供版本历史(RT)12
8.7Data Identifiers
BP9,使用永久URI作为数据集标识符(RLDI)
3124
BP10,使用永久URI作为数据集中的标识符(RLDI)3124
BP11,为数据集版本和系列赋予永久URI(RDT)213
8.8Data Formats
BP12,使用机器可读标准化数据格式(RP)
21
BP13,使用与区域设置无关的数据表达(RC)21
BP14,以多种格式提供数据(RP)21
8.9Data Vocabularies
BP15,重用词表、最好是标准化的(RPCTI)
32145
BP16,选择正确的形式化级别(RCI)213
8.10Data Access
BP17,提供批量下载(RA)
12
BP18,提供大数据集的子集(RLAP)4123
BP19,使用内容协商提供多种格式的数据(RA)12
BP20,提供实时访问(RA)12
BP21,提供最新数据(RA)12
BP22,为不可用的数据提供解释(RT)12
8.10.1Data Access APIs
BP23,通过 API 提供数据(RPIA)
2143
BP24,使用 Web 标准作为 API 的基础(RLIDAP)641253
BP25,为 API 提供完整文档(RT)12
BP26,避免对 API 进行重大更改(TI)12
8.11Data Preservation
BP27,保留标识符(RT)
12
BP28,评估数据集覆盖范围(RT)12
8.12Feedback
BP29,收集数据使用者的反馈(RCT)
213
BP30,提供反馈渠道(RT)12
8.13Data Enrichment
BP31,通过生成新数据来丰富数据(RCTP)
2413
BP32, 提供补充演示(RCAT)2143
8.14Republication
BP33,向原始发布者提供反馈(RIT)
132
BP34,遵守许可条款(RT)12
BP35,引用原始出版物(RDT)213

资源描述国家标准(GB3792-2021)发布

上周收到宋文老师邮件,GB/T 3792-2021 信息与文献——资源描述 国家标准已经正式发布。今天看国家标准全文公开系统:

  • GB/T 3792-2021信息与文献 资源描述
  • 发布日期 2021-03-09;实施日期 2021-10-01;归口单位 全国信息与文献标准化技术委员会
  • 代替《文献著录》系列(GB/T3792.1-2009总则,GB/T3792.2-2006普通图书,GB/T3792.3-2009连续性资源,GB/T3792.4-2009非书资料,GB/T3792.6-2005测绘制图资料,GB/T3792.7-2008古籍,GB/T3792.9-2009电子资源)及GB/T3469-2013(信息资源的内容形式和媒体类型标识),是对这8项标准的合并修订。
  • 起草单位:中国科学院文献情报中心、国家图书馆、北京大学图书馆、清华大学图书馆、华东师范大学图书馆、广东省立中山图书馆、上海图书馆、中国科技信息研究所、首都图书馆、中央音乐学院图书馆、中国社会科学院图书馆。
  • 主要起草人:宋文、王洋、喻爽、杨慧、胡小菁、鲍国强、毛凌文、毛雅君、纪陆恩、朱学军、魏来、张娟、王宁宁、沈正华、袁玉红、黄丽婷。

本标准未归入“采标”即不属于采用国际标准, 提供在线浏览,也是福利。只可惜文字无法搜索、复制乱码。

购买链接:信息与文献 资源描述. 中国质检出版社. 大16开. 页数148. 104元.

参见:国家标准全文公开系统(2017-3-18)

—— 参与起草过程 ——

作为曾经的全国信息与文献标准化技术委员会文献著录分技术委员会(TC4/SC6)委员,这是我唯一参与起草的国家标准。回想本标准上线的漫长过程,主持者真是不容易。

本标准始于2012年,年初(2012/3/29)参加了“文献著录ISBD统一版专家研讨会”(参见博文)。当时打算将GB3792拆分成10个分标准,我无意参与;后来根据标准化管理委员会的意见,将10个标准合并为一个总标准,进行国家标准的申报【见:《全国信息与文献标准化技术委员会简报》第二期,2013年2月4日】,列入了2012年国家标准制修订计划项目。

2013年正式启动,2013/6/25参加了“资源描述国家标准项目启动会”(参见国家图书馆鲍国强老师的博文:“资源描述国家标准项目启动会”召开 (2013-06-27))。会上首遇搭档、社科院文献中心的黄丽婷老师,两人合写载体表现部分(10载体形态项)。要求9月底前完成,实际8月中旬基本完成。

2014年开了两次会,上半年(2014/3/25-26)参加“资源描述国家标准讨论会”,会议明确编写原则即标准撰写的一些特定说明,我针对载体形态项的撰写初稿作了说明。下半年(2014/10/13)参加“资源描述国家标准研制工作会议”,当时确定的进展是:1)各部分根据10月13日讨论结果修改内容,在11月15日提交宋文;2)2014年12月底以前完成资源描述1.0版,发给大家;3)2015年1月-5月各部分梳理专门类型资源、遗留问题再讨论;4)2015年6月完成资源描述2.0版(专门类型资源审校完成);5)2015年12月完成终稿。

2015年受邀参与总审校,但没有参加2015/11/23的最后一次工作会议。

2016年中还参与了QQ群中的细节讨论。之后就是漫长的等待、音讯全无……我还以为胎死腹中了。