《IFLA标准通讯》创刊

2023年3月,IFLA标准咨询委员会主办《IFLA标准通讯》第1卷第1期发布:

Subscribe now to the new IFLA Standards Newsletter (2023-3-30)

《IFLA标准通讯》创刊号于2023年3月出版。这份新的通讯为IFLA标准和指南及其国际同行提供了一个新闻、信息和讨论的国际论坛。其目的是展示IFLA专业单位制定和维护的广泛标准,使图书馆能够评估和调整其在图书馆工作各个方面的运营和绩效。在标准的国际范围内,它还试图强调国家和国际同行机构和标准化组织在图书馆和信息标准方面的工作。

邮件订阅:https://ifla.us8.list-manage.com/subscribe?u=0662c37e26c91dcab4797c0e2&id=9db44b5dd7

IFLA Standards Newsletter, Volume 1, Issue 1, March 2023

在创刊号上,标准咨询委员会(CoS)主席的欢迎词表明,CoS通讯工作组此项工作是在中断数年后启动的。

编辑团队的欢迎词称今年计划出两期(意指未定常规发行周期),固定栏目有:1篇与两位专家的访谈,1篇主题文章,1个IFLA标准或指南简介,专题文章和近期批准标准的进展。

创刊号内容

  • 专家访谈:ISSN国际中心主任Gaëlle Béquet和波尔多蒙田大学图书馆和档案馆主任Gregory MiuraUNIMARC常设委员会(PUC)进展
  • IFLA命名空间(2020年7月推出)【参见:IFLA命名空间:IFLA标准作为关联数据(2021-5-31)】
  • LRMoo,面向对象框架中的高层模型(LRMoo模型通过提供面向对象的模型版本,将《IFLA图书馆参考模型》(IFLA LRM)纳入CIDOC概念参考模型(CRM)系列模型,该模型被设计为CIDOC CRM的扩展。这有助于图书馆和博物馆信息系统在更广泛的遗产部门之间的互操作性。)[由FRBRoo更新,评审至2023-3-31]
  • IFLAPARL《议会图书馆指南》(第3版,2022-7出版)
  • ISBD:标准配置文件(详细回顾)【参见:ISBD:2011统一版之2021更新(草案)(2022-5-16)】
  • ISNI数据库中出版商的识别和描述:正在进行的工作(2016年,OCLC召集工作组起草了题为《用组织标识符和ISNI应对挑战》的报告。出版商数据模式工作组由ISNI图书馆部门指导小组于2022年5月成立)
  • ISBD:一个标准,两个修订版【参见:ISBD修订:基于LRM的《载体表现ISBD》(ISBDM)(2022-10-6)】
  • 2022年标准咨询委员会批准的新标准(2月《ISBD国际标准书目描述:2021 2011年统一版更新》,7月第3版《议会图书馆指南》,6月《数字时代国家书目通用做法》【参见:IFLA《数字时代国家书目通用做法》发布(2022-8-29)】,7月《IFLA专业LIS教育项目指南》【参见:《IFLA专业图书馆与信息科学教育项目指南》发布(2022-7-27)】
  • 征稿

附:IFLA 标准进展(Standards work in progress

  • 标准进展:评审中标准,结束评审标准,开发中标准
  • 最近完成并发布标准(2015年以来的标准清单),链接到现行标准网页
  • IFLA 现行标准(Current IFLA Standards

国际标准内容代码(ISCC)

国际标准内容代码(ISCC),是针对数字内容(媒体文件和网页以及其部分)的细粒度的唯一标识符。任何人都可不经许可、免费为属于或不属于自己的数字内容创建ISCC。

作为新的ISO标准草案,ISCC于2021年10月立项,目前正在审查与征求意见阶段(30.20):

ISO/CD 24138.2 Information and documentation — International Standard Content Code

本文件规定了国际标准内容代码(ISCC)的语法和结构,作为数字资产的识别系统(包括全媒体领域的文本、图像、音频、视频或其他内容的编码)。它还描述了ISCC元数据以及ISCC与其他方案(如ISO/TC 46/SC 9定义的方案)的结合使用。ISCC适用于特定的数字资产,是使用本文档中的算法和规则从多个散列构建的数据描述符。组织、个人和机器可以为多种数字资产生成ISCC,并将其用于识别和管理这些资产。ISCC的生成或使用本身不会对所标识内容的作者或所有权作出任何声明或声明。

ISCC网站(https://iscc.codes/)有详细资料。“本文档的第一个版本来自内容区块链项目的原型项目,并获得了谷歌数字新闻计划(DNI)的资助”。

与以往那些“标准号”由权威机构赋予不同,ISCC不必手动分配,是根据数字内容本身、由公开的算法计算生成,是去中心化、免费、开源和透明的。ISCC标识符甚至可以离线生成,也不要求注册中心。

很自然会有疑问:如何经由ISCC标识符,到达数字内容?数字内容(如网页)有变化,怎么知道对应的版本?“当ISCC代码需要全球唯一、可公开发现、可解析、拥有或认证时,就需要进行ISCC注册”。ISCC专为基于区块链的注册而设计,任何人都可以做自己的注册中心。

ISCC代码为复合标识符,由4段代码组成:

  • 元代码 Meta-ID
  • 内容代码 Conten-ID
  • 数据代码 Data-ID
  • 实例代码 Instance-ID

每段13字符,共52字符;也可用-分隔,共55字符。前置ISCC作为标识。各段代码均以C起始,前2位含意:元代码CC内容代码:文本CT(其他媒体类型略),数据代码CD实例代码CR。如:

ISCC: CCDhJSBP6E1Gy-CTj6HAYRavnph-CD2Sd11rt7yLE-CRj3tVexKA1YX

上述4段设计的基点是,ISCC认为数字媒体识别从抽象到具体有6层,分别是:

  • 第1层抽象创作(Abstract Creation)【Creation可比拟FRBR/LRM的“作品”,对应第1段“元代码”。以元数据作为代表,实际生成时基本上只取题名,不用创作者、理由是具有一致性,不考虑Meta-ID的唯一性】
  • 第2层语义场(Semantic Field)【作品的主题,ISCC代码不采用】
  • 第3层–通用表现形式(Generic Manifestation)【Manifestation可比拟FRBR/LRM的“内容表达”,对应第2段“内容代码”。称“将一组不同的版本与同一内容的更正、修订、编辑、更新、个性化、不同格式编码或数据压缩捆绑在一个分组标识符下”,“这样的过程预计不会产生总是符合人类对边界确切位置的期望的直观结果”。以为类似编目中实体边界问题,看举例似乎只是相同内容的不同格式文件,如 PDF、MS-word 或 EPUB 文件,或 JPEG 和 PNG 文件等,有相同的Content-ID】
  • 第4层–媒体特定表现形式(Media Specific Manifestation)【对应第3段“数据代码”】
  • 第5层精确表示(Exact Representation)【Representation可比拟FRBR/LRM的“载体表现”,对应第4段“实例代码”】
  • 第6层-单独副本#(Individual Copy)【Copy可比拟FRBR/LRM的“单件”。ISCC代码不采用,讨论到“虽然物理对象永远只能有一个完全相同的单独副本,但数字对象的“单独副本”总是可以有无穷无尽的复制品”】

试用ISCC

ISCC有代码生成的演示网站(https://iscc.coblo.net/),试着为自己的博客、博文生成ISCC。

  • 博客网站https://catwizard.net首次生成ISCC,元数据Title识别为:编目精灵iii 曾经的编目员继续网络闲游(2023-03-04 15:49:12)
  • CCDhJSBP6E1Gy – CTAAyUJ5WiJYC – CDvBVRRxEEdWz – CRvzPL74HRnsN
  • 数天后有博文更新,再次生成,Meta-ID未变,其余3个ID变化(2023-03-13 10:44:49)
  • CCDhJSBP6E1Gy – CTj6HAYRavnph – CD2Sd11rt7yLE – CRj3tVexKA1YX
  • 为单篇博文“探访巩义北宋八陵”(/posts/2023/0312/6051)生成JSCC,元数据Title识别为:编目精灵iii。4段ID均变化(2023-03-14 10:05:33)
  • CCgMkXL4KMfe9 – CThibYsrhRMVF – CDvYjVDMSxuPv – CRMLDE33fc6pF
  • 相同博文的微信版(https://mp.weixin.qq.com/s/4mP126l2lDRYmOyhhxChrA),元数据Title识别为:探访巩义北宋八陵。文字基本相同,但增加了很多图片,4段ID无一相同或相近,说好的可以“帮助识别剽窃”?(2023-03-13 11:17:01)
  • CCbzDNxrtF8AA – CT9eAjcLmYRv5 – CDH7ZSWNDq9h6 – CR2ecyY451pKL
  • 最奇怪的是,次日为微信版再次生成ISCC,后2段居然变了(2023-03-14 10:10:48)
  • CCbzDNxrtF8AA – CT9eAjcLmYRv5 – CDvHX8Heqa6Nv – CRFmRmnEb3cHd
  • 本文写到最后,再生成一次,又变了(2023-03-14 16:16:15)
  • CCbzDNxrtF8AA – CT9eAjcLmYRv5 – CDvmC3T1BSSSn – CRZzctSKT9PJE

博文的没变,看来只是与微信有关,或许微信会不时改变网页(图文显示不变)。对内容,是不是只看ISCC的第2段代码就可以了?

MARC记录中使用ISO 639-3语言代码指南(PCC)

合作编目计划(PCC)日前发布《MARC记录中使用ISO 639-3语言代码指南》。

目前MARC(包括CNMARC)所用语言代码为ISO 639-2,ISO 639-3是在其基础上扩展的,含近8千个语言代码(也是3字母)。

PCC提出在书目和规范记录中使用ISO 639-3进行编码,目的是为用户提供更准确精细的语言信息,特别是对于土著语言、手语、历史语言和人工语言,以及更好地识别某些语言(如汉语和阿拉伯语)的视听资料记录中的口语或歌唱语言。

需要说明的是, ISO 639-2实际上由两个标准组成:ISO 639-2/B(书目,MARC所用语言代码)和ISO 639-2/T(术语)。两者涵盖相同的语言,但在某些情况下代码不同,而ISO 639-3使用ISO 639-2/T代码。

指南规定继续使用MARC语言代码进行编目(书目记录008/35-37及041字段),只在找不到具体代码的情况下,选用附加的041字段记录ISO 639-3语言代码。无论代码是否相同,只要使用ISO 639-3代码没有增加有关资源语言的附加信息,就无需使用ISO 639-3代码创建041字段。如果有多种语言,找不到MARC语言代码但有ISO 639-3代码,则只做ISO 639-3编码的041字段。

未来可能会开发宏或其他自动化手段,由ISO 639-3语言编码生成ISO 639-2语言代码字段,从而避免重复编码。

指南规定,对于ISO 639-3中认为的宏语言(语言家族),应尽可能使用最具体的代码。以汉语为例,其标准书面语使用代码cmn(普通话/国语),不用对应MARC代码chi的宏语言代码zho(汉语)。示例5.4. 粤语影音资料:

008/35-37 (Lang): chi
041 1# $a chi $j chi $j eng $h chi(中文对话,中英双语字幕,译自中文)
041 17 $a yue $a cmn $j cmn $j eng $h yue $2 iso639-3(粤语、普通话对话,普通话、英语字幕,译自粤语)
245 00 $a 少林足球 = $b Shaolin soccer / $c 寰宇娛樂有限公司 ; 星輝海外有限公司 ; 編劇周星馳, 曾 謹昌 ; 監製楊國輝 ; 周星馳導演.
245 00 $a Shao lin zu qiu = $b Shaolin soccer / $c Huan yu yu le you xian gong si ; Xing hui hai wai you xian gong si ; bian ju Zhou Xingchi, Zeng Jinchang ; jian zhi Yang Guohui ; Zhou Xingchi dao yan.
546 ## $a In Chinese (Cantonese or Mandarin) with optional subtitles in traditional Chinese, simplified Chinese or English.【中文(粤语或普通话),可选繁体中文、简体中文或英文字幕。】

Guidelines for the use of ISO 639-3 language codes in MARC records (Approved Nov. 22, 2022; last revised: Nov. 30, 2022)

MARC记录中使用ISO 639-3语言代码指南(目次)

[一] 如何录入
[1] 书目记录:041字段语言代码
示例  041 07 $a fra $a gsl $2 iso639-3【字段第2指示符=7=来源由$2说明,子字段$2来源代码=iso639-3】
[2] 规范记录:377字段相关语言
示例  377 #7 $a leh $2 iso639-3
[二] 哪里找代码
[三] 宏语言
[四] 历史语言
[五] 示例
1. ISO 639-3为与资源相关的所有语言添加新信息【强烈建议添加】
2. ISO 639-3为与资源相关的某些语言添加新信息【强烈建议添加】
3. 与资源相关语言的ISO 639-3和MARC语言代码等效【不需要手动添加】
4. 无法确定与资源相关的至少一种语言的ISO 639-3语言代码【使用und表示未知;如果所有语言均未知,可不做】
5. 宏语言中的语言【首选具体代码而非宏语言代码】
附录:ISO 639-3和MARC语言代码(ISO 639-2/B)的不同
代码不同含意无不同【如汉语chi为zho,藏语tib为bod】
其他历史语言【有更多历史语言】
其他类型语言的附加代码【手语、人工语、古语言、已灭绝语言】
宏语言【如汉语宏语言zho与16种语言相关】
集合语言【ISO 639-3无等效代码,如凯尔特语(其他)cel,比亚语nub】
特殊代码【与MARC语言代码相同:mis(混杂语言)mul(多语言[6种以上])und(不确定)zxx(内容无语言)】

—— ISO 639-3 汉语代码 ——

指南提供了几个ISO 639-3代码来源,其中官方维护者SIL:https://iso639-3.sil.org/code_tables/639/data,缺点是没有语言名称的交叉引用(即异名参照)。

网站的ISO 639-3宏语言映射列表(ISO 639-3 Macrolanguage Mappings)https://iso639-3.sil.org/code_tables/macrolanguage_mappings/read,其中汉语列出16种(见下,除手语、洋泾滨英语外的15种在用语+文言文)。文言文lzh之外另有古汉语och,猜想或许用于甲骨文、金文之类的古文字。

附:在SIL查chinese结果近20个。显然不完整,但闽语、粤语分得特别细。大致按地域分类重排如下:

  • Collective+Genetic 集合【ISO 639-3无集合语言代码】

(639-5: zhx),Chinese (family)    

  • Macrolanguage+Living 宏语言+在用

zho(639-2/T: zho,639-2/B: chi,639-1: zh),Chinese【汉语】

  • Individual+Living 单个+在用
cmn,Mandarin Chinese【普通话/国语】
csl,Chinese Sign Language【中文手语】
cpi,Chinese Pidgin English【洋泾浜英语】
cjy,Jinyu Chinese【晋语】
czh,Huizhou Chinese【徽州话】
wuu,Wu Chinese【吴语】
gan,Gan Chinese【赣语】
hsn,Xiang Chinese【湘语】
hak,Hakka Chinese【客家话】
cdo,Min Dong Chinese【闽东话】
nan,Min Nan Chinese【闽南话】
cpx,Pu-Xian Chinese【莆仙话】
mnp,Min Bei Chinese【闽北话】
czo,Min Zhong Chinese【闽中话】
yue,Yue Chinese【粤语】
csp,Southern Ping Chinese, Southern Pinghua【桂南平话】
cnp,Northern Ping Chinese, Northern Ping Chingese, Northern Pinghua【桂北平话】
  • Individual+Ancient 单个+古代

och,Old Chinese【古汉语】

  • Individual+Historical 单个+历史
ltc,Late Middle Chinese【中古汉语】
lzh,Literary Chinese【文言文】