Bibframe Hub 聚类现状

BIBFRAME词表中,Hub的定义是:作为两部作品之间桥梁的抽象资源。

BIBFRAME 2.0最初是三层模型,即“作品 Work—实例 Instance—单件 Item”。相对于《书目记录的功能需求》(FRBR)的四层模型WEMI(作品W—内容表达E—载体表现M—单件I),bf:Work对应于WEMI前两层“作品W”和“内容表达E”。BIBFRAME词表后续更新,2.1版引入bf:Hub,大致对应WEMI最上层的“作品W”,但当时bf:Hub被定义为bf:Work的子类;2.3版将bf:Hub定义为基本模型类(Basic Model Class),可以认为真正与FRBR的“作品”对应,即BIBFRAME 2模型与WEMI模型基本达成一致。参见:

模型如此,数据则是另一回事。因为当初编目时并没有这样一个模型,数据没有相应的标识,现在要运用此一模型,需要通过算法对现有数据进行聚类处理,而算法如果没有适当的数据支撑,也是无法完成正确聚类的。就美国国会图书馆(LC)目前发布的BIBFRAME数据来看,bf:Work(=内容表达E)聚类还有差距,比如一些显然多次出版的作品的相同内容表达却都只有1个实例;bf:Hub(=作品W)差得更远,比如作品的不同语言翻译目前都视为不同bf:Hub。

日前有人在BIBFRAME邮件组提问,说自己原以为在BIBFRAME 2.0中,同一作品的多个翻译会放在一个Hub下,但从LC的BIBFRAME数据看并非如此(如作品《哈利·波特与阿兹卡班的囚徒》)。

LC网络开发和MARC标准办公室的Nate Trail回复,认可她的观点,并举《哈利·波特与阿兹卡班的囚徒》的Hub(Harry Potter and the prisoner of Azkaban,https://id.loc.gov/resources/hubs/7571ef89-f950-64a5-9a78-608b1bfdce54.html),说明bf:Hub数据来自LC相应的名称-题名规范记录(Rowling, J. K. Harry Potter and the prisoner of Azkaban,https://id.loc.gov/authorities/names/no2013059078.html),其中Hub侧栏的分面“related work” 来自规范记录(字段“Additional Related Forms”),其余分面的链接则由记录相关信息动态生成。Nate Trail认为LC需要“调整sparql查询中的一些内容,以优化事物之间的关联方式”

相信随着算法改进,Bibframe Hub和Bibframe Work会有更好的聚集作用。

以下以罗琳“哈利·波特”系列作品(清单附后)第3部《哈利·波特与阿兹卡班的囚徒》为例,记录Bibframe Hub在2024-9-15的聚类现状。

Bibframe Hub:Harry Potter and the prisoner of Azkaban

《哈利·波特与阿兹卡班的囚徒》的Bibframe Hub,侧栏分面有6种,记录了改编电影,以及和“哈利·波特”系列中的前后作品,比系列中其他几种书揭示的内容更丰富:

  • [1] Has Expression(有内容表达,取值为 bf:Work)

Rowling, J. K. Harry Potter and the prisoner of Azkaban

…… [名称相同的其他5条,略]

(说明)名称相同的6条是不同的Bibframe Work。

第1条,是相应的Bibframe Workhttps://id.loc.gov/resources/works/21268504.html,有分面“Translation”(其他5条没有此分面),下列数十条翻译,如:Rowling, J. K. Harry Potter and the prisoner of Azkaban. Slovak(斯洛伐克语),链接的是Bibframe Hub——也就是说,不同语言翻译是不同Hub(即前引邮件组中提出的问题)。

上述6条Bibframe Work记录的侧栏分面详简各不相同,共同的是必有的“Has Instance”(有实例,取值为 bf:Instance),但其下均只有1条Bibframe Instance(如前述不合理之点)。

  • [2] Related To(相关,取值为 bf:Work)

Rowling, J. K. Harry Potter and the Chamber of Secrets

Rowling, J. K. Harry Potter and the goblet of fire

Harry Potter and the prisoner of Azkaban

(说明)信息当来自[3],不同的是链接到相应的Bibframe Work。

  • [3] related work(相关作品,取值为 bf:Hub)

Rowling, J. K. Harry Potter and the Chamber of Secrets

Rowling, J. K. Harry Potter and the goblet of fire

Harry Potter and the prisoner of Azkaban (Motion picture)

(说明)如前引Nate Trail所述,来自规范记录,链接到相应的Bibframe Hub。

  • [4]Sequel to(续前,取值为 bf:Hub)

Rowling, J. K. Harry Potter and the Chamber of Secrets

(说明)“哈利·波特”系列系列第2部

  • [5] Sequel(后续,取值为 bf:Hub)

Rowling, J. K. Harry Potter and the goblet of fire

(说明)“哈利·波特”系列系列第4部

  • [6] Adapted as motion picture(改编为电影,取值为 bf:Hub)

Harry Potter and the prisoner of Azkaban (Motion picture )

(说明)小说改编为电影,是不同作品,有不同bf:Hub(与WEMI模型一致)

附:JK 罗琳的“哈利·波特”系列

  • 1哈利·波特与魔法石 Harry Potter and the philosopher’s stone
  • 2哈利·波特与密室 Rowling, J. K. Harry Potter and the Chamber of Secrets
  • 3哈利·波特与阿兹卡班的囚徒 Harry Potter and the prisoner of Azkaban
  • 4哈利·波特与火焰杯 Harry Potter and the goblet of fire
  • 5哈利·波特与凤凰社 Harry Potter and the Order of the Phoenix
  • 6哈利·波特与“混血王子” Harry Potter and the Half-Blood Prince
  • 7哈利·波特与死亡圣器 Harry Potter and the Deathly Hallows

开放WEMI(openWEMI)词表发布

WEMI是作品(Work)、内容表达(Expression)、载体表现(Manifestation)和单件(Item)的首字母缩略词,出自1997年《书目记录的功能需求》(FRBR),由2017年《国际图联图书馆参考模型》(IFLA LRM)继承,是书目资源描述领域著名的层次模型。

以曹雪芹的《红楼梦》为例说明之。《红楼梦》本身是作品,120回本和80回本、印刷版和语音版等是不同的内容表达,各出版社《红楼梦》版本是不同的载体表现,一套印刷版《红楼梦》是单件。如此标记的结果是,原本关系不明确的各种《红楼梦》书目记录,相互间有了明确的层级关系,在书目数据呈现时可以进行多样化的聚合,有助于用户选择适合自己需求的版本。

WEMI模型不仅适合于描述图书,对其他非物质文化资源也同样适用。比如罗丹的雕塑《思想者》,有多个不同的翻模版,可视为不同的内容表达,当然它同时也是载体表现和单件,对《思想者》拍摄形成的照片则是不同的内容表达/载体表现,如此等等。openWEMI就是希望把WEMI模型扩展到图书馆领域之外。

2023年末,openWEMI发布草案。参见:开放WEMI(openWEMI)提案发布(2023-12-14) 

近日,正式词表发布:OpenWEMI vocabulary(https://ns.dublincore.org/openwemi/

OpenWEMI由都柏林核心元数据倡议(DCMI)支持,显然目标是如都柏林核心(Dublin Core, DC)一样、成为具有超出图书馆界影响力的通用模型。作为一种元模型,对于没有采用WEMI模型的各种元数据标准,可以使用OpenWEMI为需要描述的资源增加层次关系。

按其介绍:OpenWEMI是一个最小约束词表,用于使用作品、内容表达、载体表现、单件等概念描述创建的资源。

与去年提案相比,正式发布的OpenWEMI是一个很纯粹的WEMI模型,排除了责任实体及其属性,只含资源及其关系:

类5个:超级类Endeavor,4个子类即WEMI

属性15个:包括主要关系、共同关系和相关关系。

相关关系认定很宽松。共同关系则是FRBR没有的,指示两个资源表示或包含相同的 openWEMI 实体。

作为“最小约束词表”,主要关系与FRBR有所不同,不严格要求 W—E—M—I 环环相扣,可以省略中间层,如下图,可以W-E-I或W-M-I等(换言之也可以只分3个层次,因为有的领域很难分出4个层次)。下图出自openWEMI的GitHub主页(https://github.com/dcmi/openwemi,目前还是提案内容,但“主要关系”没有变化):

WEMI主要关系

RDA注册中文版上线

RDA注册(RDA Registry,https://www.rdaregistry.info/简体中文版于2024年7月25日上线,是RDA注册的第18种语言版本(有些语言版本仅翻译部分内容)。另据RDA指导委员会的更广泛社区参与专员、纽约大学的周小玲介绍,台湾正在做繁体中文版。

简体中文版完整包含“元素”Elements (RDA element sets) 和“取值”Values (value vocabularies)两部分,共1.8万条目、约40万汉字,工作量巨大,由国家图书馆顾犇老师历时半年独自完成。今后撰写RDA相关文章等,当以RDA注册中文版作为权威的中文术语来源

近日介绍文章在《图书馆建设》2024年第4期发表:顾犇.RDA 注册表——走向网络时代编目工作的基础 [J]. 图书馆建设 ,2024(4):4-8.(文章下载:http://tsgjs.org.cn/CN/Y2024/V328/I4/4

中文版翻译基于 [1] 2014年出版的RDA印刷版的中文版,并参考 [2]《国际标准书目著录 (ISBD)(2011 年统一版之 2021 年更新版 )》中文版的术语和 [3]《国际图联图书馆参考模型》(IFLA LRM)中文版的术语,以及 [4] 国家标准《信息与文献 基础和术语》(GB/T 4894-2024)(报批稿)

当年的RDA中文版由多方合作完成,由于篇幅大、时间紧,存在术语翻译不完全一致的问题,而新RDA又出现了不少新术语,有的还反映的是相同或近似概念。翻译过程中,顾老师曾和我就个别术语的翻译进行过讨论,我们一致的观点是,既要“避免同一个英文术语翻译成不同中文术语,也避免不同英文术语翻译成同一个中文术语”,显然要做到并不容易。文章中举了几个术语的例子,如出自LRM的“aggregate”,因为是新的概念,为避免与其他概念/术语混淆,翻译为“合集”(不用如“汇编”“集合”等), 相应的“aggregating”翻译为“合集性”,“aggregated”翻译为“被编制合集”,“aggregation”翻译为“编制合集”等(均使用“合集”);再如:新概念“successive work”,指“被计划由多种不同的内容表达实现的一种历时作品”,也可译成“连续性作品”,但之前已有“连续性资源”(continuing resource)这个概念、虽然以后不一定会继续使用,但为避免重复而产生歧义,决定译为“相继作品”。文章还介绍了一些其他术语的翻译,如出自LRM的“res”(拉丁语=Thing)、通常译为媒体/媒介的“medium”(多义词、需要不同中译)等。

除RDA注册外,文章还披露了其他相关信息,如2018-2020年中国国家图书馆被选为RDA亚洲地区国家机构代表,2018年4月在亚洲做RDA实施问卷调查,5月作者参加RDA理事会会议。文章还有一节为“RDA工具包中文版的设想”,有助于了解国内编目规则的现状和作者的立场。