WorldCat作品关联数据问答

相关博文:OCLC以关联数据开放1.94亿书目作品(2014-2-27)[2014.4.28 正式发布]

Richard Wallis预告WorldCat作品关联数据之后(最早是在南非开普敦举行OCLC的EMEA地区委员会会议上),邮箱和推特等收到了很多回应,于是在自己博客上统一做了解答。摘译若干【本人想法】:
WorldCat Works Linked Data – Some Answers To Early Questions (March 4, 2014)

– 作品的准则是什么【尽管源自FRBR研究,但并不严格按照FRBR定义,只是从现有书目数据可以如何聚集考虑】
”作品“定义更多是若干相互依赖的算法处理结果,而不是一套简单的准则。……产生这些定义以及关系的工作是OCLC研究部针对FRBR的一项多年研究的持续结果:OCLC Research Activities and IFLA’s Functional Requirements for Bibliographic Records  [包括FictionFinder、xISBN、FRBR作品集算法、Work Records in WorldCat等]

– 会不会链接到单独的ISBN/ISNI记录【尽管没有做出决定,但和国际标准名称标识ISNI相比,无疑会更偏爱自家的虚拟国际规范档VIAF】
* ISBN – 用FRBR术语,ISBN是载体表现实体的属性,在已发布的WorldCat关联数据中可以找到。因为每个作品用schema:workExample链接到相关的载体表现实体,因此已链接到ISBN。
* ISNI – ISNI是个人标识号,ISNI的URI是链接作品到其他实体类型的候选者。VIAF的URI是我们会使用的个人/团体实体的另一个候选者,因为我们有数据。还没有最后决定用哪个URI,以及是否对相同关系使用多个URI。是对相同个人使用ISNI、VIAF和Dbpedia的URI,还是使用一个,然后依赖规范中心间的相互连接,是个还没有得出结论的问题。

– 当创建作品的记录组变化时,稳定的标识号如何管理【未定】
……当作品组分开或合并时,标识号如何维护的问题。这是未来数周这批数据完整发布前,开发团队正致力的任务之一。……

– 是否有批下载数据:没有【解释略。可以想见】

– WorldCat作品如何与BIBFRAME模型形成交集?对bf:Work的bf:hasAuthority,这些作品描述会很有用。【BF并非首选的考虑,Schema.org+SchemaBibEx才是OCLC的选择】
OCLC团队监控、参与、考虑许多可能——BIBFRAME、Schema.org、SchemaBibEx、WikiData等,这些对象有一些明显的协同效应,在方法及/或细节层面上对不同使用对象也有差异。使用sameAs互联数据集的潜在性,以及其他规范关系是重要的。随着WorldCat数据成熟以及其他数据集发布,大家会期望从一开始就关联许多不同来源的书目数据。

– 会使用ISTC么【作品不用。国际标准文本码ISTC基于语言分配,作品集中肯定会对应不只一个。只能如ISBN般做外部链接】
这方面现在做决定还太早。但我们不会期望存储ISTC号为作品的属性。ISTC是很多基于作品的数据集之一,调查识别相互间的sameAs关系将会很有趣。
ISTC号是基于语言分配的。以FRBR术语,出版语言与内容表达相关,而非作品层描述。因此在”作品“中不会有ISTC——我曾经的回答是:
— 注意WorldCat.org发布的作品被定义为schema:Creativework的实例。
— ……WorldCat也许不严格遵守FRBR规则与层级。我说”也许“也针对其后的建模,特定语言的作品也许只是一个更一般作品的实例——也许更像内容表达。在FRBR规则与更广泛的非图书馆理解之间,需要有一个平衡。

– 使用哪个三元组库(triplestore):不使用【解释略】

BIBFRAME资源类型与ISBD对照

资源类型在BIBFRAME(以下简称BF)中作为创作作品类的子类,大致相当于以前的一般资料标识(GMD),可对应RDA的内容类型;以前的特殊资料标识(SMD),大致对应RDA载体类型的,将对应于BF的实例类的子类(尚未推出)。

BIBFRAME资源类型(2013.6.25讨论稿)
BIBFRAME Resource Types Discussion Paper (25 June 2013)(2014-2-16访问时为最新版,另有6月17日的版本)

上述讨论稿前部列举了如下4种“当前创作作品类型标准”:
2.1 MARC/MODS(头标06位)
2.2 RDA内容(类型)
2.3 DC资源类型
2.4 Schema.org创作作品子类和产品类型本体,
讨论稿附录则提供了前述两个标准与BF创作作品子类(资源类型)的对照表:
5 RDA对BF
6 DC对BF

讨论稿的“4、建议”中提出14种资源类型:语言资料、地图、数据集、乐谱、舞谱、声音、静态图像、动态图像、三维实物、软件/多媒体、混合资料、合集、手稿、触觉。其中前10种为基本类型。“混合资料”指多种基本类型组成的资料;“合集”指资源的集合,可与前11种类型一起使用;“手稿”和“触觉”属限定类型,必须与前面的类型合用(组配)。

RDA纯列举式的23种内容类型相比,BF因采用组配方式而大大减少了数量。这种组配方式,与ISBD第0项的内容类型由“内容形式+内容限定”组合而成有一定的相似性。这也是我比较喜欢的方式。
ISBD的内容形式仅11种,再加“其他内容形式”,在数量上与BF比较接近。只是美国的编目相关标准,似乎向来无视IFLA的ISBD,在建议稿中根本没有提及。只好自己动手做一个BF到ISBD的对照,了解两者的异同。
对照下来看,BF的资源类型还可以再做些精简——比如可以如ISBD直接用“图像”,或者如“音频”把“静态图像/动态图像”当作子类,或者如ISBD把“动态/静态”像“触摸”一样作为组配。

———BF资源类型与ISBD内容形式/内容限定对照———
语言资料 Language material(书写或讲述形式,子类:book, journal, legislation, newspaper, article, letter, dissertation)——ISBD内容形式 Text 或 Spoken word
附注:BF的“语言资料”比ISBD的“文本”(只包含书写)范围广,电子书可用“语言资料”+“音频”(子类spoken word)?
地图 Cartography——ISBD内容限定-类型 Cartographic
附注:ISBD属“限定”,需与“内容类型”配合使用。用词上,BF特别说明与其他类型一样用名词,不用形容词“Cartographic”
数据集 Dataset——ISBD内容形式 Dataset
附注:完全相同
乐谱 Notated music——ISBD内容形式 Music + 内容限定-类型 Notated
附注:ISBD的Music包括乐谱和实际的音乐,比BF泛指
舞谱 Notated movement——ISBD内容形式 Movement + 内容限定-类型 Notated
音频 Audio(子类:musical, nonmusical, sounds, spoken word)——ISBD内容形式 Music + 内容限定-类型 Performed;Sounds;Spoken word)
附注:BF用泛指的“音频”包括音乐、言谈与其他声音
静态图像 Still image——ISBD内容形式 Image + 内容限定-运动:Still
附注:ISBD用Image包括静态图像和动态图像,比BF泛指
动态图像 Moving image(子类:two-dimensional, three-dimensional)——ISBD内容形式 Image + 内容限定-附注:运动 Moving,+ 内容限定-维度 2-dimentional/3-dimentional
三维实物 Three dimensional object——ISBD内容形式 Object
附注:用词略有不同
软件/多媒体 Software/multimedia——ISBD内容形式 Program
附注:用词不同
混合资料 Mixed material——ISBD内容形式 Multiple content forms
附注:用词不同
合集 Collection
附注:ISBD无对应。此类型似乎与前11种不属同一层次。
手稿 Manuscript(配合前述类型用)
附注:ISBD无对应。现在才想到,ISBD与RDA竟然都没有“手稿”这个非常重要的类型
触觉 Tactile(配合前述类型用)——ISBD内容限定-感官 Tactile
附注:用法相同

法国人眼中的FRBR、RDA与BIBFRAME

明天寒假结束,争取看完《信息标准季刊》2013年冬辑。下文是该期中最长的一篇,看完全文的强烈印象是法国(或者他所称的欧洲)对FRBR的全面坚持,对RDA的无可奈何,以及对BIBFRAME的观望与困惑。

Interview with Gildas Illien, Director, Bibliographic and Digital Information Department, Bibliotheque nationale de France (BnF). ISQ:Information Standards Quarterly, Winter 2013, Vol.25 issue 4:22-29
客座内容编辑Ted Fons访谈法国国家图书馆(BnF)书目与数字信息部主任吉尔达·艾里恩,艾里恩谈他本人以及法国乃至欧洲对4个元数据相关问题的看法:
1、概述对需要书目数据交换新框架的观点?为什么现在需要?作为元数据专家,需要解决的最大问题?
2、BnF在转换书目数据表达方式上做了些什么?
3、概述欧洲图书馆过去五年关注什么?在元数据管理方面的主要致力的是什么?
4、未来两年新元数据项目的重心?当前努力中是否有鸿沟可在近期填补?

以下译自主要谈及RDA和BIBFRAME的第3个问题,对FRBR的表述则几乎贯穿全部4个问题。

【FRBR作为起点】当前北美及更广的英美编目界关于书目数据交换模型的讨论,在欧洲产生兴奋与困惑的混合体。在许多欧洲国家图书馆与书目机构看来,在IFLA框架下,发明与整合FRBR模型(及其后对规范记录与主题的扩展FRAD和FRSAD),是我们现在所称的书目革命的概念起点。欧洲有强烈的看法,该模型的视点仍有效,应当是书目改变的主要驱动力,因为FRBR正被整合进IFLA国际编目原则,适应对数字时代的创新与调节。欧洲图书馆在FRBR理论与数据建模中投入良多且仍在投入,比如当前在FRBRoo和PRESSoo及其他衍生自FRBR模型的发展。

【对RDA感到兴奋】开发RDA编目规则及其在数个主要图书馆开始实际实施,被视为实施FRBR模型、使其在现实生活中出现的非常重要且正面的一步。多个欧洲图书馆,主要是有AACR2和MARC21传统的,已开始翻译与实施,或计划未来几年实施。其他来自不同书目传统的——大多数是ISBD和UNIMARC——仍然看到RDA中的某些局限,不热衷于原样采用,主要因为它不适合某些实践,仍需要国际化改进,或完全与FRBR模型兼容。长远来看,考虑改变所花费用,一个概念是,如果他们应当投资如此根本的改变,就应当是最佳配合FRBR希望的雄心勃勃的实施场景。这些机构已投入很多努力理解RDA的准则,提出他们需要的调整。欧洲RDA兴趣小组(EURIG)两年前组成,为欧洲书目机构提供一个论坛,协作讨论说明这些问题,提出对RDA规则的改编。到今天为止,这个过程及与RDA编纂联合指导委员会的后续互动已被判定为建设性的,所有参与方都发出声音。尽管整个过程可能太慢,但我们知道,书目领域的国际标准化是最复杂的类型之一,这样的事务不可能一天达成一致。总而言之,从FRBR模型移到RDA规则,以及其遵循国际合作原则的实际实施的动态性,在欧洲被当作十分令人鼓舞的过程。很多欧洲图书馆似乎准备作出妥协以达成某些一致,如此则在方便国际互操作及未来元数据交换的方向上,机构的路标可以与之靠拢。这是令人兴奋的部分。

【对BIBFRAME表示困惑】更令人困惑的部分是最近北美的数据交换模型方面的开发。若干欧洲图书馆觉察到一种矛盾,在设计FRBR和RDA上是随时间变化协作,而在数据基础结构问题上目前的表达方式则不同。FRBR和RDA都是与技术实施不相关的,而整体感觉——也许更多是对BIBFRAME项目实际试图达成什么的一种误解——重要的决定与标准在海外定义,没有与欧洲图书馆充分讨论,与导向FRBR模型定义的最初愿景与目标也不兼容。在目前阶段,我想说这种状况是困惑之源,尤其考虑其背景,即图书馆感到压力,要通过元数据转换证明其有形成果,开发适合关联开放数据的法律与技术需求的新服务。某些图书馆开始开放其数据,但是不关联;另一些开始关联其数据,但是不开放。无人确实了解,是否数据以RDF曝光就被重用,或找到合适的计量法加以评估。FRBR化实验已在目录中不同程度、通过不同渠道实施(ILS厂商主导或由特定项目内部运行)。【意指FRBR化已有小成,竟然被BF放弃?】

P.S. 文中另有两处提到法国国家图书馆对RDA的态度与应用:
参与RDA相关工作】BnF在标准制订上投入很多努力,其最好的元数据专家仍然很多参与ISBD、RDA和FRBR工作。
BnF的开放关联数据部分采用RDA词汇】data.bnf.fr以RDF形式从异构来源聚合与曝光联机数据,可方便搜索引擎索引,深度链接到其他来源,无论是BnF内部(其MARC和EAD主目录、数字图书馆Gallica等),还是外部(法国大学图书馆联合目录SUDOC、法国联合目录CCFR、WorldCat、VIAF、维基百科等)。整个过程需要转换MARC或EAD格式元数据到信息中心(information hub),基于RDF建模技术及标准词表(DC、SKOS、RDA和FOAF)。