OCLC对BIBFRAME和Schema.org书目扩展的立场

2013年6月,OCLC研究部发布了一个关于BIBFRAME和Schema.org书目扩展模型关系的工作文件:
The Relationship between BIBFRAME and the Schema.org ‘Bib Extensions’ Model: A Working Paper / Carol Jean Godby. Dublin, Ohio: OCLC Research, 2013. (pdf,41页)
文件第2部分详述OCLC主导的Schema.org书目扩展SchemaBibEx,认为已足够成熟,可以用于WorldCat关联数据标记的下一次更新。据称按计划2013年下半年公布,不料因未得到(SchemaBibEx小组)认同,直到一年后的上个月底,WorldCat关联数据标记还是老样子(这几天发现略有变化,出现了bgn:命名空间属性)。
文件第4部分的表4.1“SchemaBibEx和BIBFRAME未来开发中参与的职责”,列出了SchemaBibEx与BIBFRAME合作,以及两方面各自在建模、各方参与、细化、映射和演示5个方面的活动,可从中看OCLC在SchemaBibEx方面打算做的工作。表中BIBFRAME主导的主要是与MARC有关的,而双方合作及SchemaBibEx主导的与BIBFRAME有关的工作是:
活动1、建模,合作:建模关键概念,包括FRBR第1组实体、收藏集(collection)、丛编和馆藏(Holding)。
活动3、细化,合作:确保概念的关联数据友好的。
活动4、映射,合作:协调不一致。
SchemaBibEx主导:映射BIBFRAME概念到Schema.org
活动5、演示,合作:协调不一致;演示附加效果。
SchemaBibEx主导:开发并公开SchemaBibEx模型的实施和BIBFRAME衍生。

可以说,文件表明了OCLC发展SchemaBibEx的决心及计划。即使现在OCLC以BiblioGraph.net(bgn:)代替了SchemaBibEx,扩展Schema.org的决心与计划并未改变。
本工作报告是OCLC关联数据研究(OCLC Linked Data Research)活动的一部分。本月初OCLC在网站发布新闻,宣布和LC共同澄清图书馆关联数据方法,也可以说再次表明了自己的立场:
OCLC and the Library of Congress — working together to clarify approaches to library linked data (04 December 2014)
双方的合作始于2014年8月,9月联合技术会后每月沟通。讨论论题包括:
§ BIBFRAME试验记录的结构与内容
§ WorldCat馆藏使用案例
§ BIBFRAME和SchemaBibExtend词表的异同
双方将同撰写一份白皮书,澄清如何组装两种方法以表达图书馆的特定需求与挑战。
在下月举行的ALA 2015仲冬会议上将会有相关活动。

———-关于“Schema.org书目扩展”的八卦———-
去年6月时Godby在BIBFRAME邮件组中发布文件上线消息。本想看完文件后写一篇OCLC对BF态度的博文,不料由于BF邮件组中的讨论,吸引力被引向了Schema书目扩展的进展,最后就把写博的事忘了。
作为W3C的Schema书目扩展小组的成员,Karen Coyle首先对报告述及的“重新设计的主要目标是使用已在Schema.org中定义的概念改进FRBR等级表达”(p.11)提出异议,认为这是OCLC的想法,小组“未在此点上取得一致,未以在schema.org中表达FRBR为目标”。其后Coyle在另一个回复中更指出,“报告中把很多实则来自OCLC的想法错误地归因于schemaBibEx小组”。
原定一年的Schema书目扩展活动到2014年2月为时一年半,仍未取得多少成果,想来原因正在于OCLC与小组其他成员在不少问题上未能取得一致。OCLC及此项目负责人Richard Wallis对成立这个小组的决定大概很郁闷,因之在4月另起炉灶,注册BiblioGraph.net网站,以bgn:命名空间继续扩展Schema.org之路。

参见:
解惑Schema书目扩展(2014年1月29日)
WorldCat作品关联数据问答(2014年3月7日)
问题之一:WorldCat作品如何与BIBFRAME模型形成交集?
OCLC低调注册BiblioGraph.net扩展Schema.org(2014年12月1日)

OCLC低调注册BiblioGraph.net扩展Schema.org

OCLC主导Schema.org的书目扩展W3C小组(Schema Bib Extend Community Group),原定自2012年9月起为期一年结束。从BIBFRAME邮件组中去年6月对OCLC关于BIBFRAME和Schema书目扩展报告(The Relationship between BIBFRAME and the Schema.org ‘Bib Extensions’ Model: A Working Paper / Carol Jean Godby. Dublin, Ohio: OCLC Research, 2013. (pdf,41页))的反映看,小组成员意见不一是显然的。由于进展不佳,正式提交的建议很少。看SchemaBibEx网站wiki部分,原来一、二个月一次的小组会议,到2014年2月后就已停止,内容也只更新到4月初。感觉OCLC已经放弃在此继续与其他参与者斗智斗勇了,但也没见什么依据。
偶而在OCLC网站2014年9月关于VIAF词表的一篇报道中,看到词表中有BiblioGraph.net域名,很是陌生。顺链接而去,发现了这个用来扩展Schema.org的网站。网站没有OCLC的LOGO,只是很低调地在服务条款(Terms of service)中说由OCLC主办。查得OCLC在4月16日注册了此域名,通过搜索引擎和OCLC网站查,竟然未见有过报道。OCLC如此低调处理,相当奇怪!

什么是BiblioGraph.net? 【有墙】
“本网站提供一组规范,用于描述图书馆和相关领域中书目和文化遗产资源与收藏的概念、实体和关系。基于schema.org词表,BiblioGraph.net增加在这些特定领域中特别重要的相关术语和实体。”

2012年OCLC发布WorldCat关联数据时,除了schema.org及其图书馆扩展外,还用到包括DC、FOAF、VIAF等在内的命名空间(Experimental “library” extension vocabulary)。此次注册BiblioGraph.net(命名空间简称:bgn:),意在未来将OCLC书目关联数据所用命名空间数量减小到最低2个:
BiblioGraph.net规范结构(Schema Structure
“本网站所描述的规范被汇集以反映共享原则,以及schema.org定义的核心类型和属性。BiblioGraph.net的编者将追踪schema.org已发布术语的变化,更新本网站加以反映。”
“当schema.org没有适当术语,会寻求来自SchemaBib Extend W3C社区小组的建议作为合适的选项。最后,术语加入BiblioGraph.net命名空间,常会有来自其他合适词表如DC、Bibo等的例子。目标是确保在BiblioGraph.net描述数据的命名空间数量在最小限度,优先为仅二个——schema: 和 bgn: ”。

这想法和BIBFRAME颇为相似,也就是说除了schema.org外,不重用其他命名空间,而是把其他词表术语纳入自己的命名空间。另外,所谓“寻求来自SchemaBib Extend W3C社区小组的建议”,应该更多的属于外交辞令。
从前面提及的那篇VIAF词表报道看(VIAF RDF Vocabulary Changes and Additions,03 September 2014),VIAF词表中原来来自DBPedia、RDA和FOAF命名空间的类与属性,纷纷被schema:取代,还新增了不少bgn:属性,据说体现在9月16日的VIAF更新中。看来规范(VIAF)比书目更早采用bgn——目前看WorldCat时,用的仍是二年前的library扩展。[update 2014-12-20 昨天访问,在某记录下已经看到两个bgn属性,但都不是取代library扩展的:一个是新增bgn:inSupportOf,一个是代替j.1:的bgn:Thesis]
另一个值得注意的是,VIAF新增了两个FRBR类(作品、内容表达),采用的不是IFLA官方版,而是2005年Ian Davis和Richard Newman的:Expression of Core FRBR Concepts in RDF。为什么bgn自己不定义?

WorldCat作品关联数据问答

相关博文:OCLC以关联数据开放1.94亿书目作品(2014-2-27)[2014.4.28 正式发布]

Richard Wallis预告WorldCat作品关联数据之后(最早是在南非开普敦举行OCLC的EMEA地区委员会会议上),邮箱和推特等收到了很多回应,于是在自己博客上统一做了解答。摘译若干【本人想法】:
WorldCat Works Linked Data – Some Answers To Early Questions (March 4, 2014)

– 作品的准则是什么【尽管源自FRBR研究,但并不严格按照FRBR定义,只是从现有书目数据可以如何聚集考虑】
”作品“定义更多是若干相互依赖的算法处理结果,而不是一套简单的准则。……产生这些定义以及关系的工作是OCLC研究部针对FRBR的一项多年研究的持续结果:OCLC Research Activities and IFLA’s Functional Requirements for Bibliographic Records  [包括FictionFinder、xISBN、FRBR作品集算法、Work Records in WorldCat等]

– 会不会链接到单独的ISBN/ISNI记录【尽管没有做出决定,但和国际标准名称标识ISNI相比,无疑会更偏爱自家的虚拟国际规范档VIAF】
* ISBN – 用FRBR术语,ISBN是载体表现实体的属性,在已发布的WorldCat关联数据中可以找到。因为每个作品用schema:workExample链接到相关的载体表现实体,因此已链接到ISBN。
* ISNI – ISNI是个人标识号,ISNI的URI是链接作品到其他实体类型的候选者。VIAF的URI是我们会使用的个人/团体实体的另一个候选者,因为我们有数据。还没有最后决定用哪个URI,以及是否对相同关系使用多个URI。是对相同个人使用ISNI、VIAF和Dbpedia的URI,还是使用一个,然后依赖规范中心间的相互连接,是个还没有得出结论的问题。

– 当创建作品的记录组变化时,稳定的标识号如何管理【未定】
……当作品组分开或合并时,标识号如何维护的问题。这是未来数周这批数据完整发布前,开发团队正致力的任务之一。……

– 是否有批下载数据:没有【解释略。可以想见】

– WorldCat作品如何与BIBFRAME模型形成交集?对bf:Work的bf:hasAuthority,这些作品描述会很有用。【BF并非首选的考虑,Schema.org+SchemaBibEx才是OCLC的选择】
OCLC团队监控、参与、考虑许多可能——BIBFRAME、Schema.org、SchemaBibEx、WikiData等,这些对象有一些明显的协同效应,在方法及/或细节层面上对不同使用对象也有差异。使用sameAs互联数据集的潜在性,以及其他规范关系是重要的。随着WorldCat数据成熟以及其他数据集发布,大家会期望从一开始就关联许多不同来源的书目数据。

– 会使用ISTC么【作品不用。国际标准文本码ISTC基于语言分配,作品集中肯定会对应不只一个。只能如ISBN般做外部链接】
这方面现在做决定还太早。但我们不会期望存储ISTC号为作品的属性。ISTC是很多基于作品的数据集之一,调查识别相互间的sameAs关系将会很有趣。
ISTC号是基于语言分配的。以FRBR术语,出版语言与内容表达相关,而非作品层描述。因此在”作品“中不会有ISTC——我曾经的回答是:
— 注意WorldCat.org发布的作品被定义为schema:Creativework的实例。
— ……WorldCat也许不严格遵守FRBR规则与层级。我说”也许“也针对其后的建模,特定语言的作品也许只是一个更一般作品的实例——也许更像内容表达。在FRBR规则与更广泛的非图书馆理解之间,需要有一个平衡。

– 使用哪个三元组库(triplestore):不使用【解释略】