LC和OCLC关于BIBFRAME和Schema书目扩展的白皮书

赶在ALA仲冬年会前,OCLC和LC发布了去年底承诺的白皮书,名为《共同基础:探索LC和OCLC关联数据模型间兼容》。ALA会议中有几个专场会涉及此技术白皮书。参见OCLC的预告新闻和年会广告:OCLC and the Library of Congress to clarify approaches to library linked data (19 January 2015)

白皮书前面部分为导论,介绍BIBFRAME和Schema扩展的历史与发展;后面部分是技术分析概要,更全面的技术分析将在2015年稍后发布。
对报告中的技术分析概要,尤其是两种模型的对应方面,其他人会有什么评论?最近东西看得不多,待考。以下为摘译。

Godby, Carol Jean, and Ray Denenberg. 2015. Common Ground: Exploring Compatibilities Between the Linked Data Models of the Library of Congress and OCLC. Dublin, Ohio: Library of Congress and OCLC Research. (PDF, 12p)

(p.4)导言【两个模型早期发展回顾】
自2011年,OCLC研究者实验用Schema.org,作为曝光图书馆元数据给互联网搜索引擎的工具……OCLC的实验导致2012年发布3亿可检索Worldcat.org目录记录的关联数据,以Schema.org元数据元素表达。2011年,BIBFRAME由LC发布为一个创新计划,开发一个关联数据替代MARC,建立在LC始于2009年的提供规范档关联数据获取的经验之上……

(p.5)2013年以来的BIBFRAME
2013年后期,早期实验者小组完成其工作,2014年早期BIBFRAME实施测试平台正式建立。其目的是鼓励BIBFRAME测试实施的开发;监管实施进度;发现实施和BIBFRAME模型与词表中的错误、不一致及不足;为BIBFRAME词表和工具的开发提供一个论坛。去年有17个组织积极参与此工作。
此外,在(公开的)BIBFRAME邮件组中有活跃讨论……
2015年晚些时候,LC将发布一个修订词表,并发布试验项目,测试BIBFRAME词表是否支持编目员用于做原始编目,包括规范工作。试验中,LC编目员将测试以BIBFRAME创建编目数据,使用BIBFRAME编辑器。编目员将以不同语言,为不同资料创建BIBFRAME描述。LC“名称/题名”和“题名”MARC记录将转换为BIBFRAME“作品”,存储于RDF三元组库中。书目记录将被转换并与“作品”匹配,与主题及其他属性合并。除BIBFRAME编辑器外,检索/显示工具将放在三元组库之上。
(p.6)其他机构如斯坦福和康奈尔正计划类似试验计划……

(p.6)2013年以来OCLC的Schema.org实验
自2013年,由WorldCat.org可获取的关联书目数据被升级并重新发布,FAST和VIAF规范档的关联数据模型被重新设计,参引Schema.org所定义的类作为基本概念如“个人”“组织”“创作作品”和“论题”。此外,“WorldCat作品”首个草案发布,表达作品级描述,产生自最新版OCLC的FRBR聚类和数据挖掘算法,对图书馆规范档和WorldCat目录记录进行操作。结果是,近2亿“作品”聚类采用Schema.org建模为关联数据,并由永久URI联系。
OCLC关联数据建模小组成员Jeff Mixter和Jean Godby与蒙大拿州立大学图书馆馆长Kenning Arlitsch和语义网研究主任Patrick OBrien协作,检测通用搜索引擎如Google中图书馆资源的可发现性和可见性问题。成果之一是某些机构库【学位论文】内容的模型,主要以Schema.org表达。……
(p.7)BiblioGraph.net网站由OCLC维护,但构成它的本体将作为一个社区资源管理。此概念由Schema书目扩展社区小组的工作激发……

校准BIBFRAME和OCLC/Schema模型
BIBFRAME和衍生自Schema.org模型的高层校准(引用2013年报告中的图:Schema.org的覆盖广度、BIBFRAME的描述深度)
在最高层,OCLC关联数据模型类似于BIBFRAME,尤其是在实体如作品、实例、组织和个人的定义上。这种冗余反映这两个有着不同动机和用户案例的项目的趋同性。除了与搜索引擎交互,LC开发BIBFRAME为在关联数据环境中数据交换,考虑资源描述的现有格式,它必须被设计为图书馆资源描述的持久标准。相比较,OCLC开发的关联数据模型,为在图书馆之外的万维网上发现图书馆资源的描述而优化,采用为通用搜索引擎消费而设计的词表。如果Schema.org标记的承诺实现,其结果应该可计量为点击率增长,或者改进图书馆在万维网上的其他可见性(p.8)。无疑,预期两个项目间只是部分重叠。Schema.org和BiblioGraph所定义的词表,致力于对寻找信息公众的更广泛可通解,可能不包括很多BIBFRAME定义的细节,意在更多地表达图书馆和其他文化遗产机构长期保存需求。

(p.8)技术分析:摘要
在计划于2015年稍后发布的技术分析中,Ray Denenberg和Jean Godby比较符合OCLC/Schema模型的RDF描述与相应的BIBFRAME描述,关注两个关键BIBFRAME实体“作品”和“实例”及其关系,也讨论其他主要BIBFRAME概念如规范、附注、主题、题名、标识符和代理。

一组对话
每一个概念都是关注对话的主题,问两个问题。其一,两种模型中赋予相应概念的永久标签符可互相消费吗?如果可以,那么可以下结论说,尽管模型有不同的内部细节、以不同词表表达,但他们描述同一对象。作为结果,比如一个“BIBFRAME作品”描述,可以包含一个对“OCLC作品服务”发布标识符的“相同”断言,而WorldCat目录数据中描述资源的OCLC/Schema描述,可以指代一个“BIBFRAME实例”。
其二,两位作者问,一个BIBFRAME描述是否可以用OCLC/Schema模型重构(或反之)而不丢失信息。这一问题对OCLC尤其重要,因为肯定回答意味着可能表达一个数据集成者导入导出BIBFRAME数据的需求,即使内部关联数据模型以不同词表表达。高层结论是,前面图画中显示的较准仍是精确的,多半甚至比2013年更正当,因为现在主要的BIBFRAME概念与OCLC/Schema模型中表达的相应概念更一致。并且,假设描述音乐和地图的BIBFRAME术语在Schema.org和BiblioGraph中无对应,对两个模型间粒渡差异,新分析提供一个更需要的经验示范,提供一个加以管理的技术解决方案。2013年时,这一差异仅作为理论可能性提出【指2013年OCLC关于BIBFRAME和Schema书目扩展报告】。

(p.9)表达FRBR第1组实体等级
BIBFRAME和OCLC模型均采用简化FRBR视图。两者均为“作品”实体定义RDF类,尽管BIBFRAME和OCLC“作品”不完全相同,分析揭示它们相当兼容。两个模型均编码FRBR“内容表达”实体为RDF属性或关系。两者也均认识“载体表现”实体,尽管以不同方式:BIBFRAME定义“实例”RDF类表达“载体表现”实体,而OCLC模型引入“载体表现”和“单件”实体,采用来自schema:CreativeWork和schema:Product的RDF类型分配的组合,如前述2013年出版物……中所述。
BIBFRAME定义了一套20个内容对内容(即“作品对作品”)关系,衍生自MARC和RDA,与OCLC模型假定一致,可补充衍生自Schema.org的创作作品模型。此外,图书馆规范档中典型描述的人们、地点和组织,在LC和OCLC模型中未表达为字符串或概念,而是作为真实世界对象。因此,许多顶层BIBFRAME的RDF类的指代,包括作品、实例、拥有单件及规范的子类,在本体上足够相似,以至BIBFRAME和OCLC模型的相应URI可相互消费。在2013年时没有自信做如此声明。

差异
分析揭示(两个)模型中至少有三个顶层差异。其一是前面提到的:BIBFRAME为“作品”和“实例”定义RDF类,而OCLC为“作品”但没有为“实例”定义类。如上所指出,此差异不产生非兼容。
其二,BIBFRAME中正式定义“规范”实体为RDF类,但OCLC模型中没有。在OCLC关联数据模型中,“规范”仅仅是包含核实信息的任何资源的一个非正式名称,包括对构成图书馆资源描述重要的实体如人物、地点、机构、概念和其他实体的描述。但是,表达图书馆规范档内容的RDF数据存储库在其他方面是兼容的,包含相同对象的描述。在BIBFRAME模型中,RDF类bf:Authority定义主要是为了方便主题描述。这一问题将与LC和OCLC模型中通用的主题处理一起,在接下来的技术分析中做更深入的探索。
其三,BIBFRAME为“注释”实体定义的RDF类在OCLC模型中没有对应。不过,BIBFRAME“注释”现在包含结构化数据,可(p.10)描述评论、概要、封面图像及馆藏——多数在OCLC/Schema模型中有交替或更简化的陈述。正按照W3C的Web注释当前实施的工作,仔细评估BIBFRAME“注释”类。
如期望的,分析揭示在粒度上的差异。例如,如果评论有作者或出版者,或者如果一个封面图像有出处,BIBFRAME以结构化数据值描述该对象,定义带属性的“注释”类的一个RDF子类。在Schema.org中最明显的对应描述,典型地仅包含一个简单数据值,比如文字值或URL,不能表达如此细节。
在若干BIBFRAME概念的描述中有同样问题,比如题名和标识符。在BIBFRAME中,题名表达为文字串或结构化资源(包括主要题名、副题名、部分号及若干其他信息元素),而OCLC题名总是表达为文字串(通过属性schema:name)。但由于两个模型都允许题名表达为文字,因而有足够兼容性。标识符更复杂,在接下来的技术分析中将进行综合处理。OCLC的关联数据专家正探索以Schema.org表达BIBFRAME附加粒度的通用解决方案,并同时讨论如此是否总是有必要。

发现和保存的词表【BIBFRAME是为curation的词表,BiblioGraph是为发现的词表】
当然,BIBFRAME描述还会更详细,因为他们包含为专业保存的专门词表。例如,对同一幅LC馆藏天体图,分析BIBFRAME的一个手工描述与OCLC/Schema模型的一个算法生成描述,BIBFRAME描述包含技术术语bf:cartographicScale, bf:cartographicEquinox, bf:cartograpicAscensionAndDeclination。OCLC描述不包含这些术语,因为OCLC源记录未呈现这些信息,并且这些概念没有在Schema.org或BiblioGraph定义。这说明BIBFRAME关注词表开发,以支持对图书馆拥有的独特资源的升级的机器可理解描述,例如地图、乐谱、声像资料和档案。OCLC/Schema模型可指代这些描述,简单地增加包含BIBFRAME URI的“相同”断言强化其自身。但是,为生成可比较的描述,或通过OCLC的数据处理流而不丢失信息,OCLC/Schema模型必须直接使用BIBFRAME词表。这是图中所提及的BIBFRAME所提供的“描述深度”,对为发现优化的数据模型中可能将永远失去。
(p.11)在技术分析中,BiblioGraph作为推进从专家描述词表到发现词表的交通工具,在描述天体图中可能有其作用。例如,在Schema.org中“地图”被定义为一种资源,但所定义的属性清单太粗略,难以满足图书馆界管理需求。但BIBFRAME术语定义为RDF属性,采用BiblioGraph作为试验场,理论上可定位于schema:Map类。BiblioGraph中的表达可解释为一种声明,其他实践社区可能需要这些术语,将它们用作最终吸收进Schema.org的候选。还需要图书馆标准专家做很多分析,确定哪些术语有共同理解的语义,哪些是专门的,也许会得到结论,bf:cartographicScale可供更广泛使用,而其他可能不行。无论如何,BiblioGraph设计作为汇合这些分析结果的场所。

进一步校准的一些建议
由于可解决的技术与概念障碍,很多LC和OCLC关联数据模型间的共同基础还未开拓。这有待未来协作,但很多在技术分析中提及。包括:
OCLC
– 对BIBFRAME能但OCLC/Schema模型不能表达的粒度,开发与测试抓取的技术解决方案,证明OCLC能够导入导出BIBFRAME而不丢失信息
– 发布接受准则,定义BiblioGraph和范围,提出满足准则的BIBFRAME中定义术语。【直接采用BIBFRAME术语】
LC
– 产生指代OCLC“作品”标识符的BIBFRAME描述【增加BIBFRAME标识符?】
OCLC和LC合作
– 针对图书馆拥有的一个或多个资源类型,以BIBFRAME或Schema.org不宜描述的,比如地图或音像资料,开发并测试实施一个共同模型。
– 对一个给定词表术语(定义为RDF类或属性),图书馆数据需要而Schema中没有的,分析比较其在BIBFRAME和BiblioGraph中的使用。两个词表中是否都有,定义类似?BIBFRAME术语是否可(如BiblioGraph术语那样以相同方式)与Schema共同使用?
【白皮书结束,有参考文献】
===
相关博文:
关于2013年OCLC报告、OCLC与LC合作撰写关联数据白皮书:OCLC对BIBFRAME和Schema.org书目扩展的立场(2014年12月20日)
OCLC低调注册BiblioGraph.net扩展Schema.org(2014年12月1日)
解惑Schema书目扩展(2014年1月29日)
Schema.org的图书馆扩展(2012年6月22日)
关于WorldCat作品:OCLC以关联数据开放1.94亿书目作品(2014年2月27日)

OCLC低调注册BiblioGraph.net扩展Schema.org

OCLC主导Schema.org的书目扩展W3C小组(Schema Bib Extend Community Group),原定自2012年9月起为期一年结束。从BIBFRAME邮件组中去年6月对OCLC关于BIBFRAME和Schema书目扩展报告(The Relationship between BIBFRAME and the Schema.org ‘Bib Extensions’ Model: A Working Paper / Carol Jean Godby. Dublin, Ohio: OCLC Research, 2013. (pdf,41页))的反映看,小组成员意见不一是显然的。由于进展不佳,正式提交的建议很少。看SchemaBibEx网站wiki部分,原来一、二个月一次的小组会议,到2014年2月后就已停止,内容也只更新到4月初。感觉OCLC已经放弃在此继续与其他参与者斗智斗勇了,但也没见什么依据。
偶而在OCLC网站2014年9月关于VIAF词表的一篇报道中,看到词表中有BiblioGraph.net域名,很是陌生。顺链接而去,发现了这个用来扩展Schema.org的网站。网站没有OCLC的LOGO,只是很低调地在服务条款(Terms of service)中说由OCLC主办。查得OCLC在4月16日注册了此域名,通过搜索引擎和OCLC网站查,竟然未见有过报道。OCLC如此低调处理,相当奇怪!

什么是BiblioGraph.net? 【有墙】
“本网站提供一组规范,用于描述图书馆和相关领域中书目和文化遗产资源与收藏的概念、实体和关系。基于schema.org词表,BiblioGraph.net增加在这些特定领域中特别重要的相关术语和实体。”

2012年OCLC发布WorldCat关联数据时,除了schema.org及其图书馆扩展外,还用到包括DC、FOAF、VIAF等在内的命名空间(Experimental “library” extension vocabulary)。此次注册BiblioGraph.net(命名空间简称:bgn:),意在未来将OCLC书目关联数据所用命名空间数量减小到最低2个:
BiblioGraph.net规范结构(Schema Structure
“本网站所描述的规范被汇集以反映共享原则,以及schema.org定义的核心类型和属性。BiblioGraph.net的编者将追踪schema.org已发布术语的变化,更新本网站加以反映。”
“当schema.org没有适当术语,会寻求来自SchemaBib Extend W3C社区小组的建议作为合适的选项。最后,术语加入BiblioGraph.net命名空间,常会有来自其他合适词表如DC、Bibo等的例子。目标是确保在BiblioGraph.net描述数据的命名空间数量在最小限度,优先为仅二个——schema: 和 bgn: ”。

这想法和BIBFRAME颇为相似,也就是说除了schema.org外,不重用其他命名空间,而是把其他词表术语纳入自己的命名空间。另外,所谓“寻求来自SchemaBib Extend W3C社区小组的建议”,应该更多的属于外交辞令。
从前面提及的那篇VIAF词表报道看(VIAF RDF Vocabulary Changes and Additions,03 September 2014),VIAF词表中原来来自DBPedia、RDA和FOAF命名空间的类与属性,纷纷被schema:取代,还新增了不少bgn:属性,据说体现在9月16日的VIAF更新中。看来规范(VIAF)比书目更早采用bgn——目前看WorldCat时,用的仍是二年前的library扩展。[update 2014-12-20 昨天访问,在某记录下已经看到两个bgn属性,但都不是取代library扩展的:一个是新增bgn:inSupportOf,一个是代替j.1:的bgn:Thesis]
另一个值得注意的是,VIAF新增了两个FRBR类(作品、内容表达),采用的不是IFLA官方版,而是2005年Ian Davis和Richard Newman的:Expression of Core FRBR Concepts in RDF。为什么bgn自己不定义?

基于BIBFRAME的上海图书馆家谱本体发布

今年6月,夏MM在“数字人文与语义技术”(2014年图书馆前沿技术论坛)上做了《以书目框架建模的上图家谱知识库系统》的报告,介绍上海图书馆已经用BIBFRAME构建了家谱本体。
昨天(11月21日),上海图书馆在网站上[(update 2014-11-23)以关联数据形式]发布了基于BIBFRAME的家谱本体,目前为第一版(V1.0):
上海图书馆家谱本体:http://gen.library.sh.cn

网站长得和BIBFRAME词表很像,也提供了类似的模型视图、类视图和列表视图三种浏览模式。不过,在可视化及浏览导航上,比bibframe.org对人的可用性要好,有助于从整体上快速了解该本体:
– 模型视图:提供了5个类(核心类?)的可视化图示,分别是:
BF的作品Work、实例Instance、拥有单件HeldItem
自定义的家族Family、个人Person
– 类视图:左侧以等级方式展开所有类,包括:
BF类17个(除顶级类bf:Resource)
自定义shlgen类5个

当然比形式更值得关注的是内容,尤其是针对家谱资源的扩展内容。从类视图看,扩展的5个类(及属性)分别是:
(1)bf:Family的子类shlgen:Family(包括属性:始祖、支祖、始迁祖、名人、散居地)
(2)bf:Person的子类shlgen:Person(包括属性:字、名、行、号、家族、迁徙、时代)
(3)bf:Event的子类shlgen:Event
(4)shlgen:Event的子类shlgen:Migration(包括属性:原居地、迁居地)
(5)shlgen:FamilyName(包括属性:姓氏值)
扩展同名子类(而不是直接采用BF类)的目的,是要定义家谱独特的属性(见上)或类(迁徙事件)。
据了解,设置顶级类shlgen:FamilyName(姓氏),是为了未来扩展更多(超出家谱资源本身的)属性,比如姓氏的发源地、变迁等。

从列表视图看,上图家谱本体的类与属性的数量是:
– 类(Class):23个 = 18个BF类 + 5个shlgen类
– 属性(Property):49个 = 31个BF属性 + 2个FOAF属性 + 16个 shlgen属性(“事件”目前未出现在类视图中)

参见:
Bibframe.org的类与属性发布(2014年1月27日)
当时BIBFRAME定义了52个类、266个属性

数字人文 vs 电子科学(“数字人文与语义技术”会议报告随记)(2014年6月20日)

[update 2014-11-23] 网站的“发布说明”对该本体做了介绍(见下),右侧栏还有相关的论文及会议报告链接(Publications & Presentations(资料)),目前有如下三个:
– 刘炜,夏翠娟:《书目数据新格式BIBFRAME及其应用》大学图书馆学报,2014,1
– 夏翠娟:以书目框架建模的上图家谱知识库系统
– 夏翠娟,刘炜,张磊,朱雯晶:《基于书目框架(BIBFRAME)的家谱本体设计》图书馆论坛,2014,11

———-上海图书馆家谱本体第一版(V1.0)发布说明(全文抄录)———-
上海图书馆家谱本体是上海图书馆家谱知识库系统的前期成果,是为了更深入地对上海图书馆丰富的家谱馆藏资源进行基于内容的深度加工而设计的本体模型,包括一套术语词表。本体模型基于书目框架(BIBFRAME)而设计,词表也复用了BIBFRAME和FOAF的某些术语,同时根据家谱的特殊性自定义了少量术语。复用自BIBFRAME的术语前缀为bf,如bf:Work,自定义的术语前缀为shlgen,如shlgen:Person。

上海图书馆家谱本体此次在本网站发布的是第一版(V1.0),随着家谱数据的处理和家谱知识库系统建设的进一步深化,将来会进一步扩展。

本网站对上海图书馆家谱本体的发布采用了关联数据技术,遵循关联数据的四原则。
术语均赋予了URI,如http://gen.library.sh.cn/vocab/Person。
实现内容协商,如用普通的浏览器访问http://gen.library.sh.cn/vocab/Person,系统将返回Html页面,当用语义浏览器或语义代理(程序)访问http://gen.library.sh.cn/vocab/Person,系统返回关于Person的RDF/XML数据。 用W3C的RDF Validator可以体验。

本网站提供三种视图模式供用户浏览: 模型视图(Model View)、 类视图(Class View)和 列表视图(List View)。
模型视图(Model View):可视化地展示了家谱本体类和属性间的关系。
类视图(Class View):通过父类和子类的层级关系浏览类和属性。
列表视图(List View):按照类和属性名的首字母顺序排列展示类和属性。