LC和OCLC关于BIBFRAME和Schema书目扩展的白皮书

赶在ALA仲冬年会前,OCLC和LC发布了去年底承诺的白皮书,名为《共同基础:探索LC和OCLC关联数据模型间兼容》。ALA会议中有几个专场会涉及此技术白皮书。参见OCLC的预告新闻和年会广告:OCLC and the Library of Congress to clarify approaches to library linked data (19 January 2015)

白皮书前面部分为导论,介绍BIBFRAME和Schema扩展的历史与发展;后面部分是技术分析概要,更全面的技术分析将在2015年稍后发布。
对报告中的技术分析概要,尤其是两种模型的对应方面,其他人会有什么评论?最近东西看得不多,待考。以下为摘译。

Godby, Carol Jean, and Ray Denenberg. 2015. Common Ground: Exploring Compatibilities Between the Linked Data Models of the Library of Congress and OCLC. Dublin, Ohio: Library of Congress and OCLC Research. (PDF, 12p)

(p.4)导言【两个模型早期发展回顾】
自2011年,OCLC研究者实验用Schema.org,作为曝光图书馆元数据给互联网搜索引擎的工具……OCLC的实验导致2012年发布3亿可检索Worldcat.org目录记录的关联数据,以Schema.org元数据元素表达。2011年,BIBFRAME由LC发布为一个创新计划,开发一个关联数据替代MARC,建立在LC始于2009年的提供规范档关联数据获取的经验之上……

(p.5)2013年以来的BIBFRAME
2013年后期,早期实验者小组完成其工作,2014年早期BIBFRAME实施测试平台正式建立。其目的是鼓励BIBFRAME测试实施的开发;监管实施进度;发现实施和BIBFRAME模型与词表中的错误、不一致及不足;为BIBFRAME词表和工具的开发提供一个论坛。去年有17个组织积极参与此工作。
此外,在(公开的)BIBFRAME邮件组中有活跃讨论……
2015年晚些时候,LC将发布一个修订词表,并发布试验项目,测试BIBFRAME词表是否支持编目员用于做原始编目,包括规范工作。试验中,LC编目员将测试以BIBFRAME创建编目数据,使用BIBFRAME编辑器。编目员将以不同语言,为不同资料创建BIBFRAME描述。LC“名称/题名”和“题名”MARC记录将转换为BIBFRAME“作品”,存储于RDF三元组库中。书目记录将被转换并与“作品”匹配,与主题及其他属性合并。除BIBFRAME编辑器外,检索/显示工具将放在三元组库之上。
(p.6)其他机构如斯坦福和康奈尔正计划类似试验计划……

(p.6)2013年以来OCLC的Schema.org实验
自2013年,由WorldCat.org可获取的关联书目数据被升级并重新发布,FAST和VIAF规范档的关联数据模型被重新设计,参引Schema.org所定义的类作为基本概念如“个人”“组织”“创作作品”和“论题”。此外,“WorldCat作品”首个草案发布,表达作品级描述,产生自最新版OCLC的FRBR聚类和数据挖掘算法,对图书馆规范档和WorldCat目录记录进行操作。结果是,近2亿“作品”聚类采用Schema.org建模为关联数据,并由永久URI联系。
OCLC关联数据建模小组成员Jeff Mixter和Jean Godby与蒙大拿州立大学图书馆馆长Kenning Arlitsch和语义网研究主任Patrick OBrien协作,检测通用搜索引擎如Google中图书馆资源的可发现性和可见性问题。成果之一是某些机构库【学位论文】内容的模型,主要以Schema.org表达。……
(p.7)BiblioGraph.net网站由OCLC维护,但构成它的本体将作为一个社区资源管理。此概念由Schema书目扩展社区小组的工作激发……

校准BIBFRAME和OCLC/Schema模型
BIBFRAME和衍生自Schema.org模型的高层校准(引用2013年报告中的图:Schema.org的覆盖广度、BIBFRAME的描述深度)
在最高层,OCLC关联数据模型类似于BIBFRAME,尤其是在实体如作品、实例、组织和个人的定义上。这种冗余反映这两个有着不同动机和用户案例的项目的趋同性。除了与搜索引擎交互,LC开发BIBFRAME为在关联数据环境中数据交换,考虑资源描述的现有格式,它必须被设计为图书馆资源描述的持久标准。相比较,OCLC开发的关联数据模型,为在图书馆之外的万维网上发现图书馆资源的描述而优化,采用为通用搜索引擎消费而设计的词表。如果Schema.org标记的承诺实现,其结果应该可计量为点击率增长,或者改进图书馆在万维网上的其他可见性(p.8)。无疑,预期两个项目间只是部分重叠。Schema.org和BiblioGraph所定义的词表,致力于对寻找信息公众的更广泛可通解,可能不包括很多BIBFRAME定义的细节,意在更多地表达图书馆和其他文化遗产机构长期保存需求。

(p.8)技术分析:摘要
在计划于2015年稍后发布的技术分析中,Ray Denenberg和Jean Godby比较符合OCLC/Schema模型的RDF描述与相应的BIBFRAME描述,关注两个关键BIBFRAME实体“作品”和“实例”及其关系,也讨论其他主要BIBFRAME概念如规范、附注、主题、题名、标识符和代理。

一组对话
每一个概念都是关注对话的主题,问两个问题。其一,两种模型中赋予相应概念的永久标签符可互相消费吗?如果可以,那么可以下结论说,尽管模型有不同的内部细节、以不同词表表达,但他们描述同一对象。作为结果,比如一个“BIBFRAME作品”描述,可以包含一个对“OCLC作品服务”发布标识符的“相同”断言,而WorldCat目录数据中描述资源的OCLC/Schema描述,可以指代一个“BIBFRAME实例”。
其二,两位作者问,一个BIBFRAME描述是否可以用OCLC/Schema模型重构(或反之)而不丢失信息。这一问题对OCLC尤其重要,因为肯定回答意味着可能表达一个数据集成者导入导出BIBFRAME数据的需求,即使内部关联数据模型以不同词表表达。高层结论是,前面图画中显示的较准仍是精确的,多半甚至比2013年更正当,因为现在主要的BIBFRAME概念与OCLC/Schema模型中表达的相应概念更一致。并且,假设描述音乐和地图的BIBFRAME术语在Schema.org和BiblioGraph中无对应,对两个模型间粒渡差异,新分析提供一个更需要的经验示范,提供一个加以管理的技术解决方案。2013年时,这一差异仅作为理论可能性提出【指2013年OCLC关于BIBFRAME和Schema书目扩展报告】。

(p.9)表达FRBR第1组实体等级
BIBFRAME和OCLC模型均采用简化FRBR视图。两者均为“作品”实体定义RDF类,尽管BIBFRAME和OCLC“作品”不完全相同,分析揭示它们相当兼容。两个模型均编码FRBR“内容表达”实体为RDF属性或关系。两者也均认识“载体表现”实体,尽管以不同方式:BIBFRAME定义“实例”RDF类表达“载体表现”实体,而OCLC模型引入“载体表现”和“单件”实体,采用来自schema:CreativeWork和schema:Product的RDF类型分配的组合,如前述2013年出版物……中所述。
BIBFRAME定义了一套20个内容对内容(即“作品对作品”)关系,衍生自MARC和RDA,与OCLC模型假定一致,可补充衍生自Schema.org的创作作品模型。此外,图书馆规范档中典型描述的人们、地点和组织,在LC和OCLC模型中未表达为字符串或概念,而是作为真实世界对象。因此,许多顶层BIBFRAME的RDF类的指代,包括作品、实例、拥有单件及规范的子类,在本体上足够相似,以至BIBFRAME和OCLC模型的相应URI可相互消费。在2013年时没有自信做如此声明。

差异
分析揭示(两个)模型中至少有三个顶层差异。其一是前面提到的:BIBFRAME为“作品”和“实例”定义RDF类,而OCLC为“作品”但没有为“实例”定义类。如上所指出,此差异不产生非兼容。
其二,BIBFRAME中正式定义“规范”实体为RDF类,但OCLC模型中没有。在OCLC关联数据模型中,“规范”仅仅是包含核实信息的任何资源的一个非正式名称,包括对构成图书馆资源描述重要的实体如人物、地点、机构、概念和其他实体的描述。但是,表达图书馆规范档内容的RDF数据存储库在其他方面是兼容的,包含相同对象的描述。在BIBFRAME模型中,RDF类bf:Authority定义主要是为了方便主题描述。这一问题将与LC和OCLC模型中通用的主题处理一起,在接下来的技术分析中做更深入的探索。
其三,BIBFRAME为“注释”实体定义的RDF类在OCLC模型中没有对应。不过,BIBFRAME“注释”现在包含结构化数据,可(p.10)描述评论、概要、封面图像及馆藏——多数在OCLC/Schema模型中有交替或更简化的陈述。正按照W3C的Web注释当前实施的工作,仔细评估BIBFRAME“注释”类。
如期望的,分析揭示在粒度上的差异。例如,如果评论有作者或出版者,或者如果一个封面图像有出处,BIBFRAME以结构化数据值描述该对象,定义带属性的“注释”类的一个RDF子类。在Schema.org中最明显的对应描述,典型地仅包含一个简单数据值,比如文字值或URL,不能表达如此细节。
在若干BIBFRAME概念的描述中有同样问题,比如题名和标识符。在BIBFRAME中,题名表达为文字串或结构化资源(包括主要题名、副题名、部分号及若干其他信息元素),而OCLC题名总是表达为文字串(通过属性schema:name)。但由于两个模型都允许题名表达为文字,因而有足够兼容性。标识符更复杂,在接下来的技术分析中将进行综合处理。OCLC的关联数据专家正探索以Schema.org表达BIBFRAME附加粒度的通用解决方案,并同时讨论如此是否总是有必要。

发现和保存的词表【BIBFRAME是为curation的词表,BiblioGraph是为发现的词表】
当然,BIBFRAME描述还会更详细,因为他们包含为专业保存的专门词表。例如,对同一幅LC馆藏天体图,分析BIBFRAME的一个手工描述与OCLC/Schema模型的一个算法生成描述,BIBFRAME描述包含技术术语bf:cartographicScale, bf:cartographicEquinox, bf:cartograpicAscensionAndDeclination。OCLC描述不包含这些术语,因为OCLC源记录未呈现这些信息,并且这些概念没有在Schema.org或BiblioGraph定义。这说明BIBFRAME关注词表开发,以支持对图书馆拥有的独特资源的升级的机器可理解描述,例如地图、乐谱、声像资料和档案。OCLC/Schema模型可指代这些描述,简单地增加包含BIBFRAME URI的“相同”断言强化其自身。但是,为生成可比较的描述,或通过OCLC的数据处理流而不丢失信息,OCLC/Schema模型必须直接使用BIBFRAME词表。这是图中所提及的BIBFRAME所提供的“描述深度”,对为发现优化的数据模型中可能将永远失去。
(p.11)在技术分析中,BiblioGraph作为推进从专家描述词表到发现词表的交通工具,在描述天体图中可能有其作用。例如,在Schema.org中“地图”被定义为一种资源,但所定义的属性清单太粗略,难以满足图书馆界管理需求。但BIBFRAME术语定义为RDF属性,采用BiblioGraph作为试验场,理论上可定位于schema:Map类。BiblioGraph中的表达可解释为一种声明,其他实践社区可能需要这些术语,将它们用作最终吸收进Schema.org的候选。还需要图书馆标准专家做很多分析,确定哪些术语有共同理解的语义,哪些是专门的,也许会得到结论,bf:cartographicScale可供更广泛使用,而其他可能不行。无论如何,BiblioGraph设计作为汇合这些分析结果的场所。

进一步校准的一些建议
由于可解决的技术与概念障碍,很多LC和OCLC关联数据模型间的共同基础还未开拓。这有待未来协作,但很多在技术分析中提及。包括:
OCLC
– 对BIBFRAME能但OCLC/Schema模型不能表达的粒度,开发与测试抓取的技术解决方案,证明OCLC能够导入导出BIBFRAME而不丢失信息
– 发布接受准则,定义BiblioGraph和范围,提出满足准则的BIBFRAME中定义术语。【直接采用BIBFRAME术语】
LC
– 产生指代OCLC“作品”标识符的BIBFRAME描述【增加BIBFRAME标识符?】
OCLC和LC合作
– 针对图书馆拥有的一个或多个资源类型,以BIBFRAME或Schema.org不宜描述的,比如地图或音像资料,开发并测试实施一个共同模型。
– 对一个给定词表术语(定义为RDF类或属性),图书馆数据需要而Schema中没有的,分析比较其在BIBFRAME和BiblioGraph中的使用。两个词表中是否都有,定义类似?BIBFRAME术语是否可(如BiblioGraph术语那样以相同方式)与Schema共同使用?
【白皮书结束,有参考文献】
===
相关博文:
关于2013年OCLC报告、OCLC与LC合作撰写关联数据白皮书:OCLC对BIBFRAME和Schema.org书目扩展的立场(2014年12月20日)
OCLC低调注册BiblioGraph.net扩展Schema.org(2014年12月1日)
解惑Schema书目扩展(2014年1月29日)
Schema.org的图书馆扩展(2012年6月22日)
关于WorldCat作品:OCLC以关联数据开放1.94亿书目作品(2014年2月27日)

FRBR模型缺了什么?

俄勒岗大学Kelley McGrath在BIBFRAME邮件组中针对影视作品提问:MARC中缺了什么([BIBFRAME] What’s missing in MARC),BIBFRAME是否对MARC这方面不足做过什么分析,是否会加以支持?他提出的问题之一是关联演员人名与角色人名。这确实是个用户很关心的关系,某个角色是谁演的、谁配音的,可以从角色查到演员或反之……
没人回答这个问题。我想了下,觉得这不单是MARC的问题,因为FRBR模型中也没有揭示这种关联:
1、角色应当属于主题范畴。习惯上那些最著名的角色会作为被描述的虚拟人物(个人名称主题)被揭示。
2、只有第1组实体中的作品有主题。
3、影视作品演员属于贡献者,贡献者对应于内容表达。
结论:影视作品演员与虚拟人物之间的关系,是内容表达的责任者与作品的主题之间的关系——在FRBR模型中,没有揭示两者间关系。

FRBR实体关系
(此图链接自W3C图书馆关联数据小组档案,原图出自:FRBR: A Generalized Approach to Dublin Core Application Profiles / Maja Zumer, Marcia Lei Zeng, Athena Salaba)

Kelley McGrath在邮件中提到一个众包项目:影视演职员表标注实验OLAC Movie & Video Credit Annotation Experiment
好奇去贡献了几个标注,然后看了下这个项目介绍,发现是“一个更大探索的一部分,即借助FRBR模型及分面搜索,改进图书馆和档案馆拥有的动态图书馆资料的检索”。而其中工作之一、Kelley McGrath作为主席的“动态图像作品级记录工作组”(Moving Image Work-Level Records Task Force),做的正是与FRBR相关的工作:

“工作组调查,并就动态图像资料的基于FRBR作品级记录相关问题提出建议。包括:
– 动态图像作品的识别特征
– 识别这些特征的潜在信息源,检查这些来源的可靠性
– 检查现有书目记录,识别作品级信息可以记录的位置,调查从现有书目记录中抽取信息创建临时作品级记录的可能性”

工作组在2009年提出了《动态图像作品建议报告》:
第1部分“动态图像作品的定义与边界”。作品与内容表达的分界线一直是令我困惑的问题。报告此部分一开始就说明FRBR本身就认为这是个很难的问题……没有认真看下去(让我想起大专辩论赛、首先辩论的不是论题,而是论题本身的含义)。
第2部分“核心属性和关系”的“建议属性和关系”中,有“角色”(Characters portrayed (fictional and dramatic works))(p.15)。
假设工作组放宽条件,把某部电影当作作品,演员与作品产生关联;不同语种版本自然是内容表达,还是有配音演员与角色(也就是作品主题)的关系问题。凌乱中……

联想到JSC在2014年11月举行的RDA年度会议上说要开发新的附录M主题关系说明语。RDA原有附录L“概念、实物、事件和地点间关系”,指的是第3组实体内部关系(目前仍为空白)。附录M则是针对“一部作品”与其主题之间的关系,会有哪些关系呢?首先肯定得增加时间(FRBR第3组实体中没有时间是很奇怪的事情),那么能解决角色与演员之间的关系吗?

——或者换个角度,这种关系的揭示,是书目元数据标准该解决的吗?是否应该直接采用某种影视作品本体?

书目用RDF词表映射讨论:RDA、BIBFRAME还有ISBD

刚开年,由RDA词表与BIBFRAME映射问题,在BF邮件组中引发了对图书馆界进行中RDF词表的讨论,正反映对RDF词表仍有很多不明与分歧。比如对于用类还是属性,图书馆界资深的RDF专家Karen Coyle称:“某些使用RDF社区似乎非常重类,另一些则不是。许多类还是较少类,会如何影响实践,其含意见对我仍不清楚,但类明显提供我们不常开发的功能”。

回到讨论,问题首先由华盛顿大学的Joseph Kiegel提出:RDA词表(RDA in RDF)有约束版(以WEMI为类)与非约束版,以复制为例,RDA映射到BF后,要再映射回RDA,二种版本都必然导致类的丢失:
rdam:reproductionOfManifestation -> bf:reproduction
rdai:reproductionOfItem -> bf:reproduction
rdau:reproductionOf -> bf:reproduction

当年曾为RDA词表造势的Karen Coyle,近年对图书馆界RDF词表的发展一直持某种异义态度。她在邮件中认为:
RDA、BF及FRBRer以类作为数据结构的决定因素【我的理解是指各自的模型】,是RDF发展中的一个共同错误,因为RDF中并不存在“约束”(constraints),只是可以根据属性的定义域和值域做潜在的推理。只要类没有被声明为互斥(disjoint),被推理的主体作为多个类的实例是不存在冲突的。只有在进行推理时,属性所声明的定义域才起作用。因此,一个大问题是,是否会对所有数据进行推理。例如,RDA类的作用是对三元组范畴做简单的提问,例如“给我有这个ISSN的载体表现的所有作品三元组”。不是这样问题的话,如果定义域不满足需求,可以忽略。
她转而提出另一个问题:我们期望对图书馆的RDF数据执行什么样的操作?这个问题确实应该在对定义域和值域下定义前回答,因为这是其能力的功能。
【思考:先前也曾对各种书目用词表在类定义上的巨大差异感到疑惑,不知道对数据互联会不会有影响。如此看来影响的不是互联,而是推理。按KC提问的例子,推理似乎也只影响其对类的判断。如果这不重要,也就没有多大意义了(继续见下)】

在后面一个邮件中,她举例:
resourceA a bf:Work .
resourceA bf:workTitle “Moby Dick” .
resourceA bf:creator http://..
resource7 a rdac:Work .
resourceA bf:language “ENG” .
resource8 a rdac:Expression .
resource8 rdae:language “ENG” .
resource8 rdae:expressionOf resource3 .
resource3 rdaw:workTitle “Moby Dick” .
resource3 rdaw:personalCreator http://…
上例说明尽管BF和RDA结构不同,但描述相同。她指出:关联数据设计用于跨异质数据,允许差距和分歧,可能不比以前我们所做任何映射更不精确(如MARC到DC,从1100元素集到15)。
【思考:最后一句有点偷换概念,因为原问题是如何实现双向映射。但说明一个问题,即:无须纠结数据丢失,或者这种区别本来就未必造成数据丢失?想想也是,MARC数据并无WEMI区分,但现在根据MARC数据,可以做出FRBR化目录,又有什么必要纠结类还是属性呢?比如title,需要区分实际题名和统一题名,如同author需要区分描述还是规范——用属性还是类都可以实现,在不同RDF词表中转换并不会丢失信息

JSC主席,也是RDA词表、FRBR词表的主导者Gordon Dunsire在邮件组中做了长篇回应。首先从数据质量角度,说明实体类型准确与完整的必要性【即“约束”的作用】。
然后他将话题转回最初问题,即如何在RDA、BF以及FRBR、ISBD间映射。他不认同RDA的W/E等同于BF的作品、RDA的M/I等同于BF的实例。【他提供了他在2014年ALA年会上的一个报告,仅7张PPT,但有图示对此提供了很直观的说明:比如BF的作品对应RDA的E;ISBD/RDF新提出了实现与WEMI映射的元素。虽然其后KC对其中某些观点很不以为然,但PPT仍值得看。见:RDA, MARC and BIBFRAME: transition and interaction / Gordon Dunsire. Presented at LITA/ALCTS MARC Formats Transition Interest Group seminar, ALA 2014, Las Vegas, 28 June 2014.】
他的看法是同时提供非约束元素集,可以在非约束集间实现双向完全映射,他非常期望BF也能这么做。据他介绍:FRBR评审组决定不这么做,因为它计划统一FR模型(现在接近完成),而ISBD评审组会在不远的将来发布其非约束元素集。
他最后指出:我们需要进一步调查RDA/FRBR模型和BF之间的关系,最好由JSC和BF项目实施。【这让我想起不久前,OCLC宣布与LC合作研究BF与Schema.org及其扩展的协调。显然LC没有与如JSC期望的那样,实施BF与RDA间的协调。其间又有多少内幕故事?】


讨论的邮件主题:[BIBFRAME] Constrained vs unconstrained schemas
此组邮件细细看过,没有结论,清理思路而已。