赶在ALA仲冬年会前,OCLC和LC发布了去年底承诺的白皮书,名为《共同基础:探索LC和OCLC关联数据模型间兼容》。ALA会议中有几个专场会涉及此技术白皮书。参见OCLC的预告新闻和年会广告:OCLC and the Library of Congress to clarify approaches to library linked data (19 January 2015)
白皮书前面部分为导论,介绍BIBFRAME和Schema扩展的历史与发展;后面部分是技术分析概要,更全面的技术分析将在2015年稍后发布。
对报告中的技术分析概要,尤其是两种模型的对应方面,其他人会有什么评论?最近东西看得不多,待考。以下为摘译。
Godby, Carol Jean, and Ray Denenberg. 2015. Common Ground: Exploring Compatibilities Between the Linked Data Models of the Library of Congress and OCLC. Dublin, Ohio: Library of Congress and OCLC Research. (PDF, 12p)
(p.4)导言【两个模型早期发展回顾】
自2011年,OCLC研究者实验用Schema.org,作为曝光图书馆元数据给互联网搜索引擎的工具……OCLC的实验导致2012年发布3亿可检索Worldcat.org目录记录的关联数据,以Schema.org元数据元素表达。2011年,BIBFRAME由LC发布为一个创新计划,开发一个关联数据替代MARC,建立在LC始于2009年的提供规范档关联数据获取的经验之上……
(p.5)2013年以来的BIBFRAME
2013年后期,早期实验者小组完成其工作,2014年早期BIBFRAME实施测试平台正式建立。其目的是鼓励BIBFRAME测试实施的开发;监管实施进度;发现实施和BIBFRAME模型与词表中的错误、不一致及不足;为BIBFRAME词表和工具的开发提供一个论坛。去年有17个组织积极参与此工作。
此外,在(公开的)BIBFRAME邮件组中有活跃讨论……
2015年晚些时候,LC将发布一个修订词表,并发布试验项目,测试BIBFRAME词表是否支持编目员用于做原始编目,包括规范工作。试验中,LC编目员将测试以BIBFRAME创建编目数据,使用BIBFRAME编辑器。编目员将以不同语言,为不同资料创建BIBFRAME描述。LC“名称/题名”和“题名”MARC记录将转换为BIBFRAME“作品”,存储于RDF三元组库中。书目记录将被转换并与“作品”匹配,与主题及其他属性合并。除BIBFRAME编辑器外,检索/显示工具将放在三元组库之上。
(p.6)其他机构如斯坦福和康奈尔正计划类似试验计划……
(p.6)2013年以来OCLC的Schema.org实验
自2013年,由WorldCat.org可获取的关联书目数据被升级并重新发布,FAST和VIAF规范档的关联数据模型被重新设计,参引Schema.org所定义的类作为基本概念如“个人”“组织”“创作作品”和“论题”。此外,“WorldCat作品”首个草案发布,表达作品级描述,产生自最新版OCLC的FRBR聚类和数据挖掘算法,对图书馆规范档和WorldCat目录记录进行操作。结果是,近2亿“作品”聚类采用Schema.org建模为关联数据,并由永久URI联系。
OCLC关联数据建模小组成员Jeff Mixter和Jean Godby与蒙大拿州立大学图书馆馆长Kenning Arlitsch和语义网研究主任Patrick OBrien协作,检测通用搜索引擎如Google中图书馆资源的可发现性和可见性问题。成果之一是某些机构库【学位论文】内容的模型,主要以Schema.org表达。……
(p.7)BiblioGraph.net网站由OCLC维护,但构成它的本体将作为一个社区资源管理。此概念由Schema书目扩展社区小组的工作激发……
校准BIBFRAME和OCLC/Schema模型
BIBFRAME和衍生自Schema.org模型的高层校准(引用2013年报告中的图:Schema.org的覆盖广度、BIBFRAME的描述深度)
在最高层,OCLC关联数据模型类似于BIBFRAME,尤其是在实体如作品、实例、组织和个人的定义上。这种冗余反映这两个有着不同动机和用户案例的项目的趋同性。除了与搜索引擎交互,LC开发BIBFRAME为在关联数据环境中数据交换,考虑资源描述的现有格式,它必须被设计为图书馆资源描述的持久标准。相比较,OCLC开发的关联数据模型,为在图书馆之外的万维网上发现图书馆资源的描述而优化,采用为通用搜索引擎消费而设计的词表。如果Schema.org标记的承诺实现,其结果应该可计量为点击率增长,或者改进图书馆在万维网上的其他可见性(p.8)。无疑,预期两个项目间只是部分重叠。Schema.org和BiblioGraph所定义的词表,致力于对寻找信息公众的更广泛可通解,可能不包括很多BIBFRAME定义的细节,意在更多地表达图书馆和其他文化遗产机构长期保存需求。
—
(p.8)技术分析:摘要
在计划于2015年稍后发布的技术分析中,Ray Denenberg和Jean Godby比较符合OCLC/Schema模型的RDF描述与相应的BIBFRAME描述,关注两个关键BIBFRAME实体“作品”和“实例”及其关系,也讨论其他主要BIBFRAME概念如规范、附注、主题、题名、标识符和代理。
一组对话
每一个概念都是关注对话的主题,问两个问题。其一,两种模型中赋予相应概念的永久标签符可互相消费吗?如果可以,那么可以下结论说,尽管模型有不同的内部细节、以不同词表表达,但他们描述同一对象。作为结果,比如一个“BIBFRAME作品”描述,可以包含一个对“OCLC作品服务”发布标识符的“相同”断言,而WorldCat目录数据中描述资源的OCLC/Schema描述,可以指代一个“BIBFRAME实例”。
其二,两位作者问,一个BIBFRAME描述是否可以用OCLC/Schema模型重构(或反之)而不丢失信息。这一问题对OCLC尤其重要,因为肯定回答意味着可能表达一个数据集成者导入导出BIBFRAME数据的需求,即使内部关联数据模型以不同词表表达。高层结论是,前面图画中显示的较准仍是精确的,多半甚至比2013年更正当,因为现在主要的BIBFRAME概念与OCLC/Schema模型中表达的相应概念更一致。并且,假设描述音乐和地图的BIBFRAME术语在Schema.org和BiblioGraph中无对应,对两个模型间粒渡差异,新分析提供一个更需要的经验示范,提供一个加以管理的技术解决方案。2013年时,这一差异仅作为理论可能性提出【指2013年OCLC关于BIBFRAME和Schema书目扩展报告】。
(p.9)表达FRBR第1组实体等级
BIBFRAME和OCLC模型均采用简化FRBR视图。两者均为“作品”实体定义RDF类,尽管BIBFRAME和OCLC“作品”不完全相同,分析揭示它们相当兼容。两个模型均编码FRBR“内容表达”实体为RDF属性或关系。两者也均认识“载体表现”实体,尽管以不同方式:BIBFRAME定义“实例”RDF类表达“载体表现”实体,而OCLC模型引入“载体表现”和“单件”实体,采用来自schema:CreativeWork和schema:Product的RDF类型分配的组合,如前述2013年出版物……中所述。
BIBFRAME定义了一套20个内容对内容(即“作品对作品”)关系,衍生自MARC和RDA,与OCLC模型假定一致,可补充衍生自Schema.org的创作作品模型。此外,图书馆规范档中典型描述的人们、地点和组织,在LC和OCLC模型中未表达为字符串或概念,而是作为真实世界对象。因此,许多顶层BIBFRAME的RDF类的指代,包括作品、实例、拥有单件及规范的子类,在本体上足够相似,以至BIBFRAME和OCLC模型的相应URI可相互消费。在2013年时没有自信做如此声明。
差异
分析揭示(两个)模型中至少有三个顶层差异。其一是前面提到的:BIBFRAME为“作品”和“实例”定义RDF类,而OCLC为“作品”但没有为“实体例”定义类。如上所指出,此差异不产生非兼容。
其二,BIBFRAME中正式定义“规范”实体为RDF类,但OCLC模型中没有。在OCLC关联数据模型中,“规范”仅仅是包含核实信息的任何资源的一个非正式名称,包括对构成图书馆资源描述重要的实体如人物、地点、机构、概念和其他实体的描述。但是,表达图书馆规范档内容的RDF数据存储库在其他方面是兼容的,包含相同对象的描述。在BIBFRAME模型中,RDF类bf:Authority定义主要是为了方便主题描述。这一问题将与LC和OCLC模型中通用的主题处理一起,在接下来的技术分析中做更深入的探索。
其三,BIBFRAME为“注释”实体定义的RDF类在OCLC模型中没有对应。不过,BIBFRAME“注释”现在包含结构化数据,可(p.10)描述评论、概要、封面图像及馆藏——多数在OCLC/Schema模型中有交替或更简化的陈述。正按照W3C的Web注释当前实施的工作,仔细评估BIBFRAME“注释”类。
如期望的,分析揭示在粒度上的差异。例如,如果评论有作者或出版者,或者如果一个封面图像有出处,BIBFRAME以结构化数据值描述该对象,定义带属性的“注释”类的一个RDF子类。在Schema.org中最明显的对应描述,典型地仅包含一个简单数据值,比如文字值或URL,不能表达如此细节。
在若干BIBFRAME概念的描述中有同样问题,比如题名和标识符。在BIBFRAME中,题名表达为文字串或结构化资源(包括主要题名、副题名、部分号及若干其他信息元素),而OCLC题名总是表达为文字串(通过属性schema:name)。但由于两个模型都允许题名表达为文字,因而有足够兼容性。标识符更复杂,在接下来的技术分析中将进行综合处理。OCLC的关联数据专家正探索以Schema.org表达BIBFRAME附加粒度的通用解决方案,并同时讨论如此是否总是有必要。
发现和保存的词表【BIBFRAME是为curation的词表,BiblioGraph是为发现的词表】
当然,BIBFRAME描述还会更详细,因为他们包含为专业保存的专门词表。例如,对同一幅LC馆藏天体图,分析BIBFRAME的一个手工描述与OCLC/Schema模型的一个算法生成描述,BIBFRAME描述包含技术术语bf:cartographicScale, bf:cartographicEquinox, bf:cartograpicAscensionAndDeclination。OCLC描述不包含这些术语,因为OCLC源记录未呈现这些信息,并且这些概念没有在Schema.org或BiblioGraph定义。这说明BIBFRAME关注词表开发,以支持对图书馆拥有的独特资源的升级的机器可理解描述,例如地图、乐谱、声像资料和档案。OCLC/Schema模型可指代这些描述,简单地增加包含BIBFRAME URI的“相同”断言强化其自身。但是,为生成可比较的描述,或通过OCLC的数据处理流而不丢失信息,OCLC/Schema模型必须直接使用BIBFRAME词表。这是图中所提及的BIBFRAME所提供的“描述深度”,对为发现优化的数据模型中可能将永远失去。
(p.11)在技术分析中,BiblioGraph作为推进从专家描述词表到发现词表的交通工具,在描述天体图中可能有其作用。例如,在Schema.org中“地图”被定义为一种资源,但所定义的属性清单太粗略,难以满足图书馆界管理需求。但BIBFRAME术语定义为RDF属性,采用BiblioGraph作为试验场,理论上可定位于schema:Map类。BiblioGraph中的表达可解释为一种声明,其他实践社区可能需要这些术语,将它们用作最终吸收进Schema.org的候选。还需要图书馆标准专家做很多分析,确定哪些术语有共同理解的语义,哪些是专门的,也许会得到结论,bf:cartographicScale可供更广泛使用,而其他可能不行。无论如何,BiblioGraph设计作为汇合这些分析结果的场所。
进一步校准的一些建议
由于可解决的技术与概念障碍,很多LC和OCLC关联数据模型间的共同基础还未开拓。这有待未来协作,但很多在技术分析中提及。包括:
OCLC
– 对BIBFRAME能但OCLC/Schema模型不能表达的粒度,开发与测试抓取的技术解决方案,证明OCLC能够导入导出BIBFRAME而不丢失信息
– 发布接受准则,定义BiblioGraph和范围,提出满足准则的BIBFRAME中定义术语。【直接采用BIBFRAME术语】
LC
– 产生指代OCLC“作品”标识符的BIBFRAME描述【增加BIBFRAME标识符?】
OCLC和LC合作
– 针对图书馆拥有的一个或多个资源类型,以BIBFRAME或Schema.org不宜描述的,比如地图或音像资料,开发并测试实施一个共同模型。
– 对一个给定词表术语(定义为RDF类或属性),图书馆数据需要而Schema中没有的,分析比较其在BIBFRAME和BiblioGraph中的使用。两个词表中是否都有,定义类似?BIBFRAME术语是否可(如BiblioGraph术语那样以相同方式)与Schema共同使用?
【白皮书结束,有参考文献】
===
相关博文:
关于2013年OCLC报告、OCLC与LC合作撰写关联数据白皮书:OCLC对BIBFRAME和Schema.org书目扩展的立场(2014年12月20日)
OCLC低调注册BiblioGraph.net扩展Schema.org(2014年12月1日)
解惑Schema书目扩展(2014年1月29日)
Schema.org的图书馆扩展(2012年6月22日)
关于WorldCat作品:OCLC以关联数据开放1.94亿书目作品(2014年2月27日)