LC和OCLC关于BIBFRAME和Schema书目扩展的白皮书

赶在ALA仲冬年会前,OCLC和LC发布了去年底承诺的白皮书,名为《共同基础:探索LC和OCLC关联数据模型间兼容》。ALA会议中有几个专场会涉及此技术白皮书。参见OCLC的预告新闻和年会广告:OCLC and the Library of Congress to clarify approaches to library linked data (19 January 2015)

白皮书前面部分为导论,介绍BIBFRAME和Schema扩展的历史与发展;后面部分是技术分析概要,更全面的技术分析将在2015年稍后发布。
对报告中的技术分析概要,尤其是两种模型的对应方面,其他人会有什么评论?最近东西看得不多,待考。以下为摘译。

Godby, Carol Jean, and Ray Denenberg. 2015. Common Ground: Exploring Compatibilities Between the Linked Data Models of the Library of Congress and OCLC. Dublin, Ohio: Library of Congress and OCLC Research. (PDF, 12p)

(p.4)导言【两个模型早期发展回顾】
自2011年,OCLC研究者实验用Schema.org,作为曝光图书馆元数据给互联网搜索引擎的工具……OCLC的实验导致2012年发布3亿可检索Worldcat.org目录记录的关联数据,以Schema.org元数据元素表达。2011年,BIBFRAME由LC发布为一个创新计划,开发一个关联数据替代MARC,建立在LC始于2009年的提供规范档关联数据获取的经验之上……

(p.5)2013年以来的BIBFRAME
2013年后期,早期实验者小组完成其工作,2014年早期BIBFRAME实施测试平台正式建立。其目的是鼓励BIBFRAME测试实施的开发;监管实施进度;发现实施和BIBFRAME模型与词表中的错误、不一致及不足;为BIBFRAME词表和工具的开发提供一个论坛。去年有17个组织积极参与此工作。
此外,在(公开的)BIBFRAME邮件组中有活跃讨论……
2015年晚些时候,LC将发布一个修订词表,并发布试验项目,测试BIBFRAME词表是否支持编目员用于做原始编目,包括规范工作。试验中,LC编目员将测试以BIBFRAME创建编目数据,使用BIBFRAME编辑器。编目员将以不同语言,为不同资料创建BIBFRAME描述。LC“名称/题名”和“题名”MARC记录将转换为BIBFRAME“作品”,存储于RDF三元组库中。书目记录将被转换并与“作品”匹配,与主题及其他属性合并。除BIBFRAME编辑器外,检索/显示工具将放在三元组库之上。
(p.6)其他机构如斯坦福和康奈尔正计划类似试验计划……

(p.6)2013年以来OCLC的Schema.org实验
自2013年,由WorldCat.org可获取的关联书目数据被升级并重新发布,FAST和VIAF规范档的关联数据模型被重新设计,参引Schema.org所定义的类作为基本概念如“个人”“组织”“创作作品”和“论题”。此外,“WorldCat作品”首个草案发布,表达作品级描述,产生自最新版OCLC的FRBR聚类和数据挖掘算法,对图书馆规范档和WorldCat目录记录进行操作。结果是,近2亿“作品”聚类采用Schema.org建模为关联数据,并由永久URI联系。
OCLC关联数据建模小组成员Jeff Mixter和Jean Godby与蒙大拿州立大学图书馆馆长Kenning Arlitsch和语义网研究主任Patrick OBrien协作,检测通用搜索引擎如Google中图书馆资源的可发现性和可见性问题。成果之一是某些机构库【学位论文】内容的模型,主要以Schema.org表达。……
(p.7)BiblioGraph.net网站由OCLC维护,但构成它的本体将作为一个社区资源管理。此概念由Schema书目扩展社区小组的工作激发……

校准BIBFRAME和OCLC/Schema模型
BIBFRAME和衍生自Schema.org模型的高层校准(引用2013年报告中的图:Schema.org的覆盖广度、BIBFRAME的描述深度)
在最高层,OCLC关联数据模型类似于BIBFRAME,尤其是在实体如作品、实例、组织和个人的定义上。这种冗余反映这两个有着不同动机和用户案例的项目的趋同性。除了与搜索引擎交互,LC开发BIBFRAME为在关联数据环境中数据交换,考虑资源描述的现有格式,它必须被设计为图书馆资源描述的持久标准。相比较,OCLC开发的关联数据模型,为在图书馆之外的万维网上发现图书馆资源的描述而优化,采用为通用搜索引擎消费而设计的词表。如果Schema.org标记的承诺实现,其结果应该可计量为点击率增长,或者改进图书馆在万维网上的其他可见性(p.8)。无疑,预期两个项目间只是部分重叠。Schema.org和BiblioGraph所定义的词表,致力于对寻找信息公众的更广泛可通解,可能不包括很多BIBFRAME定义的细节,意在更多地表达图书馆和其他文化遗产机构长期保存需求。

(p.8)技术分析:摘要
在计划于2015年稍后发布的技术分析中,Ray Denenberg和Jean Godby比较符合OCLC/Schema模型的RDF描述与相应的BIBFRAME描述,关注两个关键BIBFRAME实体“作品”和“实例”及其关系,也讨论其他主要BIBFRAME概念如规范、附注、主题、题名、标识符和代理。

一组对话
每一个概念都是关注对话的主题,问两个问题。其一,两种模型中赋予相应概念的永久标签符可互相消费吗?如果可以,那么可以下结论说,尽管模型有不同的内部细节、以不同词表表达,但他们描述同一对象。作为结果,比如一个“BIBFRAME作品”描述,可以包含一个对“OCLC作品服务”发布标识符的“相同”断言,而WorldCat目录数据中描述资源的OCLC/Schema描述,可以指代一个“BIBFRAME实例”。
其二,两位作者问,一个BIBFRAME描述是否可以用OCLC/Schema模型重构(或反之)而不丢失信息。这一问题对OCLC尤其重要,因为肯定回答意味着可能表达一个数据集成者导入导出BIBFRAME数据的需求,即使内部关联数据模型以不同词表表达。高层结论是,前面图画中显示的较准仍是精确的,多半甚至比2013年更正当,因为现在主要的BIBFRAME概念与OCLC/Schema模型中表达的相应概念更一致。并且,假设描述音乐和地图的BIBFRAME术语在Schema.org和BiblioGraph中无对应,对两个模型间粒渡差异,新分析提供一个更需要的经验示范,提供一个加以管理的技术解决方案。2013年时,这一差异仅作为理论可能性提出【指2013年OCLC关于BIBFRAME和Schema书目扩展报告】。

(p.9)表达FRBR第1组实体等级
BIBFRAME和OCLC模型均采用简化FRBR视图。两者均为“作品”实体定义RDF类,尽管BIBFRAME和OCLC“作品”不完全相同,分析揭示它们相当兼容。两个模型均编码FRBR“内容表达”实体为RDF属性或关系。两者也均认识“载体表现”实体,尽管以不同方式:BIBFRAME定义“实例”RDF类表达“载体表现”实体,而OCLC模型引入“载体表现”和“单件”实体,采用来自schema:CreativeWork和schema:Product的RDF类型分配的组合,如前述2013年出版物……中所述。
BIBFRAME定义了一套20个内容对内容(即“作品对作品”)关系,衍生自MARC和RDA,与OCLC模型假定一致,可补充衍生自Schema.org的创作作品模型。此外,图书馆规范档中典型描述的人们、地点和组织,在LC和OCLC模型中未表达为字符串或概念,而是作为真实世界对象。因此,许多顶层BIBFRAME的RDF类的指代,包括作品、实例、拥有单件及规范的子类,在本体上足够相似,以至BIBFRAME和OCLC模型的相应URI可相互消费。在2013年时没有自信做如此声明。

差异
分析揭示(两个)模型中至少有三个顶层差异。其一是前面提到的:BIBFRAME为“作品”和“实例”定义RDF类,而OCLC为“作品”但没有为“实例”定义类。如上所指出,此差异不产生非兼容。
其二,BIBFRAME中正式定义“规范”实体为RDF类,但OCLC模型中没有。在OCLC关联数据模型中,“规范”仅仅是包含核实信息的任何资源的一个非正式名称,包括对构成图书馆资源描述重要的实体如人物、地点、机构、概念和其他实体的描述。但是,表达图书馆规范档内容的RDF数据存储库在其他方面是兼容的,包含相同对象的描述。在BIBFRAME模型中,RDF类bf:Authority定义主要是为了方便主题描述。这一问题将与LC和OCLC模型中通用的主题处理一起,在接下来的技术分析中做更深入的探索。
其三,BIBFRAME为“注释”实体定义的RDF类在OCLC模型中没有对应。不过,BIBFRAME“注释”现在包含结构化数据,可(p.10)描述评论、概要、封面图像及馆藏——多数在OCLC/Schema模型中有交替或更简化的陈述。正按照W3C的Web注释当前实施的工作,仔细评估BIBFRAME“注释”类。
如期望的,分析揭示在粒度上的差异。例如,如果评论有作者或出版者,或者如果一个封面图像有出处,BIBFRAME以结构化数据值描述该对象,定义带属性的“注释”类的一个RDF子类。在Schema.org中最明显的对应描述,典型地仅包含一个简单数据值,比如文字值或URL,不能表达如此细节。
在若干BIBFRAME概念的描述中有同样问题,比如题名和标识符。在BIBFRAME中,题名表达为文字串或结构化资源(包括主要题名、副题名、部分号及若干其他信息元素),而OCLC题名总是表达为文字串(通过属性schema:name)。但由于两个模型都允许题名表达为文字,因而有足够兼容性。标识符更复杂,在接下来的技术分析中将进行综合处理。OCLC的关联数据专家正探索以Schema.org表达BIBFRAME附加粒度的通用解决方案,并同时讨论如此是否总是有必要。

发现和保存的词表【BIBFRAME是为curation的词表,BiblioGraph是为发现的词表】
当然,BIBFRAME描述还会更详细,因为他们包含为专业保存的专门词表。例如,对同一幅LC馆藏天体图,分析BIBFRAME的一个手工描述与OCLC/Schema模型的一个算法生成描述,BIBFRAME描述包含技术术语bf:cartographicScale, bf:cartographicEquinox, bf:cartograpicAscensionAndDeclination。OCLC描述不包含这些术语,因为OCLC源记录未呈现这些信息,并且这些概念没有在Schema.org或BiblioGraph定义。这说明BIBFRAME关注词表开发,以支持对图书馆拥有的独特资源的升级的机器可理解描述,例如地图、乐谱、声像资料和档案。OCLC/Schema模型可指代这些描述,简单地增加包含BIBFRAME URI的“相同”断言强化其自身。但是,为生成可比较的描述,或通过OCLC的数据处理流而不丢失信息,OCLC/Schema模型必须直接使用BIBFRAME词表。这是图中所提及的BIBFRAME所提供的“描述深度”,对为发现优化的数据模型中可能将永远失去。
(p.11)在技术分析中,BiblioGraph作为推进从专家描述词表到发现词表的交通工具,在描述天体图中可能有其作用。例如,在Schema.org中“地图”被定义为一种资源,但所定义的属性清单太粗略,难以满足图书馆界管理需求。但BIBFRAME术语定义为RDF属性,采用BiblioGraph作为试验场,理论上可定位于schema:Map类。BiblioGraph中的表达可解释为一种声明,其他实践社区可能需要这些术语,将它们用作最终吸收进Schema.org的候选。还需要图书馆标准专家做很多分析,确定哪些术语有共同理解的语义,哪些是专门的,也许会得到结论,bf:cartographicScale可供更广泛使用,而其他可能不行。无论如何,BiblioGraph设计作为汇合这些分析结果的场所。

进一步校准的一些建议
由于可解决的技术与概念障碍,很多LC和OCLC关联数据模型间的共同基础还未开拓。这有待未来协作,但很多在技术分析中提及。包括:
OCLC
– 对BIBFRAME能但OCLC/Schema模型不能表达的粒度,开发与测试抓取的技术解决方案,证明OCLC能够导入导出BIBFRAME而不丢失信息
– 发布接受准则,定义BiblioGraph和范围,提出满足准则的BIBFRAME中定义术语。【直接采用BIBFRAME术语】
LC
– 产生指代OCLC“作品”标识符的BIBFRAME描述【增加BIBFRAME标识符?】
OCLC和LC合作
– 针对图书馆拥有的一个或多个资源类型,以BIBFRAME或Schema.org不宜描述的,比如地图或音像资料,开发并测试实施一个共同模型。
– 对一个给定词表术语(定义为RDF类或属性),图书馆数据需要而Schema中没有的,分析比较其在BIBFRAME和BiblioGraph中的使用。两个词表中是否都有,定义类似?BIBFRAME术语是否可(如BiblioGraph术语那样以相同方式)与Schema共同使用?
【白皮书结束,有参考文献】
===
相关博文:
关于2013年OCLC报告、OCLC与LC合作撰写关联数据白皮书:OCLC对BIBFRAME和Schema.org书目扩展的立场(2014年12月20日)
OCLC低调注册BiblioGraph.net扩展Schema.org(2014年12月1日)
解惑Schema书目扩展(2014年1月29日)
Schema.org的图书馆扩展(2012年6月22日)
关于WorldCat作品:OCLC以关联数据开放1.94亿书目作品(2014年2月27日)

LC联机目录中规范标目的RDA更新

CALIS下半年将做一次RDA培训,在准备我承担编写的会议部分时,发现LC目录中的规范已经是更新的了。比如:
现在的形式:CAV (Conference) (18th : 2006 : Seattle, Wash.)
原来的形式:CAV ’98 (10th : 1998 : Vancouver, B.C.)
AACR2时代要求在会议名称部分保留年份信息,当时就觉得很奇怪:一则导致同一种会议、不同届次名称不同,二则年份信息还重复出现。
按RDA的做法,会议无论是按单次做还是按连续出版物做,会议名称部分是一致的。附加的Conference根据的是RDA11.7.1.4:“如果团体首选名称不能表达团体概念,则用创建数据的机构首选的语言记录一个合适的标识。”

其实2013年3月31日RDA实施切换日,先决条件就是规范记录完成了更新(可自动更新部分)。只是我以为OCLC是更新了目录的,而LC只更新了规范库,大误矣。
今天看LC在2013年4月发布的“在LC目录中适应RDA而更改标目”的备忘,说明相比规范库,书目库更新可能稍有滞后。

Changes to Headings in the LC Catalog to Accommodate RDA
LC/NACO规范库分析(3类):
第1类:43.7万条记录需人工判断。2012年8月记录自动加上附注提醒编目员注意,其中有些已由编目员手工修改,另一些经确认无须修改。
第2类:95%没有因由AACR2切换至RDA而变化
第3类:可由程序自动转换。

LC联机目录在2013年3月对第3类进行更改:
1、扩展音乐作品的标目中的某些缩写,如“arr.”(arranged)、“acc.”(accompanied)、“unacc.”(unaccompanied)
2、修改某些音乐作品的标目,将演出媒介术语“violoncello”改为“cello”
3、修改《圣经》的标目:《旧约》、《新约》改用全拼,如“Bible. O.T.”改为“Bible. Old Testament”;如为单独的书,则省略中间的O.T.或N.T.,如《创世纪》:
原来:Bible. O.T. Genesis
现在:Bible. Genesis
4、修改《古兰经》的标目:由“Koran”改为更通用的音译形式“Qur’an”
5、修改含缩写“Dept.”的标目。AACR2时代就要求全拼,此次借机由程序更新。
6、某些个人名称附加的标目。AACR2和RDA的某些附加(如专业/职业)在格式上略有不同。如:
原来:Silva, Germano, journalist
现在:Silva, Germano (Journalist)
7、日期子字段中的缩写(个人、条约)改为拼写。包括:
a. 日期缩写:月份及世纪“cent.”(century)
b. 其他缩写:“ca.”(approximately)、“fl.”(active)。原来代表活动时期但无明确说明词的,要加上标记,如:
原来:Bacon, John, 17th cent.
现在:Bacon, John, active 17th century
c. 生卒年缩写“b.”和“d.”:去掉,以适当的“-”代替

以上7类中不含会议名称,大约是属于第1类吧。

[update 2014-8-19] 参见:LC/NACO规范记录RDA更新开始执行(2012年8月12日)

美国国会图书馆推荐格式规范(2014-2015)

美国国会图书馆(LC)日前推出《美国国会图书馆推荐格式规范(2014-2015)》(Library of Congress Recommended Format Specifications 2014-2015)。看标题直觉这类规范是针对数字资源的,没有想到竟然也包含印刷形式。看后觉得对印制品(书刊与照片)确实也有必要作出规定,LC或也由此表明对传统与数字的同等重视。图书馆在收藏保存或自建内容需确定格式时,本规范可以提供很好的指引。

LC的数字保存博客The Signal就此规范访谈了LC美国连续出版物采编部主任Ted Westervelt,对不少问题作了说明,见:
Recommended Format Specifications from the Library of Congress: An Interview with Ted Westervelt (June 23, 2014) by Trevor Owens

看规范导言,很深切地感受到LC的使命感:“本馆作为美国致力于国内外创作作品保存与提供访问的最重要机构,具有独特的地位;其基本目标之一是以其专业与知识,在其他机构实现其使命时提供支持与帮助”。因之此规范有两个主要目的:“其一,向LC提供内部指引,帮助馆藏资料的采访;其二,告知创作与图书馆界,确保保存与长期访问国内外创作作品的最佳实践”。
本规范从2011年开始制订。由于格式处于动态发展中,该规范将每年作评估,以与时俱进。

本规范分六个大类,其下再有若干细分:
1. Textual Works and Musical Compositions 文本和音乐作品
(1) Textual Works – Print 文本作品-印制
(2) Textual Works – Digital 文本作品-数字
(3) Textual Works – Electronic Serials 文本作品-电子连续出版物
(4) Digital Musical Compositions (score-based representations) 数字音乐作品(乐谱表示)
2. Still Image Works 静态图像作品
(1) Photographs – Print 照片-印制
(2) Photographs – Digital 照片-数码
(3) Other Graphic Images – Print 其他图像-印制
(4) Other Graphic Images – Digital 其他图像-数码
(5) Microforms 缩微品
3. Audio Works 音频作品
(1) Audio – On Tangible Medium (digital or analog) 音频-有形媒介(数字或模拟)
(2) Audio – Media-independent (digital) 音频-不依赖媒介(数字)
4. Moving Image Works 动态图像作品
(1) Motion Pictures – Digital and Physical Media 电影-数字与物理媒介
(2) Video – File-Based and Physical Media 视频-文件与物理媒介
5. Software and Electronic Gaming and Learning 软件和电子游戏与学习
6. Datasets/Databases 数据集/数据库
(1) Datasets 数据集
(2) Geospatial Data 地理空间数据
(3) Databases 数据库

择其要点笔记如下:
– 每种类型都分“首选”和“可接受”两种情况;同一内容或格式有多种选择时,再规定优先级。
– 对于文本印刷品,规定了用纸、印刷过程(优先度降序:平版印刷、数字印刷、喷墨打印)、装订、尺寸、版本(限量版、最多特性版本、彩色插图版)、完整性。——值得注意的是,“限量版”只在文本作品时优先,其他类型则以最广泛发行版本为先。
– 除文本印刷品外,都规定了元数据,通常包括:题名、创作者、创作日期、出版地、出版者/生产者/发行者,标识号(ISBN、ISSN、ISMN、ISRN、UPS、EIDR、ISAN等),联系信息;如有还可包括:作品语言,其他相关标识号(如DOI、LCCN等),版本、主题描述词、文摘。——值得注意的是,用“创作日期”而非通常的“出版/生产/发行日期”(对数字文本作品也如此)。
– 数字作品的内容与格式中,首选各种基于XML的格式
– 特别引人注目的是,数字作品的“技术措施”在“首选”与“可接受”两部分均规定“文档不能含控制数字作品访问或使用的措施(如数字版权管理或加密)”。前述访谈中,Ted Westervelt对此做了说明。另:本规范对电影“可接受”蓝光碟,博文留言指出无DRM与加密的蓝光碟少之又少。
软件等不但要求提供能够运行的平台(游戏可以是PC模拟器),还要求提供源代码及相应的编译软件——从长期保存及访问来说自然是必要的,但对其可行性存疑。

另外从规范中也了解到其他一些相关标准规范。除各种基于XML的格式外,特别有如下三种,备记于此:
NISO期刊文章标记套件(JATS, Journal Article Tag Suite (NISO Z39.96-2012):电子期刊内容格式。项目概览页
美国版权局“最佳版本说明“(Best Edition of Published Copyrighted Works for the Collections of the Library of Congress:在分类上与本规范有一定的相似性。LC有大量资料来自国内呈缴(从版权局收到),“本规范不是为了取代‘最佳版本说明’,而是加以补充,并提供更广泛的推荐集”。
美国联邦地理数据委员会(FGDC)“地理空间元数据标准”(Geospatial Metadata Standards,包括其采用的ISO标准,及其“数字地理空间元数据内容标准”(Content Standard for Digital Geospatial Metadata (CSDGM))