利用关联数据、验证名称和主题(LC和VIAF)

MARC数据,除了控制字段,总意在被人而非机器消费与理解,如同早期HTML被人读,而非被机器理解”—— Nate Trail

最近BIBFRAME邮件组围绕LC新近提出的BIBFRAME修订建议展开热烈讨论。美国国会图书馆(LC)网络开发与MARC标准办公室的Nate Trail谈到,即使没有BIBFRAME,用“资源”代替“实体”的工作也可以开始:现在虽然仍使用MARC,但LC已经开始鼓励编目员在多个字段放LC控制号(LCCN)和其他标识符,而不是写出题名或实体名,这样系统已经可以做链接。——换言之,MARC也可以与关联数据结合。
Nate Trail提到“Terry Reese正在其MARC转换器中建立实体解析过程,把标识符转为链接”。顺邮件中的链接看Terry Reese的博文,发现MarcEdit 6利用LC关联数据服务(查询id.loc.gov),增加了验证名称与主题规范(1XX、6XX、7XX字段)功能。目前MarcEdit 6.1已经发布,“验证标目”功能已上线(与博文截屏大致相同)。

关于MarcEdit另见:MarcEdit的RDA助手(2013年1月29日)

———- MarcEdit 博文摘译 ———-
MarcEdit 6 Wireframes — Validating Headings (Aug 09, 2015)
在过去一年中,我花了很多时间,寻求集成很多成长中的关联数据服务到MarcEdit的途径。这些服务,主要围绕词表发展,提供某些有兴趣的机会,增强现有MARC数据,或者强化使用这些特定词表的本地系统。如在Bentley这样的例子,是计算机能够如何利用这些端点(endpoints)的真实世界证明。
在MarcEdit,至今我已经创建和测试链接工具近一年,我期望探索的领域之一,是图书馆是否能使用链接服务建立自己的规范工作流程。概念上,应该是可能的——存在必需信息……确实只是放在一起的问题。因此,这就是我正致力的。使用图书馆在MarcEdit中发现的关联数据,我正致力于创建一项服务,将帮助用户识别无效标目以及带这些标目的记录”。

MarcEdit Validate Headings: Part 2 (Aug 23, 2015)
验证标目工具加为MarcEditor的一个新报告,让用户取一个记录集,返回一个报告,详细了解多少记录有相应的LC规范标目。本工具设计验证在1XX、6XX和7XX字段中的数据。本工具设置只使用LC规范档查询标目和主题。在适当时候,我会寻求扩展到其他词表。
目前本工具必须在MarcEditor内部运行——尽管在未来某个时点,我会把此(工具)由MarcEditor抽出,提供一个独立功能,与其他命令行工具集成。
……
如果该值为变体(即非规范形式),结果报告“返回记录号、术语的标准化形式、当前LC首选术语及该术语的URL”:
Record #612
Term in Record: bible.–criticism, interpretation, etc., jewish
LC Preferred Term: Bible. Old Testament–Criticism, interpretation, etc., Jewish
URL: http://id.loc.gov/authorities/subjects/sh85013771
Heading not found for: Bible.–Criticism, interpretation, etc
……我马上会增加代码,让用户选择按报告更新变体标目。

———- Bentley的例子 ———-
博文中提及的Bentley,是密歇根大学Bentley历史图书馆。该馆的ArchivesSpace项目,使用Google Refine,通过VIAF API查询LC规范记录,增强档案记录中的名称和主题。其中还用到Python的FuzzyWuzzy库处理字符串的模糊匹配
代码主要采用GitHub上Matt Carruthers的:LCNAF-Named-Entity-Reconciliation
介绍博文(来自blogspot,有墙):
Arkheion and the Dragon: Archival Lore and a Homily on Using VIAF for Reconciliation of Names and Subjects (Friday, July 24, 2015)
Order from the chaos: Reconciling local data with LoC auth records (Friday, July 31, 2015)
Arkheion and the Dragon, part II

OCLC低调注册BiblioGraph.net扩展Schema.org

OCLC主导Schema.org的书目扩展W3C小组(Schema Bib Extend Community Group),原定自2012年9月起为期一年结束。从BIBFRAME邮件组中去年6月对OCLC关于BIBFRAME和Schema书目扩展报告(The Relationship between BIBFRAME and the Schema.org ‘Bib Extensions’ Model: A Working Paper / Carol Jean Godby. Dublin, Ohio: OCLC Research, 2013. (pdf,41页))的反映看,小组成员意见不一是显然的。由于进展不佳,正式提交的建议很少。看SchemaBibEx网站wiki部分,原来一、二个月一次的小组会议,到2014年2月后就已停止,内容也只更新到4月初。感觉OCLC已经放弃在此继续与其他参与者斗智斗勇了,但也没见什么依据。
偶而在OCLC网站2014年9月关于VIAF词表的一篇报道中,看到词表中有BiblioGraph.net域名,很是陌生。顺链接而去,发现了这个用来扩展Schema.org的网站。网站没有OCLC的LOGO,只是很低调地在服务条款(Terms of service)中说由OCLC主办。查得OCLC在4月16日注册了此域名,通过搜索引擎和OCLC网站查,竟然未见有过报道。OCLC如此低调处理,相当奇怪!

什么是BiblioGraph.net? 【有墙】
“本网站提供一组规范,用于描述图书馆和相关领域中书目和文化遗产资源与收藏的概念、实体和关系。基于schema.org词表,BiblioGraph.net增加在这些特定领域中特别重要的相关术语和实体。”

2012年OCLC发布WorldCat关联数据时,除了schema.org及其图书馆扩展外,还用到包括DC、FOAF、VIAF等在内的命名空间(Experimental “library” extension vocabulary)。此次注册BiblioGraph.net(命名空间简称:bgn:),意在未来将OCLC书目关联数据所用命名空间数量减小到最低2个:
BiblioGraph.net规范结构(Schema Structure
“本网站所描述的规范被汇集以反映共享原则,以及schema.org定义的核心类型和属性。BiblioGraph.net的编者将追踪schema.org已发布术语的变化,更新本网站加以反映。”
“当schema.org没有适当术语,会寻求来自SchemaBib Extend W3C社区小组的建议作为合适的选项。最后,术语加入BiblioGraph.net命名空间,常会有来自其他合适词表如DC、Bibo等的例子。目标是确保在BiblioGraph.net描述数据的命名空间数量在最小限度,优先为仅二个——schema: 和 bgn: ”。

这想法和BIBFRAME颇为相似,也就是说除了schema.org外,不重用其他命名空间,而是把其他词表术语纳入自己的命名空间。另外,所谓“寻求来自SchemaBib Extend W3C社区小组的建议”,应该更多的属于外交辞令。
从前面提及的那篇VIAF词表报道看(VIAF RDF Vocabulary Changes and Additions,03 September 2014),VIAF词表中原来来自DBPedia、RDA和FOAF命名空间的类与属性,纷纷被schema:取代,还新增了不少bgn:属性,据说体现在9月16日的VIAF更新中。看来规范(VIAF)比书目更早采用bgn——目前看WorldCat时,用的仍是二年前的library扩展。[update 2014-12-20 昨天访问,在某记录下已经看到两个bgn属性,但都不是取代library扩展的:一个是新增bgn:inSupportOf,一个是代替j.1:的bgn:Thesis]
另一个值得注意的是,VIAF新增了两个FRBR类(作品、内容表达),采用的不是IFLA官方版,而是2005年Ian Davis和Richard Newman的:Expression of Core FRBR Concepts in RDF。为什么bgn自己不定义?

VIAF扩展名称数据来源(及与ISNI的链接)

虚拟国际规范档(VIAF)于2012年4月成为OCLC的服务(参见:虚拟国际规范档移交OCLC,2012年4月5日),OCLC正不断地对其加以强化(参见:xA:OCLC扩展虚拟国际规范档,2012年4月18日)。以往向VIAF提交数据的主要是图书馆、尤其是国家图书馆,今年新公布的一项活动是“学者向VIAF贡献”:
Scholars’ Contributions to VIAF
OCLC方面通过此活动强化VIAF,主要是增加同一名称的不同形式,而学者方面一则可采用VIAF的URI作为其数据库等应用中涉及人物(作者)的永久标识,二则通过VIAF把名称方面的学术成果向更广泛的领域传播。同时对OCLC来说,采用VIAF URI的越多,其未来在语义网/关联数据这一领域的作用就越大。
在2013年5月VIAF委员会会议上,OCLC的Karen Smith-Yoshimura和范德比尔特大学(U. Vanderbilt)的David Michelson报告了近年来OCLC研究部与该校叙利亚研究学者的合作(试验),目的在于向VIAF已有名称中增加叙利亚文字,并增加新名称。叙利亚语是一种阿拉伯语方言,发源于公元一世纪的美索不达米亚王国,兴盛于波斯和罗马帝国,据称叙利亚文本是古希腊和古罗马之后四至七世纪的第三大遗存文字语料库。参见会议PPT:Scholars’ Contributions to VIAF(2013-05-02)
上月OCLC宣布了该活动的首个合作成果,加入珀尔修斯目录(Perseus Catalog)的古希腊和古罗马人物名称。或许由于珀尔修斯数字图书馆项目采用MADS作为名称规范元数据标准的缘故,数据导入与处理比较简单——OCLC本身对VIAF的扩展也采用MADS格式。

从VIAF网页看,由珀尔修斯目录新增加的名称放在交替名称形式(400字段)。如特米斯丢的VIAF页:
Themistius
在该网页中还可以看到国际标准名称标识(ISNI)的测试链接,链接到OCLC荷兰网站。而在ISNI官网查询(如查16位ISNI:0000 0001 0928 6445),得到的结果页面与OCLC荷兰显示的完全相同,其中也注明数据来自VIAF并有链接(还有其他一些没有链接的来源)。
不同来源的名称ID相互关联,无疑将促进网络名称规范控制。

via hangingtogether.org: First Scholars’ Contributions to VIAF: Greek! (2013-11-25)

[2013-12-10 update]参见OCLC正在进行的另一项名称规范活动:Registering Researchers in Authority Files,领头的是Karen Smith-Yoshimura,成员是Thom Hickey。原有的名称规范主要来自图书,论文等作者通常不在其列,这项野心勃勃的计划就是要一网打尽,形成完整的互联网名称规范。