VIAF扩展名称数据来源(及与ISNI的链接)

虚拟国际规范档(VIAF)于2012年4月成为OCLC的服务(参见:虚拟国际规范档移交OCLC,2012年4月5日),OCLC正不断地对其加以强化(参见:xA:OCLC扩展虚拟国际规范档,2012年4月18日)。以往向VIAF提交数据的主要是图书馆、尤其是国家图书馆,今年新公布的一项活动是“学者向VIAF贡献”:
Scholars’ Contributions to VIAF
OCLC方面通过此活动强化VIAF,主要是增加同一名称的不同形式,而学者方面一则可采用VIAF的URI作为其数据库等应用中涉及人物(作者)的永久标识,二则通过VIAF把名称方面的学术成果向更广泛的领域传播。同时对OCLC来说,采用VIAF URI的越多,其未来在语义网/关联数据这一领域的作用就越大。
在2013年5月VIAF委员会会议上,OCLC的Karen Smith-Yoshimura和范德比尔特大学(U. Vanderbilt)的David Michelson报告了近年来OCLC研究部与该校叙利亚研究学者的合作(试验),目的在于向VIAF已有名称中增加叙利亚文字,并增加新名称。叙利亚语是一种阿拉伯语方言,发源于公元一世纪的美索不达米亚王国,兴盛于波斯和罗马帝国,据称叙利亚文本是古希腊和古罗马之后四至七世纪的第三大遗存文字语料库。参见会议PPT:Scholars’ Contributions to VIAF(2013-05-02)
上月OCLC宣布了该活动的首个合作成果,加入珀尔修斯目录(Perseus Catalog)的古希腊和古罗马人物名称。或许由于珀尔修斯数字图书馆项目采用MADS作为名称规范元数据标准的缘故,数据导入与处理比较简单——OCLC本身对VIAF的扩展也采用MADS格式。

从VIAF网页看,由珀尔修斯目录新增加的名称放在交替名称形式(400字段)。如特米斯丢的VIAF页:
Themistius
在该网页中还可以看到国际标准名称标识(ISNI)的测试链接,链接到OCLC荷兰网站。而在ISNI官网查询(如查16位ISNI:0000 0001 0928 6445),得到的结果页面与OCLC荷兰显示的完全相同,其中也注明数据来自VIAF并有链接(还有其他一些没有链接的来源)。
不同来源的名称ID相互关联,无疑将促进网络名称规范控制。

via hangingtogether.org: First Scholars’ Contributions to VIAF: Greek! (2013-11-25)

[2013-12-10 update]参见OCLC正在进行的另一项名称规范活动:Registering Researchers in Authority Files,领头的是Karen Smith-Yoshimura,成员是Thom Hickey。原有的名称规范主要来自图书,论文等作者通常不在其列,这项野心勃勃的计划就是要一网打尽,形成完整的互联网名称规范。

MARC字段使用统计及可视化展示

MARC Usage in WorldCat(WorldCat中MARC使用)是OCLC研究部的一个项目(活动),由Roy Tennant主持,统计WorldCat中约3亿条书目记录所用MARC字段及子字段的出现频次,研究向WorldCat质量控制提供报告,结果也向美国国会图书馆的书目控制框架计划(Library of Congress Bibliographic Framework Transition Initiative)提供。
目前数据已公布在OCLC的实验网页(MARC Usage in WorldCat),可以从该项目页右侧的Try the online demo链接进入。
该网页主要是按字段列出WorldCat数据库中各字段(及部分子字段、指示符)的出现次数,有2013年1月1日、4月1日、7月1日和10月1日四个时间段。001字段应该是所有记录都有的,可以由此推知1月1日时书目记录为289,294,984条、馆藏为1,933,291,143条,10月1日时书目记录为305,793,670条,馆藏为2,063,992,259条——今年年中WorldCat实现了书目超3亿、馆藏超20亿。
可下载各字段的数据,也可在线请求未公布子字段的数据,但未见提供全部字段数据的下载。让人逐个字段下载实在比较无聊,各字段同时提供的数据图(Chart this Data)也没多大意思,但全部字段的可视化图做得很好,有按格式按字段两个图,前者从不同类型文献角度看各字段的出现次数及在其中所占比例,后者从字段角度看不同类型文献的出现次数及在其中所占比例(鼠标移到相应位置显示数值)。

All Formats: Zoomable Starburst - By Formats

All Formats: Zoomable Starburst – By Formats

 

 

 

All Formats: Zoomable Starburst - By Tags
All Formats: Zoomable Starburst – By Tags

 

 

 

 

 

 

 

 

 

via hangingtogether.org: Visualizations of MARC Usage (2013-12-2)

参见:OCLC Research to Study MARC Tag Usage in WorldCat to Determine Best Use of Data Encoded Using MARC Standard (2013-2-8)

OCLC元数据管理研究:食谱探测器与同种作品推荐

看到@银河发呆指南 8月7日在新浪微博上介绍OCLC发布食谱书目数据库Cookbook Finder,很是吸引人:“该书目库收录世界各国图书馆藏食谱及食物、营养相关图书数千种,检索途径有人物、地点、主题(如课程、配料、方法等),浏览途径有主题、作者,如果Hathi Trust或Gutenberg项目中有全文,记录将提供全文链接”。于是前往一观:

OCLC Research: Explore cookbooks and more from libraries around the world with new Cookbook Finder app (05 August 2013)
介绍称为app,其实并非手机应用,是WorldCat的一个实验项目,界面也与worldcat.org相似。从介绍看,最大的特点是基于FRBR的作品,worldcat.org也号称基于作品,除了内容有所限定外,两者在功能上有何不同呢?

食谱探测器(项目页面):Cookbook Finder
访问界面:WorldCat Cookbook Finder

在检索结果上,比worldcat.org明显有改进的是细览页下部:
相关作品推荐,包括同一作者作品及类似作品,显示图书封面。
相似作品采用称为“Kindred Works(同种作品)的实验服务,通过分类号、主题标目、体裁等检索相关资源。
同种作品推荐服务提供API(Recommender API),可面向个别成员馆馆藏做定制。
Kindred Works也有自己的网页界面,首页与Cookbook Finder很像:WorldCat Kindred Works

各种版本,列出同一作品其他版本的封面及基本书目信息,链接到worldcat.org(worldcat.org只在检索结果一览中显示版本数)
比较奇怪的是,与worldcat.org对照,两者汇集的版本并不相同,似乎采用了不同的算法。足见在没有作品ID的情况下,集中同一作品真不是件容易的事。以De’ Medici Stucchi, Lorenza, 1926- 的“Pizza”为例:
— Cookbook Finder汇集了1993-1996年之间的5个版本,其中2个为1993年的;另外在相关作品里还有一个同作者、同书名的,点击该记录链接到WorldCat,是同一出版社1992年的,似应计入成为第6个版本。
— 而在WorldCat中,同一OCLC控制号26404157下汇集的只是3个1993年的版本
两相对比,Cookbook Finder中少了澳大利亚1993年出版的记录(McMahons Point, N.S.W. : Weldon Owen),似也应加入成为第7个版本。

Cookbook Finder目前收录数显然已不止数千,查”food”的结果就有26097条。其中包括电子书记录,比如2.0鼎盛时期谷歌大厨所写的“Food 2.0”,就有电子书。可惜检索结果没有如worldcat.org那样按年份限定,无法方便找到年代较早的图书,也就不知道Hathi Trust或Gutenberg的图书以何种形式提供访问链接(记录在链接到WorldCat的细览页后,有“在线查找”,列出相应的电子资源,包括封面图片等相关资源)。

附记:Cookbook Finder与Kindred Works均属于OCLC研究部的元数据管理活动:Activities——Metadata Management,其中有近20项研究,包括FAST(主题数据术语分面应用)、Classify、WorldCat的MARC使用、Worldcat Identities等,均值得关注。