关联数据词表管理

美国国家信息标准组织(NISO)的《信息标准季刊》(ISQ)自2011年起转为开放获取期刊,过刊也逐步回溯上网提供。最新一期为特刊《图书馆档案馆博物馆关联数据》
Information Standards Quarterly. Vol. 24, Issue 2/3 (Spring/Summer 2012). ISSN 1041-0031
Topic: Linked Data for Libraries, Archives, and Museums

本期由纽约大学元数据服务馆员Corey Harper担任客座内容编辑,专题文章“关联数据词表管理”:
Dunsire, Gordon, Corey Harper, Diane Hillmann, and Jon Phipps. Linked Data Vocabulary Management: Infrastructure Support, Data Integration, and Interoperability. Information Standards Quarterly, 2012 Spring/Summer, 24(2/3):4-13.

对全文意思把握不住。大致理解是:得到应用的元数据词表越来越多,在关联数据环境下其对照crosswalk/映射mapping/校准alignment更为复杂,需要探讨其管理问题。
以下只摘录若干事实,小标题为自拟提示,非照录原文。

应用纲要
(p.5) 2000年最早公开提出:Heery, Rachel, and Manula Patel. Application Profiles: Mixing and Matching Metadata Schemas. Ariadne, issue 25, September 24, 2000 [从该文看,源于UKOLN的DESIRE项目,希望在DC-8上推广]
(p.6) 实践则早自1999年:UKOLN DESIRE元数据注册,欧盟委员会资助的Schemas Project及其后继者CORES。

元数据注册
(p.6) 上述工具以registries著称。2002年DCMI发布其自己的元数据注册,由Heery和Wagner创始开发,其工作激发了很多其他注册,包括“开放元数据注册”。当前版DCMI注册是日本元数据基础体系注册、JISC信息环境元数据体系注册的基础。
(p.7) DCMI注册社区成立于1999年,成为讨论元数据注册的开发、管理和功能需求的集中地。2009年,UKOLN联合DCMI注册社区,进行一项元数据注册用户和所有者的调查,确认当前词表管理与注册间互操作的系统实践和功能需求。调查结果未出版,文中提供部分图表。

开放元数据注册(OMR)
(p.6) 始于NSF资助的美国国家数字图书馆项目──NSDL注册。现在扩展到图书馆界,存有RDA词表,IFLA的ISBD、FR家族模型,MARC21的RDF实验版。目前正致力于词表映射。
(p.8) RDA命名空间创建于2008年。截至2012年7月,元素集和很多取值词表仍处于不定状态。但由于状态和开发史可见,允许实验应用。
RDA命名空间的开发直接刺激了IFLA方面考虑其标准在语义网使用的潜力,因为RDA基于FR家族。ISBD正开发一个DC应用纲要,说明一条构造良好的ISBD的需求,包括元素的必备性、可重复状态,集成元素为高级说明,及取值词表来源。IFLA还在考虑翻译元素集和取值词表的最佳实践,因为它运作于多语言环境,其活动有7种官方语言。部分ISBD和FR家族命名空间已由英语译为西班牙和克罗地亚语。
复用RDA元素被排斥[?],因为自然流程是由模型细化应用。反之,ISBD不复用FR元素,因为对两个标准间的语义关系还没有完全一致的认识。受到校准ISBD和RDA元素以改进互操作工作的激励,已经开始讨论在IFLA和其他社区元数据元素间映射不受约束的命名空间:Dunsire, Gordon. Unconstrained namespaces. In: IFLA Namespaces Technical Group, IFLA Classification and Indexing Newsletter, no.45 (June 2012)(PDF)

欧洲国家图书馆发布目录数据的RDF表述
(p.8) 复用更为领域中性的词表DC、BIBO、FOAF,如LIBRIS、BL、剑桥大学。德国国家图书馆复用DC、FOAF、SKOS及RDA词汇。
(p.9) 特别是剑桥开放元数据项目(COMET),把所有转换工具、代码、过程均置于开源许可下。

元数据映射举例
(p.9) 图3:(书目资源的)数量RDA本体图(ISBD、FRBR、RDA、BIBO、MARC21、DC)

词表“校准”(Alignment)和DCMI词汇管理社区
(p.11) Michael Bergman在DC-2010的主旨报告,从词表激增的势头没有缓和的迹象,看到了对词表校准、同参引(co-referencing)和互操作的新兴需求。对“校准”的关注在某种程度上类似于已有的、在基于记录(通常为XML)的元数据结构间开发对照表(crosswalk)。词汇校准,识别个别元数据元素间的对应及其他关系类型,帮助这些属性应用于其来源词表环境之外。
然而,开放关联数据环境概念的扩展,我们面临的情况比开始所见的更为复杂。……DC-2011会前会……导致了DCMI词汇管理社区的成立。

关联开放词汇项目(LOV)
(p.11-12) Bernard Vatant及其团队收集了现有属性词表信息,探索其相互间关系,如某个是否基于另一个,或者给予扩展、普遍化,或声明和另一词表的等价物。LOV项目的研究成果应用:关联开放数据词表之元数据推荐(Metadata Recommendations For Linked Open Data Vocabularies, version 1.1, 2012-8-19)

DC与Schemar.org映射
(p.12) Bernard也提出建议在DC属性和schema.org词表之间做映射,DCMI的一个工作组正采用GitHub管理这样一个映射原型集:DC – Schema.org Mappings [目前对应6个类、27个属性]

via NISO Press Release: NISO Publishes Themed Issue of Information Standards Quarterly on Linked Data for Libraries, Archives, and Museums (10 Sep 2012)

图书馆标准巴别塔──Schema.org将图书馆连接到web

这是OCLC技术布道者Richard Wallis的观点。
Richard Wallis因关联技术加盟OCLC。在刚结束的IFLA赫尔辛基年会的关联数据圆桌会议(OCLC Linked Data Round Table)上,他在名为《图书馆关联数据进展》报告中宣布,WorldCat关联数据提供一个子集供下载。
参见:WorldCat关联数据子集批量下载(附OCLC的其他关联数据)(2012年8月21日)

报告前面部分列举IFLA 2010年会到2012年会的两年间,图书馆界发布的众多关联数据(附后,包括韩国国家图书馆),后面部分介绍OCLC发布的各个关联数据项目及ODC-BY许可。连接两者的,就是提出“图书馆标准巴别塔”(p.27),以及“Schema.org将图书馆链接到web”(p.61),说明WorldCat采用Schema.org及图书馆扩展的原因。

最近看了各图书馆发布关联数据所用命名空间,对“图书馆标准巴别塔”之说极为认同。Wallis在页面标出的图书馆标准有12个:Bibo, Dublin Core, EAD, FRAD, FRBR, FRSAR, ISBD, MARC, MARCXML, MODS, Onix, RDA;所列不列颠图书馆数据模型(PDF格式)中所采用的命名空间有14个:blt, rdf, rdfs, owl, xsd, dct, isbd, skos, bibo, bio, foaf, event, org, geo。因之OCLC的选择是放弃图书馆标准,采用搜索引擎的标准schema.org,并辅以OCLC的图书馆扩展(library extension,或也有望被纳入schema.org吧)。
参见:Schema.org的图书馆扩展(2012年6月22日)

Wallis的说法是:共享通往Web的道路(p.64):
Schema.org linking libraries to the web(Schema.org将图书馆链接到web)
no replacement for rich bibliographic metadata(不取代丰富的书目元数据)
easily consumed & merged across domains(易于跨域消费与合并)
a powerful complement to it(指图书馆扩展)

于是想,LC书目框架转换行动,会弄出一个什么样的模型呢?给巴别塔添砖加瓦吗,还是像schema.org那样来个一统图书馆天下?

PPT:Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012(有墙)
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012
Via Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012

会议其他报告:IFLA语义网特别兴趣小组(SWSIG)网站消息,Presentations from OCLC Linked Data round table available
(均在目前被墙的slideshare)
– Neil Wilson, British Library – http://www.slideshare.net/nw13/oclc-linked-data-roundtable-event-ifla-2012
– Emmanuelle Bermes, Centre Pompidou – http://www.slideshare.net/Figoblog/ifla-2012-oclc-linked-data-round-table
– Martin Malmsten, National Library of Sweden – http://www.slideshare.net/geckomarma/ifla-2012-oclc-semantic-web-roundtable

———-图书馆关联数据进展———-
Richard Wallis报告中列举的IFLA 2010年会到2012年会间发布的图书馆关联数据:
data.bnf.fr(法国国家图书馆)
datos enlazados en la BNE(西班牙国家图书馆)
Europeana Linked Open Data
Web NDL Authorities(日本国会图书馆)
LC Linked Data Service(美国国会图书馆)
The Open Library(thedatahub.org/dataset/openlibrary)
Zeitschriftendatanbank: Linked Data(德国:期刊资料库)
Linked Data Service of the German National Library(德国国家图书馆)
National Library of Korea: Linked Data(韩国国家图书馆)
VIAF
DDC
FAST Linked Data
British National Bibliography(英国国家书目)
W3C Library Linked Data Incubator Group
LC: Bibliographic Framework Transition Initiative
WorldCat

Schema.org的图书馆扩展

在WorldCat关联数据中看到library:,由Linked data at OCLC得知这是Schema.org的图书馆扩展,由OCLC研究办公室提出。

Experimental “library” extension vocabulary for use with Schema.org

目次
1. Introduction
2. Classes
3. Object Properties
4. Data Properties
5. Named Individuals
6. Annotation Properties
7. Namespace Declarations

其中2-6列举了扩展词汇:
2. 类 Classes(除Carrier载体,其他相当于文献类型)
(has super-classes: schema:CreativeWork)
档案资料 ArchiveMaterial
载体 Carrier(is in range of: has carrierop;has members:Bluray Disk, Cassette Tape, Compact Disk, DVD, Film Reel, LP, Microformni, VHS Tape, Volume, World Wide Web)
计算机文件 Computer File
游戏 Game
图像 Image
交互多媒体 Interactive Multimedia
套件 Kit
乐谱 Musical Score
报纸 Newspaper
期刊 Periodical
学位论文 Thesis(has super-classes: schema:Book)
玩具 Toy
视频 Video
电子游戏 VideoGame(has super-classes: Game)
视觉资料 Visual Material
网站 Web Site

3. 对象特性 Object Properties(用于著录/描述部分)
有载体 has carrier(has domain: schema:CreativeWork;has range: Carrier)
出版地 place of publication(has domain: schema:CreativeWork;has range: schema:Place)

4. 数据特性 Data Properties(专用于联合目录,尤其是WorldCat)
(has domain: schema:CreativeWork;has range: xsd:integer)
馆藏数 holdings count
OCLC控制号 oclcnum

5. 命名个体 Named Individuals(属于图书格式或载体,除了OCLC Research)
(belongs to: schema:BookFormatType或Carrier)
有声书 Audio Book
蓝光碟 Bluray Disk
盲文书 Braille Book
磁带 Cassette Tape
光盘 Compact Disk
持续更新书 Continually Updated Book
DVD
胶片 Film Reel
大字印刷本 Large Print Book
视盘 LP
缩微 Microform
OCLC Research(belongs to: schema:Organization)
VHS Tape
册 Volume(依据RDA?)
World Wide Web

6. 标注特性 Annotation Properties(用于著录/描述部分)
创作者 dc:creator
描述 dc:description
题名 dc:title
语义网词汇状态 vs:term_status

7. 命名空间声明 Namespace Declarations
除默认的http://purl.org/library/外,还用到dc, determs, foaf, owl, rdf, rdfs, schema, vs, xsd(XMLSchema)

附:Schema.org
1、Schema.org的对象(Thing)分为7类
创作作品 CreativeWork
事件 Event
无实体 Intangible(杂项,包括数量、数值、评级、语言等等)
组织 Organization
个人 Person
地点 Place
产品 Product

2、CreativeWork为最通用的创作作品类别,很多“创作作品”是图书馆通常处理不到的。包括:
文章 Article(其下包括:博文、新闻报道、学术论文)
博客 Blog
图书 Book
留言 Comment(在其他项如博文下的评论)
榜单 ItemList
地图 Map
媒介对象 MediaObject(其下包括:声音对象、图片对象、音乐视频对象、视频对象)
电影 Movie
音乐播放列表 MusicPlaylist (其下包括:音乐专辑)
音乐录音 MusicRecording
绘画 Painting
照片 Photograph
Recipe 食谱
述评 Review(独立发布的评论)
雕塑 Sculpture
软件应用 SoftwareApplication(其下包括:移动应用、Web应用)
电视剧集 TVEpisode
电视剧季 TVSeason
电视系列剧 TVSeries
网页 WebPage(其下包括:关于页、结算页、合集页{包括图片库、视频库}、联系页、单项页、个人资料页、检索结果页)
网页元素 WebPageElement(其下包括:网站导航元素、表、网站广告块、页脚、页头、侧栏)