W3C图书馆关联数据孵化小组

W3C图书馆关联数据孵化小组(Library Linked Data Incubator Group)刚刚成立,为期一年,结束日期为2011年5月20日。创始主席:
Tom Baker(DCMI的CIO,一位德国人美国人)
Emmanuelle Bermes(法国国家图书馆)
Antoine Isaac(阿姆斯特丹VU大学计算机系博士后,欧洲数字图书馆计划Europeana科学协调员,W3C的SKOS社区联系人)
创始机构:来自芬兰、爱尔兰、马来西亚、英国、德国、荷兰以及美国,有熟悉的LC、OCLC和Talis……

———-小组章程———-
图书馆关联数据孵化小组的使命,是通过汇集图书馆界内外参与语义网活动(重点在关联数据)的人、基于现有创新举措、确定未来的合作轨迹,帮助提高图书馆数据在万维网上的全球互操作。
小组将探索如何以现有图书馆学的基石如元数据模型、元数据模式、标准与协议,建立互操作及图书馆系统与网络化环境,鼓励图书馆将其内容带向万维网的数据互操作,普遍地重新定位其方法,并达到其他社区。同时也将这些社区视为关联数据网规范数据集(个人、主题……)的潜在主要提供者。由于这些发展要求图书馆界围绕(语义)万维网标准共享标准化工作,小组将提炼所需的知识、表述标准与准则的需求,提出促进图书馆界向未来万维网标准化行动做出贡献的方向。
孵化器小组创始成员来自国家图书馆、大学图书馆及研究单位、图书馆供应商及其他感兴趣的利益相关人。其范围不仅限于图书馆,也有意包括其他文化遗产机构、出版业的合作伙伴及其他相关领域。

———-现有图书馆学的基石———-
对于“现有图书馆学的基石”,在“1、动机”中如此描述:
·元数据模式(MODS、MADS、METS……)
·图书馆元数据模型,现正进化到万维网(FRBR、FRAD、RDA……)
·建立与图书馆领域外互操作的标准与协议(OAI-ORE、SKOS、SRU/CQL……)
·(数字)图书馆系统由集成转向网络环境(European、WorldCat、VIAF项目……)

———-活动范围———-
·收集使用案例与个案研究,证明在图书馆与相关部门中语义网技术的成功实施
·培养有兴趣把文化资产移植到关联数据网的活动者(图书馆、博物馆、档案馆、出版者)之间的协作
·确定相关数据模型、词表和本体,以及建立或改善其互操作的方法
·确定对新标准、准则和最佳实践的细化要求
·确定可由小组所代表社区的专业知识受益的(语义)万维网技术范围
·提出接替小组所实施的开创工作的相关组织及其工作范围

———-成功标志———-
对图书馆领域及相关部门采用关联数据的原则与展望提出现状报告,对应当进一步开发什么标准与准则、为此应当建立什么组织有明确且得到认同的观点。
开发或评价特定的本体或词表不在小组范围之内。

———-成果———-
小组主要责任在于产生一个最终报告,表述在图书馆领域及相关部门中关联数据开发的状况,提出这些社区在未来W3C标准化活动中有效参与的方向。
其他可能包括在最终报告中的内容:
·用户案例文件,描述图书馆界与相关部门的真实使用案例、个案研究、推广与传播行动
·描述相关技术要件的文件,包括词表与本体(如SKOS),目的在于确定延伸或互操作需求,帮助确定可能需要的其他标准。

[update 2010-05-24] Via pinoke在书社会的分享

[update 2012-6-29] 小组最终报告及“数据集、属性值词汇及元数据元素集”和“用例”已由娄秀明译成中文

图书馆关联数据,哪些值得关注?

早在2008年,瑞典国家图书馆率先把瑞典联合目录LIBRIS发布为关联数据,使用了FOAF, SKOS, Bibliontology的混合体,以RDF实现了部分FRBR算法,并计划链接到外部,包括DBPedia/Wikipedia,以及本地主题到LCSH。[1]
2009年上半年,LCSH(id.loc.gov)与DDC(dewey.info)相继以SKOS发布。
2009年9月,OCLC把虚拟国际规范档VIAF(viaf.org)发布为关联数据,对URI采用HTTP 303重定向,采用FOAF。[2]
进入2010年4月,7日匈牙利国家图书馆宣布,其全部图书馆目录、数字图书馆馆藏及名称/主题规范数据发布为关联数据,书目RDFDC、人名规范foaf、主题词与地理名称skos。
16日德国国家图书馆宣布了采用关联数据的规范数据原型系统,个人名称规范FOAF,主题SKOS及DC,且已链接到Wikipedia、DBPedia及VIAF。[4]

图书馆发布关联数据意义何在,我们需要关注什么?Ed Summers,这位率先把LCSH发布为关联数据lcsh.info的LC雇员,针对最近的进展,提出“现在已经有足够的图书馆关联数据,可以审视使用模式,看是否有可以努力的新兴最佳实践”。并指出如下几点,认为尤其值得关注:[5]

What vocabularies are being used, and is there emerging consensus about which to use? 什么词表在被使用,有没有共识?
What licenses (if any) are associated with the data? 这些数据用什么许可(如果有的话)?
How much linking and interlinking is going on? 有多少链接及互链?
What sorts of mechanisms does the publisher offer for getting the data: sitemap, feeds, SPARQL, bulk download? 发布者提供什么机制来获取这些数据:网站地图、(RSS)种子、SPARQL、批量下载?
What is the quality of the data: granularity, link integrity, vocabulary usage. 数据质量如何:粒度、关联完整性、词表使用?
What approaches to identifiers for “real world things” have publishers taken: hash, slash, 303, PURLs, reuse of traditional identifiers, etc. 发布者采用什么方法给“真实世界物品”指定标识符:哈希表、斜杠(?)、(HTTP) 303、PURL、传统标识符重用等。
What are the relative sizes of the pools of library linked data? 整个图书馆关联数据相对规模有多大?
How are updates being managed? 如何管理更新?

注:
[1] Martin Malmsten: Swedish union catalogue available as Linked Data. GMANE, 2008-08-21.
http://article.gmane.org/gmane.culture.libraries.ngc4lib/4617
[2] Thom Hickey: VIAF as linked data. Outgoing, September 25, 2009.
http://outgoing.typepad.com/outgoing/2009/09/viaf-as-linked-data.html
[3] Hungarian National Library published its entire OPAC and Digital Library as Linked Data
http://lists.w3.org/Archives/Public/public-lod/2010Apr/0155.html
[4] Adrian Pohl: Linked Open Data prototype at the German National Library. NGC4LIB, 16 Apr 2010.
https://listserv.nd.edu/cgi-bin/wa?A2=ind1004&L=NGC4LIB&T=0&F=&S=&P=31709
[5] Ed Summers: research ideas for library linked data. INKDROID, April 18, 2010.
http://inkdroid.org/journal/2010/04/18/research-ideas-for-library-linked-data/

OCLC关于MARC的最新报告

Implications of MARC Tag Usage on Library Metadata Practices / Karen Smith-Yoshimura … Dublin, Ohio : OCLC, March 2010. 72 p. ISBN: 1-55653-378-0 (978-1-55653-378-5)
PDF下载 (778KB):http://www.oclc.org/research/publications/library/2010/2010-06.pdf

OCLC近年大量发布研究报告,才3月中旬,关于MARC的这份报告编号已是2010-06。
本报告是OCLC研究部活动“搜集证据说明MARC元数据实践需要改变”的成果,由RLG Partnership MARC Tag Usage Working Group在2008-2009年研究完成。2009年9月OCLC曾发布报告《联机目录:用户和馆员需要什么》,本报告是其延续。与其他OCLC报告不同的是,本报告由五个独立论题组成,每个论题由不同人撰写。[以下方括号中为本人观点]

1. Requirements for Enhanced Library Data Mining
OCLC首席科学家研究部Timothy J. Dickey撰写的报告引论,强调需要强化图书馆数据挖掘。[这也是OCLC近年来一直在做的事]

2. MARC Tag Usage in WorldCat
OCLC研究部的Karen Smith-Yoshimura分析2009年9月时,WorldCat数据库中1.45亿条书目记录中MARC 21字段的出现情况。[记得某大牛曾说过我很认同的话,不能根据现有记录中MARC使用情况,确定用户需要什么,决定未来用什么]

3. MARC Fields and Subfields Used in Machine Matching
剑桥大学的Hugh Taylor建立了五个集成数据库,即检索记录用的英国研究图书馆联合目录(RLUK)、COPAC(由RLUK数据库衍生的公共联合目录)、WorldCat、前RLG联合目录及澳大利亚图书馆目录(Libraries Australia),分析进行记录匹配的MARC字段的使用,并与合作编目计划(PCC)的BIBCO与CONSER标准、OCLC编目级别3(简编)记录规定的必备字段进行比较。[机器处理是未来的重点,不仅有大量载入或上传判重需要的联合目录需要关心]

4. Comparison of Search Interfaces and Data Elements
澳大利亚国家图书馆的Catherine Argus分析了五个集成数据库的MARC索引字段,包括AMICUS(加拿大全国联合目录)、COPAC、澳大利亚图书馆目录(Libraries Australia)、WorldCat.org及OCLC的FirstSearch。[传统的检索系统中不是所有MARC字段都做索引]

5. Encoding Level and Tag Occurrences in WorldCat
明尼苏达大学的Chew Chiat Naun按不同的编目等级,分析了WorldCat记录中的MARC字段。[简化编目?]

6. Relator Terms and Form/Genre Designations in MARC Tagging
OCLC研究部的Timothy J. Dickey与纽约公共图书馆(NYPL)的Peter Hirsch合作,比较了NYPL本地目录与WorldCat中形式/类别指示词(655$a)及责任关系词(1xx/7xx$e)的使用。[这两方面有助于目录实现FRBR化。责任关系词在MARC 21实践中曾被舍弃但现在又想重拾]

报告最前部分照例是Executive Summary,除介绍五个论题外,点出研究的主要发现[很多已经是老生常谈了]。列举部分如下:
WorldCat中只使用很小的MARC 21字段子集
即使包括非书格式常用字段,出现在10%以上记录中的仅21-30个字段
在基于MARC数据元素对记录进行机器匹配时,大家各行其事
用于记录匹配的共同字段只有:头标5个元素,4个定长字段(008,010,020,022),核心书目数据(1XX,245,246,250,260)。
尽管机器匹配系统一般使用核心字段与子字段,但某些时候需要超过核心范围,以验证匹配的准确性
不可低估使用MARC数据进行匹配算法的复杂性。[做过匹配的机构如CALIS对此肯定深有体会]
一般图书馆检索系统仅对字段的一个子集做索引
许多与某一类型文献相关的字段,对检索可能很有用,但未被本研究中的主要图书馆系统索引。[这是编目员的悲哀]
附注字段常用,但机器不一定擅长解释文本内容
大量使用通用附注500…其他附注字段5XX相对用得少。[机器无法识别是关于什么的附注。当要提高效率、简化编目时,不区分5XX、改入500是最常见的]
用编目等级作为依据选择“最完整”记录全然不可靠
[很多时候原始编目就用一个模板,编目员并不根据记录完整性更改头标]
目前图书馆系统抓取的检索日志数据,通常不能对用户行为提供足够信息
许多系统不能提供用户的检索字段,以及结果是否满足其提问。[命中情况,命中后点击详细记录情况,最终借阅情况?]

Executive Summary的第二部分:对图书馆MARC元数据实践的意义。对目前的编目实践有指导意义,摘录部分如下:
√ 满足本地用户的需求。用户希望你花时间点图版数,还是链接到目次或全文?[人人都明白,但…]
√ 未来几年网上提供全文的文献数量将持续增加,对“描述性元数据”的需要将减少。应专注于全文关键词检索不会提供的规范名称、分类和控制词汇。
√ 使用合适的字段反映资源。对特定类型附注使用特定的MARC字段,而不是通用的500附注。[目前CNMARC在实践中做得比较好,MARC 21由于LC的示范作用未能践行]
√ MARC数据不仅用于用户检索与识别,还用于出版物的机器匹配、链接、机器操作、收割、内容分析、排序、系统视图。在使用关联数据利用其他来源生成的更完整描述及其他相关信息的环境中,机器匹配用字段的精确性正变得越来越重要。[参看前述机器匹配字段,未来机器利用数据是重点]

Executive Summary的第三部分:MARC’s Future? 2009年末与Nalsi合写了一篇MARC未来的文章(预计将于3月刊出),因而对此特别关注。本报告或者说工作组的观点已由标题中的那个问号显示,但未来仍不明朗:
√ MARC是特定领域的数据通讯格式,正接近其生命周期的终点。
[此句经典,值得原文抄录:MARC is a niche data communication format approaching the end of its life cycle.]
√ 未来的系统,如果能够在FRBR所述方法上满足用户需求,并利用新的RDA标准所设想的关联数据的优势,将需要更关联的方法存储数据。MARC不是解决办法。
√ 未来的编码方案需要有一个强大的MARC转换对照表,以摄入现有成百上千万记录。
√ 自问:如果我们不必使用MARC,如果我们不局限于以MARC为中心的图书馆系统,我们会如何创建、抓取、建构、存储、检索及显示对象与元数据?
√ 考虑如何最佳利用关联数据的优势,避免创建相同冗余元数据。考虑传统图书馆环境外的来源。
√ 与其强化MARC及基于MARC的系统,不如与其他编码方案和系统互操作。我们必须满足其他信息体产生的信息需求。

参见:
新闻报道:New Report, “Implications of MARC Tag Usage on Library Metadata Practices” (2010-3-12)
工作组活动主页:OCLC Research activity: Gather Evidence to Inform Changes Needed in MARC Metadata Practices

参见:OCLC报告——联机目录:用户和馆员需要什么 (2009-04-25)

update 2010-05-14
OCLC网络会议主页(Webinar)有3月17日关于此报告的网络会议音频及文字记录,报告的几位撰写者与会。