W3C图书馆关联数据孵化小组

W3C图书馆关联数据孵化小组(Library Linked Data Incubator Group)刚刚成立,为期一年,结束日期为2011年5月20日。创始主席:
Tom Baker(DCMI的CIO,一位德国人美国人)
Emmanuelle Bermes(法国国家图书馆)
Antoine Isaac(阿姆斯特丹VU大学计算机系博士后,欧洲数字图书馆计划Europeana科学协调员,W3C的SKOS社区联系人)
创始机构:来自芬兰、爱尔兰、马来西亚、英国、德国、荷兰以及美国,有熟悉的LC、OCLC和Talis……

———-小组章程———-
图书馆关联数据孵化小组的使命,是通过汇集图书馆界内外参与语义网活动(重点在关联数据)的人、基于现有创新举措、确定未来的合作轨迹,帮助提高图书馆数据在万维网上的全球互操作。
小组将探索如何以现有图书馆学的基石如元数据模型、元数据模式、标准与协议,建立互操作及图书馆系统与网络化环境,鼓励图书馆将其内容带向万维网的数据互操作,普遍地重新定位其方法,并达到其他社区。同时也将这些社区视为关联数据网规范数据集(个人、主题……)的潜在主要提供者。由于这些发展要求图书馆界围绕(语义)万维网标准共享标准化工作,小组将提炼所需的知识、表述标准与准则的需求,提出促进图书馆界向未来万维网标准化行动做出贡献的方向。
孵化器小组创始成员来自国家图书馆、大学图书馆及研究单位、图书馆供应商及其他感兴趣的利益相关人。其范围不仅限于图书馆,也有意包括其他文化遗产机构、出版业的合作伙伴及其他相关领域。

———-现有图书馆学的基石———-
对于“现有图书馆学的基石”,在“1、动机”中如此描述:
·元数据模式(MODS、MADS、METS……)
·图书馆元数据模型,现正进化到万维网(FRBR、FRAD、RDA……)
·建立与图书馆领域外互操作的标准与协议(OAI-ORE、SKOS、SRU/CQL……)
·(数字)图书馆系统由集成转向网络环境(European、WorldCat、VIAF项目……)

———-活动范围———-
·收集使用案例与个案研究,证明在图书馆与相关部门中语义网技术的成功实施
·培养有兴趣把文化资产移植到关联数据网的活动者(图书馆、博物馆、档案馆、出版者)之间的协作
·确定相关数据模型、词表和本体,以及建立或改善其互操作的方法
·确定对新标准、准则和最佳实践的细化要求
·确定可由小组所代表社区的专业知识受益的(语义)万维网技术范围
·提出接替小组所实施的开创工作的相关组织及其工作范围

———-成功标志———-
对图书馆领域及相关部门采用关联数据的原则与展望提出现状报告,对应当进一步开发什么标准与准则、为此应当建立什么组织有明确且得到认同的观点。
开发或评价特定的本体或词表不在小组范围之内。

———-成果———-
小组主要责任在于产生一个最终报告,表述在图书馆领域及相关部门中关联数据开发的状况,提出这些社区在未来W3C标准化活动中有效参与的方向。
其他可能包括在最终报告中的内容:
·用户案例文件,描述图书馆界与相关部门的真实使用案例、个案研究、推广与传播行动
·描述相关技术要件的文件,包括词表与本体(如SKOS),目的在于确定延伸或互操作需求,帮助确定可能需要的其他标准。

[update 2010-05-24] Via pinoke在书社会的分享

[update 2012-6-29] 小组最终报告及“数据集、属性值词汇及元数据元素集”和“用例”已由娄秀明译成中文

从Google图书搜索元数据错误说到数字化中元数据创建问题

    Nalsi本月开始把译文发到译言上,甚至没有同时发在自己博客Islander的西文编目笔记。译文大多是图书馆界的热点,“Google能使用OCLC的数据么?能,但是……”就是其中之一。原文”So, Can Google Use OCLC Records? Yes, But: Questions remain about the impact of WorldCat on Google’s metadata”发表在Library Journal (9/10/2009, 仅网站?)。
   
对GBS元数据的质疑始于加州大学伯克利分校信息学院的Geoffrey Nunberg,他在8月28日举行的Google Book
Settlement Conference上,列举了GBS中的元数据问题(Google Books: The Metadata Mess,PDF),诸如年份混乱、分类错误,而Google方面还不急于改进。他更指出GBS用只有3千主题的BISAC主题取代有20万主题的LCSH,数据并非来自图书馆,只适合书店、不适合学术使用。
作者另外发表了博文“Google Books: A Metadata Train Wreck” (August 29, 2009),其后又在The Chronicle Review上发表”Google’s Book Search: A Disaster for Scholars” (August 31, 2009),进一步阐述其观点。
    GBS的Jon Orwant在上述博文下长篇留言,指出元数据并非OCR而来。如前述译文,GBS的元数据来自不同机构,包括WorldCat及参与GBS的图书馆,Google员工所做的基本上只是在不同来源的元数据间做取舍。
    其实大家都知道,图书馆的元数据本身存在错误。分面OPAC出现后已将这些错误显性化,拥有大量图书的GBS或许更放大了这些错误,Thomas Claburn在Information Week上很夸张地说”Google Books Metadata Includes Millions Of Errors“(Sep 3, 2009)。
    Stephen’s Lighthouse在博文”The Google Books Metadata Debate” (September 8, 2009)中提供了很多讨论链接。最后举了Typo of the day for librarians这个专门讨论书目记录中各种拼写错误的博客为例,说明:Nobody’s perfect。

    Cataloging Futures的博主Christine Schwartz一直关注这场论讨,她则从中看到了图书馆面临的相同问题(Google’s metadata questions – they’re our questions also):

 · 元数据取自哪里?
 · 在数据化流程的哪个点抓取/创建元数据?

 · 如果外包元数据创建,是否自己做、如何做质量控制,或者由外包公司决定?

 · 元数据抓取/创建是一次性的过程,还是反复的过程?

 · 谁(或在自动抽取时,什么)创建元数据?

 · 在自动抽取过程后,是否做人工审核?

 · 在元数据创建中用户的职责是什么?

 · 如果有多个来源可选,什么是最佳来源?

 · 如果有多个记录可选,什么是最佳记录?能否自动选择?


另参见:
Coyle’s InFormation
GBS and Bad Metadata (September 07, 2009)
Google Books Metadata and Library Functions (September 15, 2009)

Cataloging Futures
Metadata problems at Google Books (September 03, 2009)
Google responses to metadata “mess” (September 08, 2009)
Google’s metadata questions – they’re our questions also (September 09, 2009)

充满娱乐性的世界数字图书馆

    世界数字图书馆(World Digital Library)昨日开张,之前之后看到的公开报道满是溢美之词。首页的地图展示内容、时间标尺限定内容,确实比较出彩。只是盛名之下,内容实在少得可怜——1170项。
    就目前来看,WDL充其量不过是个展示馆,可以看着玩玩,却不是实用的数字图书馆。如中国国家图书馆放上了镇馆之宝,《四库全书》提供在线浏览(含单页下载),《永乐大典》还另外提供PDF文件下载,看着是大手笔,实际内容不过是极少部分:在“物理描述”中《四库全书》标明五卷,结果似乎只有四卷,《永乐大典》如标明的为一卷。更说明其玩乐性质的是,无论在标题还是描述中,都没有说明所提供的是哪(些)卷册,需要看到图像才能了解。相比之下,日本国会图书馆提供的《源氏物语》倒标明了卷册。
    倡议者美国国会图书馆(LC)提供了最多内容,共505项,涉及中国的有21项,比如多件纳西象形文字。另《耕織圖》除可以在线浏览及PDF下载外,还有介绍视频,也是娱乐性的一部分吧。
    可以肯定,直接上参与机构的网站,获取的内容无疑会丰富得多。比如LC提供的505项与其网站上数以百万计的数字资源相比,几乎可以忽略不计。

附:WDL元数据(不含数字对象部分)
标题
描述
编纂人(链接浏览)
创建日期
出版地(不知道为什么标注皇帝纪年,如:朱棣(明成祖,永乐皇帝), 南京)
语言(链接浏览)
地点(多级链接浏览)
  非洲
  中亚与南亚
  东亚
  欧洲
  拉丁美洲与加勒比海
  中东与北非
  北美
  大洋洲与太平洋
  东南亚
  南极洲
  世界
时间(时间段链接浏览;首页下部有时间尺标)
  8000 公元前 – 499 公元
  500 公元 – 1499 公元(1000年)
  1500 公元 – 1699 公元(500年)
  1700 公元 – 1799 公元(200年)
  1800 公元 – 1849 公元(50年)
  1850 公元 – 1899 公元(50年)
  1900 公元 – 1949 公元(50年)
  1950 公元 – 2009 公元
专题(多级链接浏览)
  哲学 & 心理学
  宗教
  社会科学
  语言
  自然科学 & 数学
  应用技术
  艺术; 美术 & 装饰艺术
  文学 & 修辞
  历史 & 地理
其他关键字(链接浏览)
条目类型(链接浏览):图书、期刊、原稿、地图、影片、版画与照片、录音制品
物理描述
机构(收藏机构;链接浏览)

    从网页上看到的WDL元数据相当简单;时间取值是很粗放的年代段,主题(专题)取值也是用于格式化浏览的;也没有采用XML格式。