从Google图书搜索元数据错误说到数字化中元数据创建问题

    Nalsi本月开始把译文发到译言上,甚至没有同时发在自己博客Islander的西文编目笔记。译文大多是图书馆界的热点,“Google能使用OCLC的数据么?能,但是……”就是其中之一。原文”So, Can Google Use OCLC Records? Yes, But: Questions remain about the impact of WorldCat on Google’s metadata”发表在Library Journal (9/10/2009, 仅网站?)。
   
对GBS元数据的质疑始于加州大学伯克利分校信息学院的Geoffrey Nunberg,他在8月28日举行的Google Book
Settlement Conference上,列举了GBS中的元数据问题(Google Books: The Metadata Mess,PDF),诸如年份混乱、分类错误,而Google方面还不急于改进。他更指出GBS用只有3千主题的BISAC主题取代有20万主题的LCSH,数据并非来自图书馆,只适合书店、不适合学术使用。
作者另外发表了博文“Google Books: A Metadata Train Wreck” (August 29, 2009),其后又在The Chronicle Review上发表”Google’s Book Search: A Disaster for Scholars” (August 31, 2009),进一步阐述其观点。
    GBS的Jon Orwant在上述博文下长篇留言,指出元数据并非OCR而来。如前述译文,GBS的元数据来自不同机构,包括WorldCat及参与GBS的图书馆,Google员工所做的基本上只是在不同来源的元数据间做取舍。
    其实大家都知道,图书馆的元数据本身存在错误。分面OPAC出现后已将这些错误显性化,拥有大量图书的GBS或许更放大了这些错误,Thomas Claburn在Information Week上很夸张地说”Google Books Metadata Includes Millions Of Errors“(Sep 3, 2009)。
    Stephen’s Lighthouse在博文”The Google Books Metadata Debate” (September 8, 2009)中提供了很多讨论链接。最后举了Typo of the day for librarians这个专门讨论书目记录中各种拼写错误的博客为例,说明:Nobody’s perfect。

    Cataloging Futures的博主Christine Schwartz一直关注这场论讨,她则从中看到了图书馆面临的相同问题(Google’s metadata questions – they’re our questions also):

 · 元数据取自哪里?
 · 在数据化流程的哪个点抓取/创建元数据?

 · 如果外包元数据创建,是否自己做、如何做质量控制,或者由外包公司决定?

 · 元数据抓取/创建是一次性的过程,还是反复的过程?

 · 谁(或在自动抽取时,什么)创建元数据?

 · 在自动抽取过程后,是否做人工审核?

 · 在元数据创建中用户的职责是什么?

 · 如果有多个来源可选,什么是最佳来源?

 · 如果有多个记录可选,什么是最佳记录?能否自动选择?


另参见:
Coyle’s InFormation
GBS and Bad Metadata (September 07, 2009)
Google Books Metadata and Library Functions (September 15, 2009)

Cataloging Futures
Metadata problems at Google Books (September 03, 2009)
Google responses to metadata “mess” (September 08, 2009)
Google’s metadata questions – they’re our questions also (September 09, 2009)

公共域作品重印服务

    虽然可以免费下载电子书,但还是有人希望读印刷本。公共域作品重印服务(Public Domain Archive and Reprints service)就提供这样的按需印刷服务,提供公共域数字图书一站式检索,重印本每册最大16开、不超过700页,价格$4.99-18.99+$1管理费+运送费,一般24-48小时提供。它的免责声明很有意思:PLEASE NOTE: THERE IS NO WARRANTY OF ANY KIND. IF THE BOOK DOES NOT COME OUT THE WAY YOU EXPECT, DON’T BLAME US.

    一站式检索使用Google定制搜索,包括如下数字图书网站
完全支持(约270万种):
    * Internet Archive(约120万种,部分与Google Books重复)
    * Google Books(约150万种公共域图书)
    * OpenCRS(约1.9万种公共域作品,主要是国会研究服务部(Congressional Research Service)报告[研究美国对外政策很有用])

测试中(约100万种):
    * HathiTrust(约39万种公共域作品,部分与Google Books重复)
    * Universal Library(即“百万册图书”,约60万种公共域图书)

不包含:
    * Project Gutenberg(约2万种公共域图书)
    * WikiSource(约6.9万页)
    以上大概囊括了现有英文公共域图书网站。网站除Google定制检索外,还有浏览器工具栏、小书签(bookmarklet)检索工具,并有移动访问界面。
    对我们来讲,可用此网站的一站式搜索,然后点击链接到相关网站下载原文。或许是非美国IP的原因,查到的Google公共域图书有些无全文提供。
   
    提供公共域图书的网站一般要求非商业使用,本网站由Yakov Shafranovich以个人名义设立,为保证该服务的非赢利性质,Shafranovich宣称2007-2008年度利润均捐赠给Internet Archive──总共是$33.13,竟然精确到美分!(PublicDomainReprints.org Financials for 2007-2008)
    FAQ中提到一些流行概念,如:该服务使用按需印刷(Print on Demond)服务;维持费用包括租用商业云计算(cloud computing)服务的计算能力;用户订书时要注意书名(title)、版本(edition)与印本(reprint),分别对应FRBR的作品(work)、内容表达(express)、载体表现(manifestation)。
   
    网站还列出了其他7个公共域图书重印服务,包括康奈尔大学图书馆书店(康奈尔大学图书馆数字馆藏)和密歇根大学图书馆学术出版办公室(密歇根历史重印丛书),见识了图书馆加入出版业。拥有无版权特藏的图书馆,开展按需印刷服务应该是一个不错的考虑。

关联数据:官方版与山寨版(DDC和LCSH)

    关联数据(Linked Data)现在很火,似乎超出了其上位类语义网(Semantic Web)。在图书馆界,即将召开的DC-2009年会以”关联数据的语义互操作”为主题(数图研究笔记:DC-2009征文通知),而结束不久的ALA2009年会的“草根分会场”有一个“关联数据”主题场(数图研究笔记:ALA2009 Linked Data Session)。
    书目数据(含FRBR)、规范数据(词表、人名)等纷纷搭上关联数据。如:“瑞典联合目录”采用语义Web的最新技术——关联数据Linked Data的架构,开放其200多个成员馆超过650万条书目记录,以及20万条规范档(数图研究笔记:2008图林十大技术进展(上));OCLC的首席科学家Thom Hickey四月在博客上宣布,虚拟国际规范档(VIAF)不久也将提供关联数据(Changes to VIAF,参见:虚拟国际规范档XML格式

    尽管远洋过客、Keven、雨僧、Debra等做了很多普及和提高的工作,自己至今对关联数据还是没有什么感觉,连一知半解都谈不上。不过呢,还是要关注──最新消息是《杜威十进分类法》(DDC)也开始变身关联数据──dewey.info(Catalogablog: Dewey Classification as Linked Data)。现在有9种语言,包括中文。
    只是OCLC一如继往地小气,对DDC尤其如此,目前只开放了三级类号。官方介绍措辞也比较谨慎,只说是”Dewey Summaries as Linked Data“。
    早在四月,Bibliographic Wilderness就介绍过一个来历不明的DDC关联数据(DDC linked data?),并打赌这东西过多久会被OCLC叫停。刚又去看了一下这个山寨数据,网站后缀是是西班牙的(http://ontologi.es/decimalised/),数据很巧合地在8月20日做过更新,而OCLC的官方介绍页最后更新日期是8月19日。

    图书馆界最早大规模应用关联数据的实例,不知道是不是已成过去完成式的lcsh.infolcsh.info域名由美国国会图书馆(LC)的Ed Summers在2008年3月注册,采用SKOS把全部《美国国会图书馆标题表》(LCSH)变身为语义网应用(详见DC2008论文”LCSH, SKOS and Linked Data“),但在2008年底该服务被LC要求关闭,因为LC要做官方版的。
    官方版迟迟不见上线,英国TALIS公司把原lcsh.info的全部内容搬到了http://lcsubjects.org/,又做了个山寨版的。今年五月初,LC的正版LCSH关联数据终于上线(http://id.loc.gov/),并建立了官方讨论组:Authorities and Vocabularies Service Discussion List

[update 2009-9-20: 早在2007年,德国布劳恩斯魏克大学图书馆的B. Eversberg就根据书目数据库做了“浏览LCSH”系统(LCSH Browser)id.loc.gov上线后仍继续更新,因为后者只能搜索、没有浏览功能。参见:Web化DDC·浏览LCSH (2007-11-10)]

关于Linked Data,参见:
维基百科词条:Linked Data
译言:怒放的关联数据:你为什么应该关注?
(ReadWriteWeb原文:Linked Data is Blooming: Why You Should Care
数图研究笔记的Linked Data标签或关联数据标签(如:关联数据FAQ


关联的数据 (Linked Data)–1. Linked Open Data (LOD) 关联的数据 (Linked Data)–2. 关联的图书馆数据Linked Library Data

LCSH的SKOS应用,参见:
雨僧Library 2 Review:山寨了一次LCSH(用了国会图书馆的Authorities
and
Vocabularies服务来向学生们介绍概念之间的关系,检索一个词,然后以图形动画的方式显示出来,非常直观──此文不知何故被删除)
雨僧Library 2 Review:玩死她!(解析美国国会主题词表RDF文件的测试)
秋聲 Blog:LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)


语义网及关联数据的图书馆应用,参见:
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(上)
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(下)
秋聲 Blog:編目朝向語意網邁進(一)
秋聲 Blog:編目朝向語意網邁進(二)