从Google图书搜索元数据错误说到数字化中元数据创建问题

    Nalsi本月开始把译文发到译言上,甚至没有同时发在自己博客Islander的西文编目笔记。译文大多是图书馆界的热点,“Google能使用OCLC的数据么?能,但是……”就是其中之一。原文”So, Can Google Use OCLC Records? Yes, But: Questions remain about the impact of WorldCat on Google’s metadata”发表在Library Journal (9/10/2009, 仅网站?)。
   
对GBS元数据的质疑始于加州大学伯克利分校信息学院的Geoffrey Nunberg,他在8月28日举行的Google Book
Settlement Conference上,列举了GBS中的元数据问题(Google Books: The Metadata Mess,PDF),诸如年份混乱、分类错误,而Google方面还不急于改进。他更指出GBS用只有3千主题的BISAC主题取代有20万主题的LCSH,数据并非来自图书馆,只适合书店、不适合学术使用。
作者另外发表了博文“Google Books: A Metadata Train Wreck” (August 29, 2009),其后又在The Chronicle Review上发表”Google’s Book Search: A Disaster for Scholars” (August 31, 2009),进一步阐述其观点。
    GBS的Jon Orwant在上述博文下长篇留言,指出元数据并非OCR而来。如前述译文,GBS的元数据来自不同机构,包括WorldCat及参与GBS的图书馆,Google员工所做的基本上只是在不同来源的元数据间做取舍。
    其实大家都知道,图书馆的元数据本身存在错误。分面OPAC出现后已将这些错误显性化,拥有大量图书的GBS或许更放大了这些错误,Thomas Claburn在Information Week上很夸张地说”Google Books Metadata Includes Millions Of Errors“(Sep 3, 2009)。
    Stephen’s Lighthouse在博文”The Google Books Metadata Debate” (September 8, 2009)中提供了很多讨论链接。最后举了Typo of the day for librarians这个专门讨论书目记录中各种拼写错误的博客为例,说明:Nobody’s perfect。

    Cataloging Futures的博主Christine Schwartz一直关注这场论讨,她则从中看到了图书馆面临的相同问题(Google’s metadata questions – they’re our questions also):

 · 元数据取自哪里?
 · 在数据化流程的哪个点抓取/创建元数据?

 · 如果外包元数据创建,是否自己做、如何做质量控制,或者由外包公司决定?

 · 元数据抓取/创建是一次性的过程,还是反复的过程?

 · 谁(或在自动抽取时,什么)创建元数据?

 · 在自动抽取过程后,是否做人工审核?

 · 在元数据创建中用户的职责是什么?

 · 如果有多个来源可选,什么是最佳来源?

 · 如果有多个记录可选,什么是最佳记录?能否自动选择?


另参见:
Coyle’s InFormation
GBS and Bad Metadata (September 07, 2009)
Google Books Metadata and Library Functions (September 15, 2009)

Cataloging Futures
Metadata problems at Google Books (September 03, 2009)
Google responses to metadata “mess” (September 08, 2009)
Google’s metadata questions – they’re our questions also (September 09, 2009)

充满娱乐性的世界数字图书馆

    世界数字图书馆(World Digital Library)昨日开张,之前之后看到的公开报道满是溢美之词。首页的地图展示内容、时间标尺限定内容,确实比较出彩。只是盛名之下,内容实在少得可怜——1170项。
    就目前来看,WDL充其量不过是个展示馆,可以看着玩玩,却不是实用的数字图书馆。如中国国家图书馆放上了镇馆之宝,《四库全书》提供在线浏览(含单页下载),《永乐大典》还另外提供PDF文件下载,看着是大手笔,实际内容不过是极少部分:在“物理描述”中《四库全书》标明五卷,结果似乎只有四卷,《永乐大典》如标明的为一卷。更说明其玩乐性质的是,无论在标题还是描述中,都没有说明所提供的是哪(些)卷册,需要看到图像才能了解。相比之下,日本国会图书馆提供的《源氏物语》倒标明了卷册。
    倡议者美国国会图书馆(LC)提供了最多内容,共505项,涉及中国的有21项,比如多件纳西象形文字。另《耕織圖》除可以在线浏览及PDF下载外,还有介绍视频,也是娱乐性的一部分吧。
    可以肯定,直接上参与机构的网站,获取的内容无疑会丰富得多。比如LC提供的505项与其网站上数以百万计的数字资源相比,几乎可以忽略不计。

附:WDL元数据(不含数字对象部分)
标题
描述
编纂人(链接浏览)
创建日期
出版地(不知道为什么标注皇帝纪年,如:朱棣(明成祖,永乐皇帝), 南京)
语言(链接浏览)
地点(多级链接浏览)
  非洲
  中亚与南亚
  东亚
  欧洲
  拉丁美洲与加勒比海
  中东与北非
  北美
  大洋洲与太平洋
  东南亚
  南极洲
  世界
时间(时间段链接浏览;首页下部有时间尺标)
  8000 公元前 – 499 公元
  500 公元 – 1499 公元(1000年)
  1500 公元 – 1699 公元(500年)
  1700 公元 – 1799 公元(200年)
  1800 公元 – 1849 公元(50年)
  1850 公元 – 1899 公元(50年)
  1900 公元 – 1949 公元(50年)
  1950 公元 – 2009 公元
专题(多级链接浏览)
  哲学 & 心理学
  宗教
  社会科学
  语言
  自然科学 & 数学
  应用技术
  艺术; 美术 & 装饰艺术
  文学 & 修辞
  历史 & 地理
其他关键字(链接浏览)
条目类型(链接浏览):图书、期刊、原稿、地图、影片、版画与照片、录音制品
物理描述
机构(收藏机构;链接浏览)

    从网页上看到的WDL元数据相当简单;时间取值是很粗放的年代段,主题(专题)取值也是用于格式化浏览的;也没有采用XML格式。

读《元数据》(预告篇)

    曾说了很多次编目员宜转型做元数据图书馆员,其实自己对元数据所知甚少。做花生壳“关于内容编码体系及规范控制的问卷小调查”,弄得自己信心全无,于是说她的问卷题目不厚道,其实是宣称自己很无知。

 

    最近开始读曾蕾与秦健教授的Metadata,感觉这本教科书对我这样只有零碎的元数据知识的读者,很是适用。比如以往对Keven常挂口中的“应用纲要”没有任何感觉,现在总算理解了。再比如,刚开始接触数字图书馆时,发现到处都是“最佳实践”或者“良好实践”,现在也多少知道其语境了。自然,花生壳眼里的基础题现在也难不倒我了。
    因此,大言不惭地说,作者真是送对人啦 🙂 虽然书到手两个月才开始读,到现在为止还只看完第三章(阅读速度每晚10页左右),并且其余的一多半看来还要过些日子才会继续读,感觉很是对不起两位 🙁
    全书看完,将写读后感若干,先做广告在此。

参见:《元数据》与metadataetc.org (2008-07-12)