从Google图书搜索元数据错误说到数字化中元数据创建问题

    Nalsi本月开始把译文发到译言上,甚至没有同时发在自己博客Islander的西文编目笔记。译文大多是图书馆界的热点,“Google能使用OCLC的数据么?能,但是……”就是其中之一。原文”So, Can Google Use OCLC Records? Yes, But: Questions remain about the impact of WorldCat on Google’s metadata”发表在Library Journal (9/10/2009, 仅网站?)。
   
对GBS元数据的质疑始于加州大学伯克利分校信息学院的Geoffrey Nunberg,他在8月28日举行的Google Book
Settlement Conference上,列举了GBS中的元数据问题(Google Books: The Metadata Mess,PDF),诸如年份混乱、分类错误,而Google方面还不急于改进。他更指出GBS用只有3千主题的BISAC主题取代有20万主题的LCSH,数据并非来自图书馆,只适合书店、不适合学术使用。
作者另外发表了博文“Google Books: A Metadata Train Wreck” (August 29, 2009),其后又在The Chronicle Review上发表”Google’s Book Search: A Disaster for Scholars” (August 31, 2009),进一步阐述其观点。
    GBS的Jon Orwant在上述博文下长篇留言,指出元数据并非OCR而来。如前述译文,GBS的元数据来自不同机构,包括WorldCat及参与GBS的图书馆,Google员工所做的基本上只是在不同来源的元数据间做取舍。
    其实大家都知道,图书馆的元数据本身存在错误。分面OPAC出现后已将这些错误显性化,拥有大量图书的GBS或许更放大了这些错误,Thomas Claburn在Information Week上很夸张地说”Google Books Metadata Includes Millions Of Errors“(Sep 3, 2009)。
    Stephen’s Lighthouse在博文”The Google Books Metadata Debate” (September 8, 2009)中提供了很多讨论链接。最后举了Typo of the day for librarians这个专门讨论书目记录中各种拼写错误的博客为例,说明:Nobody’s perfect。

    Cataloging Futures的博主Christine Schwartz一直关注这场论讨,她则从中看到了图书馆面临的相同问题(Google’s metadata questions – they’re our questions also):

 · 元数据取自哪里?
 · 在数据化流程的哪个点抓取/创建元数据?

 · 如果外包元数据创建,是否自己做、如何做质量控制,或者由外包公司决定?

 · 元数据抓取/创建是一次性的过程,还是反复的过程?

 · 谁(或在自动抽取时,什么)创建元数据?

 · 在自动抽取过程后,是否做人工审核?

 · 在元数据创建中用户的职责是什么?

 · 如果有多个来源可选,什么是最佳来源?

 · 如果有多个记录可选,什么是最佳记录?能否自动选择?


另参见:
Coyle’s InFormation
GBS and Bad Metadata (September 07, 2009)
Google Books Metadata and Library Functions (September 15, 2009)

Cataloging Futures
Metadata problems at Google Books (September 03, 2009)
Google responses to metadata “mess” (September 08, 2009)
Google’s metadata questions – they’re our questions also (September 09, 2009)