Our Space:元数据的新世界

    OCLC总裁们近来喜欢用Our Space命名自己的PPT。上回总裁Jay Jordan在上图的报告用此名,后来得知还有其他同名版本。这回WorldCat和元数据服务副总裁Karen Calhoun在IFLA年会上的报告也用此名:OUR Space: the new world of metadata。这个our很暧昧,OCLC抑或图书馆界?

    当年还在康奈尔大学的Karen曾受LC委托,于2006年发布研究报告“改变目录性质并与其他发现工具集成”,引起轩然大波。在本PPT中,Karen举出LC在馆庆二百年之际召开的新千年书目控制会议后的行动计划LC Action Item 6.4:“支持改变目录性质的研究与开发,考虑与其他发现工具集成的框架”(p.3),可见当初也是师出有名的。
    图书馆目录被视为第一个自助服务的信息工具(p.2)。按“地心说”,图书馆界以为本地目录是太阳;而据“日心说”,本地目录不过是颗行星(p.5)[此图已在OCLC的PPT中出现过多次,托勒密的地心说不知为何成了亚里斯多德的]。联机目录只是最终用户信息环境中的一个节点(p.4)。
    引用两部名著,说明信息业对元数据的认识:Tim O’Reilly在“什么是Web2.0”中认为,“数据是下一个Intel Inside”;David Weinberger在《Everything Is Miscellaneous》中说,“数字世界……从不会遇到丁点它不喜欢的信息”(p.7)。
    三个实例:
· ebay用复杂的Web模板与索引支持用户提供的元数据(p.8);
· HousingMaps利用Google地图与craigslist做房屋租售,采用复混、重用、混搭的Web2.0元数据管理(p.9);
· 亚马逊联机阅读使用元数据+全文检索(p.10)。

    对于什么是“完整”记录,编目员与亚马逊显然有不同理解(p.11)。
    元数据的基本模式已经改变,除了图书馆元数据实践中的题名等等,还有其他属性:如何获取、版权、销量、流通量、禁书、获奖、引用、评论(出版者、读者)、作者信息、其他版本、技术元数据、标识号、相关作品、博客谈论、用户标签、衍生作品等等(p.12)[不就是亚马逊的元数据么]。
    要改变图书馆元数据的内容。模仿公元前后,分为Web前后(B.W.和A.W.),Web后,要松散耦合的元数据管理,在多个存储间重用及交换服务混合手工和自动创建、元数据抽取、转换、映射、摄入与传递服务(p.13)。

    馆藏已然改变(p.14-15),研究图书馆协会成员馆2004-2006在电子期刊上的支出逐年超过印刷专著,2006年电子期刊占资料费36.6%,专著占21.6% (p.16)。几个其他类型的实例:
· 机构库,如魁北克大学蒙特利尔校区的archipel (p.17);
· 学术门户,如开放存取的arXiv.org (p.18);
· 开放的科学研究,如巴西科技部的IBICT电子学位论文,也收录于WorldCat(p.19);
· 新数字馆藏,如欧洲数字图书馆、博物馆、档案馆Europeana(p.20);
· 图书馆特藏开始见天日(p.21-22),LC书目控制未来工作组报告On the Record提出“强化对珍稀及其他不可见特藏的访问”(p.23-24)。

    信息搜索已然改变(p.25),大学的研究、教学内容正在改变(p.26),学术交流形式改变(p.27),而今后的学生……(p.28)

    瑞典Lund大学调查,新学术图书馆用户的五大期望,总结下来就是远程、独立使用(p.29)。

    由此得出结论:元数据、馆藏、信息搜寻者均已改变。这对图书馆的元数据传统与实践意味着什么(p.30)?图书馆元数据面临的挑战:搜索引擎篡夺图书馆目录?Google图书篡夺图书馆目录?如果图书馆不改变,如何支持其馆藏的发现与传递?(p.31)

    共64页PPT,接下来基本上是OCLC广告时间。
    本博曾为OCLC做过不少广告,可参见,不再重复。

Via Metalogue: OUR Space: The New World of Metadata
PPT浏览/下载:OUR Space: the new world of metadata / Karen Calhoun. IFLA, 13 August 2008     

关于OCLC产品参见:
Our Space──OCLC总裁在上海图书馆的报告 (2008-6-16)
OCLC的新一代编目产品 (2008-06-23)
网络级编目/Web范围编目(Network Level/Web-Scale Cataloging) (2008-01-31)

关于Karen Calhoun参见:
最新研究报告:改变目录性质、与其他发现工具集成 (2006-4-11)
美国国会图书馆正在发生什么――要数字资源还是实体资源?(2006-07-24)
OCLC的新副总裁:Karen Calhoun (2007-03-27)

LibraryThing免费提供百万图书封面

    LibraryThing在8月初收录图书超过了三千万(册,愈350万种),而用户上载的图书封面也超过了一百万,于是Tim Spalding秉承一贯的开放数据理念,开始提供图书封面API,面向图书馆、书店及所有人。图书馆OPAC又多了一个封面来源。

    使用该服务要求注册一个LibraryThing帐号,并获取一个Developer Key,然后用ISBN即可获取封面。封面有大(large)、中(medium)、小(small)三个选项,如下为中的例子:
<img src="http://covers.librarything.com/devkey/KEY/medium/isbn/0545010225">

    出于对网站访问压力的控制,LibraryThing要求一个网站每天请求次数不超过10005000次;如果用程序自动获取,每秒还不能多于1个封面。并且不要求回链,还推荐将封面保存下来使用──前提一不批量转让,二不是竞争对手。详见其服务条款(LibraryThing Developer Profile)。

    由于不是所有图书都有ISBN,所以目前可通过ISBN提供的封面为91万多。大概用户提供的封面以通俗作品为多,比较适合公共图书馆,所以在专业图书馆工作的David发现,他试着加了37个封面链接,LibraryThing竟然一个都没有。

    Amazon早就有免费的封面服务,且封面数量更多,还不限制每天的请求数。那么,作为一个社会性编目网站,提供这一服务目的何在呢?Tim的回答是,半推广、半行善。
    由于Amazon提供免费服务的目的是推销,故而服务协议(Amazon Web Services™ Customer Agreement)要求回链(见5.1.7;且不能保留图片,见5.1.11),并可以此获得收益(Join Associates),这对于作为公益机构的图书馆就有所顾忌。
    图书馆如果选择商业封面供应商,需要花钱;如果直接上出版社网站下载封面,则需要花人力。
    LibraryThing一直以来发展不错,因而有信心用一定量的带宽负载提供这样的服务。Tim声称“偶行善”好过Google的“不做恶”(more "Do occasional good" than "Do no evil.")

    最终目的?Tim也很坦诚,希望出版社等能够了解其作用,进而愿意提供高质量的封面等信息,而不仅仅依赖用户提供因而清晰度等不能保证的图片。

    这是LibraryThing提供的第四项Web服务(LibraryThing APIs)。澳大利亚国家书目数据库搜索原型系统(Lucene NBD Search Prototype)就采用了其API,提供LibraryThing的收藏册数及用户评级(星数),显示在Google图书信息之后。

参见:
LibraryThing Blog:  A million free covers from LibraryThing (August 07, 2008)
Catalogablog: Free Covers from LibraryThing (August 11, 2008, Update 12 Aug. 2008)

[update 2008-8-14] LibraryThing已经将请求限制提高到了5000。各方也有积极反应:
· Art Zemon发布了一个简单的用PHP写的LibraryThing封面保存脚本(LibraryThing covers caching script)
· Alejandro Garza提供了Millennium系统使用LibraryThing封面的指导(要求用Millennium Module for Drupal),在留言中有实例(看着也是分面OPAC呢),并说明命中率只有0.18%──因为这是家墨西哥的生命科学图书馆,多是西班牙语图书。
· Library Journal网站上发表了Josh Hadro的文章介绍此事LibraryThing Releases One Million Free Covers

参见:
Thing-ology: More on covers (August 12, 2008)
Cheerful Curmudgeon: Caching Free LibraryThing Book Covers (August 11th, 200)
Stupendous Amazing Library: A million free covers from Library Thing (August 12, 2008)
Library Journal (8/12/2008): LibraryThing Releases One Million Free Covers / Josh Hadro

《元数据》与metadataetc.org

    曾蕾与秦健教授新作《元数据》6月出版:
Metadata / Marcia Lei Zeng and Jian Qin

                        
New York: Neal-Schuman, 2008.        London : Facet Publishing, 2008.
ISBN 9781555706357 (US)                   ISBN 9781856046558 (UK)

    想着什么时候有中文版呢,试译目录[2008-7-13根据内容大纲中文版wiki更正、增加部分翻译,wiki上有完整目次]:

第1部分 元数据基础 Fundamentals of Metadata
第1章 导论
第2章 当前标准
2.1 通用元数据(DC, MARC系列)
2.2 文化物件与可视资源元数据(CDWA, CDWA Lite, VRA Core)
2.3 教育资源元数据(LOM)
2.4 档案与保存元数据(EAD)
2.5 版权管理元数据(copyrightMD, ODRL)
2.6 科技资源元数据
2.7 多媒体元数据(PBCore)
2.8 人物、代理的元数据描述(VCARD, FOAF)

第2部分 元数据构建 Metadata Building Blocks
第3章 Schemas:结构与语义
第4章 Schemas:句法
第5章 元数据记录

第3部分 元数据服务 Metadata Services
第6章 元数据服务
第7章 元数据质量检测与改进
第8章 实现元数据互操作
 
第4部分 元数据研究展望 Metadata Outlook in Research
第9章 元数据研究概观

附录:资源与参考源 Sources and References
A. 元数据标准–元数据表、应用纲要、注册站 Metadata Standards — Metadata schemas, application profiles, and registries
B. 受控词表和内容标准 Value Encoding Schemes and Content Standards
C. 术语

    目录译自www.metadataetc.org的《元数据》教科书部分,有各章阅读书目及练习,以及附录A与B──没看到书,看附录也能增长不少知识。

    曾教授对www.metadataetc.org的介绍同样值得一看(《元数据》教科书和网页“出炉”)。除了网站三大部分(上述《元数据》教科书部分、wiki部分、元数据教学BBS),令人感兴趣的还有网站背景云图及制作方法(生成软件http://tagcrowd.com/),“本月图片”敦煌莫高窟第407窟“隋三兔藻井”──顺着链接Three Hares Homepage看这三个共用三只耳朵兔子的网站,原来世界各地都有呢,这比看wiki部分的SKOS中文翻译有意思多了:)──期待下月的图片了,因为不只是图片啊。另:建议为image of the month存档,如果只保留一个月太可惜。
    因为喜欢,选贴上面网站其他两张世界各地三兔图:

         
埃及或叙利亚瓷器碎片,约公元1200年    

法国Wissembourg圣彼德与保罗教堂天花板,约公元1300年

    该网站还链接有更多相关网站、这些网站还有更多图片,如西藏古格王国白庙中的四兔图:

呵呵,喧宾夺主了;-)