从网络编目到元数据:一本杂志的沉浮

    当年还在外刊室的时候,正经历着Web的高速发展期,亲眼看到外文报刊一家家开始印上自己的网址。记得Newsweek还把互联网当过年度人物。正在此时,图书馆界新出了一本杂志Journal of Internet Cataloging,我以为正得风气之先,便建议领导订上。期刊还没到馆,自己就换了部门,一头扎进了实体编目,那本刊基本没看过。记得去外刊室查过一次,听说没什么人看,因自己而浪费国家不少银子,很感罪过。
    1990年代后期国外编目界热衷于网络资源编目,MARC加入856字段,OCLC有InterCat,LC新千年编目会议计划“互联网资源书目控制”,誓与当时流行的手工编制的网络主题目录(以Yahoo!为代表)一比高低。然而搜索引擎机器人让一切成空,如今没几个图书馆保有当年为互联网资源编目的豪气。
    互联网时代,图书馆迷茫,编目更迷茫。Journal of Internet Cataloging自2004年第7卷后就没再出版。与之相对的是,元数据在各行各业大行其道,无处不在。数字图书馆、机构库等图书馆界大热门也都离不开元数据。只是除了编目员,没人理会“MARC也是元数据”,越来越多图书馆不再招“编目员”,改称“元数据馆员”。
    在此背景下,停刊3年的Journal of Internet Cataloging改名Journal of Library Metadata,于2008年接着出第8卷。它的论题当然也就是目前的研究热点:

# application profiles 应用纲要
# best practices 最佳实践
# controlled vocabularies 控制词表
# crosswalking of metadata and interoperability 元数据互操作
# digital libraries and metadata 数字图书馆与元数据
# display of search results 检索结果显示
# federated repositories 联邦库
# federated searching 联邦搜索
# folksonomies 通俗分类
# individual metadata schemes 元数据方案
# institutional repository metadata 机构库元数据
# metadata content standards 元数据内容标准
# metadata harvesting 元数据收割
# ontologies 本体
# preservation metadata 保存元数据
# resource description framework 资源描述框架
# resource discovery and metadata 资源发现与元数据
# search engines and metadata 搜索引擎与元数据
# SKOS 简单知识管理系统
# stochastic vs. deterministic searching 随机与确定搜索
# tagging and tag clouds 标签与标签云
# topic maps 主题地图
# visual image and moving image metadata 可视图与动画元数据

[update] 晚上才看到,今天是Google成立十周年。囧,兲!

Our Space:元数据的新世界

    OCLC总裁们近来喜欢用Our Space命名自己的PPT。上回总裁Jay Jordan在上图的报告用此名,后来得知还有其他同名版本。这回WorldCat和元数据服务副总裁Karen Calhoun在IFLA年会上的报告也用此名:OUR Space: the new world of metadata。这个our很暧昧,OCLC抑或图书馆界?

    当年还在康奈尔大学的Karen曾受LC委托,于2006年发布研究报告“改变目录性质并与其他发现工具集成”,引起轩然大波。在本PPT中,Karen举出LC在馆庆二百年之际召开的新千年书目控制会议后的行动计划LC Action Item 6.4:“支持改变目录性质的研究与开发,考虑与其他发现工具集成的框架”(p.3),可见当初也是师出有名的。
    图书馆目录被视为第一个自助服务的信息工具(p.2)。按“地心说”,图书馆界以为本地目录是太阳;而据“日心说”,本地目录不过是颗行星(p.5)[此图已在OCLC的PPT中出现过多次,托勒密的地心说不知为何成了亚里斯多德的]。联机目录只是最终用户信息环境中的一个节点(p.4)。
    引用两部名著,说明信息业对元数据的认识:Tim O’Reilly在“什么是Web2.0”中认为,“数据是下一个Intel Inside”;David Weinberger在《Everything Is Miscellaneous》中说,“数字世界……从不会遇到丁点它不喜欢的信息”(p.7)。
    三个实例:
· ebay用复杂的Web模板与索引支持用户提供的元数据(p.8);
· HousingMaps利用Google地图与craigslist做房屋租售,采用复混、重用、混搭的Web2.0元数据管理(p.9);
· 亚马逊联机阅读使用元数据+全文检索(p.10)。

    对于什么是“完整”记录,编目员与亚马逊显然有不同理解(p.11)。
    元数据的基本模式已经改变,除了图书馆元数据实践中的题名等等,还有其他属性:如何获取、版权、销量、流通量、禁书、获奖、引用、评论(出版者、读者)、作者信息、其他版本、技术元数据、标识号、相关作品、博客谈论、用户标签、衍生作品等等(p.12)[不就是亚马逊的元数据么]。
    要改变图书馆元数据的内容。模仿公元前后,分为Web前后(B.W.和A.W.),Web后,要松散耦合的元数据管理,在多个存储间重用及交换服务混合手工和自动创建、元数据抽取、转换、映射、摄入与传递服务(p.13)。

    馆藏已然改变(p.14-15),研究图书馆协会成员馆2004-2006在电子期刊上的支出逐年超过印刷专著,2006年电子期刊占资料费36.6%,专著占21.6% (p.16)。几个其他类型的实例:
· 机构库,如魁北克大学蒙特利尔校区的archipel (p.17);
· 学术门户,如开放存取的arXiv.org (p.18);
· 开放的科学研究,如巴西科技部的IBICT电子学位论文,也收录于WorldCat(p.19);
· 新数字馆藏,如欧洲数字图书馆、博物馆、档案馆Europeana(p.20);
· 图书馆特藏开始见天日(p.21-22),LC书目控制未来工作组报告On the Record提出“强化对珍稀及其他不可见特藏的访问”(p.23-24)。

    信息搜索已然改变(p.25),大学的研究、教学内容正在改变(p.26),学术交流形式改变(p.27),而今后的学生……(p.28)

    瑞典Lund大学调查,新学术图书馆用户的五大期望,总结下来就是远程、独立使用(p.29)。

    由此得出结论:元数据、馆藏、信息搜寻者均已改变。这对图书馆的元数据传统与实践意味着什么(p.30)?图书馆元数据面临的挑战:搜索引擎篡夺图书馆目录?Google图书篡夺图书馆目录?如果图书馆不改变,如何支持其馆藏的发现与传递?(p.31)

    共64页PPT,接下来基本上是OCLC广告时间。
    本博曾为OCLC做过不少广告,可参见,不再重复。

Via Metalogue: OUR Space: The New World of Metadata
PPT浏览/下载:OUR Space: the new world of metadata / Karen Calhoun. IFLA, 13 August 2008     

关于OCLC产品参见:
Our Space──OCLC总裁在上海图书馆的报告 (2008-6-16)
OCLC的新一代编目产品 (2008-06-23)
网络级编目/Web范围编目(Network Level/Web-Scale Cataloging) (2008-01-31)

关于Karen Calhoun参见:
最新研究报告:改变目录性质、与其他发现工具集成 (2006-4-11)
美国国会图书馆正在发生什么――要数字资源还是实体资源?(2006-07-24)
OCLC的新副总裁:Karen Calhoun (2007-03-27)

《元数据》与metadataetc.org

    曾蕾与秦健教授新作《元数据》6月出版:
Metadata / Marcia Lei Zeng and Jian Qin

                        
New York: Neal-Schuman, 2008.        London : Facet Publishing, 2008.
ISBN 9781555706357 (US)                   ISBN 9781856046558 (UK)

    想着什么时候有中文版呢,试译目录[2008-7-13根据内容大纲中文版wiki更正、增加部分翻译,wiki上有完整目次]:

第1部分 元数据基础 Fundamentals of Metadata
第1章 导论
第2章 当前标准
2.1 通用元数据(DC, MARC系列)
2.2 文化物件与可视资源元数据(CDWA, CDWA Lite, VRA Core)
2.3 教育资源元数据(LOM)
2.4 档案与保存元数据(EAD)
2.5 版权管理元数据(copyrightMD, ODRL)
2.6 科技资源元数据
2.7 多媒体元数据(PBCore)
2.8 人物、代理的元数据描述(VCARD, FOAF)

第2部分 元数据构建 Metadata Building Blocks
第3章 Schemas:结构与语义
第4章 Schemas:句法
第5章 元数据记录

第3部分 元数据服务 Metadata Services
第6章 元数据服务
第7章 元数据质量检测与改进
第8章 实现元数据互操作
 
第4部分 元数据研究展望 Metadata Outlook in Research
第9章 元数据研究概观

附录:资源与参考源 Sources and References
A. 元数据标准–元数据表、应用纲要、注册站 Metadata Standards — Metadata schemas, application profiles, and registries
B. 受控词表和内容标准 Value Encoding Schemes and Content Standards
C. 术语

    目录译自www.metadataetc.org的《元数据》教科书部分,有各章阅读书目及练习,以及附录A与B──没看到书,看附录也能增长不少知识。

    曾教授对www.metadataetc.org的介绍同样值得一看(《元数据》教科书和网页“出炉”)。除了网站三大部分(上述《元数据》教科书部分、wiki部分、元数据教学BBS),令人感兴趣的还有网站背景云图及制作方法(生成软件http://tagcrowd.com/),“本月图片”敦煌莫高窟第407窟“隋三兔藻井”──顺着链接Three Hares Homepage看这三个共用三只耳朵兔子的网站,原来世界各地都有呢,这比看wiki部分的SKOS中文翻译有意思多了:)──期待下月的图片了,因为不只是图片啊。另:建议为image of the month存档,如果只保留一个月太可惜。
    因为喜欢,选贴上面网站其他两张世界各地三兔图:

         
埃及或叙利亚瓷器碎片,约公元1200年    

法国Wissembourg圣彼德与保罗教堂天花板,约公元1300年

    该网站还链接有更多相关网站、这些网站还有更多图片,如西藏古格王国白庙中的四兔图:

呵呵,喧宾夺主了;-)