读《元数据》(预告篇)

    曾说了很多次编目员宜转型做元数据图书馆员,其实自己对元数据所知甚少。做花生壳“关于内容编码体系及规范控制的问卷小调查”,弄得自己信心全无,于是说她的问卷题目不厚道,其实是宣称自己很无知。

 

    最近开始读曾蕾与秦健教授的Metadata,感觉这本教科书对我这样只有零碎的元数据知识的读者,很是适用。比如以往对Keven常挂口中的“应用纲要”没有任何感觉,现在总算理解了。再比如,刚开始接触数字图书馆时,发现到处都是“最佳实践”或者“良好实践”,现在也多少知道其语境了。自然,花生壳眼里的基础题现在也难不倒我了。
    因此,大言不惭地说,作者真是送对人啦 🙂 虽然书到手两个月才开始读,到现在为止还只看完第三章(阅读速度每晚10页左右),并且其余的一多半看来还要过些日子才会继续读,感觉很是对不起两位 🙁
    全书看完,将写读后感若干,先做广告在此。

参见:《元数据》与metadataetc.org (2008-07-12)

从网络编目到元数据:一本杂志的沉浮

    当年还在外刊室的时候,正经历着Web的高速发展期,亲眼看到外文报刊一家家开始印上自己的网址。记得Newsweek还把互联网当过年度人物。正在此时,图书馆界新出了一本杂志Journal of Internet Cataloging,我以为正得风气之先,便建议领导订上。期刊还没到馆,自己就换了部门,一头扎进了实体编目,那本刊基本没看过。记得去外刊室查过一次,听说没什么人看,因自己而浪费国家不少银子,很感罪过。
    1990年代后期国外编目界热衷于网络资源编目,MARC加入856字段,OCLC有InterCat,LC新千年编目会议计划“互联网资源书目控制”,誓与当时流行的手工编制的网络主题目录(以Yahoo!为代表)一比高低。然而搜索引擎机器人让一切成空,如今没几个图书馆保有当年为互联网资源编目的豪气。
    互联网时代,图书馆迷茫,编目更迷茫。Journal of Internet Cataloging自2004年第7卷后就没再出版。与之相对的是,元数据在各行各业大行其道,无处不在。数字图书馆、机构库等图书馆界大热门也都离不开元数据。只是除了编目员,没人理会“MARC也是元数据”,越来越多图书馆不再招“编目员”,改称“元数据馆员”。
    在此背景下,停刊3年的Journal of Internet Cataloging改名Journal of Library Metadata,于2008年接着出第8卷。它的论题当然也就是目前的研究热点:

# application profiles 应用纲要
# best practices 最佳实践
# controlled vocabularies 控制词表
# crosswalking of metadata and interoperability 元数据互操作
# digital libraries and metadata 数字图书馆与元数据
# display of search results 检索结果显示
# federated repositories 联邦库
# federated searching 联邦搜索
# folksonomies 通俗分类
# individual metadata schemes 元数据方案
# institutional repository metadata 机构库元数据
# metadata content standards 元数据内容标准
# metadata harvesting 元数据收割
# ontologies 本体
# preservation metadata 保存元数据
# resource description framework 资源描述框架
# resource discovery and metadata 资源发现与元数据
# search engines and metadata 搜索引擎与元数据
# SKOS 简单知识管理系统
# stochastic vs. deterministic searching 随机与确定搜索
# tagging and tag clouds 标签与标签云
# topic maps 主题地图
# visual image and moving image metadata 可视图与动画元数据

[update] 晚上才看到,今天是Google成立十周年。囧,兲!

Our Space:元数据的新世界

    OCLC总裁们近来喜欢用Our Space命名自己的PPT。上回总裁Jay Jordan在上图的报告用此名,后来得知还有其他同名版本。这回WorldCat和元数据服务副总裁Karen Calhoun在IFLA年会上的报告也用此名:OUR Space: the new world of metadata。这个our很暧昧,OCLC抑或图书馆界?

    当年还在康奈尔大学的Karen曾受LC委托,于2006年发布研究报告“改变目录性质并与其他发现工具集成”,引起轩然大波。在本PPT中,Karen举出LC在馆庆二百年之际召开的新千年书目控制会议后的行动计划LC Action Item 6.4:“支持改变目录性质的研究与开发,考虑与其他发现工具集成的框架”(p.3),可见当初也是师出有名的。
    图书馆目录被视为第一个自助服务的信息工具(p.2)。按“地心说”,图书馆界以为本地目录是太阳;而据“日心说”,本地目录不过是颗行星(p.5)[此图已在OCLC的PPT中出现过多次,托勒密的地心说不知为何成了亚里斯多德的]。联机目录只是最终用户信息环境中的一个节点(p.4)。
    引用两部名著,说明信息业对元数据的认识:Tim O’Reilly在“什么是Web2.0”中认为,“数据是下一个Intel Inside”;David Weinberger在《Everything Is Miscellaneous》中说,“数字世界……从不会遇到丁点它不喜欢的信息”(p.7)。
    三个实例:
· ebay用复杂的Web模板与索引支持用户提供的元数据(p.8);
· HousingMaps利用Google地图与craigslist做房屋租售,采用复混、重用、混搭的Web2.0元数据管理(p.9);
· 亚马逊联机阅读使用元数据+全文检索(p.10)。

    对于什么是“完整”记录,编目员与亚马逊显然有不同理解(p.11)。
    元数据的基本模式已经改变,除了图书馆元数据实践中的题名等等,还有其他属性:如何获取、版权、销量、流通量、禁书、获奖、引用、评论(出版者、读者)、作者信息、其他版本、技术元数据、标识号、相关作品、博客谈论、用户标签、衍生作品等等(p.12)[不就是亚马逊的元数据么]。
    要改变图书馆元数据的内容。模仿公元前后,分为Web前后(B.W.和A.W.),Web后,要松散耦合的元数据管理,在多个存储间重用及交换服务混合手工和自动创建、元数据抽取、转换、映射、摄入与传递服务(p.13)。

    馆藏已然改变(p.14-15),研究图书馆协会成员馆2004-2006在电子期刊上的支出逐年超过印刷专著,2006年电子期刊占资料费36.6%,专著占21.6% (p.16)。几个其他类型的实例:
· 机构库,如魁北克大学蒙特利尔校区的archipel (p.17);
· 学术门户,如开放存取的arXiv.org (p.18);
· 开放的科学研究,如巴西科技部的IBICT电子学位论文,也收录于WorldCat(p.19);
· 新数字馆藏,如欧洲数字图书馆、博物馆、档案馆Europeana(p.20);
· 图书馆特藏开始见天日(p.21-22),LC书目控制未来工作组报告On the Record提出“强化对珍稀及其他不可见特藏的访问”(p.23-24)。

    信息搜索已然改变(p.25),大学的研究、教学内容正在改变(p.26),学术交流形式改变(p.27),而今后的学生……(p.28)

    瑞典Lund大学调查,新学术图书馆用户的五大期望,总结下来就是远程、独立使用(p.29)。

    由此得出结论:元数据、馆藏、信息搜寻者均已改变。这对图书馆的元数据传统与实践意味着什么(p.30)?图书馆元数据面临的挑战:搜索引擎篡夺图书馆目录?Google图书篡夺图书馆目录?如果图书馆不改变,如何支持其馆藏的发现与传递?(p.31)

    共64页PPT,接下来基本上是OCLC广告时间。
    本博曾为OCLC做过不少广告,可参见,不再重复。

Via Metalogue: OUR Space: The New World of Metadata
PPT浏览/下载:OUR Space: the new world of metadata / Karen Calhoun. IFLA, 13 August 2008     

关于OCLC产品参见:
Our Space──OCLC总裁在上海图书馆的报告 (2008-6-16)
OCLC的新一代编目产品 (2008-06-23)
网络级编目/Web范围编目(Network Level/Web-Scale Cataloging) (2008-01-31)

关于Karen Calhoun参见:
最新研究报告:改变目录性质、与其他发现工具集成 (2006-4-11)
美国国会图书馆正在发生什么――要数字资源还是实体资源?(2006-07-24)
OCLC的新副总裁:Karen Calhoun (2007-03-27)