未来书目格式的目标与测度

粗粗看完了LC的“书目框架计划总体规划”,感觉就是个“总体规划”,因为没看到多少具体的东西,除了方法部分起始提到的“新书目框架计划将关注Web环境、关联数据原则与机制,以《资源描述框架》(RDF)作为基本数据模型”,以及“两年”这个大概可以看到“原型”的时间。
一直致力于图书馆元数据改进的Karen Coyle写了博文,从费用、协作与创新三个方面,为该计划撰写她所设想的目标与测度。大致翻译如下:

未来格式:目标与测度
Coyle’s InFormation: Future Format: Goals and Measures Karen Coyle(梯子自备)

LC未来书目格式报告(亦称取代MARC)出来了。报告短而少细节,除了选择RDF为潜在数据格式。报告的重要部分列举了需求,在性质上也太大体而不够广泛。

在进一步前行前需要做的是开始说明我们的特定目标,以及确定是否满足这些目标的准则。某些目标会在发展新环境过程中发现,因此这会是个增长的清单。我认为,在条件允许的范围内,每个目标都有与之相关的测度很重要。如果我们不能够知道这些改变会达成什么,做出改变就没有意义。如下是这样一些我认作目标的例子,可能并非该计划的实际目标,只是我虚构的例证。

费用
– 目标:编目过程中创建书目数据应当不那么昂贵
测度:使用时间研究,比较用MARC编目和用新格式编目
– 目标:格式维护应当不那么昂贵
测度:比较一个典型的MARBI提案所需所有时间与新格式所需时间
– 目标:厂商做所需改变与增加应当不那么昂贵
测度:比较在MARC环境与新环境中所改变所需编程时数

协作
– 目标:与更广泛社区协作创建数据
测度:计算[改变]前后与非图书馆界共享数据的数量
– 目标:小图书馆更大参与共享数据
测度:计算改变前后共享的图书馆数量
– 目标:让图书馆数据供其他信息界使用
测度:计算[改变]前后非图书馆网络环境中图书馆数据的使用

创新
– 目标:图书馆技术人员应当能够比现在更快且方便地为其图书馆实施“应用”
测度:或者以创建的应用数,或者实施的时间测度(这个可能难以比较)
– 目标:图书馆系统厂商可以比过去更快且便宜地开发新服务
测度:一年中变化的数量,或者致力于变化的员工数。另一测度可以是要图书馆付什么钱,在某一时间段中多少图书馆做了改变

从本清单可知,大部分测度要求系统实施,而不只是开发一个新格式。但新格式本身不能是一个终点,目标必须是使用该格式的系统与服务的实施。第一个开发出来的MARC格式在LC工作流程中做过测试,看是否满足该馆的需求。这要求创建一个系统(称为“MARC试验计划”),测试期为一年。对RDA实施的测试或可与之相比,可作为一个样板。某些测度在完全实施前无法进行,比较包容更小的图书馆。需要持续的测试。

那么现在,什么是“你”最关注的目标?
—–
参见:
MARC的日子屈指可数?(2011年11月1日)
国会图书馆书目框架计划总体规划 (2011年11月2日)

OCLC报告:图档博所用社会元数据

OCLC最新发布报告《图书馆、档案馆及博物馆所用社会元数据(第一部分:网站评论)》。本报告是OCLC研究项目“共享与集成社会元数据”的第一份成果,由RLG合作者社会元数据工作组完成,工作组成员是来自5个国家的21名志愿者。
报告长达174页,目次就有2页。长假天天宅在家中已觉很对不起自己,实在打不起精神学习。在项目网页看到2010年10月与报告同名的PPT,45页,浏览一过,简单摘录如下:

(p.2)术语:我们谈论的是什么
社会媒体/社会网络
用户贡献内容UGC
社会元数据
社会媒体功能
社会参与度
Web 2.0

(p.3)基本认识
用户贡献内容可以丰富LAM创建的描述性元数据
在网络层传播与共享用户贡献有问题需要解决
[注:图书馆、档案馆及博物馆简称LAM]

(p.11)研究目的,20个问题[仅列出10个]

(p.16)成果[三个报告,当时期望2010年11月完成,看来是大大延期了]
1、网站评论,及利用第三方网站(150页)[即本次发布的报告]
(p.13,共76个网站)
2、网站管理者调查结果分析(50页)
(p.13,发出问卷,收到42个回复)
3、社会元数据推荐及书目

(p.23)使用第3方网站
LibraryThing for Libraries (LTFL)
Flickr和Flickr Commons
Youtube
Facebook
Twitter
Wikipedia
Blogs

(p.32)图2:提供社会媒体功能的时间
尚未公开 10%
不到一年 21%
1-2年 41%
3-4年 10%
4年以上 19%

(p.33)提供社会媒体的主要目的(多选)
建立用户社区 81%
提高对内容的流量及访问 79%
强化描述 60%
建立收藏 26%

(p.35)图5:访问者每月贡献内容
不到100 67%
100-499 20%
500-1000 3%
1000以上 10%(3家:Australian Newspapers,Distrubuted Proofreaders,WorldCat)
[总体来说,对用户贡献不能期望太高)

(p.40-44)利用社会媒体的建议十八条

———-出处的分割线———-
报告:Social Metadata for Libraries, Archives, and Museums. Part 1: Site Reviews / by Karen Smith-Yoshimura, OCLC Research; Cyndi Shein, Getty Research Institute. (pdf: 6.10MB/174 pp.)

新闻:New Report: “Social Metadata for Libraries, Archives, and Museums, Part 1: Site Reviews” (3 October 2011)

项目网页:共享与集成社会元数据
Sharing and Aggregating Social Metadata

Slideshare上的同名PPT:
Social Metadata for Libraries, Archives, and Museums / by Rose Holley, National Library of Australia; Karen Smith-Yoshimura, OCLC. Libraries Australia Forum, Canberra, October 20, 2010

[update 2012-2-13]才想起来加上第2部分:
Social Metadata for Libraries, Archives, and Museums. Part 2: Survey Analysis
[update 2012-4-24]第3部分最新发布:
New Reports: “Social Metadata for Libraries, Archives, and Museums. Part 3: Recommendations and Readings” and “Social Metadata for Libraries, Archives, and Museums: Executive Summary” (23 April 2011)

Google实验室新品Books Ngram Viewer:数据的可靠性

Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?