元数据 – 第 12 页 – 编目精灵III

未来书目格式的目标与测度

粗粗看完了LC的“书目框架计划总体规划”，感觉就是个“总体规划”，因为没看到多少具体的东西，除了方法部分起始提到的“新书目框架计划将关注Web环境、关联数据原则与机制，以《资源描述框架》（RDF）作为基本数据模型”，以及“两年”这个大概可以看到“原型”的时间。
一直致力于图书馆元数据改进的Karen Coyle写了博文，从费用、协作与创新三个方面，为该计划撰写她所设想的目标与测度。大致翻译如下：

未来格式：目标与测度
Coyle’s InFormation: Future Format: Goals and Measures Karen Coyle（梯子自备）

LC未来书目格式报告（亦称取代MARC）出来了。报告短而少细节，除了选择RDF为潜在数据格式。报告的重要部分列举了需求，在性质上也太大体而不够广泛。

在进一步前行前需要做的是开始说明我们的特定目标，以及确定是否满足这些目标的准则。某些目标会在发展新环境过程中发现，因此这会是个增长的清单。我认为，在条件允许的范围内，每个目标都有与之相关的测度很重要。如果我们不能够知道这些改变会达成什么，做出改变就没有意义。如下是这样一些我认作目标的例子，可能并非该计划的实际目标，只是我虚构的例证。

费用
– 目标：编目过程中创建书目数据应当不那么昂贵
测度：使用时间研究，比较用MARC编目和用新格式编目
– 目标：格式维护应当不那么昂贵
测度：比较一个典型的MARBI提案所需所有时间与新格式所需时间
– 目标：厂商做所需改变与增加应当不那么昂贵
测度：比较在MARC环境与新环境中所改变所需编程时数

协作
– 目标：与更广泛社区协作创建数据
测度：计算[改变]前后与非图书馆界共享数据的数量
– 目标：小图书馆更大参与共享数据
测度：计算改变前后共享的图书馆数量
– 目标：让图书馆数据供其他信息界使用
测度：计算[改变]前后非图书馆网络环境中图书馆数据的使用

创新
– 目标：图书馆技术人员应当能够比现在更快且方便地为其图书馆实施“应用”
测度：或者以创建的应用数，或者实施的时间测度（这个可能难以比较）
– 目标：图书馆系统厂商可以比过去更快且便宜地开发新服务
测度：一年中变化的数量，或者致力于变化的员工数。另一测度可以是要图书馆付什么钱，在某一时间段中多少图书馆做了改变

从本清单可知，大部分测度要求系统实施，而不只是开发一个新格式。但新格式本身不能是一个终点，目标必须是使用该格式的系统与服务的实施。第一个开发出来的MARC格式在LC工作流程中做过测试，看是否满足该馆的需求。这要求创建一个系统（称为“MARC试验计划”），测试期为一年。对RDA实施的测试或可与之相比，可作为一个样板。某些测度在完全实施前无法进行，比较包容更小的图书馆。需要持续的测试。

那么现在，什么是“你”最关注的目标？
—–
参见：
MARC的日子屈指可数？(2011年11月1日)
国会图书馆书目框架计划总体规划 (2011年11月2日)

OCLC报告：图档博所用社会元数据

OCLC最新发布报告《图书馆、档案馆及博物馆所用社会元数据（第一部分：网站评论）》。本报告是OCLC研究项目“共享与集成社会元数据”的第一份成果，由RLG合作者社会元数据工作组完成，工作组成员是来自5个国家的21名志愿者。
报告长达174页，目次就有2页。长假天天宅在家中已觉很对不起自己，实在打不起精神学习。在项目网页看到2010年10月与报告同名的PPT，45页，浏览一过，简单摘录如下：

(p.2)术语：我们谈论的是什么
社会媒体/社会网络
用户贡献内容UGC
社会元数据
社会媒体功能
社会参与度
Web 2.0

(p.3)基本认识
用户贡献内容可以丰富LAM创建的描述性元数据
在网络层传播与共享用户贡献有问题需要解决
[注：图书馆、档案馆及博物馆简称LAM]

(p.11)研究目的，20个问题[仅列出10个]

(p.16)成果[三个报告，当时期望2010年11月完成，看来是大大延期了]
1、网站评论，及利用第三方网站（150页）[即本次发布的报告]
（p.13，共76个网站）
2、网站管理者调查结果分析（50页）
（p.13，发出问卷，收到42个回复）
3、社会元数据推荐及书目

(p.23)使用第3方网站
LibraryThing for Libraries (LTFL)
Flickr和Flickr Commons
Youtube
Facebook
Twitter
Wikipedia
Blogs

(p.32)图2：提供社会媒体功能的时间
尚未公开 10%
不到一年 21%
1-2年 41%
3-4年 10%
4年以上 19%

(p.33)提供社会媒体的主要目的（多选）
建立用户社区 81%
提高对内容的流量及访问 79%
强化描述 60%
建立收藏 26%

(p.35)图5：访问者每月贡献内容
不到100 67%
100-499 20%
500-1000 3%
1000以上 10%（3家：Australian Newspapers，Distrubuted Proofreaders，WorldCat）
[总体来说，对用户贡献不能期望太高）

(p.40-44)利用社会媒体的建议十八条

———-出处的分割线———-
报告：Social Metadata for Libraries, Archives, and Museums. Part 1: Site Reviews / by Karen Smith-Yoshimura, OCLC Research; Cyndi Shein, Getty Research Institute. (pdf: 6.10MB/174 pp.)

新闻：New Report: “Social Metadata for Libraries, Archives, and Museums, Part 1: Site Reviews” (3 October 2011)

项目网页：共享与集成社会元数据
Sharing and Aggregating Social Metadata

Slideshare上的同名PPT:
Social Metadata for Libraries, Archives, and Museums / by Rose Holley, National Library of Australia; Karen Smith-Yoshimura, OCLC. Libraries Australia Forum, Canberra, October 20, 2010

[update 2012-2-13]才想起来加上第2部分：
Social Metadata for Libraries, Archives, and Museums. Part 2: Survey Analysis
[update 2012-4-24]第3部分最新发布：
New Reports: “Social Metadata for Libraries, Archives, and Museums. Part 3: Recommendations and Readings” and “Social Metadata for Libraries, Archives, and Museums: Executive Summary” (23 April 2011)

Google实验室新品Books Ngram Viewer：数据的可靠性

Google实验室推出新产品Books Ngram Viewer，以图示形式显示/对比查询词在1800-2000年间图书中的词频，包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是，查询词是区分大小写的。作为Google图书的一个副产品，在图示下还有查询词在Google图书搜索的链接，且根据词频，分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010)，译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库，如介绍所说，该产品以可视化方式揭示“语言、文学、文化随时间的变迁”，是“供学者们使用的全新量化工具”，的确很强大。然而，由于原始数据本身存在问题，对结果的影响显然是致命的。以如此结果为依据进行分析，其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”，图示结果如下：

可以明显看到“图书馆”一词在1900年前后进入第一个高峰，在1980年前后出现另一个高峰，均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据（或元数据）错误暴露无遗。前5条没有一条年份是正确的：
√ 第1条：吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》，命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条：广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条：吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4，命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条：丁丙 – 1900《武林坊巷志》Volume 1，命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条：山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪，其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现，fuck这个流行骂人话不但历史悠久，而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文，当年的那个词其实是suck。因为早年字母有所谓“长s”，长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计，再……分析，其结果可信度有多少？