OCLC报告:图档博所用社会元数据

OCLC最新发布报告《图书馆、档案馆及博物馆所用社会元数据(第一部分:网站评论)》。本报告是OCLC研究项目“共享与集成社会元数据”的第一份成果,由RLG合作者社会元数据工作组完成,工作组成员是来自5个国家的21名志愿者。
报告长达174页,目次就有2页。长假天天宅在家中已觉很对不起自己,实在打不起精神学习。在项目网页看到2010年10月与报告同名的PPT,45页,浏览一过,简单摘录如下:

(p.2)术语:我们谈论的是什么
社会媒体/社会网络
用户贡献内容UGC
社会元数据
社会媒体功能
社会参与度
Web 2.0

(p.3)基本认识
用户贡献内容可以丰富LAM创建的描述性元数据
在网络层传播与共享用户贡献有问题需要解决
[注:图书馆、档案馆及博物馆简称LAM]

(p.11)研究目的,20个问题[仅列出10个]

(p.16)成果[三个报告,当时期望2010年11月完成,看来是大大延期了]
1、网站评论,及利用第三方网站(150页)[即本次发布的报告]
(p.13,共76个网站)
2、网站管理者调查结果分析(50页)
(p.13,发出问卷,收到42个回复)
3、社会元数据推荐及书目

(p.23)使用第3方网站
LibraryThing for Libraries (LTFL)
Flickr和Flickr Commons
Youtube
Facebook
Twitter
Wikipedia
Blogs

(p.32)图2:提供社会媒体功能的时间
尚未公开 10%
不到一年 21%
1-2年 41%
3-4年 10%
4年以上 19%

(p.33)提供社会媒体的主要目的(多选)
建立用户社区 81%
提高对内容的流量及访问 79%
强化描述 60%
建立收藏 26%

(p.35)图5:访问者每月贡献内容
不到100 67%
100-499 20%
500-1000 3%
1000以上 10%(3家:Australian Newspapers,Distrubuted Proofreaders,WorldCat)
[总体来说,对用户贡献不能期望太高)

(p.40-44)利用社会媒体的建议十八条

———-出处的分割线———-
报告:Social Metadata for Libraries, Archives, and Museums. Part 1: Site Reviews / by Karen Smith-Yoshimura, OCLC Research; Cyndi Shein, Getty Research Institute. (pdf: 6.10MB/174 pp.)

新闻:New Report: “Social Metadata for Libraries, Archives, and Museums, Part 1: Site Reviews” (3 October 2011)

项目网页:共享与集成社会元数据
Sharing and Aggregating Social Metadata

Slideshare上的同名PPT:
Social Metadata for Libraries, Archives, and Museums / by Rose Holley, National Library of Australia; Karen Smith-Yoshimura, OCLC. Libraries Australia Forum, Canberra, October 20, 2010

[update 2012-2-13]才想起来加上第2部分:
Social Metadata for Libraries, Archives, and Museums. Part 2: Survey Analysis
[update 2012-4-24]第3部分最新发布:
New Reports: “Social Metadata for Libraries, Archives, and Museums. Part 3: Recommendations and Readings” and “Social Metadata for Libraries, Archives, and Museums: Executive Summary” (23 April 2011)

Google实验室新品Books Ngram Viewer:数据的可靠性

Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?

W3C图书馆关联数据孵化小组

W3C图书馆关联数据孵化小组(Library Linked Data Incubator Group)刚刚成立,为期一年,结束日期为2011年5月20日。创始主席:
Tom Baker(DCMI的CIO,一位德国人美国人)
Emmanuelle Bermes(法国国家图书馆)
Antoine Isaac(阿姆斯特丹VU大学计算机系博士后,欧洲数字图书馆计划Europeana科学协调员,W3C的SKOS社区联系人)
创始机构:来自芬兰、爱尔兰、马来西亚、英国、德国、荷兰以及美国,有熟悉的LC、OCLC和Talis……

———-小组章程———-
图书馆关联数据孵化小组的使命,是通过汇集图书馆界内外参与语义网活动(重点在关联数据)的人、基于现有创新举措、确定未来的合作轨迹,帮助提高图书馆数据在万维网上的全球互操作。
小组将探索如何以现有图书馆学的基石如元数据模型、元数据模式、标准与协议,建立互操作及图书馆系统与网络化环境,鼓励图书馆将其内容带向万维网的数据互操作,普遍地重新定位其方法,并达到其他社区。同时也将这些社区视为关联数据网规范数据集(个人、主题……)的潜在主要提供者。由于这些发展要求图书馆界围绕(语义)万维网标准共享标准化工作,小组将提炼所需的知识、表述标准与准则的需求,提出促进图书馆界向未来万维网标准化行动做出贡献的方向。
孵化器小组创始成员来自国家图书馆、大学图书馆及研究单位、图书馆供应商及其他感兴趣的利益相关人。其范围不仅限于图书馆,也有意包括其他文化遗产机构、出版业的合作伙伴及其他相关领域。

———-现有图书馆学的基石———-
对于“现有图书馆学的基石”,在“1、动机”中如此描述:
·元数据模式(MODS、MADS、METS……)
·图书馆元数据模型,现正进化到万维网(FRBR、FRAD、RDA……)
·建立与图书馆领域外互操作的标准与协议(OAI-ORE、SKOS、SRU/CQL……)
·(数字)图书馆系统由集成转向网络环境(European、WorldCat、VIAF项目……)

———-活动范围———-
·收集使用案例与个案研究,证明在图书馆与相关部门中语义网技术的成功实施
·培养有兴趣把文化资产移植到关联数据网的活动者(图书馆、博物馆、档案馆、出版者)之间的协作
·确定相关数据模型、词表和本体,以及建立或改善其互操作的方法
·确定对新标准、准则和最佳实践的细化要求
·确定可由小组所代表社区的专业知识受益的(语义)万维网技术范围
·提出接替小组所实施的开创工作的相关组织及其工作范围

———-成功标志———-
对图书馆领域及相关部门采用关联数据的原则与展望提出现状报告,对应当进一步开发什么标准与准则、为此应当建立什么组织有明确且得到认同的观点。
开发或评价特定的本体或词表不在小组范围之内。

———-成果———-
小组主要责任在于产生一个最终报告,表述在图书馆领域及相关部门中关联数据开发的状况,提出这些社区在未来W3C标准化活动中有效参与的方向。
其他可能包括在最终报告中的内容:
·用户案例文件,描述图书馆界与相关部门的真实使用案例、个案研究、推广与传播行动
·描述相关技术要件的文件,包括词表与本体(如SKOS),目的在于确定延伸或互操作需求,帮助确定可能需要的其他标准。

[update 2010-05-24] Via pinoke在书社会的分享

[update 2012-6-29] 小组最终报告及“数据集、属性值词汇及元数据元素集”和“用例”已由娄秀明译成中文