图书馆从传统数据观走向关联数据及语义网:五周年

上月在不列颠图书馆举办了名为“五年来”的研讨会,纪念为RDA走出20世纪而举办的“数据模型会议”(伦敦会议)五周年。会议网站上的介绍:
Seminar: Five Years On. British Library, April 26-27, 2012

2007年4月在不列颠图书馆举办了“数据模型会议”,与会者关心RDA《资源描述与检索》与其他元数据界(尤其是语义网环境中)所用模型的契合。此次会议通称“伦敦会议”,是图书馆由传统数据观转轨至关联数据及语义网的关键点。今年4月正好五周年。
DCMI英国联合DCMI国际及其他机构,于2012年4月27日主办为期一天的研讨会,描述自2007年来的进展以资纪念并展望未来的进一步协作。
与会者包括2007年与会者,及其他图书馆数据及语义网界的重要人物,论文由DCMI出版并免费在线发布。
伦敦会议极大促进了主要国际书目元数据模型的语义网表达的发展,除RDA本身外,还包括IFLA的功能需求系列和国际标准书目著录(ISBD)以及MARC。现在关注点集中在本活动的管理与可持续性,以及开发支持图书馆应用的高水平语义与数据结构。

———-会议报告———-

会议报告在网站上可以下载PDF版。报告人阵容强大、内容丰富且专深,以至部分超出我的理解能力。每个报告引用或总结一句话,概述我的感受(而非理解)。
√ RDA编制方JSC代表Barbara Tillett:背景与概述
简介2007年会议背景,总结因会议而成为现实的RDA元素词表注册历程
√ RDA词表注册主持人、DCMI/RDA工作组共同主席
1、Diane Hillmann:由建立RDA词表学到的
注册RDA词汇时面临的问题及采取的做法,关于XML和RDF的差别,……(不易理解,待细看)
2、Gordon Dunsire:(泰瑞)龟的梦想
纯漫画界面,梦想用一个三元组统治MARC21/RDA/FRBRer/DCT/ISBD/DCMI?(没有解说不易理解)[update 2012-8-10,或借用泰瑞龟指龟标Turtle -Terse RDF Triple Language]
√ IFLA代表Pat Riva和Mirna Willer:以RDF表达IFLA的ISBD和FRBR系列概念模型
ISBD和FRBR模型元素集命名域和取值词表已出版,并且由de-referencing服务提供利用。
√ 三个语义网应用实例:
1、剑桥大学:剑桥开放元数据项目(COMET) / by Edmund Chamberlain
印象特别深的一点:在开放自己数据的同时,用外部数据改善、强化自己的数据。[本地系统的MARC数据,不能用编程的方法更新,要改错可真是不容易]
2、不列颠图书馆:从标签到三元组:英国国家书目作为关联开放数据 / by Alan Danskin
报告中的数据与结论:2011年7月上线,每月处理2百万会话,说明权威网站提供有用数据是能得到利用的
3、Europeana数据模型 / by Robina Clayphan
Europeana数据收割自图书馆、博物馆、档案馆及音像库的数据,并用其他外部数据强化。
√ DCMI代表Tom Baker:五年过去了,下一步
展望未来五年,并介绍了前一日成立的二个小组:DCMI词表管理社区和书目元数据工作组──后者原为DCMI/RDA工作组。

———-乱弹———-
会议网站对上述报告均做了简介,除了二位RDA词表注册主持人,是一段相同的带小八卦的工作介绍:2007年会议第一天二人在不列颠图书馆的帕尼兹屋首遇,由于已消失在时间迷雾中的原因(For reasons lost in the mists of time),他们被指定为DCMI/RDA工作组共同主席,负责开发RDA词表等工作(JSC致力于条款文本)。由此工作组着手在开放元数据注册(OMR)中建立这些词表。Gordon继续以类似方式帮助建立IFLA标准词表[IFLA命名域],并与OMR团队合作把RDF版本MARC21加入OMR。──之前在自己的PPT中曾多次引用Gordon的内容,这下总算对他有了更多了解。

会议报告虽然看得懵懵懂懂,但有一个感觉应该不会错,即与会者均认为XML已经过时,RDF才是方向。现在已经有了不少实实在在的应用。

最后,剑桥PPT的总结发人深省:如果我们不能学会分享,没人再会跟我们玩了
No-one will want to play with us if we cannot learn to share (p.30)

via Metadata Matters: Using the sub-property ladder / by Gordon Dunsire (May 13, 2012)
该博客由Diane Hillmann和Gordon Dunsire等合写,后者近段日子连发语义网相关博文,很难看懂
[update 2012-8-10: Diane博文BABIES, BATHWATER, AND OLD BROADS (2012-8-5)谈到伦敦会议:2006年时RDA遥遥无期,CC:DA打算向JSC提出不信任案。Diane在墨西哥举行的DC-2006上将草案给ALA出版社的Don Chatham看后,几个人一起讨论JSC与DCMI合作的可能性,之后才有伦敦会议。(查了下,DC-2006召开于10月初)]

伦敦会议网站:Data Model Meeting. British Library, London 30 April – 1 May 2007

IFLA语义网兴趣小组:Semantic Web Special Interest Group
属于信息技术部,2012年1月建立?

民国期刊全文数据库四种

民国期刊全文数据库,以前一直用国图和CADAL的。
最赞的是国图,完全公开访问。据河边前辈称国图的来自当年从全国征集的缩微期刊,因而只要有的品种,卷期都比较全。惜乎这事后来没有持续下去,所以国图民国期刊品种不算多,目前网站上提供4351种期刊。
相比之下,CADAL的民国期刊更为逊色。据2006年9月的检索结果,当时有民国期刊3802种,且卷期极为不全。看CADAL二期计划新增14万期(CADAL资源介绍),或可有所改善。

检索方面,国图目前优于CADAL的是提供目录(也就是篇名)检索,但检索结果到刊而非到期,因而这种“目录”检索基本上是无用的功能。试想如果该刊有30期,除了一期期看过来,没有办法知道想要看的到底是哪期,更不会说是哪篇(具体页码),还有多大的意义?
作为全文库,国图和CADAL的民国期刊库存在一个致命缺陷──没有篇作者信息。由于不是基于篇名做索引,而是以期为单位做目次,既没有给篇作者定义元数据,做目次时也没有录入作者信息,导致以现有信息根本没有办法查到篇作者。未来如果不辅以强大的技术手段提升其功能(OCR识别全文并定位作者),无法改变现状。
简言之,国图和CADAL民国期刊库的最大问题在于它们作为检索工具,只是目录而非索引。期刊目录基本上只适合查找从其他来源已知的文献,根据已知的刊名、卷期找到所需文章。期刊索引才能发现文献,对旧刊来说,特别有用的是查找某位作者有哪些文章,发表在什么期刊、何卷、何期。

去年底《大成老旧刊全文数据库》在本馆试用,这是个基于篇的期刊索引库,据称有6千余种刊、12万多期、150万余篇文章。当时用一位民国作者查了一下,可以查到一些,但由于没有比对,不清楚覆盖范围。
前不久微博得知《复印报刊资料》《全国报刊索引》也有《民国期刊全文数据库》,然后在本馆网站上发现3月下旬曾有短暂试用。现在虽然已经结束试用,或许因为在继续试用它家的《民国时期期刊篇名数据库》的缘故,全文库仍可以查(不能下载全文),于是用同一位作者查了一下,命中结果是大成的近十倍!不过并没有涵盖所有大成的期刊(但其篇名库有)。看介绍目前收录5千多种4百万篇(比大成品种少、但篇数多,可见卷期较全),最终会达到2万多种,如此,恐怕无敌了。
有点奇怪的是,篇名库与全文库并不对应,还有全文库有、篇名库却没有的情况。

———-民国期刊全文库四种———-
国家图书馆:民国中文期刊
来自缩微胶片的数字扫描工作,预计将在三年内完成近600万拍缩微胶片的数字转换。现提供4351种期刊电子影像的全文浏览。资源库遵循边建设边服务的原则,将不断追加更新资源库内容。
访问网址:http://res4.nlc.gov.cn/home/index.trs?channelid=6(公开访问、全文浏览)

CADAL(高等学校中英文图书数字化国际合作计划)
已建资源:236,594册民国书刊(未区分书刊);在建资源:民国文献20万册(期),包括:民国图书4万册,民国期刊14万期,民国报纸2万期。
访问网址:http://www.cadal.cn/(公开查询、注册后全文浏览──特定IP范围?)

《大成老旧刊全文数据库》
收录清末自有期刊以来到1949年以前(1840-1949),中国出版的6000余种期刊,共12万多期,150万余篇文章。
访问网址:www.dachengdata.com
提供公开检索,检索途径:题名(篇名)、作者、内容提要、刊名。检索一览显示:题名、作者、刊名、年卷期。──即使没有买该库,作为查找工具也不错。

《民国时期期刊全文数据库(1911~1949)》(《全国报刊索引》)
计划收录民国时期(1911~1949)出版的两万余种期刊,一千五百余万篇文献。
分辑出版(每辑250GB),目前的数量:
第一辑 1142种 31533期 811044篇
第二辑 1245种 28263期 830326篇
第三辑 1145种 31382期 794213篇
第四辑 2098种 30856期 804569篇
第五辑 (种、期不详)769345篇
《全国报刊索引》以索引起家、目前仍在销售篇名库,因之该库不登录不能查,对未订购者,这访问网址也没啥意思了:www.cnbksy.cn

P.S. 一直很奇怪,民国元年明明是1912年,为啥我们的民国文献都是从1911年开始算的呢?

———-分割线———-

《晚清期刊全文库(1833-1910)》试用记 (2010年11月29日)

电子版民国图书和期刊 (2006年9月27日)

国家图书馆民国期刊全文下载方法 (2007年10月18日)──方法已失效

国家图书馆民国电子书 (2007年6月26日)

图书在线发现新时代的关键是什么?元数据!

图书全文搜索时代,元数据还有用吗?在图书设计网站文章上看到如题的结论,还真另有一番感受。应该说,元数据原来就是图书发现的关键,现在仍然如此。
现在个人写书售卖,可以在亚马逊的Kindle平台、苹果商店、谷歌的Play……国内有豆瓣、盛大……,正是所谓的自出版。那篇文章标题是《自出版基础:元数据导论》,以浅显的文字告诉自行出版图书的作者:1、元数据是什么;2、元数据在检索中的作用;3、元数据与关键词合用。编译如下。

Self-Publishing Basics: Introduction to Metadata / by JOEL FRIEDLANDER (MAY 2, 2012)

元数据是关于某物的信息,图书元数据就是关于图书的信息,最常见的有题名、副题名、作者、出版日期等。另外还有类别、描述、读者对象,对图书的可发现性很关键。
元数据用于创建图书信息数据库,搜索图书时,就是查这些数据库中的元数据。如果元数据记录不完整或不准确,图书就不会显示在检索结果中。
关键词是帮助你的图书在搜索结果中排名靠前的秘密武器。发现最佳关键词是第一步,在元数据中使用它们是第二步。使用这些关键词的最佳位置包括如下字段:题名、副题名、类别、描述、目标用户。
五步完成最具优势的元数据
1、总结出最想要的关键词
2、创建元数据主文档
3、填写字段,特别注意题名、副题名、类别、描述、目标用户五个字段。“描述”字段尤为重要,有时被称为“注释”或“关于本书”之类,你可以在其中放入所有关键词,只要读得通顺。
4、每当要填写关于你的图书的表单时,就使用这个元数据主文档。
5、随时根据你的图书所面向的市场优化你的元数据。
更新元数据这样的无聊琐事,却是帮助你的图书在每个月出版的成千上万种图书中脱颖而出的利器。确保你的元数据完整、准确、富含信息,能使你的图书更有机会被目标读者注意到。

via mod librarian: Metadata Monday: Self-Publishing Metadata