关联数据:官方版与山寨版(DDC和LCSH)

    关联数据(Linked Data)现在很火,似乎超出了其上位类语义网(Semantic Web)。在图书馆界,即将召开的DC-2009年会以”关联数据的语义互操作”为主题(数图研究笔记:DC-2009征文通知),而结束不久的ALA2009年会的“草根分会场”有一个“关联数据”主题场(数图研究笔记:ALA2009 Linked Data Session)。
    书目数据(含FRBR)、规范数据(词表、人名)等纷纷搭上关联数据。如:“瑞典联合目录”采用语义Web的最新技术——关联数据Linked Data的架构,开放其200多个成员馆超过650万条书目记录,以及20万条规范档(数图研究笔记:2008图林十大技术进展(上));OCLC的首席科学家Thom Hickey四月在博客上宣布,虚拟国际规范档(VIAF)不久也将提供关联数据(Changes to VIAF,参见:虚拟国际规范档XML格式

    尽管远洋过客、Keven、雨僧、Debra等做了很多普及和提高的工作,自己至今对关联数据还是没有什么感觉,连一知半解都谈不上。不过呢,还是要关注──最新消息是《杜威十进分类法》(DDC)也开始变身关联数据──dewey.info(Catalogablog: Dewey Classification as Linked Data)。现在有9种语言,包括中文。
    只是OCLC一如继往地小气,对DDC尤其如此,目前只开放了三级类号。官方介绍措辞也比较谨慎,只说是”Dewey Summaries as Linked Data“。
    早在四月,Bibliographic Wilderness就介绍过一个来历不明的DDC关联数据(DDC linked data?),并打赌这东西过多久会被OCLC叫停。刚又去看了一下这个山寨数据,网站后缀是是西班牙的(http://ontologi.es/decimalised/),数据很巧合地在8月20日做过更新,而OCLC的官方介绍页最后更新日期是8月19日。

    图书馆界最早大规模应用关联数据的实例,不知道是不是已成过去完成式的lcsh.infolcsh.info域名由美国国会图书馆(LC)的Ed Summers在2008年3月注册,采用SKOS把全部《美国国会图书馆标题表》(LCSH)变身为语义网应用(详见DC2008论文”LCSH, SKOS and Linked Data“),但在2008年底该服务被LC要求关闭,因为LC要做官方版的。
    官方版迟迟不见上线,英国TALIS公司把原lcsh.info的全部内容搬到了http://lcsubjects.org/,又做了个山寨版的。今年五月初,LC的正版LCSH关联数据终于上线(http://id.loc.gov/),并建立了官方讨论组:Authorities and Vocabularies Service Discussion List

[update 2009-9-20: 早在2007年,德国布劳恩斯魏克大学图书馆的B. Eversberg就根据书目数据库做了“浏览LCSH”系统(LCSH Browser)id.loc.gov上线后仍继续更新,因为后者只能搜索、没有浏览功能。参见:Web化DDC·浏览LCSH (2007-11-10)]

关于Linked Data,参见:
维基百科词条:Linked Data
译言:怒放的关联数据:你为什么应该关注?
(ReadWriteWeb原文:Linked Data is Blooming: Why You Should Care
数图研究笔记的Linked Data标签或关联数据标签(如:关联数据FAQ


关联的数据 (Linked Data)–1. Linked Open Data (LOD) 关联的数据 (Linked Data)–2. 关联的图书馆数据Linked Library Data

LCSH的SKOS应用,参见:
雨僧Library 2 Review:山寨了一次LCSH(用了国会图书馆的Authorities
and
Vocabularies服务来向学生们介绍概念之间的关系,检索一个词,然后以图形动画的方式显示出来,非常直观──此文不知何故被删除)
雨僧Library 2 Review:玩死她!(解析美国国会主题词表RDF文件的测试)
秋聲 Blog:LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)


语义网及关联数据的图书馆应用,参见:
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(上)
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(下)
秋聲 Blog:編目朝向語意網邁進(一)
秋聲 Blog:編目朝向語意網邁進(二)

从保存图书到保存网络:图书馆的未来?

    最近Keven连发强贴探讨图书馆有没有未来(图书馆有未来吗?再续续三续四续五待续完结篇)。看到加州数字图书馆的网络档案(Web Archives),不知道保存网络是不是图书馆的一种未来?

    互联网时代,图书馆员最早发挥的特长是知识组织,对网站、网页做人工筛选、标引、编目、组织主题目录(CALIS的“学科导航”也属此类)。这种综合或专题的目录继承了OPAC的所有优点和缺点,相对于搜索引擎来说,最大的问题就是没有全文检索,可用性随着搜罗内容的增加而下降。
    图书馆另有专长是保存人类的知识,这是图书馆长久以来承担的责任之一。图书馆经历了保存甲骨、泥版、纸莎草、竹木简、羊皮……纸张、胶卷、磁带、光盘……,在比特时代,增加新的保存载体也是顺理成章的。由于网络内容的不稳定性(统计数据……),现实上也有这种需求。
    如同图书馆不能收藏所有的图书,图书馆也无法保存完整的网络。而有选择地永久保存网站与网页,形成专题,正是图书馆所擅长的。知道国内图书馆也有做这方面工作的,如国家图书馆的“网络信息保存项目”(惜乎一直无法访问),东华大学的纺织特色数据库也有存档网页的部分。尚有一点不明白的是其中的版权问题:图书馆有权保存这些网页并提供服务吗?大家都在做,暂且存疑。

    加州数字图书馆(CDL)的网络档案(Web Archives)是一种托管服务,带有云计算的特征(下述Archive-It类似):
 √ CDL提供存档工具及存贮(Web Archiving Service, WAS)
 √ 专题网络档案(目前包括18个专题,由不同机构建立,以加州本地内容为主,纽约大学图书馆的几个侧重左翼政治)
 √ 收录网站浏览+全文检索

    Web Archives链接了其它公开网络存档项目,各具特色的内容是专题研究很好的参考数据源,实现方式也可借鉴:

综合性的:
    * Internet Archive (IA) 互联网档案(网络存档的元老)
    * Archive-It 为后代保存互联网:收集、管理、检索……存档。目前有881个公开收藏,分为艺术人文、计算机与技术、政府、自发性事件、政治与选举、科学与健康、社会与文化、大学与图书馆八大类。由参与机构从IA制作不同主题的收藏(collections),由IA负责保存。
    * Pandora (Australia) 保存与访问澳大利亚网络文献资源。分18个主题。

保存政府网站受重视:
    * Government of Canada Web Archive 加拿大政府网络档案
    * Library of Congress Web Archives (LCWA, Minerva) LC互联网档案(曾名“智慧女神密涅瓦”)。侧重美国政府与外交,如:2006年苏丹达尔富尔危机、2003年伊位克战争、2001年911事件及美国国会、选举档案等。
    * CyberCemetery 网络墓地。北德克萨斯大学图书馆与USGPO合作,保存现已不存在的美国政府机构与委员会的网站及出版物,提供永久访问。
    * The Stanford WebBase Project 同样侧重收集美国政府网站(目前只能下载,无检索功能)

采用开源软件(CDL工具估计基于同样软件):
    * Harvard Web Archive Collection Service (WAX) 哈佛网络档案收藏服务。试验性项目,目前有三个档案:博客──捕捉妇女之声,日本宪法修正研究,哈佛网站档案。
采用多种开源工具,包括:互联网档案(IA)及国际互联网保存联盟(International Internet Preservation Consortium, IIPC)的Heritrix网络爬虫、Wayback索引工具、NutchWAX检索工具,以及OpenSymphony的Quartz作业调度软件。

特色馆藏数字化与网络存档的结合:
    * UCLA Campaign Literature Archive UCLA竞选文献档案:一个世纪的洛杉矶选举。收集符合要求的网站,并与UCLA特藏的数字化扫描结合。

Via Press Release: California Digital Library [July 21, 2009]
Library Technology Guides: Web archiving service preserves data for the future

[update] 《数字图书馆论坛》2009年第7期话题:网络信息资源保存
网络信息资源保存所面临的问题和挑战

/ 吴振新(中国科学院国家科学图书馆) PDF查看
网络信息资源保存的协作网络研究
/ 吴振新 张智雄 王婷(中国科学院国家科学图书馆) PDF查看
网页变化监测相关技术与方法研究*
/ 高建秀 吴振新 张智雄(中国科学院国家科学图书馆)
PDF查看
网络信息资源保存的编目方法与系统研究*
 
/ 孙敏杰 吴振新 孙志茹(中国科学院国家科学图书馆) PDF查看
基于Web Archive的网页重现方法及应用研究*

/ 向菁 吴振新 孙志茹(中国科学院国家科学图书馆) PDF查看
网络信息采集与保存标准规范研究*
/ 曲云鹏 王志庚 李春明 周晨 李成文(中国国家图书馆) PDF查看
基于网络信息资源保存的生命周期管理研究*
/ 李成文 王志庚 李春明 周晨 曲云鹏(中国国家图书馆)
PDF查看

数学数字图书馆(美国数学会)

The MAA Mathematical Sciences Digital Library(http://www.mathdl.org/http://mathdl.maa.org/

摘自:刘燕权,王晓燕. 敞开数学知识王国之门:美国数学数字图书馆──MathDL. 数字图书馆论坛, 2009(6):74-77.

    将分散的资源重新整合,以便用户一站到位、统一检索。
    MathDl的几乎所有资讯都面向大众。尽管有些区域需要有数学学会会员资质方可进入,但大多普及型的数字资讯是对大众开放的。这样的设计非常符合MathDL开宗明义的提高并同时推广对数学基础知识教育的主旨。

主要栏目:

数学历史上的今日(On This Day:专门讲述数学史上的名人趣事。此栏不仅为数学专业的学生及数学爱好者提供一部动态的数学史,也有教师们上课时提供可随手捻来的故事素材。

数学界新闻(Math in the News:了解数学界最新发展趋势及动态的直接视窗。

数学伙伴(MathDL Partners:列出所有与MathDL合作的伙伴及其数据库的资料。用户既可直接点击某一具体数据库,也可先在界面首页左上方的检索框中进行统一跨库检索。……从现有列出的18家资源提供者的名单中,多数为建立于各大学或研究所的某一专题数据库,例如MathWorld,就是一部包括12,000条目的数学百科全书。又如The Connected Curriculum Project (CCP)是设在杜克大学的一个专门收集数学教案及数学模型的数据库。还有Demos with Positive Impact则是利用动画科技设计的提供教学课演示的资料库。从这些侧重不同各有特色的教学资料库中,不难看出MathDL作为一个数学资源的总平台所具有的权威性、代表性及涵盖性。

Loci:……
一个新的电子杂志
……将原来的三个电子杂志:The Journal of Online Mathematics and its
Applications (JOMA), Digital Classroom Resources
(DCR)和Convergence加以调整合并,重新设计界面。核心资源部分仍由原来提供单位继续输入。对于三个杂志原有的文章,用户可以Loci的旧
文档库里检索查询。

数学学会写作奖(MAA Writing Awards:通过向各种奖励、科研基金的门户。希望得到资金支持或借鉴获奖者先例的,可通过查询此地得到很多一手资料。同时,用户可在此阅读所有获奖的文章。