关联数据:官方版与山寨版(DDC和LCSH)

    关联数据(Linked Data)现在很火,似乎超出了其上位类语义网(Semantic Web)。在图书馆界,即将召开的DC-2009年会以”关联数据的语义互操作”为主题(数图研究笔记:DC-2009征文通知),而结束不久的ALA2009年会的“草根分会场”有一个“关联数据”主题场(数图研究笔记:ALA2009 Linked Data Session)。
    书目数据(含FRBR)、规范数据(词表、人名)等纷纷搭上关联数据。如:“瑞典联合目录”采用语义Web的最新技术——关联数据Linked Data的架构,开放其200多个成员馆超过650万条书目记录,以及20万条规范档(数图研究笔记:2008图林十大技术进展(上));OCLC的首席科学家Thom Hickey四月在博客上宣布,虚拟国际规范档(VIAF)不久也将提供关联数据(Changes to VIAF,参见:虚拟国际规范档XML格式

    尽管远洋过客、Keven、雨僧、Debra等做了很多普及和提高的工作,自己至今对关联数据还是没有什么感觉,连一知半解都谈不上。不过呢,还是要关注──最新消息是《杜威十进分类法》(DDC)也开始变身关联数据──dewey.info(Catalogablog: Dewey Classification as Linked Data)。现在有9种语言,包括中文。
    只是OCLC一如继往地小气,对DDC尤其如此,目前只开放了三级类号。官方介绍措辞也比较谨慎,只说是”Dewey Summaries as Linked Data“。
    早在四月,Bibliographic Wilderness就介绍过一个来历不明的DDC关联数据(DDC linked data?),并打赌这东西过多久会被OCLC叫停。刚又去看了一下这个山寨数据,网站后缀是是西班牙的(http://ontologi.es/decimalised/),数据很巧合地在8月20日做过更新,而OCLC的官方介绍页最后更新日期是8月19日。

    图书馆界最早大规模应用关联数据的实例,不知道是不是已成过去完成式的lcsh.infolcsh.info域名由美国国会图书馆(LC)的Ed Summers在2008年3月注册,采用SKOS把全部《美国国会图书馆标题表》(LCSH)变身为语义网应用(详见DC2008论文”LCSH, SKOS and Linked Data“),但在2008年底该服务被LC要求关闭,因为LC要做官方版的。
    官方版迟迟不见上线,英国TALIS公司把原lcsh.info的全部内容搬到了http://lcsubjects.org/,又做了个山寨版的。今年五月初,LC的正版LCSH关联数据终于上线(http://id.loc.gov/),并建立了官方讨论组:Authorities and Vocabularies Service Discussion List

[update 2009-9-20: 早在2007年,德国布劳恩斯魏克大学图书馆的B. Eversberg就根据书目数据库做了“浏览LCSH”系统(LCSH Browser)id.loc.gov上线后仍继续更新,因为后者只能搜索、没有浏览功能。参见:Web化DDC·浏览LCSH (2007-11-10)]

关于Linked Data,参见:
维基百科词条:Linked Data
译言:怒放的关联数据:你为什么应该关注?
(ReadWriteWeb原文:Linked Data is Blooming: Why You Should Care
数图研究笔记的Linked Data标签或关联数据标签(如:关联数据FAQ


关联的数据 (Linked Data)–1. Linked Open Data (LOD) 关联的数据 (Linked Data)–2. 关联的图书馆数据Linked Library Data

LCSH的SKOS应用,参见:
雨僧Library 2 Review:山寨了一次LCSH(用了国会图书馆的Authorities
and
Vocabularies服务来向学生们介绍概念之间的关系,检索一个词,然后以图形动画的方式显示出来,非常直观──此文不知何故被删除)
雨僧Library 2 Review:玩死她!(解析美国国会主题词表RDF文件的测试)
秋聲 Blog:LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)


语义网及关联数据的图书馆应用,参见:
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(上)
秋聲 Blog:圖書館的鏈接資料(linked data):基礎篇(下)
秋聲 Blog:編目朝向語意網邁進(一)
秋聲 Blog:編目朝向語意網邁進(二)

FAST: 主题词分面应用

    远洋过客在“Web化DDC·浏览LCSH”下留言,提示比“浏览LCSH”更早网络化LCSH的FAST项目。看后本想恶补一番,最终只略微进了点补,先踩个脚印。

    OCLC在多年前开始对LCSH进行分面处理,把先组定组式的标题表,拆分成各个“面”的主题词,直接使用而无需在标引时构造,所用词仍与LCSH兼容。项目名为“主题词分面应用”,简称FAST(FAST: Faceted Application of Subject Terminology)。研究组成员以Edward T. O’Neill为首,除了另外一些OCLC人员外,还有肯塔基大学的Lois Mai Chan和LC的Lynn El-Hoshy。O’Neill 还负责/参与OCLC与VIAF(虚拟国际规范档)和FRBR相关的研究。

介绍:
    在项目主页(http://www.oclc.org/research/projects/fast/)上可见FAST的最早报告是在2001年的IFLA年会预备会上(2001/8/14-16),最新报告是在2006年ALA会年上(2006/4/24)。
    这份报告作者Ed O’Neill和Lois Mai Chan,题名"A Faceted LCSH Based Subject Vocabulary",标明是OCLC与LC的合作研发项目。

背景(需要新方法):电子资源茁壮成长、元数据方案大量涌现、需要主题访问新方法、缺乏技术熟练的主题编目员
要求(Web环境下的主题词表):优化检索点,简单的结构与句法,可由非编目员在非图书馆环境下使用,语义互操作,兼容MARC、DC及其他通用元数据方案,易于维护,适合计算机辅助规范控制。

什么是FAST:一个基于LCSH术语的丰富控制词汇表,简化的应用句法。
FAST的原则:根据功能对标题进行分类的分面方法;以简单的应用句法保持LCSH词汇的丰富性;提供多层次方法,允许不同层次的主题表达。
FAST特征:
词汇:同一分面中的术语──枚举;不同分面中的术语──分列
检索:同一分面中的术语──先组;不同分面中的术语──后组
八个分面:论题、地理、形式(体裁)、时序、个人名称、团体名称、会议、统一题名(后二者尚未完成)
FAST优点:标题构造在词汇表中而非在应用层;适应先组与后组标引与检索;适用于计算机辅助标引与规范控制;比高度枚举式词表维护更方便经济;便利主题数据与跨领域检索的匹配;适应不同检索模型。

试用:
    FAST规范文档的使用界面名为测试数据库(OCLC FAST Test Databases),入口位于:http://fast.oclc.org/。该处还链接有名为《FAST应用指南与文献》的手册草稿(PDF, 484K, 80p. 发布日期2007-1-12)。
    进入测试库后可以看到数据库的进展,论题、个人名称主题、团体名称主题、地理、时期、题名、事件、体裁已完成,仅参照记录进行中,看来这一年进展顺利(“会议”属“事件”)。
    以前曾试用过,当时还没有写博,故而也没有留下记录。这次再用,想起上次使用的感觉──无法作为编目辅助工具使用。系统应该不是为人查用的,既没有前方一致查询,也没有精确查询,要确切地查到一个词并不容易。如在论题中查“information”,用高级检索,命中达2533条,且按首字字顺显示结果,以information起首的主题词出现九百条之后;由于information本身并非主题词(不够精确以至不足以作为主题词?),无论在主标题(Main Heading)还是副标题(Subdivision)中查,检索结果都为0。
    原以为FAST后将标题表改成了后组的叙词表,其实FAST本身有相当数量的先组词,如记录号为fst00801549的“Agriculture–Information services–Public opinion”,就由三部分组成(如前述PPT所述,属同一个“面”?)。从前述PPT看,标引时没有LCSH的浮动表之类需要在使用时构造主题词,而是列举出所有主题词,因之也不是叙词表。如果从句法上看,属元词表。

    项目主页上还列有ALA 2006年会上另外两个报告,其中一个是杨百翰大学Shannon Hoffman的"Looking Deeper into Using FAST: Report on three projects using the FAST Authority File"(ppt:97K/13 slides),介绍FAST在三个项目中的应用,他的结论是两个:1、FAST需要改进检索;2、要非编目员作主题分析并达到一定的专指度,需要加以培训。
    想来他的想法与我一致,FAST设想的“非编目员在非图书馆环境下使用”的目标并不容易达成。

附:FAST常用字段
FAST采用MARC21规范格式,一些字段说明:
001 FAST记录号(fst……..)
043 地理区域代码
100/400 FAST个人名称
110/410 FAST团体名称
111/411 FAST事件(含会议)
130/430 FAST题名
148/448 FAST时序名称
150/450 FAST论题
151/451 FAST地理名称
155/455 FAST载体
688 一般有两条,分别是LC和WC中的使用频次,很有意思的数据
7XX 对应LCSH ($0 LCCN,如(DLC)sh YY……)

Web化DDC·浏览LCSH

    图书馆界在知识组织方面的长期经验,在网络时代如何继续发挥作用?那就是别把自己的分类法、主题词表藏起来,而让大家都来采用,这才不至于被边缘化。这个观点keven在当年抱怨《中图法》电子版时就已经表达过了,他最近旧文重温,改名“情报检索语言脱胎换骨的六点议论”重发议论。
    keven因侯汉清老师在北大信管系建系六十年的学术报告而重提旧论。读研时,侯老师就是我的偶像,某个暑假侯老师到本校开PRECIS课,课程作业经侯老师指点后正式发表,还很让自己高兴了一阵。看了侯老师的“网络时代的情报检索语言:进展及热点”,认同keven所说“我知道侯老师以我的话为靶子,最终目的也是与我一致,就是把传统的图书馆对于知识信息的规范控制思想和方法,应用到数字资源和网络环境中去”。在PPT的最后发展趋势部分,专门论及检索语言的电子化与网络化,其中的数据是,网络版已达82.5%(367/445)。

    不过,网络版不等于开放。杜威十进分类法(DDC)网络版WebDewey已经出现很多年,但只限于注册用户使用。OCLC甚至还因为图书馆酒店用DDC的大类作房间号码而与之打知识产权官司。
    只是时代在发展,如今再固守版权,恐怕难逃被抛弃的命运。年中美国一家公共图书馆抛弃DDC,选用书店分类的新闻热闹一时,或许就是这种趋势的一种反应。而OCLC也正在试验开放的Web版DDC,有固定的URI,未来可能会用这样的形式引用DDC号码:
http://dewey.info/concept/333.7-333.9/

    与OCLC的主动相比,《美国国会图书馆标题表》(LCSH)则是被他人弄成了公开的网络版。近日德国布劳恩斯魏克大学图书馆的B. Eversberg在没有资助的情况下,做了“浏览LCSH”系统,数据来自allegro(http://www.allegro-c.de/)公司的“LCSH浏览”,含520万词条,有参照系统,据说是2006年以来的数据,大多是名称及名称/题名组合,所以并非完整版的LCSH。
    如系统说明所述,要查“法国女作家诗作评论”,很少人知道在LCSH中的确切用词,以及如何组合这些词(正式用词是:French poetry — Women authors — History and Criticism)。而现在,不但OCLC的联合目录WorldCat有LCSH,甚至Google图书搜索最近也开始加入LCSH。设计该系统的目的就是为方便不熟悉者查到LCSH的正式用词。
    系统提供多种查询浏览功能:词表正式用词、普通词组、单词、人名、题名。还有多途径的布尔检索功能。
    最有意思的是它并不是一个单一的LCSH浏览系统,还是一个实用的网络图书信息检索工具。点击正式用词后,右侧除有LSCH词条外,还有四个相关链接,都是使用LCSH的网上图书查询工具:
WorldCat(联合目录)
Google图书搜索
LibraryThing(个人网上图书馆)
OpenLibrary(开放内容联盟的维基型书目)

参见:
数图研究:谈谈我们的分类主题词表 (2005-11-24) http://blog.donews.com/kevenlw/archive/2005/11/24/638458.aspx
数图研究笔记:旧文重温:情报检索语言脱胎换骨的六点议论 http://www.dlresearch.cn/keven/index.php/archives/488

OCLC与图书馆酒店的故事:版权与商标 (2006-09-25) /posts/2006/0925/558#
游园惊梦:分类的命运 (2007-7-23) http://youyuan.wordpress.com/2007/07/22/%e5%88%86%e7%b1%bb%e7%9a%84%e5%91%bd%e8%bf%90/
Inquiring Librarian: Google Book Search and… LCSH? (http://inquiringlibrarian.blogspot.com/2007/10/google-book-search-and-lcsh.html)

Lorcan Dempsey’s weblog: Webified Dewey (http://orweblog.oclc.org/archives/001479.html)
Michael Panzer. Towards the “webification” of controlled subject vocabulary: A case study involving the Dewey Decimal Classification. 6th European NKOS Workshop, September 21, 2007, Budapest.(PPT下载

B. Eversberg. Browsing LCSH. (2007-10-04 / 2007-11-08)