SKOS:简单知识组织系统

[DIGLIB]2008-2-27消息:
SKOS Primer征求意见(Call for Comments: SKOS Primer: W3C Working Draft 21 February 2008):SKOS Primer 将取代SKOS Core Guide (2 November 2005)。
看SKOS Primer一过,稀里糊涂。收集些SKOS的资料。

SKOS Home(http://www.w3.org/2004/02/skos/
SKOS: Simple Knowledge Organisation Systems

SKOS是一个工作领域,致力于制定规范和标准,支持在语义网(Semantic Web)框架中利用知识组织系统(KOS)如叙词表、分类法、标题表系统和系统分类法。
SKOS提供标准方法、使用RDF表达知识组织系统。

维基百科中的SKOS(http://en.wikipedia.org/wiki/SKOS)[上述官方网站提供的唯一外部链接]

SKOS是设计来表达叙词表、分类法、系统分类法、标题表系统或任何其他种类结构化的受控词表的正式语言家族。SKOS建立在RDF及RDFS基础上,其主要目标是方便为语义网出版受控结构化词表。SKOS目前在W3C框架内制定。

历史
SWAD-Europe (2002-2004)
  欧洲语义网高级开发项目。2003年底SKOS核心与SKOS映射首次出版。
Semantic Web Activity (2004-2005)
  W3C主义网活动。
Current Status and Roadmap (2006-2008)
  SKOS的主要出版文献均处于W3C工作草案状态:
    SKOS Core Guide (2 November 2005)
        [计划由SKOS Primer取代,并与新的SKOS Reference配套]
    SKOS Core Vocabulary Specification
    Quick Guide to Publishing a Thesaurus on the Semantic Web

社区与参与
正式参与:语义网部署工作组(Semantic Web Deployment Working Group)http://www.w3.org/2006/07/SWD/
非正式讨论:public-esw-thes@w3.org邮件组

SKOS组成
SKOS被设计为模块化、可扩展语言家族,其使用与实施应尽可能简单。其组成为SKOS Core, SKOS Mapping, SKOS Extensions。
SKOS核心定义标准叙词表中表达通用特征的类与性能,它基于以概念为中心的词汇观,其原始对象不是术语(词),而是术语所代表的抽象概念。每一概念具有所附的RDF特性,包括:
· 一个或多个优选索引词(每种自然语言最常用)
· 交替词或同义词
· 定义与注释,以其语言的规范
概念可以使用属-分关系以等级方式组织,也可以非等级(相关)关系链接。

应用
AGROVOC与GEMET升级到SKOS格式
SWED环境目录使用SKOS作为叙词表语言
阿姆斯特丹Vrije大学将MeSH转换到SKOS
IBM开发了使用DITA与SKOS的主题分类
GeoNames本体采用SKOS表达地理特性类别(geographical feature types)

工具
· ThManager:Java开源应用
· RDF-OWL编辑器如 Protégé或SWOOP
……

与其他标准的关系
· SKOS与叙词表标准
  SKOS开发有来自RDF及图书馆界专家参与,SKOS拟准许方便迁移由NISO Z39.19-2005和ISO 5964:1985标准定义的叙词表。
· SKOS与其他语义网标准
  本体语言OWL的简化版。

FAST: 主题词分面应用

    远洋过客在“Web化DDC·浏览LCSH”下留言,提示比“浏览LCSH”更早网络化LCSH的FAST项目。看后本想恶补一番,最终只略微进了点补,先踩个脚印。

    OCLC在多年前开始对LCSH进行分面处理,把先组定组式的标题表,拆分成各个“面”的主题词,直接使用而无需在标引时构造,所用词仍与LCSH兼容。项目名为“主题词分面应用”,简称FAST(FAST: Faceted Application of Subject Terminology)。研究组成员以Edward T. O’Neill为首,除了另外一些OCLC人员外,还有肯塔基大学的Lois Mai Chan和LC的Lynn El-Hoshy。O’Neill 还负责/参与OCLC与VIAF(虚拟国际规范档)和FRBR相关的研究。

介绍:
    在项目主页(http://www.oclc.org/research/projects/fast/)上可见FAST的最早报告是在2001年的IFLA年会预备会上(2001/8/14-16),最新报告是在2006年ALA会年上(2006/4/24)。
    这份报告作者Ed O’Neill和Lois Mai Chan,题名"A Faceted LCSH Based Subject Vocabulary",标明是OCLC与LC的合作研发项目。

背景(需要新方法):电子资源茁壮成长、元数据方案大量涌现、需要主题访问新方法、缺乏技术熟练的主题编目员
要求(Web环境下的主题词表):优化检索点,简单的结构与句法,可由非编目员在非图书馆环境下使用,语义互操作,兼容MARC、DC及其他通用元数据方案,易于维护,适合计算机辅助规范控制。

什么是FAST:一个基于LCSH术语的丰富控制词汇表,简化的应用句法。
FAST的原则:根据功能对标题进行分类的分面方法;以简单的应用句法保持LCSH词汇的丰富性;提供多层次方法,允许不同层次的主题表达。
FAST特征:
词汇:同一分面中的术语──枚举;不同分面中的术语──分列
检索:同一分面中的术语──先组;不同分面中的术语──后组
八个分面:论题、地理、形式(体裁)、时序、个人名称、团体名称、会议、统一题名(后二者尚未完成)
FAST优点:标题构造在词汇表中而非在应用层;适应先组与后组标引与检索;适用于计算机辅助标引与规范控制;比高度枚举式词表维护更方便经济;便利主题数据与跨领域检索的匹配;适应不同检索模型。

试用:
    FAST规范文档的使用界面名为测试数据库(OCLC FAST Test Databases),入口位于:http://fast.oclc.org/。该处还链接有名为《FAST应用指南与文献》的手册草稿(PDF, 484K, 80p. 发布日期2007-1-12)。
    进入测试库后可以看到数据库的进展,论题、个人名称主题、团体名称主题、地理、时期、题名、事件、体裁已完成,仅参照记录进行中,看来这一年进展顺利(“会议”属“事件”)。
    以前曾试用过,当时还没有写博,故而也没有留下记录。这次再用,想起上次使用的感觉──无法作为编目辅助工具使用。系统应该不是为人查用的,既没有前方一致查询,也没有精确查询,要确切地查到一个词并不容易。如在论题中查“information”,用高级检索,命中达2533条,且按首字字顺显示结果,以information起首的主题词出现九百条之后;由于information本身并非主题词(不够精确以至不足以作为主题词?),无论在主标题(Main Heading)还是副标题(Subdivision)中查,检索结果都为0。
    原以为FAST后将标题表改成了后组的叙词表,其实FAST本身有相当数量的先组词,如记录号为fst00801549的“Agriculture–Information services–Public opinion”,就由三部分组成(如前述PPT所述,属同一个“面”?)。从前述PPT看,标引时没有LCSH的浮动表之类需要在使用时构造主题词,而是列举出所有主题词,因之也不是叙词表。如果从句法上看,属元词表。

    项目主页上还列有ALA 2006年会上另外两个报告,其中一个是杨百翰大学Shannon Hoffman的"Looking Deeper into Using FAST: Report on three projects using the FAST Authority File"(ppt:97K/13 slides),介绍FAST在三个项目中的应用,他的结论是两个:1、FAST需要改进检索;2、要非编目员作主题分析并达到一定的专指度,需要加以培训。
    想来他的想法与我一致,FAST设想的“非编目员在非图书馆环境下使用”的目标并不容易达成。

附:FAST常用字段
FAST采用MARC21规范格式,一些字段说明:
001 FAST记录号(fst……..)
043 地理区域代码
100/400 FAST个人名称
110/410 FAST团体名称
111/411 FAST事件(含会议)
130/430 FAST题名
148/448 FAST时序名称
150/450 FAST论题
151/451 FAST地理名称
155/455 FAST载体
688 一般有两条,分别是LC和WC中的使用频次,很有意思的数据
7XX 对应LCSH ($0 LCCN,如(DLC)sh YY……)

CALIS联合目录与国家图书馆的不一致问题――LCSH更新的启示

    前几天,在杭州参加CALIS联合目录用户委员会第三次会议,质量控制组成员有一个议题是讨论“中文团体名称规范”。因为CALIS联合目录规范库前期建设已进入最后阶段,完成中文团体部分,就可以正式投入使用了。
    由于CALIS联合目录制定的著录规则与国家图书馆在诸多方面不一致,导致大陆及港台多方质疑。为能与国图保持一致,CALIS积极参与第二版《中国文献编目规则》的编制。不过,据说有些原来争论确定的内容,最终出版已非原来面目,让参与编写的CALIS一方很是郁闷。
    更令人郁闷的是,国图的做法也不完全依据《规则》。在这种情况下,《规则》是否还具有其权威?为名称规范,CALIS已经投入很大人力,期间团体名称形式还做过多次更改。在目前状况下,是否要完全按《规则》做,就存在了很大的疑问。讨论的结果是保持现状。
    对于团体名称规范方面,据说国图不完全依据《规则》的原因是,书目库中现有的数百万条记录无法更改。听到这种说法,当时我的想法是,只要确定规范形式,完成规范记录,书目记录按规范作全域更新即可,不存在无法更改的问题。

    今天看到博客“图书馆果汁”(Library Juice)上一篇“芭芭拉访谈”(Interview with Barbara Tillett),才感到,具体操作时需要考虑的问题,实际上远没有外人想象的那么容易。同时,只要本着积极的态度,总是可以期望找到解决问题之途的。
    芭芭拉是美国国会图书馆编目政策与支持办公室(CPSO)主任(她是编目领域的名人,还有一大堆其他头衔),此番就美国国会图书馆标题表(LCSH)接受博主Rory Litwin访问。起因是Sanford Berman撰写专著批评LCSH改革不够,用词欧洲中心、男性至上、污辱与晦涩等等。芭芭拉的回应,既说明LCSH不断进取的现状,又表明积极改进的态度。可以说通过博客这个平台,为LCSH好好地做了一回宣传。

    通读全文,有以下心得:

1、技术变化才使很多事情成为可能。LCSH已有百多年历史,尽管一直在更动,但直到1981年卡片目录关闭后才能做更多改变。比如第一次世界大战,在1981年前一直是“欧战”(European War, 1914-1918),之后才改成“世界大战”(World War, 1914-1918)。毕竟逐个改卡片不是好玩儿的。

2、现有技术不一定能解决所有问题。在LCSH中,基督教的神“上帝”直接用 God,而其它教的神就要另加限定词,如“安拉”用 God, Muslim。对于一个多民族的国家,这样做显失公平。但由于 God 在LCSH还指泛称的“神”,这就导致不能直接将 God 通过全域更新改成如 God (Christianity) 这样的形式。

3、需要不断探索解决问题的方法。仍是对 God,现在已经找到了解决方法,就是配合使用分类号,确定其含义是泛称的“神”还是基督教的“上帝”。

    就是老毛的话:“世上无难事,只要登攀。”