日志标签 ‘分类’

各国行业分类标准

2011年3月14日
因为回一封邮件,查了一圈各国的行业分类标准或标准行业分类法(Industry Classification),整理如下。
———-联合国 ISIC Rev.4———-
《所有经济活动之国际标准行业分类》(修订4版)
一级A-U共21类,二级2位数字。见:维基百科
———-中国国家统计局:行业分类标准———-
国民经济行业分类与代码 (GB/T 4754-2002)
这里这里这里都有(都是政府网站)
一级A-T共20类,共4级(4位数字)
———-美国 SIC———-
《标准行业分类》(1937)
一级A-J共10类,共4级(4位数字)。维基百科上有4位数字代码表,并称虽然SIC基本上被NAICS取代,但一些政府部门与机构如美国证券交易委员会(SEC)仍在使用。
———-北美 NAICS———-
《北美行业分类法》(2007版)
北美(美国、加拿大、墨西哥)现在使用的标准,维基百科上有一级2位数字共20类。1997年初版,最新版2007。
———-英国 UK SIC(92)———-
《英国经济活动标准行业分类》(2003最新修订)
一级A-Q共17类,最小5级(如01.42/9)
———-道琼斯和富时 ICB———-
《行业分类基准》
Industry Classification Benchmark
维基百科有4级分类表
———-日本標準産業分類(平成19年11月改定)———-
在首页选择:分類検索システム(分类检索系统)
可选择以下几项逐级浏览(也可检索):
日本標準産業分類(一级A-T共20类,到4级4位数字)
日本標準商品分類(一级10类)
経済センサス産業分類(一级A-R共18类)
———-小结———-
1、行业分类,大同小异。
2、形式上:基本都采用数字。即使字母作为一级类,二级以下类也只用数字,而不是字母+数字形式。与《中国图书馆分类法》或《美国国会图书馆分类法》LCC不同。以中国标准为例:
一级:A农、林、牧、渔业
二级:01农业
英国UK SIC是唯一采用十进制形式的,从第三级开始加小数点,第5级加/(如01.42/9),与《杜威十进分类法》DDC三位数后加点也不同。

中国分类主题词表Web版试用记

2010年3月24日

[update 2010-04-04: 标题原误作“中国汉语主题词表……”,现改]

月初时看书蠹精博文“国家图书馆召开2010年全馆员工大会”(2010-03-02),提到中文采编部的“《中国分类主题词表》Web版”项目获得了创新奖,发现自己对这个Web版一无所知,就去中图法编委会网站(http://clc.nlc.gov.cn/)找,链过去发现已经错过了试用期。[update 2010-04-04: 今天无意中发现,实际上在2009-06-03曾注册试用,不知为何既未在头脑中留下记忆,也未在本博留下记录?]

昨日未看到书蠹精新博文“《中国分类主题词表》Web版正式发布的通知”(2010-03-23)。今天由CALIS得知《中国分类主题词表》Web版(http://cct.nlc.gov.cn)再度试用,访问首页发现系统测试期已延长至2010年6月15日。先行试过的同事说网上注册用户只能看到若干级[update 2010-3-28: 据书蠹精博文“《中国分类主题词表》Web版正式发布后的反响”(2010-03-25),需等待批准后可有全功能],而注明国家图书馆网络用户的登录名nlcuser则是全功能的。用nlcuser登录后,在个人管理中看到该帐号有效期至2013-02-01,不知道6月15日后此登录名是否只限国图局域网访问。[update 2010-3-25: 现已提示“帐号仅限内部使用”]

使用的感觉与几年前用的光盘版几乎相同。左上部(设为A区)为分类主题对应表的树状浏览;右上部(设为B区)为主题分类对应表,可点击首字母浏览。点击某类号或某主题词,左下部(设为C区)为分类法类目详细信息,右下部(设为D区)为主题词等级显示,ABCD四区同步更新。
除浏览外,可选择分类或主题的各个部分,进行任意一致、完全一致、前方一致、后方一致的检索。
发现分类号与主题词均有“记录控制号”,似乎以前未在光盘版中见过。

在“个人管理”中有“OPAC管理”与“评注管理”。记得光盘版安装后是可以加评注的,但与OPAC关联却是首见,也可以说是Web版的亮点。
试着增加本馆OPAC,然后测试在分类号与主题词上按右键,直接检索,效果不错。但设置过程比较痛苦,因为帮助中没有详细说明,是反复试后悟出来的,可能有错:
一、系统根据“OPAC名称”中的“分类”或“主题”字样,在分类号或主题词上按右键时会弹出相应的目录。即在“OPAC名称”中必须有“分类”或“主题”,否则设置无效。
二、只有列入“首选OPAC”,才能在右键链接中出现。尽管可以把所有OPAC都加入“首选OPAC”,但右键可弹出的OPAC链接数量有限(试下来有时2个分类、3个主题,有时相反)。需要修改“排序号”,保证自己需要的OPAC能出现。新加入“首选OPAC”的均为0,自己最希望用的OPAC设为1比较保险(分类、主题可分别设1),3以下的基本不可能出现了(除非1、2没有)。
三、IE only,用Firefox及Chrome不支持右键菜单。
在增加本馆OPAC前后,看到北师大OPAC正好先于自己加入。所幸这位同仁没有像我这样折腾,要不然两人用同一个帐户改设置,恐怕永远试不出结果了。

在“个人管理”中可填写“下载数据库申请表”,经审查同意、签署协议后可获取数据。数据包括《中图法》与主题词表,数据格式有MARC、XML及“其他”可选,用途有“用于应用系统”、“用于再编表”、“用于研究试验”及“其他”可选。

最后指出一点瑕疵,“个人管理”页面下部显示:Copyright (c) 2008 Corporation,哪个公司做的?

OCLC推出实验分类服务Classify

2008年7月11日

    OCLC前些日子刚推出了针对LCSH、MeSH、TGM(图形资料叙词表)等的控制词表术语服务(Terminology Services),接着又推出了实验性分类服务(An experimental classification service),这是一项基于WorldCat数据挖掘的原型服务Classify,采用OCLC的FRBR作品集算法,提供作品的DDC、LCC及NLM分类号。
    从Classify检索入口,可以通过ISBN、ISSN、OCLC控制号、UPC(通用产品码)或者作者/题名进行检索。由于很多作品都有不同版本,所以分类号也可能呈现五花八门的情况。
    目前提供的信息有:
基本信息:题名、作者、体裁、版本、收藏馆数
分类信息(DDC、LCC、NLM):最常用分类号及收藏馆数,最新分类号及收藏馆数,最新分类法版本、分类号及收藏馆
分类号分布图:分为所有及DDC、LCC、NLM的分布
版本详细信息,包括题名、作者、语种、收藏馆数、MARC类名、分类号等

    其中最抢眼的是分类号分布图。同一种书,分类号大多数情况下差别不会太大,于是分类号分布饼图一般情况下就象游戏中那个张着大嘴吃豆子的小家伙。下面特意找了个有很多不同分类号的例子截图

    昨天看到时没觉得这个分类服务有什么用,今天看到David说这是个“快速、简单获取分类号的途径,而无须是OCLC成员”,方才想到原来WorldCat是不显示分类号的。David在一个专业馆工作,在美国很多小馆无钱参加OCLC,而查LC的命中率又不够高,如同我当初,千方百计、削尖脑袋找免费的数据来源。
    Classify提供最新分类号、分类法版本也是挺有用的,因为有可能反映了分类法的更新,常常新分类号更接近最新理解。看了几个例子,或许都不是医学方面的,没有见到NLM号。

   不管“有用”、“没用”,可以看到OCLC在如Lorcan Dempsey所说的那样,不断地"make data work hard"。难怪OCLC尽管属于图书馆行业,却已连续三年名列《计算机世界》最佳IT工作单位(Computerworld’s Best Places to Work in IT),并且排名从2007的第86位上升到了2008的第51位。

   另:在WorldCat.org查上图中的书“Stilwell and the American experience in China, 1911-45”,共14条,而且首条只显示10版本(而不是上图的15),可见WorldCat.org“版本”部分的FRBR化做得还不到家──10版本中没有包括检出的几个中文译本,即《史迪威与美国在中国的经验》《史迪威与美国在华经验》《蔣介石的外國高級參謀長 史迪威》。

参见:
Class numbers on works (July 09, 2008) from Lorcan Dempsey’s weblog
Classify from OCLC (July 10, 2008) from Catalogablog

SKOS:简单知识组织系统

2008年2月28日

[DIGLIB]2008-2-27消息:
SKOS Primer征求意见(Call for Comments: SKOS Primer: W3C Working Draft 21 February 2008):SKOS Primer 将取代SKOS Core Guide (2 November 2005)。
看SKOS Primer一过,稀里糊涂。收集些SKOS的资料。

SKOS Home(http://www.w3.org/2004/02/skos/
SKOS: Simple Knowledge Organisation Systems

SKOS是一个工作领域,致力于制定规范和标准,支持在语义网(Semantic Web)框架中利用知识组织系统(KOS)如叙词表、分类法、标题表系统和系统分类法。
SKOS提供标准方法、使用RDF表达知识组织系统。

维基百科中的SKOS(http://en.wikipedia.org/wiki/SKOS)[上述官方网站提供的唯一外部链接]

SKOS是设计来表达叙词表、分类法、系统分类法、标题表系统或任何其他种类结构化的受控词表的正式语言家族。SKOS建立在RDF及RDFS基础上,其主要目标是方便为语义网出版受控结构化词表。SKOS目前在W3C框架内制定。

历史
SWAD-Europe (2002-2004)
  欧洲语义网高级开发项目。2003年底SKOS核心与SKOS映射首次出版。
Semantic Web Activity (2004-2005)
  W3C主义网活动。
Current Status and Roadmap (2006-2008)
  SKOS的主要出版文献均处于W3C工作草案状态:
    SKOS Core Guide (2 November 2005)
        [计划由SKOS Primer取代,并与新的SKOS Reference配套]
    SKOS Core Vocabulary Specification
    Quick Guide to Publishing a Thesaurus on the Semantic Web

社区与参与
正式参与:语义网部署工作组(Semantic Web Deployment Working Group)http://www.w3.org/2006/07/SWD/
非正式讨论:public-esw-thes@w3.org邮件组

SKOS组成
SKOS被设计为模块化、可扩展语言家族,其使用与实施应尽可能简单。其组成为SKOS Core, SKOS Mapping, SKOS Extensions。
SKOS核心定义标准叙词表中表达通用特征的类与性能,它基于以概念为中心的词汇观,其原始对象不是术语(词),而是术语所代表的抽象概念。每一概念具有所附的RDF特性,包括:
· 一个或多个优选索引词(每种自然语言最常用)
· 交替词或同义词
· 定义与注释,以其语言的规范
概念可以使用属-分关系以等级方式组织,也可以非等级(相关)关系链接。

应用
AGROVOC与GEMET升级到SKOS格式
SWED环境目录使用SKOS作为叙词表语言
阿姆斯特丹Vrije大学将MeSH转换到SKOS
IBM开发了使用DITA与SKOS的主题分类
GeoNames本体采用SKOS表达地理特性类别(geographical feature types)

工具
· ThManager:Java开源应用
· RDF-OWL编辑器如 Protégé或SWOOP
……

与其他标准的关系
· SKOS与叙词表标准
  SKOS开发有来自RDF及图书馆界专家参与,SKOS拟准许方便迁移由NISO Z39.19-2005和ISO 5964:1985标准定义的叙词表。
· SKOS与其他语义网标准
  本体语言OWL的简化版。

Web化DDC·浏览LCSH

2007年11月10日

    图书馆界在知识组织方面的长期经验,在网络时代如何继续发挥作用?那就是别把自己的分类法、主题词表藏起来,而让大家都来采用,这才不至于被边缘化。这个观点keven在当年抱怨《中图法》电子版时就已经表达过了,他最近旧文重温,改名“情报检索语言脱胎换骨的六点议论”重发议论。
    keven因侯汉清老师在北大信管系建系六十年的学术报告而重提旧论。读研时,侯老师就是我的偶像,某个暑假侯老师到本校开PRECIS课,课程作业经侯老师指点后正式发表,还很让自己高兴了一阵。看了侯老师的“网络时代的情报检索语言:进展及热点”,认同keven所说“我知道侯老师以我的话为靶子,最终目的也是与我一致,就是把传统的图书馆对于知识信息的规范控制思想和方法,应用到数字资源和网络环境中去”。在PPT的最后发展趋势部分,专门论及检索语言的电子化与网络化,其中的数据是,网络版已达82.5%(367/445)。

    不过,网络版不等于开放。杜威十进分类法(DDC)网络版WebDewey已经出现很多年,但只限于注册用户使用。OCLC甚至还因为图书馆酒店用DDC的大类作房间号码而与之打知识产权官司。
    只是时代在发展,如今再固守版权,恐怕难逃被抛弃的命运。年中美国一家公共图书馆抛弃DDC,选用书店分类的新闻热闹一时,或许就是这种趋势的一种反应。而OCLC也正在试验开放的Web版DDC,有固定的URI,未来可能会用这样的形式引用DDC号码:
http://dewey.info/concept/333.7-333.9/

    与OCLC的主动相比,《美国国会图书馆标题表》(LCSH)则是被他人弄成了公开的网络版。近日德国布劳恩斯魏克大学图书馆的B. Eversberg在没有资助的情况下,做了“浏览LCSH”系统,数据来自allegro(http://www.allegro-c.de/)公司的“LCSH浏览”,含520万词条,有参照系统,据说是2006年以来的数据,大多是名称及名称/题名组合,所以并非完整版的LCSH。
    如系统说明所述,要查“法国女作家诗作评论”,很少人知道在LCSH中的确切用词,以及如何组合这些词(正式用词是:French poetry — Women authors — History and Criticism)。而现在,不但OCLC的联合目录WorldCat有LCSH,甚至Google图书搜索最近也开始加入LCSH。设计该系统的目的就是为方便不熟悉者查到LCSH的正式用词。
    系统提供多种查询浏览功能:词表正式用词、普通词组、单词、人名、题名。还有多途径的布尔检索功能。
    最有意思的是它并不是一个单一的LCSH浏览系统,还是一个实用的网络图书信息检索工具。点击正式用词后,右侧除有LSCH词条外,还有四个相关链接,都是使用LCSH的网上图书查询工具:
WorldCat(联合目录)
Google图书搜索
LibraryThing(个人网上图书馆)
OpenLibrary(开放内容联盟的维基型书目)

参见:
数图研究:谈谈我们的分类主题词表 (2005-11-24) http://blog.donews.com/kevenlw/archive/2005/11/24/638458.aspx
数图研究笔记:旧文重温:情报检索语言脱胎换骨的六点议论 http://www.dlresearch.cn/keven/index.php/archives/488

OCLC与图书馆酒店的故事:版权与商标 (2006-09-25) /posts/20060925205225.html#
游园惊梦:分类的命运 (2007-7-23) http://youyuan.wordpress.com/2007/07/22/%e5%88%86%e7%b1%bb%e7%9a%84%e5%91%bd%e8%bf%90/
Inquiring Librarian: Google Book Search and… LCSH? (http://inquiringlibrarian.blogspot.com/2007/10/google-book-search-and-lcsh.html)

Lorcan Dempsey’s weblog: Webified Dewey (http://orweblog.oclc.org/archives/001479.html)
Michael Panzer. Towards the “webification” of controlled subject vocabulary: A case study involving the Dewey Decimal Classification. 6th European NKOS Workshop, September 21, 2007, Budapest.(PPT下载

B. Eversberg. Browsing LCSH. (2007-10-04 / 2007-11-08)