维基百科搞笑词条

      无论中外,对维基百科Wikipedia的准确性、权威性一直存在质疑。昨天在Easy Librarian上看到,为应对质疑,国外有人对维基百科作了一项测试:作者对维基百科网站作了13处修改,结果是几个小时内这些”有意为之”的”错误”均被修正。

      看上去结果很不错。问题是,对于不那么受关注的中文维基百科,是不是不会有那么多人随时修改其中的”错误”呢?更大的问题还不是”错误”,而是词条中一些令人哭笑不得的内容,与工具书形象相去甚远。

      以前曾有人质疑中文维基的”无神论”词条,因为”佛教从某种程度上也属于无神教”。现在经修改,将此论点放到了无神论”历史”的小标题下,改为”佛教在早期从某种程度上也属于无神教”――这样就可归入学术观点上的差异了。

 

    再看一个中文维基百科的搞笑词条”稻米”及其演变。从建立至今已240天,虽有几次修改,大概因其搞笑术语实在太精彩,故而仍全被保留下来。

    2004/3/13(新建)
稻米是一种可食用的谷物,煮熟后称米饭。
现在常用电饭煲煮饭,煮之前要淘洗,但也有免淘洗米。
如果煮的时候多放点水,煮熟后称稀饭,也叫粥;但水放得太多,煮熟后称撩命汤。如果煮的时候水放的比较少,煮熟后称干饭;只加一点水的煮后叫夹生饭,不加水的叫爆米花。用油炸的叫锅巴。煮成的饭有的生、有的熟、有的焦的叫三层楼。饭煮好后加水的叫泡饭。

    2004/3/27 (2周后)
修改了2处:
1、第1段后一句改为:煮熟后称米饭(北方讲法)或白饭(南方讲法)。
2、在第1段之后设立了一个子标题”稻米的烹调法”。

    2004/4/2 (3周后)
在词条最后增加:”也可以把煮好的饭和蔬菜,肉,海鲜等一块翻炒,这种做法叫炒饭。著名的有扬州炒饭。”

    2004/11/7(240天后)
稻米是一种可食用的谷物,煮熟后称米饭(北方讲法)或白饭(南方讲法)。
现在常用电饭煲煮饭,煮之前要淘洗,但也有免淘洗米。

稻米的烹调法
如果煮的时候多放点水,煮熟后称稀饭,也叫粥;但水放得太多,煮熟后称撩命汤。如果煮的时候水放的比较少,煮熟后称干饭;只加一点水的煮后叫夹生饭,不加水的叫爆米花。用油炸的叫锅巴。煮成的饭有的生、有的熟、有的焦的叫三层楼。饭煮好后加水的叫泡饭。也可以把煮好的饭和蔬菜,肉,海鲜等一块翻炒,这种做法叫炒饭。著名的有扬州炒饭。

 

都柏林核心走向死亡?

      上月中旬,DC-2004在上海图书馆召开,会议主题是”跨语言与文化的元数据”,会议发表的报告内容已经不限于都柏林核心元数据,而是广义的元数据了。今天又在Library Hi Tech News最新一期的目次上,见到一文题为:Dublin Core: An Obituary(都柏林核心讣告),真有点语不惊人势不休的意味。文章批评DC元数据缺乏专指性、没有标准的数据元素、互操作性差,进而断言DC将很快被”元数据对象描述框架”(MODS)所取代。

      实际上,从1995年的DC-1开始,DC发展至今已有近10年,从崇尚简洁一路走来,在语法上先是增加修饰词、后又允许自定义修饰词、进而允许自定义新元素,在语义上引入各种规范、还推荐自建词表,与简洁的初衷渐行渐远,其复杂程度已不下于MARC。与MARC相比,DC有不依赖特制程序阅读的优点,只是本来网络上采用DC的网页就不多,当搜索引擎不利用元数据建立其索引之后,其优点就不再突出了――毕竟元数据主要不是让”人”来阅读的,实际上还是要编制特定程序加以处理,与MARC的可读性相去并不太远。

 

    反观MARC,经过多年发展,已形成不同载体文献一体化格式,并有著录规则(如AARC2、ISBD等)、名称规范库、主题词表等相配套。MARC对普通人的障碍一是其定义的字段、子字段代号不直观,非专业人士无从理解其意;二是其2709格式无法阅读。这二点通过应用程序的转换,在图书馆联机公共目录显示格式中其实已经得到解决。 对图书馆界来说,与其开发、维护一个新的元数据,还不如改造已经成熟的MARC。

    美国国会图书馆的“元数据对象描述框架”MODS就是直接利用MARC的一个范例。MODS包含MARC 21的一个子集,以英语单词或短语代替MARC的字段和子字段,提供HTML/XML格式。从2002年6月公告试用1.2版以来,到2003年底已经发展到了3.0版。在2年多的发展中,已被一些数字图书馆项目建设所采用。或许真是元数据的明日之星?

    国内最关注DC的机构当属上海图书馆,在他们的主页上即有DC元数据中文网,收录了有关DC的各种有价值的内容。同时,他们也关注其他元数据的发展。MODS公开不久,他们的”数字图书馆研究资源门户”中就加入了其资源描述。同时,他们制定的多个元数据方案,都参考了MODS的标准。

 

Z39.50服务器信息

      现在有Z39.50检索功能的图书馆自动化系统越来越多了,大都预设了部分Z39.50服务器,编目套录轻松不少。只是使用中常会发现预设的服务器太少,仍有相当部分MARC记录无法套录到。常有同仁问及有关Z39.50服务器的信息,故在此与大家共享。

      在客户端或本地编目系统中设置Z39.50服务器时,需要提供服务器网址、端口号及数据库名称3项基本信息。一般选择可匿名访问或有公共访问口令的服务器;如服务器要求提供认证而又无合法口令和密码,则无法使用(有的服务器还兼有IP地址限定)。

      中编方面比较无奈,除了参加某些联合目录,可以通过其Z39.50服务器套录到详编记录外,基本上通过Z39.50服务器只能看到简编记录,还需自己加上分类、主题等。丹诚公司曾提供过一阵子免费的详编记录,现在似乎也停止了。不过,如果想少打些汉字,还是可以套录一些简编数据的。无需认证的二大联合目录信息如下(网址/端口/数据库):
国家图书馆联合目录:202.96.31.29 / 2100 / uacn_bib
上海图书馆联合目录:218.1.116.77 / 2100 / uacn_bib
(顺便提一下,如果是用CNMARC著录西文文献的话,上图目录还是很好的西文记录来源)

 

      西编方面就比较幸运,因为国外免费的Z39.50服务器很多,当然使用的前提是网络连接有国际出口。正因为数据来源多,所以需要作一番筛选,数据质量、覆盖率、连接速度等都是考虑因素。各国出版物一般都由国家图书馆收藏,且国家图书馆书目数据质量较高,所以各国的国家图书馆是检索该国文献的首选地。对于一些非正式出版物,或者教材之类,则以大型联合目录或收藏丰富的高校图书馆为佳。本人常用的英语数据来源是:
√美国:
国会图书馆:z3950.loc.gov / 7090 / Voyager
OhioLINK:olc1.ohiolink.edu / 210 / INNOPAC (注意网址的olc1末位是数字1)
国家医学图书馆:tegument.nlm.nih.gov / 7090 / Voyager
√英国:
牛津大学图书馆:library.ox.ac.uk / 210 / ADVANCE
(不列颠图书馆的Z39.50服务器不提供MARC格式)
√澳大利亚:
澳大利亚国家图书馆:catalogue.nla.gov.au / 7090 / Voyager
澳大利亚国立大学图书馆:library.anu.edu.au / 210 / INNOPAC

      关于小语种。德国国家图书馆与不列颠图书馆一样,其Z39.50服务器不提供MARC格式。法国国家图书馆情况不详,其计划似乎是采用UNIMARC。下面提供一个”数据源之源”,需要小语种文献记录的同仁可自力更生,花些功夫试验那些数据源的优劣――很辛苦的,如有收获,别忘了广而告之:
      丹麦Index Data公司搜集的“Z39.50服务器名录”该名录包含世界各地的Z39.50服务器,其”Z39.50服务器统计表”,有数据库名称、地址、端口等信息。特别注意”记录语法”,如果不是MARC格式,则一般无法通过编目用的Z39.50客户端查看、下载。需要认证(有钥匙标记)时,可到相应图书馆网站,看是否提供免费的访问口令。
      目前该网也提供所列数据库的检索,对于非MARC格式,可以通过检索,参考有关书目著录信息(如主题等)。

      注:如果本地系统没有Z39.50检索功能,也可以使用丹诚公司的zTrans通用Z39.50前端软件,套录记录后然后转入本地系统。现在丹诚公司的网站上已经无法下载该软件,但广东省文献编目中心还有。如有需要,趁早点击本链接下载,说不定哪天这个链接也无效了。

说明:2004/11/16增加了美国的国家医学图书馆,医学类图书最为丰富。