看《网络数据分析》随想

    记得读书时,情报检索课讲到”逆波兰式”之类,就有点头痛。后来有位同学研究自动分类,他说得头头是道,我听得云里雾里。而现在,看不懂的专业书更是越来越多。手头一直在读邱均平等著《网络数据分析》北京大学出版社,2004;国家自然科学基金项目),本是自己有兴趣的内容,只是已经看了很久了,老拖着不想看完。因为概念超多、软件聚集,逐个理解下来,远远超出自己的承受能力。信息时代,虽然需要不断接受新的信息,但也需要适当放弃一些信息,否则怕自己会精神分裂了。

    写下上面这些后就心安理得了,匆匆翻阅《网络数据分析》最后四分之一,算是读完了。其实书中也不全是枯燥乏味的内容,案例分析”从CN域名注册量看我国的域名注册政策”(p.251-252)就比较简单,让我费不了什么脑子就看得津津有味。
   我国高校的网站域名一般是.cn,但平时经常访问的那些国内网站大多是.com。书中提供的数据是,国内Web站采用国际域名的占52%,国内域名的占48%。原因是国际域名注册费80元/年,比国内注册域名280元/年要便宜很多。”国内域名注册费居高不下,致使国内很多网站舍弃.cn域名,转向注册费便宜得多的.com等国际顶级域名。由于各网站都用.com域名,中国用户访问国内网站,也要跑到美国的域名服务器解析一次,所以形成了巨大的中国到美国的网络流量,致使中国不得不向互联网线路提供商另外多交一笔流量差额费用。…CNNIC对或名注册的垄断,致使中国互联网整体利益蒙受了不必要的损失”(摘录到这里,才由参考文献发现分析观点出自刘韧”解决CNNIC“)

    说的是事实,但分析就是另外一回事了。对中国互联网利益影响如此之大的事情,国家不管或许有种种放得上或放不上桌面的理由。但为什么选国际域名,不说个人或小机构,那些年营业额大大的企业,会在乎这几个小钱?恐怕.com(或.org、.net)比.cn更显得国际化才是说得过去的原因。我不知道解析域名会造成多大的流量,但我知道,很多时候跑到美国的服务器,不是去解析域名,而是去看他们比我们丰富得多的网络世界。
    无论如何,看了前面那段分析,我对使用.cn的机构表示敬意,因为他们宁愿多花些钱,以维护国家的整体利益。也有不明白的。我看到Google在很多国家或地区都有本地域名,包括台湾,这也是有些网友大骂Google的理由――居然有青天白日旗而没有五星红旗。但为什么Google在国内的访问量这么大,却没有www.google.com.cnwww.google.cn
    输入上面那两个网址,都是”Google创可贴”。依稀记起前一阵有关于Google域名抢注的新闻,查一下,原来那个网址的注册日期为1999-12-03,当时恐怕国内大多数网民(包括本人)还不知道Google为何物呢。所以,尽管域名拥有者北京国网信息公司有抢注著名商标域名的恶名,仍被裁决拥有此域名,详见2003年3月”中国国际经济贸易仲裁委员会域名争议解决中心裁决书“。从裁决书还知道原来Google公司的中文译名是”科高公司“。
    Google公司唯一注册的中国域名是google.net.cn,已经一年多了。Google公司注册的几个国际顶级域名都被重定向到www.google.com,而.cn的这个域名却没有使用,不知为何?

 

第四次中文文献资源共建共享合作会议之中文名称规范

    今天看2005年第1期《新世纪图书馆》,才知道2004年11月15-18日召开过”第四次中文文献资源共建共享合作会议”。从2000年起,分别在北京、台北和澳门举办了前三次会议。《新世纪图书馆》刊登了部分发言内容,江苏文化网会议主页
    我对三个有关中文名称规范数据库的”合作项目”报告感兴趣。只是看完仍觉得是各说各话,各做各的,看来是有限合作,至多是内容合作,在实体上大概不会变成一个的,将来或许可以形成一个中文虚拟名称规范库。
    综合谢琴芳”CALIS中文名称规范数据库建设方案及其实施进展“(p.3-5,内容与题名网上有所不同)和谭文力”中文名称规范数据库的建置与发展概况“两个报告,现有与中文名称有关的重要规范库情况如下:
    中国国家图书馆:1995- ;50+万条,增6000/月;UniMarc;UTF-8字符集;统一标目为简体中文,拼音以单字为单元。标准:《规范数据款目规则》《中国机读规范格式》《中文图书名称规范数据款目著录规则》
    HKCAN(香港7所大学图书馆合作项目):1999- ;12+万条;Marc 21;UTF-8字符集;统一标目为汉语拼音,依据《中国人名汉语拼音拼写法》;7XX繁体中文,4XX韦氏拼音
    中文名称权威资料库(Chinese Name Authority Database, 简称CNAD,台湾中央图书馆/台湾大学图书馆):1990- ;52+万条/26+万条?;CMarc/Marc 21;Big5/CCCII字符集;繁体中文?。标准:《中文名称权威数据库使用手册》《中文名称权威数据库维护手册》电子版
    CALIS:2003- ,尚未正式使用;46+万条;UniMarc,提供Marc 21转出;UTF-8字符集;统一标目简体中文、繁体中文、外文,汉语拼音?

文学类图书的LCSH标引

    开学上班,见到哈佛燕京图书馆编目部主管林国强先生(James K. Lin)寄来的资料,回答我早几个月提出的一个问题,想起当时听他讲LCSH标引的情形。林先生曾在LC做主题编目多年,写过关于LCSH的专著。听他讲课举重若轻、收放自如,讲授+练习+点评,似乎不经意间,大家都掌握了LCSH标引,不得不佩服他的授课内容及方式。
    对于LCSH标引,首先重要的一点就是明白”先组定组”,所有主题标目、子标目都要有依据,或者取自LCSH,或者按说明取自通用标目或词语(free-floating),或者仿照模式标题(pattern heading)。只是对于文学类图书,LCSH标引规则太多,光在《主题编目手册》(MSC)中列出的就有很多,还有什么情况下不需要标引主题的问题,搅和得如一团乱麻,不好掌握。经林先生总结,就简单了很多。根据体会,择要编译其讲稿如下,遇文学类图书原编需标引主题时,可按图索骥(H…为《主题编目手册》规则编号):

一、文学体裁:
1、以下5种被称为主要体裁,与国别/语种组成主题词时正序:fiction, drama, poetry, essays, prose literature。如日本小说Japanese fiction。
2、其余被称为次要体裁,与国别/语种组成主题词时倒序。如韩国短篇小说Short stories, Korean;日本佛教文学Buddhist literature, Japanese。
3、作为体裁标题的子标目时,地点、时间、作者群体只能分别标引为多个不同主题。

二、文学评论:
1、[体裁标题]–History and criticism(或H1156中其他子标题)
2、[作者名称]–Criticism and interpretation(或H1110中其他子标题)
3、论题标题:
[650LCSH 标题] in literature(参H362)
[非650LCSH标题]–In literature(参H362)
[LCSH战争标题]–Literature and the war [ revolution, 等](参H1200,H1790)

三、文学作品:
[主题]–Literary collections(多体裁作品集,参H1095)
[主题]–Drama(参H1780)
[主题]–Poetry(参H1800)
[主题]–Fiction(参H1790)

四、文学作品(集)标引:
1、单作者:一般不做体裁主题(一);有特定论题时做论题主题(三)
2、多作者:做体裁主题(一);有特定论题时做论题主题(三)

五、文学评论标引:
1、单作者研究:
一般研究:做(二/2);
个别作品研究:做[作者名称].[题名];重复原作品论题主题(三)
2、二至四作者研究:做(二/1);每位作者分别做(二/2)
3、五位及以上作者研究:只做(二/1)
4、佚名作品研究:参H1155.8

六、翻译作品标引:
1、单作者:
单部作品:不做主题
作品集:[作者名称]–Translation into [语种]
2、多作者:做体裁主题(一)–Translation into [语种]