Scopus的作者规范与分面检索

    去年五月,看到“Scopus Author Identifier”的报道,觉得是一种作者的规范。访问Scopus网站,可惜相关资料只限订户观看。不几日发现本馆正在试用Scopus,正好登录进去一看究竟。

    数据库试用时对Scopus的介绍:
    SCOPUS 是 Elsevier 公司的文摘索引数据库,它收录了 13450 种经同行评议的出版物 (主要为期刊) ,学科覆盖数学、物理学、化学、生物学、生命科学、农业、地球和环境科学、工程、心理学、社会科学等领域。
    SCOPUS 数据库还有以下几个主要特点:
1 . 可以检索论文被其它文献引用的情况;
2 . 可以检索到上至 19 世纪发表的文章;
3 . 可以检索到互联网上的相关文献。
用户可通过 Scopus 网页右上方红色的“ Register ”进行个人注册,从而利用 Scopus 中的 Alert 推送服务。

    今天想起此事,把当时的截屏在此存个档:
1、在基本检索与高级检索之外,单独设作者检索,比较特别。并且作者检索也可以设置推送,可用于跟踪特定作者的检索。

Scopus Author search

2、作者检出结果注明作者的主题领域以及所在单位,便于区分同名者。除列出命中文献数量外,还有作者详细信息链接。

Scopus Author result

3、作者详细信息页面左栏有两部分,Personal 列出作者名称的其他形式等关于其本身的信息,相当于名称规范档;Research 部分有其收录文献数、被引数及合作者数及其链接。右栏是 Documents 的详细列表,可直接链接到文摘信息 Abstract+Refs。

Scopus Author details

    看 Scopus 网站上的最新演示,检索界面不见了 Author Search,不知道是不是演示版的简化。另有新发现,也可能是以前没有注意到:

Scopus Refine results
1、有 Full Text 链接。演示没有说明这个文摘索引库中的全文由何而来。
2、检索结果页面上方的 Refine Results,提示与本次检索有关的内容,供进一步限定 limit to 或排除 exclude。共有五个面:出处/题名、作者、发表年、文献类型和主题领域。分面检索潮流中的又一个例子。

《中文图书标识数据》的指示符问题

    耄耋少年在“元数据研究思考(1)”中认为,MARC格式中的字段指示符实际上并没有用。并指出《中文图书标识数据》征求意见稿虽然用CNMARC,但是不用字段指示符,不知道图书馆界是否会认可。

    从MARC格式看,MARC21的字段指示符表达的含义其实还是比较丰富的,如说明题名的出处与类型(封面、书脊等),说明附加责任者/题名的类型(相关或分析)等。相对而言,UNIMARC及与之兼容的CNMARC的字段指示符确实用处不大,因为UNIMARC或者用不同的字段来表达不同的含义,或者干脆就不加区分(如相关题名、附加责任者等不区分是否为分析)。这就形成了UNIMARC的指示符基本上都用缺省值的局面,所以一般看来,不用也不会产生什么大的麻烦。
    从书目数据角度,对数据质量有要求的图书馆,从出版发行渠道来的数据基本上是弃之不用的;对数据质量没什么要求的图书馆,哪怕直接由EXCEL表转换来的书目数据也照用不误。至于两者在质量及使用效果上的差异肯定是存在的,但相关的调查怕是很难进行,也没有见到过详细的分析。

    标准固然应该与时俱进,但也要考虑与国际标准的兼容,毕竟我们的书目数据还是有与国外数据进行交换的需要的。在UNIMARC没有改变之前,要求CNMARC先行创新,恐怕难以实现。
    以我之见,如果《中文图书标识数据》要用CNMARC格式,为了看上去更“专业”一些,让推广更顺利或者说得到图书馆编目界的认可,还是应该用指示符——都用缺省值就行了,不过就在标准各处多加一项,说明某某字段用什么指示符而已。有点小麻烦的是,个别字段的指示符国图与CALIS有差异,需要先行协调确认。

    回到《中文图书标识数据》采用CNMARC与DC这个问题。我还是以为类似标准采用国际通行标准如ONIX、今后配套转换程序更好。ONIX中大量的电子商务数据,有助于提高出版社采用的积极性。
    虽然我不了解情况,但把当初CIP没有用CNMARC当作CIP数据未能广为采用的主要原因,怕是说不过去的。如果有心推广使用CIP数据,做个转换成CNMARC的程序,那还不是小菜一碟?

参见:

《中文图书标识数据》(征求意见稿)观感

书蠹精:标识性编目和ONIX

联机图书馆目录:失乐园、复乐园

联机图书馆目录:失乐园、复乐园 / Karen Markey

The Online Library Catalog: Paradise Lost and Paradise Regained?
D-Lib Magazine, January/February 2007, Volume 13 Number 1/2 (ISSN 1082-9873)

作者引用的一些资料 (Paradise Lost):
    1980年代早期的一项全美调查显示,80%以上图书馆用户对OPAC持赞成态度。但从一开始,用户就希望OPAC改进主题检索,希望引入目次与期刊论文。到1990年代初期,研究者建议作出的改进有:
1、为使联机目录的主题检索更简单,应采用后布尔概率检索,带自动拼写更正、词加权、智能词干、相关反馈及输出排序
2、为方便用户选定目录中的图书,在编目记录(即元数据)中增加目次、书后索引
3、为减少无结果的主题检索,用全文(报刊文章、百科全书、学位论文、政府文件等)充实联机目录
4、通过图书馆分类,扩展联机目录的寻找策略
    接着作者分析了上述解决方案没有被采用的十个理由。

作者给OPAC开出的药方 (A Second Chance to Redesign the Online Library Catalog)
★ Embrace Post-Boolean Probabilistic Searching  采用(Google和其他搜索引擎所用的)后布尔概率检索,取代过时的布尔式目录 [最具技术难度的部分]
★ Embrace Subject Cataloging 采用主题编目 [描述编目走向没落]
信息存储的30:1法则(题名和主题是目次的1/30,目次是书后索引的1/30,书后索引是全文的1/30)
在后布尔概率检索中注重主题标目、分类号、分类说明、目次、书后索引:
1、排序算法:上述内容权重高于正文
2、简单文本显示:题名、主题、分类说明用于在检索结果列表中快速浏览,确定相关文献
3、相关反馈(“发现更多类似”)机制:题名与主题比正文更高权重。如NCSU的新版Endeca目录的虚拟分类法浏览、LC主题分面。
★ Expand with Qualification Metadata 用限定元数据扩充
可用的文献属性举例:
In a discipline 学科
With knowledge of this subject at a particular academic level 学术层次 [与“读者对象”的关系?]
To what extent the author is an authority on the topic at hand 作者权威性
For a particular class of people 读者对象
Is a particular genre or of a particular literary nature 文献类别
When the particular subject took place 时代
What can be done with the document 用处
How others benefited from using the document 评论、评级
What kind of experience the user gets from the document 用户体验(惊恐故事、悲伤图片、笑话、心碎诗歌等)

作者设想的未来联机目录原型的主题存取功能举例 (Building the Future Online Catalog Now):
★ 排序算法,给元数据记录中的摘要数据如题名、主题、分类号与限定元数据以最高权重,确保排序输出的准确
★ 相关反馈(即“发现更多类似”)机制,给予题名、主题、分类号与限定元数据以比数字化正文中的词与词组更高的权重
★ 用户想在目录检索结果简单显示表中看到的数据元素
★ 用于限定的文献属性,使检索更相关,与用户的智力水平一致
★ 限定属性选择机制,易于检索者理解与使用
★ 用于检索、排序、相关反馈与显示的引用数据的作用
★ 显示与处理全文的能力,如检索、导航、重点显示、加注释、页边加注、与他人共享等
★ 标记元数据(加标签)机制,鼓励用户参与
★ 将联机目录集成到更大的通用信息搜寻场所——Google及互联网,期刊搜索、搜索不可见WEB、机构库搜索等

作者认为OPAC功能的改善也需要2.0
    以前图书馆界的决策由少数关键人物、咨询机构或专业学会作出,现在已不应当再这样了。首先,有这样的技术,能够在决策阶段让更多人有更大参与度(inclusive);其次,我们面对着不确定的未来,需要经历一个转变,从将少数大机构及其馆藏、权威与人员看法放在首位,转向需要所有参与者的联盟。第三,成功实施共享的、基于技术的决策,能够在本领域中树立未来决策的标准,并鼓舞其它领域采用这一方法。

作者的结论
    是否采用她的上述设想并不重要,重要的是重新思考图书馆编目与联机目录,关注联机目录的未来。要抢大规模数字化项目结束前,让所有感兴趣的团体参与严肃的对话、设计原型系统、作出决策,使未来的联机目录有稳固的基础。
    最后一句话:Should we fail to act until all the books are digitized and the copyright problems are solved, the last person to leave to digitization workroom may be turning off the lights on the library.

    文章表达了很多人近年感受到的Google等大规模数字化项目的压力,以及由此对改进OPAC的紧迫感。问题是,OPAC所能揭示的内容,如文中书所述,最大限度也不过文本的1/30——再长就不是OPAC,而是全文检索系统了。即使在大规模数字化结束、版权问题解决之前,将OPAC改造得尽善尽美了,图书馆的灯就能长明吗?基于全文的数据挖掘技术在不断的进展中,未来还需要OPAC吗?
    乐园恐怕难以失而复得,或许对OPAC的所有改进只不过是苟延残喘,站好最后一班岗;再令人兴奋的新功能,也不过是给猪抹口红(
Roy Tennant),一番化妆打扮后,还是要送到屠宰场的。