维度(Dimensions):又一家引文库上线,还是免费的

[update 2018-4-18: 早上初醒时头脑最清楚,忽然醒悟——Dimensions明明是引文库,而且后来居上、收录量最多。之前怎么就定位到“发现系统”了呢?现更正,从标题到内容均略调整]

上月Wiley网络会议(参见:战略图书馆技术:当前现实与未来可能,2018-3-27) ,听Marshall Breeding讲到学术出版社3家之一的Digital Science,拥有引文库Dimensions,索引8900万出版物;分析工具Altmetric;研究信息管理系统Symplectic;研究数据存储库FigShare。虽然自以为很关注这方面的进展,对Altmetric有所了解,对FigShare也略有耳闻,但对麦克米伦创立的Digital Science及旗下发现工具引文库Dimensions却一无所知。
还没抽空去查,又收到ReadCube的推送,说Dimensions的检索结果可以直接保存到ReadCube帐户(免费注册)。这么大的发现工具,竟然是免费的?——是真的,今年初刚发布。试用搜索了下,效果不输几大商业发现系统。是不是可以不用订购发现服务了?[update 2018-4-18]作为引文库其使用方法尚未探索,是不是可以不用订购昂贵的WOS和Scopus了?

内容:不止期刊文献,包括:资助项目、出版物、引文、临床试验和专利
使用:无需注册、免费使用;可创建免费帐号;另有机构帐号(应该是做定制版本,情况不详,需在线填表单联系)
检索结果:多种过滤(分面)缩检;一键访问全文;有引用、替代计量数据;可保存结果。
开发:Dimensions API,Dimensions Metrics API,Dimensions Badges

Dimensions网站:https://www.dimensions.ai/
免费搜索入口:https://app.dimensions.ai/
真是不走寻常路的域名。顶级域名.ai,自然是人工智能的意思。忍不住去查是哪个国家的:安圭拉(Anguilla),位于加勒比海的英属海外领地。前有图瓦卢(Tuvalu)这个位于南太平洋的岛国,因售出属于自己的顶级域名.tv得到大笔收入而脱贫,这个.ai应该比.tv更有前景。

Dimensions发布新闻见Digital Science公司网站:
Digital Science Launches Dimensions: a Next-generation Research and Discovery Platform Linking 124 Million Documents, Providing Free Search and Citation Data Across 86 Million Articles (15th January 2018 [网页误写2017])

PCC作品实体白皮书(笔记)

近段日子一直关注馆里在做的方志库,其中涉及“作品”相关问题,首先是什么作为作品(合订本?丛编?),然后是如何从著录方式各异的书目记录中提取作品(并唯一标记、以便汇集所有载体表现),总之问题多多。想起PCC的作品实体白皮书,花几天时间仔细阅读,希望可以帮助理清思路,结果……不是没有收获,只是仍处于混乱中。

PCC SCS/LDAC Task Group on the Work Entity: Preliminary White Paper (1 October 2017) (69 pages)
Karen Coyle, Nancy Fallgren, Steven Folsom, Jean Godby, Stephen Hearn, Ed Jones (chair)

本白皮书汇集作品概念相关信息:历史(并非在FRBR中横空出世),不同标准建模差异(相同术语各自表述或不同术语含义近似),面对的问题。本报告没有答案、没有解决方案,但并非没有态度。

作品描述 将会取代 作品记录
作品描述:指描述一个作品实体的RDF三元组的任何图谱。采用开放世界假设,三元组集非预先定义:任何属性取一部作品为主体的三元组,都是该图谱的潜在成员。(1 导论,p.6)
任务组不认为未来的书目实践中会有单一的、规范的作品“记录”。作品将会存在于由RDF引入的元数据“后记录”视图中。(执行摘要,p.3)【可类比为情报检索语言中的“后组”】

“作品”历史回顾(2.1)
虽然“作品”术语到19世纪才由帕尼兹提出,但作为书目概念可以追溯到17世纪牛津大学图书馆目录(把不同题名出版物放在一起)。1979年时柳别斯基认为即将采用的AACR2有放弃作品的危险【不知所指为何】,1997年的FRBR则在理论上回归到了作品概念。
虽然在FRBR前“作品”没有明确定义,但在英美编目中长期具有中心作用。在1941年“统一题名”出现前,是以不同题名在目录中相互引用(意指不确定哪个是规范检索点)。一直与“作品”绑定的“作者”(创作香),则是随时间(即规则)而变的,在AACR2/RDA之前,所谓“名称-题名”中的“名称”曾经可以是编者、也可以是一般团体。

作品、作品描述、作品实体,编目政策、数据设计(2.2)
“作品”作为术语的3种含义:(1)识别出的作品(类别);(2)作品的描述;(3)作品实体。
是否每个被编目载体表现需要作品描述由编目政策决定;是否每个作品需要作品实体由数据设计决定。数据设计的决策在某种程度上受到作品如何在给定系统中确认与描述的影响。【书目数据的结构与质量决定能在多大程度上揭示作品实体】

面目不清的“作品”概念
现今各种相关标准对作品有不同认识(详见下,4 作品建模)。Richard Smiraglia著有《作品的性质》(The Nature of “A Work”. Lanham, Md.: Scarecrow Press, 2001),详述知识组织界对“作品”处理的细节。
尽管FRBR最终报告(1998)的作品定义是讫今为止对“作品”的书目概念的最准确说明,但开发FRBR的工作组本身承认,作品实体的边界会随实践界而异,因此作品和内容表达间的边界仅是研究目的的,并不在整个书目界有效。【这也就是BIBFRAME模型分三层的原因吧,因为要从现有书目记录中区分W和E更是困难——除了OCLC作品算法中识别的译本】

以显示串作为作品标识符并非最佳选择(3 标识符,p.11)
【用RDA术语,就是“代表作品的规范检索点”】规范工作花很多工夫在构建与确保规范检索点的唯一性,这是索引浏览环境下的必需,但在搜索驱动环境下可以有更灵活省力的方法帮助用户识别与选择资源。
妥善管理的标识符系统应当把标引与显示用元数据与标识分开,让数据随时间更稳定。但以“名称-题名”作为代表作品的规范检索点,最容易遇到作者名称形式的变化,比如不可避免的人过世(需要加上去世年)。

确定作品标识符的方法(3.2 作品标识符)
一个作品只有一个唯一标识符的想法是不现实的。不同环境如RDA和BIBFRAME中标识的作品会有不同的标识符。其管理可通过创建机器可操作的同等或相似陈述。确定作品身份(同等)的方法:
1、编目员决定:编码一套属性,属于该作品。【先组,如“名称-题名”】
2、作品身份在描述作品的属性中固有:Elaine Svenonius在《信息组织的知识基础》(The intellectual foundation of information organization. Cambridge, Mass: MIT., 2009. p. 33)中称为“集合理论”方法(“set-theoretic” method),即一套属性(如相同作者、相同题名)定义2个书目事项[记录]为相同作品。优点在于因为由算法确定,作品集成员具有一致性。【后组】

不同词表中的“作品”(4 作品建模)
目前以下词表(类和属性)还没有互相参见(只有BF Lite含少量与BF和其他RDF词表的“same as”关系)。假定未来会为方便互操作而增加。
4.1 FRBR
4.2 RDA:即使用采用RDA条款创建的编目数据,也未证明能够以合理的精度、可靠地抽取作品实体描述【现有CNMARC数据更是如此】
4.3 BIBFRAME:BF2.0词表进一步远离FRBR实体定义,因为不限制定义域。许多(如果不是大部分)属性定义为适合描述作品或实例或单件(而FRBR是用于单一定义域的)。BF三层对应FRBR四层:BF词表包含属性expresionOf/hasExpression可用于映射FRBR的作品-内容表达为BF的作品-作品关系,同时隐含保留FRBR作品和内容表达间的区别
4.4 BIBFRAME Lite:主要需求来自转换遗留数据而非以RDF创建新数据。作品本身属性很少,但继承来自超级类“资源”的附加属性
4.5 CIDOC CRM,FRBRoo,PRESSoo:引入时间实体、事件、时间过程;细化第1组实体(详见FRBRoo);分析创建和生产过程。FRBRoo对连续出版物的特例处理(单作品-单内容表达-单载体表现)被转至IFLA LRM,2018重新设计的RDA也会与之兼容
4.6 IFLA LRM:LRM在作品方面有2个变化,涉及集合体和连续出版物。
集合体:非作品【对应的集合体“作品”还是有的】,而是包含多个内容表达的载体表现,其中之一是称为集合作品的内容表达,即应用于载体表现的选择与安排准则。【集合体=载体表现(含N+1内容表达)】
连续出版物作品:集合体作品的一种类型,包含单个载体表现的单个内容表达【连续出版物作品->1个内容表达->1个载体表现】。LRM说明允许定义附加实体,包括其他纸版与Web版、不同语言版、本地版。但不清楚如何在实施中关联作品(增加属性?);目前也不知道RDA将如何表达。
4.7 Schema.org:对知识资源的高层术语是CreativeWork(直接在thing下),被用于FRBR所称的WEM。有20多个作品类型的子类,包括:文章、图书、地图、电影、照片、作曲、录音、电视连续剧、软件……。关系属性:作品样例、基于、部分,(书目扩展)作品翻译。Schema.org提供Web域名中各元素的使用范围,创作作品用得最多的类别是博客和文章(均超过百万域名),创作作品本身用于25-50万域名,图书1-5万域名;标识符属性有isrc和iswc,但未报告被使用。
4.8 DC:很少单独使用,最常与其他术语组合……适合作为词表间转换语言。
4.9 出版界和知识产权界标准:FRBR作品实体组装具有不同权利的内容表达,出版与知识产权界不关心。虽然出版社与知识产权标准不直接影响图书馆实践,但向图书馆资源发现服务提供的元数据会产生影响。
<indecs>【ONIX】:抽象概念(abstraction)=FRBR的内容表达(译本、版本)
ISTC:作品=FRBR内容表达
DOI:可应用于任何实体、任何粒度水平,如整个期刊、一期、一篇文章或特定格式的一篇文章。均不对应FRBR作品。
ISBN:可用于单册或多册集【FRBR载体表现】
ISMN:同上【FRBR载体表现】
4.10 图书馆界其他关联数据模型(未采用作品实体)
BLDM:不列颠图书馆数据模型(用于《英国国家书目》)
EDM:Europeana数据模型。定义“信息资源”类为=FRBR作品、内容表达、载体表现和CIDOC CRM实物的合并。
DPLA MAP:美国数字公共图书馆元数据应用纲要(基于EDM)
4.11 算法上实施作品:LC和OCLC均从事由MARC数据发现作品的类似工作,从MARC统一题名规范记录和书目记录开始(中文统一题名规范记录极少)。

5 开放问题【没有答案,但有观点】
5.1 作品和规范:FRBR意义中的作品和当今编目中定义的作品规范之间的关系是什么?
5.2 “一部作品”中包含什么:如何定义作品描述的范围? 它是否包含取自创作者和主题实体的属性?对于不同的功能如编目新的内容表达、用户显示等,需要多少图谱?
5.2a 以惯用总题名(汇编和集合体)特征化的作品【参见:规范检索点用惯用总题名后如何区分不同汇编(2018-4-8)】
5.3 作品实体:要求创建作品实体是出于什么功能需求? 是否需要为每个编目资源创建作品实体?
5.4 工作流程问题:与作品相关的编目工作流程如何考虑:(1)作品作为一个描述?(3)作品作为一个实体?
5.5 与知识产权界的作品相对应:我们如何与知识产权界创建的作品相关联?

新发布国家标准《地方志索引编制规则》

近来正关注着方志,昨天去上师大参加中国索引学会上海工作站成立会,得知新发布了地方志索引编制的国家标准,便找来学习。

GB/T 36070-2018 地方志索引编制规则
2018-03-15 发布;2018-10-01 实施
全国信息与文献标准化技术委员会(SAC/TC 4)提出
起草单位:中国索引学会、佛山科学技术学院、复旦大学、北京印刷学院
主要起草人:衡中青、杨光辉、王彥详、王有朋、温国强、王雅戈、康艳、郭丽芳、赵月南

本标准共15页,在国家标准全文公开系统(http://www.gb688.cn/bzgk/gb/)中可以在线浏览。摘编主要内容如下【加本人附注】。

1 范围
新编地方志

2 术语和定义
地方志 local chronicles :记载一定地区(或行政区划)自然和社会各方面历史和现状的综合性著述和资料性文献
注:1949年……以后编纂的地方志称为新编地方志,包括地方志书地方综合年鉴

6 地方志索引范围
具有实质检索意义的表达人、事、物的名称,文献表格题名与内容,图照题名与说明文字,以及主题事物和主题概念等;地方综合年鉴的条目、特载、专文以及年鉴其他内容中包含实质检索意义的语词。
不包括:序跋、目录、凡例、参考文献等。

7 地方志标引
7.1 人名标引【没有对人名进行规范的要求,也未说明对各种异名各自立目、并作参见处理】
不包括:没有检索价值的帝王年号,法律法规文件和讲话文章中不符合索引主题要求的人名,纪念物中的人名,以人名命名的路、街、村、屯中的人名【作为地名】,机构名称中的人名【作为机构】,人物传、略、录、表中重复出现的本传传主人名,地方志条目的撰稿人,参考文献的编著者等。

7.2 地名标引【题外:感觉应当要求方志编纂时为地名标上经纬度】
包括:行政区划名称,地形地貌名称,自然形成的居民地的省、市、县、州、村、屯、街、路、坟、里弄、胡同等名称,具有地名含义的交通、水电设施名称,名胜古迹及建筑物名称等。【竟然未明确说明“区”】
例如:“上海市徐汇区天平街道”“珠穆朗玛峰”“上海市邯郸路”“江湾立交桥”“贵阳孔学堂”等。

7.3 机构标引
包括:确指的、独立存在的各类机构、团体、企事业单位等名称;
不包括:虚拟的各级标题中的机构、团体、企事业单位名称,例如:“县处级以上领导机构群众路线教育实践活动”中的“县处级以上领导机关”、“在沪央企发展巡礼”中的“在沪央企”。【“虚拟”?宜称:泛指或非特指名称】

7.4 会议、展览、活动标引
包括:会议、展览、活动名称及其主题事物和主题概念等。
名称过长的,取其简称或自拟主题词;合并举办的,分拆标引、各自立目。

7.5 事件标引
事件名称及其主题事物和主题概念等。
可以直接抽取主题词作为标目,也可根据事件人物、时间、地点等要素自拟主题词。

7.6 物产标引
特产名称,包含正式名称和异名别称等。
容易产生歧义的加限义词界定。示例:竹叶青(蛇),竹叶青(酒)竹叶青(茶叶)【规范控制】

7.7 名胜、古迹标引【与7.2地名交叉】
如自然景观、人文景观及特色藏品等。
容易产生歧义的加限义词界定。示例:扬州八怪纪念馆(扬州),扬州八怪纪念馆(镇江)【规范控制】

7.8 文献题名标引【非指参考文献】
前后加有书名号的文献题名直接从文献中抽取,照录;文献名过长的,加自拟文献题名作为参照款目,自拟文献题名不加书名号。
有正、副书名的应分拆标引,各自立目。【很有意思的规定】
同书异名、各自立目,互为参照。
异书同名的加著者或出版机构等加以区分。【规范控制】

7.9 表格标引
表格题名或内容信息。
直接抽取表格题名或内容信息作为标目,表格题名过长的自拟主题词作为标目。
表格题名不能明确揭示表格类型的加“(表)”字。【规范控制】

7.10 图照标引
图片、照片题名或说明文字。包括:以图照形式存在的各类题词、书法作品、书影,计算机制作的图形等。
抽取图照题名作为标目,题名过长的自拟主题词作为标目。
图照没有题名的,对说明文字进行主题分析,自拟主题词作为标目。
题名如不能明确表达“图片”“照片”这种记述形式的,应在其后加“(图)”字样。【规范控制】

7.11 主题标引
主题事物或主题概念。
以自由标引为主,受控标引为辅。