研究信息管理系统——机构库升级版?

十月下旬,几乎同时发生了两件与研究者标识(ID)相关的事。一是中科院文献情报中心建立ORCID中国平台,一是高校系统成立“中国大学学者标识建设及服务推进工作组”(后者未见报道,感谢云影提供会议资料)。与之密切相关的,是几个围绕研究者信息的系统,一是清华大学的“清华学者”网,一是中科院“中国科学家在线”(iAuthor)——系统看上去就像升级版的机构库。
正在此时,看到了OCLC副总裁Lorcan Dempsey在差不多时间发表的长篇博文,全面介绍“研究信息管理系统”——这不正是类似升级版机构库的系统吗?或许因为Dempsey是英国人,不那么美国中心,常在博文中介绍美国以外的事情。RIM就是先流行于美国以外的大学,而美国现在也开始感兴趣了。
博文信息量很大。其中对于图书馆,可以认为其中心思想是:大学里对研究信息管理感兴趣的机构很多,图书馆要抓住机会,进一步参与支持大学的研究生活。这与我的想法很合拍。
以下为摘编译。

———-研究信息管理系统——一种新的服务类别?———-
Lorcan Dempsey’s Weblog: Research information management systems – a new service category? (2014-10-26)

近年兴起的“研究信息管理”(RIM,Research Information Management),由“研究信息管理系统”(RIMs)支撑,早年称作“当前研究信息系统”(CRIS,Current Research Information System)。

【RIM:目标、成果、动机】
RIM指有关研究生命周期和参与实体(如研究者、研究成果、机构、资助、设施……)信息的集成管理。目标是在大学各部分同步数据,减少所有参与研究过程数据收集和管理者的负担。成果是提供对机构研究活动更大的可见度。动机包括更好的内部报告和分析,支持合规管理与评估,通过对研究专长与成果的有组织的披露,改善声誉管理。

【功能】
* 【资助】奖项管理与奖项机会识别。匹配潜在资助源的兴趣,支持资助与合约活动的管理与沟通。
* 出版管理。收集关于研究者出版物的数据。常通过搜索外部来源(如Scopus和WOS)帮助填充文档,提供通告保持更新。
* 专业简历的协调与发布。集中维护专业简历。从不同系统抽取数据。可能用于内部报告或评估目的,支持为研究者个人提供各种所需表格的个人数据(例如不同资助机构),用于通过机构研究门户等发布到网上。
* 研究分析/报告。提供关于研究活动和研究兴趣的管理信息,跨系、小组和个人。
* 遵从内部/外部规定
* 支持开放获取。与机构库同步,管理存储需求,与开放获取政策的信息源集成。

【软件】产品
-主要产品
–爱思维尔的Pure
–汤森路透的Converis
Symplectic Elements(有麦克米伦出版社背景)

-相关产品
infoEd Global(电子研究管理)
Ideate(研究管理应用的综合套件)
VIVO(发现跨机构研究者,开源语义网应用)(Pure和Symplectic可接口至VIVO)
Kuali Coeus for Research Administration(研究管理综合系统,开源)

-机构库扩展
DSpace和Eprints都写了扩展,提供某些类似RIMs的支持。例如Dspace-Cris扩展了Dspace模型以迎合Cerif实体【见“标准”】,基于为“香港大学学术库”所做的工作。

标准【2种数据格式】
CERIF(Common European Research Information Format):通用欧洲研究信息格式,来自EuroCRIS(欧洲国际研究信息组织),提供RIM系统间数据交换格式
Casrai词典(Consortia Advancing Standards in Research Administration Information):推进研究管理信息标准联盟词典

【已上线的系统】
-国家级
–南非:DST/NRF RIM(科技部与国家研究基金研究信息管理系统)
–挪威:CRIStin(挪威当前研究信息系统)
–荷兰:Metis(研究信息数据库)

-机构级
–伦敦大学皇家霍洛威学院【使用Pure,大学计算中心负责】
–香港大学:发展机构库,包含RIM或CRIS特性【HKU Scholars Hub(香港大学学术库)
–英国阿伯丁大学:同时有RIM和IR(更常见)【Research Output:机构库名Aberdeen University Research Archive (AURA);研究信息系统用Pure】
–贝尔法斯特女王大学:研究门户,由Pure支持【Research Portal

图书馆【在其中扮演什么角色】
近年发生的有趣的事情之一是,校园各种其他玩家,正围绕可能与图书馆兴趣重叠的数字信息管理开展服务日程,包括如IT【在我国可能是学校网络中心】、教学支持和大学出版社。这与另一个趋势一致,即对追踪、管理和披露机构的研究和学习成果的不断增长的兴趣:研究数据、学习资料、专业简历、研究报告和文章等等。这两个趋势交汇,意味着图书馆现在与研究办公室【在我国大约是科研处、社科处】及其他校园合作伙伴共享兴趣。由于机构本身的和公共的科学政策都对大学成果增长有兴趣,这将成为一个更重要的领域,图书馆将越来越多成为一个合作伙伴。对于机构数字资料将如何更全面地管理,与研究者身份清晰连接,研究信息管理是这个慢慢兴起视角的一部分。

【结论】
无论研究信息管理在美国是否成为一个新的服务类型,如我已经在这儿讨论过的方式,很明显,它所提出的问题,将为图书馆提供重要机会,进一步参与支持大学的研究生活。

语义网还是个事儿吗?

十多天前,黑客新闻(Hacker News)上有人提问,引来一百多条回复。问题是:“几年前,好像每个人都在谈语义网是下一件大事。发生了什么吗?那地方现在还有创新工作吗?人们还感兴趣吗?”从回复看,语义网似乎已经走向了末路,其中一条大概可以说明语义网的现状:“原来(伯纳斯-李等)提出的语义网,如同去年路毙的动物那样死了,尽管还有很多装着不是这么回事。还有很多小组试图复兴最初的想法,或者如知识管理领域的很多事,他们只是简单地改变定义,纳入其他看上去类似、或许能替代的事”。多人提到其产出低,用其中一位的说法是:“所有把语义标记放在没有回报的努力上是一个愚蠢的主意”。有一位指出“语义网不像联盟,更像共产主义”,显见其因缺乏商业模式而遥不可及。
约翰霍普金斯大学的系统馆员Jonathan Rochkind在其博客上,针对该提问及回复写了博文《语义网还是个事儿吗?》,总结了语义网/关联数据的现状,对图书馆界的关联数据热提出质疑。

他首先说明: “关联数据”基本上和“语义网”谈的是相同技术,是“语义网”的一种新品牌,只是关注点有些小变化。然后指出:图书馆界正将很大精力放在尝试生产“关联数据”,而我认为关注更大的世界中正发生什么很重要。
其博文的主要观点有二:
其一,图书馆界因为视语义网/关联数据为技术发展方向而跟随,希望跨出自己的小圈子,不再创建图书馆自己的特定标准,但事实上“其他人似乎没有走向数年前人们希望的那条路”。当下反倒是图书馆及其他没有商业压力的文化遗产机构和民间组织才是探索关联数据的主体。
其二,图书馆更应该关注自己数据的质量、共享自己的数据,并建立适用的模型,而不是盲目跟风“关联数据”。

读完博文,用Google趋势对比了“语义网”和“关联数据”,前者十年间下降趋势明显,而后者呈稳中有升状态,自2012年前后超出前者;中文世界大部分时候“关联数据”在“语义网”之上,但均呈下降状态。
SemanticWeb&LinkedData2005-2015-GoogleTrends

SemanticWeb&LinkedData2005-2015-GoogleTrends-中文

———-语义网还是个事儿吗?(原文摘译)———-
Bibliographic Wilderness: “Is the semantic web still a thing?” (October 28, 2014)

– GIGO(垃圾入垃圾出)
取原有同样数据转换格式为“关联数据”不一定增加多少价值。如果是以前未很好受控、未很好建模或不完整的数据,即使采用RDF它还是那样。改善数据质量,比转换格式为关联数据/RDF,可使数据增加更多的潜在价值、更多的附加利用
– 但请共享数据
如果你的数据有价值,开发者会发现用它的途径,简单地提供已有数据,比试图转换为关联数据更便宜。你可以发现是否有人感兴趣。如果无人对你那样的数据感兴趣——不可能在你把它建模为“关联数据”后,对其兴趣就大大增加
– 跟潮流vs做工作
部分问题是,建模数据本质上是一个上下文相关行动。没有普遍适用的模型——这里谈的是本体层的实体和关系,在数据中作为不同实体表达的对象、它们如何关联。不管建模为RDF还是定制XML,建模世界的方法对不同环境、领域与商业可能有用,也可能无用甚至不可用。……
这些不是不能解决的问题,而是有趣的问题,是图书馆作为专业信息组织应当有兴趣致力解决的问题。语义网/关联数据技术可能在解决方案中起很好的作用(尽管很难明确它们正是“这个”答案)。
对图书馆来说,有兴趣致力于这些问题很好。但致力于这些问题意味着“致力于”这些“问题”,意味着花资源在调研和研发,员工具有正确的专长与组合。不意味着盲目跟从关联数据风潮,因为(错误地)相信它已经被图书馆外(意味着“比图书馆更时髦”)的人们判断为正确的途径。

2014中国图书馆年会笔记(附推国家典籍博物馆)

前几天在北京开会,先参加10-11日的中国图书馆年会学术会议,11日下午在第19分会场“知识组织揭示”有一个发言;13日参加“资源描述”国家标准的工作会议。

原未打算参加年会开幕式,因而10日中午才到京。不巧长假末身体出了点意外,所幸未影响出行,只是不能久坐。为保证完整参加第19分会场,整个学术会议其他部分只听了半场开放获取主题论坛,是历年开会中最不投入的一次了。

———-(主题论坛)开放获取:图书馆的挑战与机遇 ———-
关注OA多年,总觉得我国政策层面没有足够支持,因而一直有置身事外的感觉。前一阵北大期刊网上线,只把它当作图书馆进入出版的事例,未往OA上想。听了此次OA主题论坛,倒是有一点紧迫感了。政策面也在向好,2012温家宝、2014李克强分别表示支持OA,社科自科基金对资助项目OA也有了各自规定,感觉现在不应该再驻足观望了。

1、张晓林:学术信息开放获取的趋势和对图书馆机制的挑战
讲到OA最大障碍是图书馆。这个我倒没有感觉到,似乎图书馆一直很无私地支持OA。但OA本质上是减少中间环节,图书馆作为中介机构,确实会受到不小的影响。报告最后说:0A需要图书馆、图书馆更需要OA。

2、曾燕:研究型图书馆开放获取战略与实践
介绍中科院文献情报中心绿色OA+金色OA并重的实践。首次听说该中心对若干OA刊取得折扣,中科院作者由该中心资助50%出版费的做法。

3、聂华:高校开放获取机构知识库建设与服务
介绍了国内外高校图书馆的IR实践,国内的一些做法如与科研处合作存缴论著、收集课程相关资源,在IR中引入替代计量分析工具等,都是可以借鉴的。数量方面:北大机构成果元数据回溯约40万条;农大18万元数据,原文11万;清华1万多学者;厦大与汤森路透合作批量申请ID,批导入数据等。
另CALIS的IR建设与推广项目名为Chair,CALIS机构知识库网站http://ir.calis.edu.cn/未见此名,之前也不知道,可见自己关注太少。查到聂馆长2012年的一个PPT:CHAIR: CALIS机构知识库 建设与推广,反思与展望

4、郝继英:研究机构开放获取机构知识库实践
谈到一些提供增值服务的内容,如可视化等。中科院文献情报中心以机构排行推进中科院机构支持IR,也是很值得借鉴的做法。刚查了下,该IR全名为:中国科学院机构知识库服务网格

———-(第19分会场)知识组织揭示:技术、方法与实践 ———-
本分会场报告较多涉及语义网,且都或多或少结合实际应用。而我的报告恰恰略掉了BIBFRAME序列化部分,且相对务虚,夹在整场报告中自觉有点不和谐。

1、孙坦:语义环境下知识组织问题的几点思考
内容较多,听得有点走神。其中说到本体的必要性,知识抽取等等。

2、胡小菁:BIBFRAME:模型与词表(slideshare上传出错,稍后更新[update 2015-10-25上传完成])
BIBFRAME作为一个关联数据模型,包括BF模型、BF词表、BF模型序列化和支持工具4个部分,因时间所限,只涉及前2个部分。

3、孙辉:国史知识库构建与语义检索
以三元组方式建设中华人民共和国史知识库。提供“国史百科”,可用自然语言检索(识别不同模式),可视化结果展示,链接来源与详细信息,可发现人物关系,等等。未查到网址,很期待实际使用。
历史最有意思的是不同来源信息可能不一致,哪怕是权威文件。因而会后向孙老师询问如果不同来源信息冲突如何处理,答案是目前涉及的都是基本没有争议的内容,由专家人工判断择一。

4、王乐春:一“页”一菩提
由不同网站(百度、calis、cadal、国科图、nstl等)检索结果页面入手,介绍国图资源梳理整合而成的“文津搜索”。

5、乔晓东:汉语科技词系统建设与应用
介绍已经开发多年的汉语科技词系统:细化传统词表关系,根据W3C对词系统(Vocabularies)的定义,属于简化的本体。作为轻量级本体,定义了20种关系、16种属性。
已发布5个重点领域词系统,可以多种格式导出(数据库、RDF、OWL);并发布有移动知识服务应用。
比较特别的是提供一个开放平台,可注册后自建领域本体。

6、真溱:知识图谱:知识组织工程化的新思路
介绍以图层叠加方式,按知识图层、资源图层实现可视化展示。
其中提到横向关联、纵向索引,没有完全理解。

7、钱庆:KOS在医学信息挖掘与处理中的利用
介绍了很多医学词表、本体及工具,以及在机器辅助标引、智能检索方面的实践。

8、张智雄:STKOS概念关系的可视化揭示方法研究与实现
介绍STKOS(科技知识组织体系共享服务系统)的可视化展示。感觉与前面知识图谱报告类似,因为有多个维度(定义了6种关系),一个图例展示不可行。看网站,目前术语也均在医学领域。

———-推荐:国家典籍博物馆———-
开会常去北京,却总是来去匆匆。此次两会之间隔着一个休息天,有时间玩了一天。上午重游故宫、下午二小时参观国家图书馆新建的国家典籍博物馆。上下午的参观内容还有小小的呼应:上午到了养心殿旁那个小小的三希堂,下午看到了三希堂法帖;上午到了文渊阁,下午看了四库全书及永乐大典——第一次看到永乐大典,开本真大。
参观典籍博物馆后的感叹是:国图好东西太多!博物馆共9个主题展馆,实物丰富,背景与配套图片解释详尽,相关知识整理给参观者提供很好指导。辅以透明触摸屏、体感设备、电脑游戏互动及其他时新技术的应用,可以说相当精彩。二小时参观只是蜻蜓点水,细细看看、玩玩,一天时间不多。