“知识组织与检索语言学术研讨会”笔记

12月3-4日在广州参加“知识组织与检索语言学术研讨会”。第一天15个报告,每个报告40/25分钟,内容丰富又排得很满,有难得请到的大咖(头衔都是一长串的),以下选择若干报告概述个人听后感(省略头衔,姓名前数字为报告序号)。第二天是《中图法》编委会工作会议,有幸蹭会,不方便分享内容。
特别有感触的一件事是,第一天晚上5点半,会议还在进行中,会场投影率先罢工。于是体验了一把前电脑时代的学术会议:随薛春香老师报告,努力在头脑中再现内容——实际感受是,PPT可视化确实极大地改变了人的思维方式,弱化了人的具象能力。其实这种现象在电视代替广播时就已经开启,虚拟现实/增强现实必将加速推进这种趋势。

——— 知识组织与检索语言学术研讨会:听后感 ———
1 马费成(武汉大学):大数据环境下用户需求信息组织
对“用户信息需求”加以组织,很新鲜的概念。通过什么方式?“用户需求信息词表”吗?没有提到,并且从报告看本体方法被排除在外。提到DC、SKOS、FOAF甚至FRBR,似乎与用户需求并无直接关系。报告立意很高,但感觉目前还是初步框架,没提供太多实质性内容。

3 李广建(北京大学):用网络数据揭示非正式交流过程
从公开的网络信息(学术新闻)分析人文社会科学领域的线下/现场的非正式交流,包括不同领域的活跃度、专家所在高校分布、交流的政府机构、跨省交流……可视化展示。由于时间所限,似乎没有说明哪些属于“非正式交流”,比如到政府机构算非正式交流?

5 黄水清(南京农业大学):古文信息处理:概念、现状与趋势
报告涉及古文信息的数字化、智能处理和人文计算(数字人文),但数字人文部分只是一带而过,没有展开说明。个人很赞同其中观点:(图情界)选择人文计算问题,应当是研究者有想法但无法实现的,而不是研究者也无法解决的,比如《红楼梦》的作者。

8 常春(中国科学技术信息研究所):知识组织生态系统研究进展
报告内容比较学术化。我关注的是作为研究对象的《汉语主题词表》。一直觉得国家投入巨资编制词表,应该开放才能最大化其利用,终于听到好消息,《汉语主题词表》服务系统刚上线(中信所主页有显著链接)。不提供批量下载,但有很丰富的服务,目前有6个版块:术语服务、文本分词、自动标引、主题分析、学科分类、知识树DIY。可以对用户提供的1.5万字以内文本提供分析。
据说里面不但含有词表中的词,还有其他来源的400万词汇(用于辅助分词)。有兴趣可以去探索一番:http://ct.istic.ac.cn/

9 贾君枝(中国人民大学,今年刚从山西大学转会):数据起源描述框架及其应用
数据起源(或来源)的3个描述框架:开放起源模型、W7模型和Prov。之前关注过W3C的Prov,但并不了解其使用。报告介绍了2个案例:2014美国国家气候评估报告和欧洲起源项目-器官移植。
查了下几个链接:
PROV-Overview (W3C Working Group Note 30 April 2013)
Open Provenance Model Vocabulary Specification (6 October 2010) :文件格式很像W3C文件,作者:Jun Zhao (Image Bioinformatics Research Group, Department of Zoology, University of Oxford)
W7 model 似乎出自一篇文章:Sudha Ram, Jun Liu. A New Perspective on Semantics of Data Provenance http://ceur-ws.org/Vol-526/InvitedPaper_1.pdf: In the W7 model, provenance is conceptualized as a combination of seven interconnected elements including “what”, “when”, “where”, “how”, “who”, “which” and “why”.

11 章成志(南京理工大学):基于全文内容分析的算法使用行为与影响力研究
针对“计算机算法”这一特定问题的“全文”文献计量分析,依据专业词典等做数据标注,目标之一是可以根据要求推荐算法。有技术含量,又有实用价值,很高大上。
不免联想到评审时经常看到的文章:找个数据库、用关键词搜一堆文章,做一堆没有任何悬念、意义不明的统计分析+可视化;换一组关键词,又是一篇文章……如此循环往复,可至无穷。

12 范炜(四川大学):《情报语言学辞典》语义化进展
张琪玉《情报语言学辞典》的语义化,是对词条的深度结构化,而不只是简单地标注为:术语、解释、见/参见。计划2019中发布beta版,期待。

14 卜书庆(国家图书馆):《中图法》的发展历程与发展方向探讨
中图法发展史的很好总结(后两阶段应该更多是在试验与研究,还没有上线):
1975-1999:创建、统一(多用户/多资源版)、一体化(分类主题)
1999-2009:机读化、电子化(光盘版)、网络化(Web版)
2010-2013:语义化、关联化、可视化
2014- :自动化(智能化),最终用户服务化
今年10月曾给内蒙中小学图书馆员曾介绍过《中国分类主题词表》网站,可以免费注册使用3级类目,支持分类法全文及主题词检索。早年试用情况参见:中国分类主题词表Web版试用记(2010-3-4),网址现为:http://cct.nlc.cn/

15 曹树金(中山大学):大数据环境的知识组织
其中“面向(用户)情景的知识组织”很有意思,情景如何描述和组织?没讲答案,可关注。
因为会议安排太满,又临时增加14《中图法》报告,作为会议协办者,曹教授只能牺牲自己的报告了,讲5分钟实在太短。

华东师范大学信息管理与数据分析前沿论坛(另:“南京共识”与“南京宣言”)

2018年11月2-3日,华东师范大学信息管理与数据分析前沿论坛 在本馆报告厅举行,因而蹭了两个半天的会。
每位报告人半小时,信息量比较大,以下对12个报告的一句话,概括本人收获:
1 黄慕萱(台湾大学文学院院长):大数据下的学术竞争力分析与应用【众多世界大学排行榜,如盲人摸象。大学想提升排名,可针对不同指标体系做相应操作】
2 孙建军(南京大学信息管理学院院长):信息管理视域下的数据驱动思考【原创论文被引具有持续性,如何找出这样的论文,分析其起飞与波峰】
3 初景利(中国科学院大学图书情报与档案管理系主任):以信息和数据为核心构建学科体系与能力【图情变革趋向之一:从查询与检索,到数据分析与知识发现】
4 李玉海(华中师范大学信息管理学院院长):高校图书馆管理与服务数据处理需求【申请专利:类似自动麻将机的自动图书上架与推送】
5 陈达仁(台湾大学机械系、计量理论与应用研究中心):大数据资料中的“关系”探勘:引文数据库的应用【通过引用耦合,揭示专利申请书中常被刻意隐藏的关系,对专利咨询非常有价值】
6 刘晓娟(北京师范大学信息管理系主任):Altmetrics更青睐哪些文献?【期刊(应该还有个人)对本身论文的自推对替代计量指标值影响明显,相当于自引,如何识别与认定】
7 李广建(北京大学信息管理系主任):大数据与情报分析研究【计算社会科学(数字人文?)】
8 范并思(华东师范大学信息管理系):高校院系如何为图书情报行业提供思想【英国公共图书馆的衰落无关经济,与此同时美国公共图书馆因阅读推广而发展】
9 王贤文(大连理工大学WISE实验室常务副主任):科学计量学引用标准化中的陷阱【1、文章发表月份对引用的影响可持续十年,2、有期刊网络预发表可提前数年、刻意制造ESI高被引论文】
10 彭国超(中山大学资讯管理学院):基于信息系统视觉的工业大数据应用及实施问题探索【智能制造=第四次工业革命=工业4.0=中国制造2025,贯穿整个工业生产过程、再覆盖从前期设计到销售的整个流程】
11 吴强(中国科学技术大学管理学院):引用个人展示:您愿意在个人主页上秀一秀引用信息吗?【美国大学网站中教师简历,秀引用的比例不高且学科分布差异明显(从化学15.3%到社会学5.6%)】——前不久我刚在本校教师名录中添加了自己的谷歌学术和百度学术链接,属于吴教授定义的“引用个人展示”(其实我只是懒得列清单)
12 刘维树(浙江财经大学信息管理与工程学院):当数据不能为自己说话的时候:Web of Science中的数据缺失问题【中国WOS论文年度变化,目前已占20%,超过美国指日可待】

——— “南京共识”与“南京宣言” ———
初景利教授报告中提到最近一年间图情界的两个共识与宣言,均产生于南京大学,分别由苏新宁、叶继元教授主导。孤陋寡闻如我、回家百度,网上有报道,全文似乎只在期刊上有、官方性质的网站上未见:

2017-10-29:《情报学与情报工作发展南京共识》(或:情报学与情报工作发展定位南京共识)
作者:中国科学技术情报学会 中国社会科学情报学会
摘要: 新中国成立之初, 根据国家建设与科技发展的需要, 我国在科技文献基础上建立的情报工作对我国科学技术发展与社会主义建设发挥了重要作用. 1964年, 中国科学技术情报学会成立, 对科技情报工作给予了极大的指导和推动. 改革开放以后, 人文社会科学研究的繁荣, 使社会科学情报受到重视, 1986年, 中国社会科学情报学会成立, 标志着我国社会科学情报学和事业进入了一个新的发展阶段. (现代情报. 2017, 12:168-169)
新浪“职院学生0803的博客”附有全文,所转官网链接已失效:情报学与情报工作发展论坛(2017)隆重召开并凝聚形成《南京共识》(2017-11-12)

2018-6-21:《图书馆事业发展南京宣言(2018)》
作者:南京大学信息管理学院 中国图书馆学会 江苏图书馆学会 江苏省高校图书情报工作委员会 南京大学图书馆
摘要: 当前,中国特色社会主义已进入新时代,中国图书馆事业也正在进入一个新时代.新时代的图书馆事业要有新的使命、新的目标和新的担当.科研教育与文化事业的蓬勃发展,信息通讯技术的广泛普及与应用,用户对文献信息资源与服务的新需求,都对图书馆事业的发展提出了新的挑战与新的发展动力.图书馆事业发展也正在孕育新的生机和活力. (大学图书馆学报. 2018, 4:封四)

数据多样性:国际背景下的RDA

IFLA年会期间,2018年8月23日,RDA理事会在马来西亚国家图书馆召开题为“数据的多样性:国际背景下的RDA”的会议。报告基本涵盖RDA在全球各大洲的应用现状,也涉及新RDA(RDA工具包测试版)的理念和对用户(比如西班牙国家图书馆)的影响。10月初会议报告上线【梯子自备】,大多同时有PPT备注视图PDF,有助于更好地理解报告内容(Diversity of Data Event: Presentations Available,2018-10-04)。

按会前预告 Diversity of Data: RDA in the international context(2018-6-11),12个报告大致可分成三大块:
一、各国RDA经验介绍
*美国国会图书馆实施RDA历史回顾:Implementing RDA at the Library of Congress by Beacher Wiggins
*马来西亚国家图书馆实施RDA经验:RDA Implementation: National Library of Malaysia (NLM) Experience by Anisatul-Wahidah Abdul Wahid
*亚历山大图书馆翻译RDA为阿拉伯语:Bibliotheca Alexandrina to Translate RDA into Arabic by Rania Osman
这大概会是RDA第9种在线翻译版。参见:2017年RDA翻译现状,挪威语将为第8种在线版(2017-7-29;实际上线2018-2-13)
*西班牙国家图书馆实施RDA背景(计划2019年正式实施):RDA at BNA: a matter of context by Ricardo Santos
参见:西班牙国家图书馆决定2019年采用RDA(2016-11-11)
*菲律宾Annelyn C. Lim的报告尚未上线

二、RDA治理与地区组织
*RDA的国际治理:International Governance of the RDA Standard by Amelia McKenzie
RDA总治理结构图、RDA理事会组织结构图、RSC组织结构图;另有RDA工具包国际用户统计:合计56个国家7741家用户。参见:RDA治理图(附RSC宣布候任主席Kathy Glenna)(2017-12-24)
*欧洲地区参与RDA的机会与前景:RDA Chances and Perspectives – The Europe Region by Renate Behrens
*拉丁美洲和加勒比地区RDA应用进展(涉及智利、阿根廷、哥伦比亚、墨西哥4国):Taking the first steps: Latin America and the Caribbean by Angela Quiroz
*大洋洲和东南亚实施RDA调查结果:Implementing RDA in Oceania and Southeast Asia results of a survey by Monika Szunejko
参见中国国家图书馆的调研:亚洲地区RDA实施情况调研结果(2018-7-24)

三、RDA的发展:新工具包
*RDA的未来:关联数据应用:Looking to the future: cataloguing data in the linked data environment by Ebe Kartus
*RDA翻译(新工具包如何方便RDA翻译):RDA and translations by Gordon Dunsire
*在全球文本中容纳本地编目传统:Accommodating local cataloguing traditions in a global text by Gordon Dunsire

——— 关于“数据多样性”———
RSC现任主席Gordon Dunsire关于本地编目传统的报告,阐述新RDA的理念,内容丰富、需要理解消化。他述及的以下几方面,可以印证RDA对“数据多样性”的认可(本次会议主题):
本地行动,全球思考【集成采用不同标准创建的数据】:正确应用RDA工具包产生的元数据,可以与使用其他标准或者根本没有标准而创建的外部数据源集成。
可扩展性【本地扩展】:为满足本地应用需求进一步扩展(如用本地控制词表代替工具包中提供的词表)
选项和配置【UBC已成过去】:大多数RDA条款是可选的(没有自上而下、一刀切的“全球书目控制”系统的全球协议);RDA必须与应用纲要(配置文件)一同使用,选择本地应用的元素和记录方法。

对于新RDA(工具包测试版),前述西班牙国家图书馆(BNA)的报告恐怕反映了大多数人的感觉。
BNA经历了2014年决定暂不使用RDA,2016年决定采用RDA,2017年开始制订工作流程,计划2019年应用。2018年新RDA测试版上线,不啻原子弹爆炸(PPT图片是蘑菇云),需要完全重新考虑——对新RDA要求的定义应用纲要,在内容上:确定的变更和差异是否仍然有效?我们可以接受我们的政策或当地的文化传统吗?我们应该吗?【还有理念上……】因而提出:十字路口,我们现在要去哪儿?
——我的理解是,BNA原来已经打算妥协、跟随RDA的规定,现在RDA忽然说不必了,按你们“本地编目传统”去做吧,我们认可“数据多样性”。