LD4PE项目&“关联数据能力指标”

LD4PE(Linked Data for Professional Educators,针对专业教育工作者的关联数据),IMLS资助项目(2014.12.1-2016.11.30),由DCMI教育与推广委员会(DCMI Education & Outreach Committee)承担。项目内容包括开发“探索关联数据”网站,支持结构化发现在线学习资源。网站核心是关联数据的能力框架,支持根据特定技能与知识、索引学习资源。“探索关联数据”开发团队以华盛顿大学为首,参与者包括肯特州立大学、DCMI、韩国成均馆大学、OCLC、Elservier和Synaptica。(Project Charter

Exploring Linked Data 网站主体部分“关联数据能力指标”(Competency Index for Linked Data)。
能力指标(CI)为4级结构,即:主题簇 Topical Cluster » 主题 Topic » 能力 Competency » 基准 Benchmark
简单理解即:对于某个主题(第1-2级),应当具备什么能力(第3级:了解哪些知识、掌握什么技能、具有什么样的思维习惯),如何检验是否具备上述能力(第4级:采取什么行动可以达成相关能力)

“关联数据能力指标”有6个方面(2016年5月版):
1. RDF(资源描述框架)基础
2. 关联数据基础
3. RDF 词汇与应用纲要
4. RDF 数据的生成与转换
5. 与 RDF 数据的交互
6. 关联数据应用的开发
详见由范炜联合张永娟、夏翠娟翻译的中文版(不含资源链接)

“关联数据能力指标” 不只是一个简单的清单,而且是相关资源的组织框架。各级标题后数字表示资源数量,点击每一级会显示相应的资源链接。因而既可以用来检验自己的关联数据知识、查遗补缺,也可以作为(专业教育工作者)编制培训资料的起点,或者作为学习者了解相关知识、查找相关资源的入口。

刚结束的ADLS2016(第十三届数字图书馆前沿问题高级研讨班)有一小时的“关联数据能力指标培训”环节,曾蕾教授和中文版译者范炜作了使用讲解与演示。据称注册后可以添加新的资源并作评价,也引入用户贡献内容了。

伊利诺伊大学“特藏关联开放数据”项目

伊利诺伊大学(UIUC)于2015年9月获得安德鲁梅隆基金资助“探索数字化特藏的关联开放数据对用户的益处”项目,针对在特藏中使用关联数据——特别是UIUC收藏且已数字化的3个特藏“Motley剧院和服装设计”“1720-1920演员肖像”以及 “Kolb普鲁斯特研究档案”。项目为期20个月,经费24.8万美元。
从项目主页介绍看,项目由图书馆信息学院科学与学术信息学研究中心(CIRSS)承担, 3位主持人均为图书馆员和学院教授双重身份。项目时间已过去大半,前2个特藏的元数据映射已经完成,从基于DC的元数据方案映射到schema.org命名空间;后1个基于TEI,在项目成果页中尚未见映射表。
项目涉及的3个特藏是UIUC早年数字化的。本项目针对现有环境下,“数字化之后,如何最大化这些数字化资源的使用”,提高其有用性。即所谓“数字化特藏在网上,但不是网的一部分,至少没有到它们可以成为的程度”。“转换遗留特藏单件级元数据为关联开放数据(LOD),集成LOD进入服务及最终用户界面,将有助于解决这个问题。这不是新的或独特见解,但在图书馆界,范式转换到LOC被证明很困难,既有技术原因、也有社会原因。图书馆在LOD上、尤其对特藏LOD,经验有限。转换遗留元数据为LOD的最佳实践仍在开发中,LOD对我们用户的假定益处仍有待证明。结果是,没有外来帮助,图书馆迟疑不愿意承担此项任务。由于本领域描述实践的多样性、用户需求的复杂性,推动数字化特藏的转变尤其具有挑战性。需要进一步实验和概念证明,以建立转换遗留特藏元数据为LOD的价值,证明如此做的近期益处”。【译自项目“Context”部分】

项目的4个研究问题如下【译自项目“Research Questions”部分,方括号为本人体会】
1、与一般馆藏目录记录相比,数字化特藏的单件级元数据通常更细粒度,在非书目实体上更丰富,使用定制词表和方案表达。当转换遗留特藏元数据记录为LOD时,会遭遇什么差别和附加挑战?【转换到LOD】
2、典型地,用于发现和观看数字化特藏的界面,是与OPAC和提供通用馆藏用户访问的辅助服务分离的。LOD能否重新连接图书馆特藏和普通馆藏?【整合特藏和普通馆藏】
3、数字化特藏也与外部、网上的非图书馆信息资源分离。如何借助LOD帮助识别与建立这些资源的有用连接?非图书馆资源是否有潜力丰富单件描述,提供发布和解释数字化特藏的环境?【用外部资源强化】
4、通常特藏单件的描述包含对人物和关系的大量引用。新兴的可视化和注释技术能否增加特藏的社会网络视图,对传统的书目中心视角起到有用的补充?【强化关系视图,尤其通过普鲁斯特档案】

——— 三个数字化特藏 ———

看前2个特藏的元数据,比一般书目信息丰富,如前研究问题1所述,粒度较细。此2特藏间在内容上有一定的关联性,通过关联数据联系起来,会有更丰富的呈现效果。
《Motley剧院和服装设计》元数据项目:图片名,演出名【戏剧】,作者/作曲者,剧院,开演日期,实物,类型,材料/技术,支撑,尺寸,相关人物,主题(AAT),主题(TGM),主题(LCSH),登记号,特藏
Captain de Foenix
《1720-1920演员肖像》元数据项目:ID号,题名,日期,角色,戏剧,主题【演员/扮演者等】,类型,尺寸,技术,创作者,出版者,描述,权利,物理收藏,存储库,特藏
如本例所见:William Farren II as Lord Ogleby in “The Clandestine Marriage”

元数据更丰富的是《Kolb普鲁斯特研究档案》。该档案是UIUC教授Kolb五十年(1945-1992)间研究普鲁斯特的资料,标识普鲁斯特书信中提及的个人、地点、事件;约4万张交叉参照索引卡片【出版物中相关内容摘录,有出处】。已经做的“数字化增加了第二层有用的元数据和规范控制:所有被引个人被赋予独特标识符,所有被引文学和创作作品被赋予一个类别(小说、诗歌、音乐、雕塑等),所有书目引用被标准化,方便链接这些元数据到资源如数字化报纸(大多数当时的法文报纸已被扫描,可由法国国家图书馆获取)和其他数字代理(数字化图书和图像或声音库,普氏本人手稿,同样由法国国家图书馆数字化及收藏)”。“为此档案创建的本地名称规范档,用日期(出生、死亡、结婚等)增强了名称串,包括对职业和/或亲属关系的注释。为协调名称与外部规范,与每个名称相关的这些辅助信息将方便识别和消歧。……期望潜在的用户贡献注释来链接名称与附加资源中的实体”。

参见:
梅隆基金项目数据库:Linked Open Data for Digitized Special Collections
项目主页:Linked Open Data for Special Collections
内容丰富,包括栏目:关于本项目、新闻报道、方法与成果、特藏介绍、咨询委员会、联系信息
UIUC的另一关联数据项目:伊利诺伊大学BIBFRAME项目

关联数据应用现状:2015国际关联数据实施者调查的分析

OCLC研究部在2014年面向国际关联数据实施者进行过一次问卷调查。参见:OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)。
由于缺少欧洲几个著名的关联数据项目,因此OCLC研究部在2015.6.1-7.31再次做了同样的调查。两次调查去重后合计有20国90个机构参与,主要是图书馆,大部分项目主要是实验性质的。主持者Karen Smith-Yoshimura在D-Lib上发文,综合两次调查结果,并对2015年调查中提供详细信息的112个项目/服务进行了详细分析。文章最后有调查回复者对其他考虑关联数据项目者的建议。
Smith-Yoshimura, Karen. Analysis of International Linked Data Survey for Implementers. D-Lib Magazine, 22(7/8) doi:10.1045/july2016-smith-yoshimura

如何评估关联数据项目是否成功?参加调查的项目很少做了评估,但有46个认为项目是成功或基本成功的。评估点涉及:数据重用、增加可发现性、新知识创建、思想领导力、为语义网做准备、运作成功、组织发展、组织转型。个人感觉最有意思的是“思想领导力”和“组织发展”两个方面:前者是用“关联数据工作证明,机构正在采取主动,为未来不同环境奠定基础”,后者认为“即使缺乏计量法证明关联数据对其他方面的价值,关联数据项目仍对员工提供了专业发展。”也就是说,做关联数据项目本身并非唯一目的,机构形象及员工发展也是重要考量。
以下为文章编译。

——— 参与调查机构基本数据 ———
【2014年和2015年全部90个机构按国别】依次是美国39个占43%,西班牙10个、英国9个、荷兰6个、挪威4个、加拿大3个,澳大利亚、法国、德国、意大利和瑞士各2个,奥地利、捷克、匈牙利、爱尔兰、日本、马来西亚、葡萄牙、新加坡和瑞典各1个。
【2015年71个机构按图书馆类型】国家图书馆14个占20%(2014年4个),高校图书馆23个占31%,多机构网络9个占14%,政府7个占10%,学术项目6个占8%,公共图书馆5个占6%,博物馆、学会各3个各占4%,出版社1个。
2015年的71个机构报告168个项目,其中112个有不同程度的详细描述。2/3项目在运行中,其中运行超过2年的“成熟”项目比2014年增加了一倍(46对24,表1)。有10个项目是“私有的”,仅供本机构使用。
如何利用关联数据(表2,2015对2014):消费关联数据(38对25),发布关联数据(10对4),同时消费与发布(64对47)。【只是消费的项目也有1/3!】

——— 发布的关联数据 ———
– 数据类型,依次是:书目数据56,规范数据45,描述元数据43,本体/词表30、数字馆藏26、地理数据18、数据集16,、博物馆实物数据10、编码档案描述5、组织数据5、有关研究者或馆员数据2。
– 数据集大小(三元组数量):大部分数据集很小。67个报告数据集大小,39个少于1千万,19个多于1亿。超过10亿的仅3个:北莱茵-威斯特伐利亚图书馆服务中心(10-15亿),挪威理工大学不同关联数据项目合计150亿,OCLC的WorldCat关联数据150亿。【欧洲确实有相当大的关联数据项目】
– 访问量(日均请求数):大部分已实施项目近6个月平均少于1千。
超10万的7个数据集是:Europeana, Getty词表3个,LC关联数据服务超过50个词表,日本国会图书馆NDL搜索,北莱茵威斯特伐利亚图书馆服务中心的LOD服务,OCLC的WorldCat关联数据,OCLC的VIAF。
另有6个数据集为1-5万:美国钱币学会nomisma词表,法国国家图书馆data.bnf.fr,不列颠图书馆英国国家书目,日本国会图书馆规范数据,OCLC的WorldCat作品,OCLC的FAST分面主题词表
– 使用的RDF词表和本体:数据集使用不同RDF词表和本体,很多使用多个。按提及频率,依次是【仅列10次以上,计数由本人据原始数据统计】:
1. Simple Knowledge Organization System (skos)【59】
2. Friend of a Friend (foaf)【55】
3. DCMI Metadata Terms (dcterms)【52】
4. Dublin Core Metadata Element Set (dce)【约49】
5. Schema.org vocabulary (schema)【30】
6. The Bibliographic Ontology (bibo)【25】
7. 本地词表【19?】;VOCABS rda【链接RDA第2组实体间关系,非官方版】【约19】
8. Europeana Data Model vocabulary (edm)【15】
9. ISBD elements (isbd)【13】;WGS84 Geo Positioning (geo)【13】
10. BIBFRAME Vocabulary (bf)【15?】
11. Expression of Core FRBR Concepts in RDF (frbr)【链接2005非官方版】【11】
– 许可:26个项目未宣布明确的许可,同样数量采用CC0 1.0。
– 可访问性:在74个发布关联数据的项目中,19个目前不能在机构外访问【超过1/4】。其他大多数提供多种(访问)方法。最通用的方法是网页,其后依次是:内容协调、文件转储、SPARQL端点、SPARQL编辑器和应用。
– 序列化:最通用的是RDF/XML,其他依次是:Turtle, JSON-LD, N-Triples, RDFa Core, RDF/JSON, Notation3 和 N-Quads。
– 技术:形形色色,最常使用多种技术。见表4。
– 障碍:发布关联数据的主要障碍依次是:
1、员工的陡峭学习曲线
2、选择适当的本体以表达数据
3、建立链接
4、对如何建立系统鲜有文档或建议【缺少先例】
5、缺少工具
6、不成熟的软件
7、弄清谁拥有数据【版权】
其他障碍:限制性许可,资源不足,数据集太大不能作为整体发布(且难以供他方消费),机构支持不足,适应当前关联数据技术的基础结构。

——— 消费的关联数据 ———
– 消费资源:2015年调查被12个及以上项目消费的依次是(星号来自参与调查机构)
1、VIAF *
2、DBpedia
3、GeoNames
4、id.loc.gov *
5、自己转换为关联数据的资源
6、AAT *
7、FAST关联数据 *
8、WorldCat.org *
9、data.bnf.fr *
10、DNB德国国家图书馆关联数据服务 *
从被消费看,以上可视为成功的关联数据发布方。参加调查的图书馆消费其他来源时,总体上选择图书馆领域的来源而不扩展到非图书馆来源,DBPeida和GeoNames是两个例外。
– 障碍:消费关联数据的主要障碍依次是:
1、匹配、消歧和校准来源数据及关联数据资源
2、映射词表
3、发布为关联数据的,不总是可重用的或者缺少URI
4、缺少规范控制
5、数据集不更新
6、RDF存储的大小;使用前了解数据如何结构化的
7、存储的数据格式的波动性
8、缺少工具;端点不稳定
9、 难以让其他机构做对象与概念之间的协调;服务可靠性
10、难以跨语言术语消歧
其他障碍:许可比ODC-BY更限制,机构把关联数据当作研究项目而非基础结构,本地感兴趣的关联数据集数量不足,API限制,结合消费关联数据到日常工作流程的资源不足。

——— 项目实例(按机构类型)———
– 国家图书馆:16个国家图书馆项目,美国、法国、德国居12个消费最多项目之列。
英国国家书目的SPARQL Query Viewer(图1)
德国国家图书馆的4个项目:国家书目,德国集成规范档GND,BIBFRAME原型,实体事实(图2)
日本国会图书馆的5个项目:书目数据、规范数据、日本图书馆和相关组织的国际标准标识符ISIL、有关2011年关东大地震的集成资源、日本十进分类法
– 网络
美国数字公共图书馆DPLA
欧洲Europeana
德国北莱茵威斯特伐利亚图书馆服务中心(hbz):发布最大关联数据集之一(10-15亿三元组),其关联开放数据API提供访问hbz联合目录的2000万书目记录及4500万馆藏,德国集成规范档(GND),以及图书馆地址数据(来自图书馆及相关组织德国国际标准标识符注册库ISIL)。
OCLC:发布抽取自自MARC记录和图书馆规范档的200亿RDF三元组,是世界上最大的图书馆集成关联数据资源,其中FAST、VIAF和WorldCat居2015年调查10个最高关联数据来源。
– 高校图书馆:大部分高校馆的关联数据项目是实验性质的
– 公共图书馆:很少公共馆参与调查,仅2个有项目运行中,其一是【Zepheira公司】LibHub项目的早期采用者;另一是奥斯陆公共图书馆,转换MARC目录为RDF关联数据,用外部收割来的信息强化,由SPARQL更新查询构建,挪威图书馆所写书评集链接到书目数据。
– 博物馆:很少博物馆参与调查
– 学术项目【由原始资料转换为结构化数据、生成三元组】
Dalhousie University’s Institute for Big Data Analytics:集成全世界一战档案中数据。从数字化文献中抽取数据,转换为可支持进一步研究的结构化数据库
Pratt Institute’s Linked Jazz project:“关联爵士乐”项目:从5个爵士乐档案的访谈文字内容生成三元组,即从数据而非转换现有元数据。(参见:BIBFRAME试验项目培训资料
Nomisma:美国钱币学会主持的国际协作项目,提供钱币术语和标识符的关联数据叙词表。
– 出版社
斯普林格是唯一参与调查的出版社。正把科学会议数据,以LOD提供关于出版物、作者、论题和会议的信息,方便探索、促进分析作者、研究机构和会议的生产力和影响。

参见:
hangingtogether.org: More on international linked data survey for implementers (2016-7-11) by Karen Smith-Yoshimura
圖書館觀點:全球關聯數據(Linked Data) 實施情況(2016-8-1)