用Schema.org描述数据集

随着开放信息、开放政府、开放科学的发展,互联网上各类数据集越来越多。Schema.org的“数据集”就是专用于对这类数据集进行结构化描述的元数据方案。它描述的是数据集的基本信息,而不是数据集当中的数据,其目的是改进对数据集的搜索。

制订“数据集”的工作始于2012年[1]。按Dataset页末致谢部分说明,工作由W3C DCAT承担,同时得益于DCAT, ADMS和VoID [2]。数据集(Dataset)目前仍在开发中,欢迎实验并征求反馈意见。作为“创作作品”的子集,未列入组织架构图(Organization of Schemas)。当然作为小众应用,很可能作为“扩展”而不列入核心词表。

在Google开发者网站的文档中,有Science Datasets [3] ,介绍“数据集”相关属性及其使用。属性可分为7个部分,其中不少并非Dataset所特有:
1、基本数据集属性:必备属性 (括号中为取值类型)
name 名称(文本)
description 描述(文本)简单概要
url 网址(URL)描述该数据集页面的网址
sameAs 等同网址(URL)可用于访问该数据集页面的其他网址
version 版本(文本、数字)
keywords 关键词(文本)
variableMeasured 测度变量(文本、属性值)
creator.name 创建者名称(Person, Organization)个人、组织
其中“测度变量”指数据集测度什么,比如温度、压力。本属性尚未确定,正征求反馈意见。
2、数据目录属性
includedInDataCatalog 包含在数据目录(DataCatalog)数据集所属存储库
3、下载信息属性
distribution 发行(DataDownload)描述数据集下载位置、文件格式
distribution.fileFormat 文件格式(文本)
distribution.contentURL 内容网址(URL)下载链接
4、时间范围
temporalCoverage(ISO 8601)
数据集中的数据覆盖的特定时间间隔,可以是单一数据或时间段。
5、空间范围
spatialCoverage
数据集中的数据覆盖的空间方位。可以是单一点(GeoCoordinates)或区域(GeoShape)的坐标,也可以是命名位置(地理名称)。
6、引文和出版物
citation(文本、创作作品)引用描述该数据集的出版物(被引)
7、出处和许可信息
license 许可(URL、文本)数据集发布许可的URL

文档最后对“出处”使用 sameAs 还是 isBasedOn 作了说明。
文档中还有一个完整样例,是用上述属性描述美国政府开放数据 NCDC Storm Events Database。在原数据介绍页面下部,有描述元数据,但未做结构化标识。

——— Dataset新增类及属性 ———
根据开发网页即W3C的WebSchemas/Datasets [4],本扩展目前含3个新类型及相应属性(未包括前述:variableMeasured 测度变量)
– Thing > CreativeWork > Dataset 数据集
catalog(DataCatalog) 目录(数据目录:容纳数据集的数据目录)
distribution(DataDownload) 发布(数据下载:该数据集的可下载形式,在特定位置、以特定格式)
spatial(Place) 空间(地点:数据集的空间适用范围)
temporal(DateTime) 时间(日期时间:数据集的时间适用范围)
– Thing > CreativeWork > DataCatalog 数据目录(数据集的集合)
dataset(Dataset) 数据集(包含在目录中的数据集)
– Thing > CreativeWork > MediaObject > DataDownload 数据下载(可下载形式的数据集)

参见(梯子自备):
[1] schema blog: Describing Datasets with schema.org (JULY 11, 2012)
[2]Schema.org – Dataset
关于DCAT、ADMS和VoID词表:
DCAT:数据目录词表 Data Catalog Vocabulary (W3C Recommendation 16 January 2014)
ADMS:资产描述元数据方案 Asset Description Metadata Schema (W3C Working Group Note 01 August 2013)
VoID:互联数据集词表 Vocabulary of Interlinked Datasets (最后更新 06 March 2011)
[3] Google Search — Documentation: Science Datasets
[4] W3C wiki: WebSchemas/Datasets

伊利诺伊大学“特藏关联开放数据”项目

伊利诺伊大学(UIUC)于2015年9月获得安德鲁梅隆基金资助“探索数字化特藏的关联开放数据对用户的益处”项目,针对在特藏中使用关联数据——特别是UIUC收藏且已数字化的3个特藏“Motley剧院和服装设计”“1720-1920演员肖像”以及 “Kolb普鲁斯特研究档案”。项目为期20个月,经费24.8万美元。
从项目主页介绍看,项目由图书馆信息学院科学与学术信息学研究中心(CIRSS)承担, 3位主持人均为图书馆员和学院教授双重身份。项目时间已过去大半,前2个特藏的元数据映射已经完成,从基于DC的元数据方案映射到schema.org命名空间;后1个基于TEI,在项目成果页中尚未见映射表。
项目涉及的3个特藏是UIUC早年数字化的。本项目针对现有环境下,“数字化之后,如何最大化这些数字化资源的使用”,提高其有用性。即所谓“数字化特藏在网上,但不是网的一部分,至少没有到它们可以成为的程度”。“转换遗留特藏单件级元数据为关联开放数据(LOD),集成LOD进入服务及最终用户界面,将有助于解决这个问题。这不是新的或独特见解,但在图书馆界,范式转换到LOC被证明很困难,既有技术原因、也有社会原因。图书馆在LOD上、尤其对特藏LOD,经验有限。转换遗留元数据为LOD的最佳实践仍在开发中,LOD对我们用户的假定益处仍有待证明。结果是,没有外来帮助,图书馆迟疑不愿意承担此项任务。由于本领域描述实践的多样性、用户需求的复杂性,推动数字化特藏的转变尤其具有挑战性。需要进一步实验和概念证明,以建立转换遗留特藏元数据为LOD的价值,证明如此做的近期益处”。【译自项目“Context”部分】

项目的4个研究问题如下【译自项目“Research Questions”部分,方括号为本人体会】
1、与一般馆藏目录记录相比,数字化特藏的单件级元数据通常更细粒度,在非书目实体上更丰富,使用定制词表和方案表达。当转换遗留特藏元数据记录为LOD时,会遭遇什么差别和附加挑战?【转换到LOD】
2、典型地,用于发现和观看数字化特藏的界面,是与OPAC和提供通用馆藏用户访问的辅助服务分离的。LOD能否重新连接图书馆特藏和普通馆藏?【整合特藏和普通馆藏】
3、数字化特藏也与外部、网上的非图书馆信息资源分离。如何借助LOD帮助识别与建立这些资源的有用连接?非图书馆资源是否有潜力丰富单件描述,提供发布和解释数字化特藏的环境?【用外部资源强化】
4、通常特藏单件的描述包含对人物和关系的大量引用。新兴的可视化和注释技术能否增加特藏的社会网络视图,对传统的书目中心视角起到有用的补充?【强化关系视图,尤其通过普鲁斯特档案】

——— 三个数字化特藏 ———

看前2个特藏的元数据,比一般书目信息丰富,如前研究问题1所述,粒度较细。此2特藏间在内容上有一定的关联性,通过关联数据联系起来,会有更丰富的呈现效果。
《Motley剧院和服装设计》元数据项目:图片名,演出名【戏剧】,作者/作曲者,剧院,开演日期,实物,类型,材料/技术,支撑,尺寸,相关人物,主题(AAT),主题(TGM),主题(LCSH),登记号,特藏
Captain de Foenix
《1720-1920演员肖像》元数据项目:ID号,题名,日期,角色,戏剧,主题【演员/扮演者等】,类型,尺寸,技术,创作者,出版者,描述,权利,物理收藏,存储库,特藏
如本例所见:William Farren II as Lord Ogleby in “The Clandestine Marriage”

元数据更丰富的是《Kolb普鲁斯特研究档案》。该档案是UIUC教授Kolb五十年(1945-1992)间研究普鲁斯特的资料,标识普鲁斯特书信中提及的个人、地点、事件;约4万张交叉参照索引卡片【出版物中相关内容摘录,有出处】。已经做的“数字化增加了第二层有用的元数据和规范控制:所有被引个人被赋予独特标识符,所有被引文学和创作作品被赋予一个类别(小说、诗歌、音乐、雕塑等),所有书目引用被标准化,方便链接这些元数据到资源如数字化报纸(大多数当时的法文报纸已被扫描,可由法国国家图书馆获取)和其他数字代理(数字化图书和图像或声音库,普氏本人手稿,同样由法国国家图书馆数字化及收藏)”。“为此档案创建的本地名称规范档,用日期(出生、死亡、结婚等)增强了名称串,包括对职业和/或亲属关系的注释。为协调名称与外部规范,与每个名称相关的这些辅助信息将方便识别和消歧。……期望潜在的用户贡献注释来链接名称与附加资源中的实体”。

参见:
梅隆基金项目数据库:Linked Open Data for Digitized Special Collections
项目主页:Linked Open Data for Special Collections
内容丰富,包括栏目:关于本项目、新闻报道、方法与成果、特藏介绍、咨询委员会、联系信息
UIUC的另一关联数据项目:伊利诺伊大学BIBFRAME项目

Schema.org 3发布(附:书目扩展和旅馆业词表)

Schema.org在2011-6-2首次发布(0.X版),2013-4-5发布1.0a版,2015-5-12发布2.0版,2016-5-4发布3.0版
3.0版包括了正式版(Finalized first release)汽车扩展和书目扩展,这是托管扩展的首次正式发布。对书目扩展来说,这应该是很重要的消息,但其W3C社区wiki上最新信息仍停留在一年前,最相关的是2015年6月24日宣布bib.schema.org。

3.0版同时新增3个扩展:元扩展、待定扩展和健康-生命科学扩展。
– 元扩展(meta.schema.org):用于schema.org本身(2个类:类、属性;5个属性:类别、定义域、值域、反向属性、替代)
– 待定扩展(pending.schema.org):收录未批准术语,其中术语可能被接受、也可能有变化,使用需谨慎。
– 健康-生命科学扩展(health-lifesci.schema.org):这是个庞大的扩展,目前有99个类、179个属性、149个取值词表。
核心词表中医学/健康相关术语移入此扩展。这应该是首次对核心词表做某种程度的瘦身(参见:Schema.org: Web上结构化数据的演变(笔记),发布时297个类、187个关系,四年后增加至638个类、965个关系)。

2016-8-9发布的3.1版对旅馆相关词表(hotel/accomodation vocabulary)做了较多增补。网站上还有一个专门网页(Markup for Hotels),详述住宿行业如何在旅馆、房间、订单三个层次使用schema.org。样例所用描述旅馆的元素基于STI Accommodation Ontology

via schema blog: schema.org update: hotels, datasets, “health-lifesci” and “pending” extensions… (AUGUST 9, 2016)

——— 附:书目扩展与OCLC ———
书目扩展(Finalized first release)
Comics Types (5)
ComicCoverArt, ComicIssue, ComicSeries, ComicStory, CoverArt
Comics Properties (7)
artist, colorist, inker, letterer, penciler, publisherImprint, variantCover
Comics Enumeration values (1)
GraphicNovel

Types (6)
Atlas, Audiobook, Chapter, Collection, Newspaper, Thesis
Properties (11)
abridged, duration, inSupportOf, pageEnd, pageStart, pagination, publishedBy, readBy, translationOfWork, translator, workTranslation

对照书目扩展(Final review),正式版把漫画部分抽出来单列(参见:Schema.org扩展机制(及汽车&书目扩展),2016-2-18)。
与OCLC最初设想的“Schema.org的图书馆扩展”(2012-6-22)相比,现在的版本少了很多内容。部分原因可由“解惑Schema书目扩展”(2014-1-29)得知。
OCLC等不及官方扩展,在Schema.org 2.0版宣布可以有外部扩展前,自己弄了个定制版(参见:OCLC低调注册BiblioGraph.net扩展Schema.org,2014-12-1),目前为BiblioGraph.net Version 1.1(2015-2-16发布)、基于Schema.org Version 1.93(2015-02-04发布),之后未同步更新
经初步比对类,其中包括Schema.org书目扩展中的4个类:Atlas,Chapter,Newspaper,Thesis。

扩展阅读:私人定制版Schema.org(2016-2-18)