伊利诺伊大学“特藏关联开放数据”项目

伊利诺伊大学(UIUC)于2015年9月获得安德鲁梅隆基金资助“探索数字化特藏的关联开放数据对用户的益处”项目,针对在特藏中使用关联数据——特别是UIUC收藏且已数字化的3个特藏“Motley剧院和服装设计”“1720-1920演员肖像”以及 “Kolb普鲁斯特研究档案”。项目为期20个月,经费24.8万美元。
从项目主页介绍看,项目由图书馆信息学院科学与学术信息学研究中心(CIRSS)承担, 3位主持人均为图书馆员和学院教授双重身份。项目时间已过去大半,前2个特藏的元数据映射已经完成,从基于DC的元数据方案映射到schema.org命名空间;后1个基于TEI,在项目成果页中尚未见映射表。
项目涉及的3个特藏是UIUC早年数字化的。本项目针对现有环境下,“数字化之后,如何最大化这些数字化资源的使用”,提高其有用性。即所谓“数字化特藏在网上,但不是网的一部分,至少没有到它们可以成为的程度”。“转换遗留特藏单件级元数据为关联开放数据(LOD),集成LOD进入服务及最终用户界面,将有助于解决这个问题。这不是新的或独特见解,但在图书馆界,范式转换到LOC被证明很困难,既有技术原因、也有社会原因。图书馆在LOD上、尤其对特藏LOD,经验有限。转换遗留元数据为LOD的最佳实践仍在开发中,LOD对我们用户的假定益处仍有待证明。结果是,没有外来帮助,图书馆迟疑不愿意承担此项任务。由于本领域描述实践的多样性、用户需求的复杂性,推动数字化特藏的转变尤其具有挑战性。需要进一步实验和概念证明,以建立转换遗留特藏元数据为LOD的价值,证明如此做的近期益处”。【译自项目“Context”部分】

项目的4个研究问题如下【译自项目“Research Questions”部分,方括号为本人体会】
1、与一般馆藏目录记录相比,数字化特藏的单件级元数据通常更细粒度,在非书目实体上更丰富,使用定制词表和方案表达。当转换遗留特藏元数据记录为LOD时,会遭遇什么差别和附加挑战?【转换到LOD】
2、典型地,用于发现和观看数字化特藏的界面,是与OPAC和提供通用馆藏用户访问的辅助服务分离的。LOD能否重新连接图书馆特藏和普通馆藏?【整合特藏和普通馆藏】
3、数字化特藏也与外部、网上的非图书馆信息资源分离。如何借助LOD帮助识别与建立这些资源的有用连接?非图书馆资源是否有潜力丰富单件描述,提供发布和解释数字化特藏的环境?【用外部资源强化】
4、通常特藏单件的描述包含对人物和关系的大量引用。新兴的可视化和注释技术能否增加特藏的社会网络视图,对传统的书目中心视角起到有用的补充?【强化关系视图,尤其通过普鲁斯特档案】

——— 三个数字化特藏 ———

看前2个特藏的元数据,比一般书目信息丰富,如前研究问题1所述,粒度较细。此2特藏间在内容上有一定的关联性,通过关联数据联系起来,会有更丰富的呈现效果。
《Motley剧院和服装设计》元数据项目:图片名,演出名【戏剧】,作者/作曲者,剧院,开演日期,实物,类型,材料/技术,支撑,尺寸,相关人物,主题(AAT),主题(TGM),主题(LCSH),登记号,特藏
Captain de Foenix
《1720-1920演员肖像》元数据项目:ID号,题名,日期,角色,戏剧,主题【演员/扮演者等】,类型,尺寸,技术,创作者,出版者,描述,权利,物理收藏,存储库,特藏
如本例所见:William Farren II as Lord Ogleby in “The Clandestine Marriage”

元数据更丰富的是《Kolb普鲁斯特研究档案》。该档案是UIUC教授Kolb五十年(1945-1992)间研究普鲁斯特的资料,标识普鲁斯特书信中提及的个人、地点、事件;约4万张交叉参照索引卡片【出版物中相关内容摘录,有出处】。已经做的“数字化增加了第二层有用的元数据和规范控制:所有被引个人被赋予独特标识符,所有被引文学和创作作品被赋予一个类别(小说、诗歌、音乐、雕塑等),所有书目引用被标准化,方便链接这些元数据到资源如数字化报纸(大多数当时的法文报纸已被扫描,可由法国国家图书馆获取)和其他数字代理(数字化图书和图像或声音库,普氏本人手稿,同样由法国国家图书馆数字化及收藏)”。“为此档案创建的本地名称规范档,用日期(出生、死亡、结婚等)增强了名称串,包括对职业和/或亲属关系的注释。为协调名称与外部规范,与每个名称相关的这些辅助信息将方便识别和消歧。……期望潜在的用户贡献注释来链接名称与附加资源中的实体”。

参见:
梅隆基金项目数据库:Linked Open Data for Digitized Special Collections
项目主页:Linked Open Data for Special Collections
内容丰富,包括栏目:关于本项目、新闻报道、方法与成果、特藏介绍、咨询委员会、联系信息
UIUC的另一关联数据项目:伊利诺伊大学BIBFRAME项目

Schema.org 3发布(附:书目扩展和旅馆业词表)

Schema.org在2011-6-2首次发布(0.X版),2013-4-5发布1.0a版,2015-5-12发布2.0版,2016-5-4发布3.0版
3.0版包括了正式版(Finalized first release)汽车扩展和书目扩展,这是托管扩展的首次正式发布。对书目扩展来说,这应该是很重要的消息,但其W3C社区wiki上最新信息仍停留在一年前,最相关的是2015年6月24日宣布bib.schema.org。

3.0版同时新增3个扩展:元扩展、待定扩展和健康-生命科学扩展。
– 元扩展(meta.schema.org):用于schema.org本身(2个类:类、属性;5个属性:类别、定义域、值域、反向属性、替代)
– 待定扩展(pending.schema.org):收录未批准术语,其中术语可能被接受、也可能有变化,使用需谨慎。
– 健康-生命科学扩展(health-lifesci.schema.org):这是个庞大的扩展,目前有99个类、179个属性、149个取值词表。
核心词表中医学/健康相关术语移入此扩展。这应该是首次对核心词表做某种程度的瘦身(参见:Schema.org: Web上结构化数据的演变(笔记),发布时297个类、187个关系,四年后增加至638个类、965个关系)。

2016-8-9发布的3.1版对旅馆相关词表(hotel/accomodation vocabulary)做了较多增补。网站上还有一个专门网页(Markup for Hotels),详述住宿行业如何在旅馆、房间、订单三个层次使用schema.org。样例所用描述旅馆的元素基于STI Accommodation Ontology

via schema blog: schema.org update: hotels, datasets, “health-lifesci” and “pending” extensions… (AUGUST 9, 2016)

——— 附:书目扩展与OCLC ———
书目扩展(Finalized first release)
Comics Types (5)
ComicCoverArt, ComicIssue, ComicSeries, ComicStory, CoverArt
Comics Properties (7)
artist, colorist, inker, letterer, penciler, publisherImprint, variantCover
Comics Enumeration values (1)
GraphicNovel

Types (6)
Atlas, Audiobook, Chapter, Collection, Newspaper, Thesis
Properties (11)
abridged, duration, inSupportOf, pageEnd, pageStart, pagination, publishedBy, readBy, translationOfWork, translator, workTranslation

对照书目扩展(Final review),正式版把漫画部分抽出来单列(参见:Schema.org扩展机制(及汽车&书目扩展),2016-2-18)。
与OCLC最初设想的“Schema.org的图书馆扩展”(2012-6-22)相比,现在的版本少了很多内容。部分原因可由“解惑Schema书目扩展”(2014-1-29)得知。
OCLC等不及官方扩展,在Schema.org 2.0版宣布可以有外部扩展前,自己弄了个定制版(参见:OCLC低调注册BiblioGraph.net扩展Schema.org,2014-12-1),目前为BiblioGraph.net Version 1.1(2015-2-16发布)、基于Schema.org Version 1.93(2015-02-04发布),之后未同步更新
经初步比对类,其中包括Schema.org书目扩展中的4个类:Atlas,Chapter,Newspaper,Thesis。

扩展阅读:私人定制版Schema.org(2016-2-18)

Schema.org: Web上结构化数据的演变(笔记)

来自谷歌和微软的三位Schema.org开发者,2015年底发表了一篇介绍四年来Schema.org演变的文章,在追求“结构化数据”的大背景下,详述开发的前因后果,以及与关联数据的关系:

R.V. Guha, Dan Brickley, Steve Macbeth. Schema.org: Evolution of Structured Data on the Web. Queue vol. 13, no. 9 (December 15, 2015)

文章小标题:Big data makes common schemas even more necessary.
体现在文章结论的最后:“对大数据的增长兴趣使得对共同schema的需求比以往更相关。当数据科学家探索数据驱动分析的价值,需要从不同来源把数据抓在一起,因此对共享词表的需求正在增长。我们希望schema.org将对此有所贡献。”

【结构化数据标准的发展】
早期(1997年前?)有XML和MCF (Meta Content Framework)。
1997-2004年间针对语法和数据模型开发了不同的标准(RDF、RDFS和OWL)。针对具体行业提出许多词表,某些得到广泛采用,如hCard、FOAF。不同垂直领域的词表完全独立,导致大量重复和混乱。更糟的是,不同搜索引擎推荐不同的词表。
针对此问题,2011年主要搜索引擎公司Bing, Google, Yahoo(及后来加入的Yandex)创建Schema.org,目的是提供跨领域的单一词表。最初是三个公司关起门来做决定,后来逐步开放,先是在W3C公共论坛讨论,后来改变模式为所有决定都公开做出[在GitHub上],有一个来自资助公司、学界及W3C的指导委员会。
Schema.org发布时297个类、187个关系,四年后增加至638个类、965个关系。

愿景图“来自多个网站的知识库样例”比以前看到过的图更具说明性

【Schema.org应用】
– 首个应用是谷歌搜索结果的丰富片断(Rich Snippets)在2011年转用Schema.org词表。[snippet最早由雅虎采用、谷歌跟进,当时依据垂直领域词表]
– 用作谷歌知识图谱(Knowledge Graph)的数据源,显示在检索结果侧栏的事实面板。
– 电子邮件。预订饭店、旅馆、航班等电邮嵌入Schema.org标记,电邮辅助工具可抽取结构化数据,通过手机通知、地图、日历等使用。Gmail和Google搜索产品使用此数据提供提醒,如订餐会基于饭店位置、用户、交通状况等,触发提醒去饭店。
微软小娜(Cortana)通过电邮讯息利用schema.org
Pinterest利用Schema.org提供针对菜谱、电影、文章、产品或地点的丰富钉板(rich pins)。
苹果的Searchlight/Siri使用Schema.org提供搜索特性,包括集成评分、供应者、产品、价格、互动计数、机构、图像、电话号码及潜在的网站搜索行动。还用于新闻RSS。

【采用统计及原因分析】
在100亿网页的样本中,31.3%网页有Schema.org标记,1年前是22%。含有标记的网页平均参引6个实体、作出26个逻辑断言。估计至少1200万网站使用Schema.org标记。结构化数据标记现在与Web本身是一个数量级的了。
快速增长的原因是第三方工具的扩展支持,如Drupal和Wordpress,以及垂直内容管理系统(如Bandsintown和Ticketmaster)。

【设计决策:成功原因分析】
设计Schema.org的驱动因素是方便站长发布其数据。总体上,设计决策把更多负担放在标识的消费者。
– 支持多种语法:RDFa、JSON-LD、Microdata
– 多态性:关系/属性可以有多个定义域、多个值域(减少不必要的类)
– 实体参引:只有非常少的部分要求唯一URI
– 增量复杂性:从简单开始,逐步增加表达性。受实用性引导,定义从不为追求完美模型而改变,但回应来自发布者和消费者的反馈。
– 清理:清除无有意义使用的术语[类似文献保障原则]

【扩展】
保持最通用为核心,其他作为扩展。
参见:Schema.org扩展机制(及汽车&书目扩展)

———-关联数据的分割线———-
【对关联数据现状的基本判断】
自2006年,“关联数据”口号重定向W3C的RDF社区,从强调语义网本体和规则语言,到开放数据活动和实践数据共享。
关联数据宣传已经成功地从各种公共部门和开放数据源引起了大量以RDF表达的公开数据(如图书馆、生命科学和政府)。但是,强调标识符调和、复杂的最佳实践规则(包括HTTP的高级使用)、使用任意数量的部分重叠词表(schema),限制了关联数据实践在专业信息管理者以外领域的成长。关联RDF数据发布实践没有在广泛的Web得到采用。
(与“从语义网到知识图谱——语义技术工程化的回顾与反思”文章的认识一致。参见:知识图谱、语义网、关联数据;另见:关联数据注意事项

【与关联数据的异同】
Schema.org分享很多关联数据社区方法:使用相同的数据模型和标记语言(RDFS)和语法(如JSON-LD和RDFa),分享很多相同的目标。也分享了关联数据社区对语义网旗下实施的很多学术工作中发现的对过早成熟的形式主义的怀疑(规则系统、描述逻辑等)。尽管Schema.org也避免假定这类基于规则的处理会是普通的,但它不同于典型的关联数据指引,假定来自Web的结构化数据能在应用中利用前,通常会需要不同类型的清理、调和及后处理。【换言之,对Schema.org,数据清洗不是必要的——想起情报检索语言的前控和后控】

关联数据的目标更高,并因此带到Web的数据源数量很小、然而其质量往往很高。这两种方法相结合提供了很多的机会——例如,专业发布关联数据常能规范描述来自更广泛主流Web的schema.org描述中提及的实体。【公共部门继续承担需要更多费用的专业工作】