Schema.org 3发布(附:书目扩展和旅馆业词表)

Schema.org在2011-6-2首次发布(0.X版),2013-4-5发布1.0a版,2015-5-12发布2.0版,2016-5-4发布3.0版
3.0版包括了正式版(Finalized first release)汽车扩展和书目扩展,这是托管扩展的首次正式发布。对书目扩展来说,这应该是很重要的消息,但其W3C社区wiki上最新信息仍停留在一年前,最相关的是2015年6月24日宣布bib.schema.org。

3.0版同时新增3个扩展:元扩展、待定扩展和健康-生命科学扩展。
– 元扩展(meta.schema.org):用于schema.org本身(2个类:类、属性;5个属性:类别、定义域、值域、反向属性、替代)
– 待定扩展(pending.schema.org):收录未批准术语,其中术语可能被接受、也可能有变化,使用需谨慎。
– 健康-生命科学扩展(health-lifesci.schema.org):这是个庞大的扩展,目前有99个类、179个属性、149个取值词表。
核心词表中医学/健康相关术语移入此扩展。这应该是首次对核心词表做某种程度的瘦身(参见:Schema.org: Web上结构化数据的演变(笔记),发布时297个类、187个关系,四年后增加至638个类、965个关系)。

2016-8-9发布的3.1版对旅馆相关词表(hotel/accomodation vocabulary)做了较多增补。网站上还有一个专门网页(Markup for Hotels),详述住宿行业如何在旅馆、房间、订单三个层次使用schema.org。样例所用描述旅馆的元素基于STI Accommodation Ontology

via schema blog: schema.org update: hotels, datasets, “health-lifesci” and “pending” extensions… (AUGUST 9, 2016)

——— 附:书目扩展与OCLC ———
书目扩展(Finalized first release)
Comics Types (5)
ComicCoverArt, ComicIssue, ComicSeries, ComicStory, CoverArt
Comics Properties (7)
artist, colorist, inker, letterer, penciler, publisherImprint, variantCover
Comics Enumeration values (1)
GraphicNovel

Types (6)
Atlas, Audiobook, Chapter, Collection, Newspaper, Thesis
Properties (11)
abridged, duration, inSupportOf, pageEnd, pageStart, pagination, publishedBy, readBy, translationOfWork, translator, workTranslation

对照书目扩展(Final review),正式版把漫画部分抽出来单列(参见:Schema.org扩展机制(及汽车&书目扩展),2016-2-18)。
与OCLC最初设想的“Schema.org的图书馆扩展”(2012-6-22)相比,现在的版本少了很多内容。部分原因可由“解惑Schema书目扩展”(2014-1-29)得知。
OCLC等不及官方扩展,在Schema.org 2.0版宣布可以有外部扩展前,自己弄了个定制版(参见:OCLC低调注册BiblioGraph.net扩展Schema.org,2014-12-1),目前为BiblioGraph.net Version 1.1(2015-2-16发布)、基于Schema.org Version 1.93(2015-02-04发布),之后未同步更新
经初步比对类,其中包括Schema.org书目扩展中的4个类:Atlas,Chapter,Newspaper,Thesis。

扩展阅读:私人定制版Schema.org(2016-2-18)

Schema.org: Web上结构化数据的演变(笔记)

来自谷歌和微软的三位Schema.org开发者,2015年底发表了一篇介绍四年来Schema.org演变的文章,在追求“结构化数据”的大背景下,详述开发的前因后果,以及与关联数据的关系:

R.V. Guha, Dan Brickley, Steve Macbeth. Schema.org: Evolution of Structured Data on the Web. Queue vol. 13, no. 9 (December 15, 2015)

文章小标题:Big data makes common schemas even more necessary.
体现在文章结论的最后:“对大数据的增长兴趣使得对共同schema的需求比以往更相关。当数据科学家探索数据驱动分析的价值,需要从不同来源把数据抓在一起,因此对共享词表的需求正在增长。我们希望schema.org将对此有所贡献。”

【结构化数据标准的发展】
早期(1997年前?)有XML和MCF (Meta Content Framework)。
1997-2004年间针对语法和数据模型开发了不同的标准(RDF、RDFS和OWL)。针对具体行业提出许多词表,某些得到广泛采用,如hCard、FOAF。不同垂直领域的词表完全独立,导致大量重复和混乱。更糟的是,不同搜索引擎推荐不同的词表。
针对此问题,2011年主要搜索引擎公司Bing, Google, Yahoo(及后来加入的Yandex)创建Schema.org,目的是提供跨领域的单一词表。最初是三个公司关起门来做决定,后来逐步开放,先是在W3C公共论坛讨论,后来改变模式为所有决定都公开做出[在GitHub上],有一个来自资助公司、学界及W3C的指导委员会。
Schema.org发布时297个类、187个关系,四年后增加至638个类、965个关系。

愿景图“来自多个网站的知识库样例”比以前看到过的图更具说明性

【Schema.org应用】
– 首个应用是谷歌搜索结果的丰富片断(Rich Snippets)在2011年转用Schema.org词表。[snippet最早由雅虎采用、谷歌跟进,当时依据垂直领域词表]
– 用作谷歌知识图谱(Knowledge Graph)的数据源,显示在检索结果侧栏的事实面板。
– 电子邮件。预订饭店、旅馆、航班等电邮嵌入Schema.org标记,电邮辅助工具可抽取结构化数据,通过手机通知、地图、日历等使用。Gmail和Google搜索产品使用此数据提供提醒,如订餐会基于饭店位置、用户、交通状况等,触发提醒去饭店。
微软小娜(Cortana)通过电邮讯息利用schema.org
Pinterest利用Schema.org提供针对菜谱、电影、文章、产品或地点的丰富钉板(rich pins)。
苹果的Searchlight/Siri使用Schema.org提供搜索特性,包括集成评分、供应者、产品、价格、互动计数、机构、图像、电话号码及潜在的网站搜索行动。还用于新闻RSS。

【采用统计及原因分析】
在100亿网页的样本中,31.3%网页有Schema.org标记,1年前是22%。含有标记的网页平均参引6个实体、作出26个逻辑断言。估计至少1200万网站使用Schema.org标记。结构化数据标记现在与Web本身是一个数量级的了。
快速增长的原因是第三方工具的扩展支持,如Drupal和Wordpress,以及垂直内容管理系统(如Bandsintown和Ticketmaster)。

【设计决策:成功原因分析】
设计Schema.org的驱动因素是方便站长发布其数据。总体上,设计决策把更多负担放在标识的消费者。
– 支持多种语法:RDFa、JSON-LD、Microdata
– 多态性:关系/属性可以有多个定义域、多个值域(减少不必要的类)
– 实体参引:只有非常少的部分要求唯一URI
– 增量复杂性:从简单开始,逐步增加表达性。受实用性引导,定义从不为追求完美模型而改变,但回应来自发布者和消费者的反馈。
– 清理:清除无有意义使用的术语[类似文献保障原则]

【扩展】
保持最通用为核心,其他作为扩展。
参见:Schema.org扩展机制(及汽车&书目扩展)

———-关联数据的分割线———-
【对关联数据现状的基本判断】
自2006年,“关联数据”口号重定向W3C的RDF社区,从强调语义网本体和规则语言,到开放数据活动和实践数据共享。
关联数据宣传已经成功地从各种公共部门和开放数据源引起了大量以RDF表达的公开数据(如图书馆、生命科学和政府)。但是,强调标识符调和、复杂的最佳实践规则(包括HTTP的高级使用)、使用任意数量的部分重叠词表(schema),限制了关联数据实践在专业信息管理者以外领域的成长。关联RDF数据发布实践没有在广泛的Web得到采用。
(与“从语义网到知识图谱——语义技术工程化的回顾与反思”文章的认识一致。参见:知识图谱、语义网、关联数据;另见:关联数据注意事项

【与关联数据的异同】
Schema.org分享很多关联数据社区方法:使用相同的数据模型和标记语言(RDFS)和语法(如JSON-LD和RDFa),分享很多相同的目标。也分享了关联数据社区对语义网旗下实施的很多学术工作中发现的对过早成熟的形式主义的怀疑(规则系统、描述逻辑等)。尽管Schema.org也避免假定这类基于规则的处理会是普通的,但它不同于典型的关联数据指引,假定来自Web的结构化数据能在应用中利用前,通常会需要不同类型的清理、调和及后处理。【换言之,对Schema.org,数据清洗不是必要的——想起情报检索语言的前控和后控】

关联数据的目标更高,并因此带到Web的数据源数量很小、然而其质量往往很高。这两种方法相结合提供了很多的机会——例如,专业发布关联数据常能规范描述来自更广泛主流Web的schema.org描述中提及的实体。【公共部门继续承担需要更多费用的专业工作】

GS1词表:Schema.org的第一个外部扩展

schema博客2016年2月22日宣布,欢迎GS1 Web词表成为首个schema.org外部扩展。(关于外部扩展,参见:Schema.org扩展机制(及汽车&书目扩展)(2016-2-18)

GS1(Global Standards)在我国称为“国际物品编码协会”(我国对应机构为“中国物品编码中心”),是商品标识码(如条码)的分配机构。
《GS1 Web词表标准》1版发布于2014年6月17日,定义用于GS1智能搜索的GS1词表。第一阶段包含面向消费者的特性,涉及食品、饮料、烟草、服装鞋类、医疗保健和核心项目。2015年11月已发布1.6.1版 (贡献者中有众多GS1 China的国人)。使用的命名空间为gs1:(gs1.org/voc/)。
目前被schema博客称为外部扩展的《GS1 Web词表》采用相同命名空间,为0.90版(2016-2-22),schema.org的影响力由此可见。同时,鉴于GS1在国际商业领域的地位,尽管两个词表间还存在分歧,schema.org博客用“里程碑”这样的高度评价,也是完全可以理解的。这是schema.org及关联数据在商业领域应用的一个重要进展

博文翻译如下:
schema blog: GS1 Web vocabulary: welcoming the first schema.org external extension (MONDAY, FEBRUARY 22, 2016)
自2.0版发布【2015-5-12】,schema.org越来越重视通过广泛的社会合作网络创建的扩展。今天,我们庆祝扩展框架开发中的一个重要的里程碑:GS1发表其Web词表的最初发布。……词表本身发布在gs1.org/voc/。
GS1的智能搜索行动一直与schema.org界合作(在W3C和Github),创建一个基于Web的结构化数据词表,扩展schema.org,以支持更丰富的产品数据描述。不同于我们的托管扩展(如书目和汽车),经过评审,版本控制及发布作为 schema.org本身的一部分,外部扩展如GS1是完全独立的,有其自己的工作流程、评审过程和基础结构。
GS1的情况是,扩展词表建立在现有B2B标准的扩展集之上。尽管这意味着在某些地方,在GS1术语和schema.org间有某些分歧,但我们享有共同的方法,建立在schema.org核心词表之上,建立在主要的W3C基础标准如JSON-LD。
随着工作的发展,我们期望schema.org和GS1词表的结合,会提供十分丰富的在线产品描述,供Web搜索中使用,结合GS1术语的描述深度,和schema.org的广泛覆盖。我们将通过schema.org的W3C社区小组,继续与GS1团队合作,记录结合schema.org术语与新GS1词表的最佳实践,既充分利用JSON-LD的技术特性,又逐步改善,以使我们的词表更接近对齐。尽管还有很多有待探索,本周的里程碑仍然是重要的,因为这是对schema.org的第一个大型外部扩展。

———GS1 Web Vocabulary (网页翻译)———
GS1智能搜索标准让行业得益于:
– 给消费者更佳的搜索结果,以发现他们需要的产品和信息
– 在联机搜索中其产品的更大可见性
– 改进的、准确的联机产品信息
– 经由面向消费者的移动设备和网站,共享产品信息,最终驱动销售
本网站记录GS1智能搜索的一个技术方面——GS1Web词表。GS1Web词表的初始焦点是面向消费者的属性,针对服装、鞋、食品饮料/烟草,以及对所有产品通用的属性。食品/饮料/烟草属性将包含与EU1169相关的属性,如定义在GDSN和GS1来源标准中的。此外,词表包括缔约方和产品提供方的定义(产品提供由一个缔约方对一个价格)。属性及其定义来自现有GS1标准,包括GDSN、GS1来源和GPC。对本规则的期望是包含提供者的定义,在上述任何标准中都不存在。