Schema.org中文站(以及如何知道网站挂了还是被墙)

很多时候不明白,什么网站会被墙。
Schema.org,各大搜索引擎的标记规范,当今著名元数据标准,怎么看都是人畜无害的。就因为Google注册了此域名,因此就要翻墙才能访问?
偶而查到有个Schema.org中文站,把Schema.org都译成了中文,看起来方便不少。最重要的是,无需翻墙。真是功德无量!
只可惜最后更新时间2011-11-11,当时Schema.org还在0.X版。2015-11-05最新版2.2。

查到注册者曾曦。找到他的博客《尘埃落定》 ,其中有他的自我介绍。
看他网名lovelucy,忍不住要八卦一下。Schema.org中文站中,他把教育机构(EducationalOrganization)原来的样例,改成了他的个人信息:江陵中学经中路50号 湖北省 430079 校友名单: 曾曦 陈露西
——中学时的恋人。IT男如此宣示爱情。

附:怎么知道网站是挂了还是被墙 ?可以用一个网站检查:down for everyone or just me(www.全部拼写连起来.com

伊利诺伊大学的BIBFRAME项目

刚结束的ALA仲冬会议上,“MARC格式转换兴趣小组”(ALCTS LITA)分会场有伊利诺伊大学BIBFRAME项目的报告。LC的BIBFRAME活动页面(Bibliographic Framework Initiative (BIBFRAME) Events: Library of Congress Activities at the 2016 ALA Midwinter Meeting and Exhibition)对报告的介绍如下:
UIUC图书馆在内部创新拨款项目支持下,研究人员转换并强化该馆目录中近30万电子图书记录,由MARC记录到BIBFRAME关联数据资源。此过程使用来自LC的现有marc2bib代码,然后使用附加python处理,这样每条BIBFRAME XML记录会包含开放关联资源。接着转换和强化,研究人员在线索引了BIBFRAME资源,创建了两个检索界面供发现BIBFRMAE关联数据。该项目的成果之一是结合BIBFRAME记录到开源的便当(Bento)视图,让电子书的关联图书馆数据使用Schema.org和Google定制搜索引擎

BIBFRAME at University of Illinois
项目首页的描述:“本项目的最终结果是图书馆数据的强化发现——以现代和易于理解的视图,汇集相似内容,帮助用户确定相关书目元数据集。”
项目为期一年,从2014年秋到2015年夏,选择该校近30万册电子书记录,由MARC转换至BIBFRAME,并用关联开放数据强化。
关联数据来源
作品标识符:WorldCat的xISBN【这是OCLC的作品级Web Service,好像OCLC去年宣布结束这个服务了】
实例标识符:该馆目录Vu-Find
人名、团体名、地名:VIAF
主题:LC规范档、LC关联数据服务、OCLC的FAST、MeSH RDF关联数据
研究者和机构:国际标准名称标识符ISNI、ORCiD

从项目的BIBFRAME HTML网站地图之一(记录清单)随便找了一条记录
记录显示分成四个部分:Access(获取)、Item Description(描述)、Subject Terms / Creators(检索点)和Bibframe RDF。
这是一本中文书(Zhong wai jun zhi he zhi hui can mou di xi de yan jin),记录没有显示汉字,“获取”和“描述”信息少到用户应该没法确认是不是所需要的(出版者不详、未显示出版日期)。
因为显示的信息太过简陋,所以第一感觉是:Garbage in, Garbage out。没有优质的记录,用什么格式都是一样的。【编目员的价值?职责?】

“获取”部分e-Book链接,取自原记录的856字段。链接到HathiTrust后,因为我的IP不在可访问范围,看不到电子书,但可通过侧栏点击HathiTrust书目记录链接,该记录优于UIUC的记录,有中文题名(中外軍制和指揮參謀體系的演進)和基本书目信息。

“主题词和创作者”部分是项目的亮点,即用开放的关联数据强化记录。如何由现有数据获取外部的开放数据,是实际应用中的关键点。从本记录看:
(1)创作者,用VIAF号链接到VIAF记录
本条记录的链接显然有误。VIAF记录显示是政协浙江文史委员会,但本书台北出版,作者Shi, Zhi,从书名看作者应该与VIAF记录不同。
原以为不会是VIAF记录的作者拼音串中有shi和zhi这么低级的错误导致。查程序源代码,作品转换时还真是用搜索方式获取VIAF的URI,且结果按馆藏量排序后,返回第一个?这里肯定有问题,或是获取代码的、或是VIAF搜索机制的,或者就是因为原数据问题而根本无法解决的。
(2)主题词,三个主题词串看上去差不多,却分别链接到不同的关联数据项目:
第1个有复分,链接到OCLC实验的分面主题FAST(http://experimental.worldcat.org/fast/1020859/)
第2个无复分,链接到LC关联数据服务的LCSH(http://id.loc.gov/authorities/subjects/sh85085236.html)
第3个有复分,链接到伊大本身(即本记录)
看作品转换程序源代码,也是用搜索方式获取的。第3个应该是FAST、LCSH及LC规范档、MeSH等都没有搜索到结果。

“BIBFRAME RDF”部分是4个核心类(Work、Instance、Annotation和Authority)的rdf文件链接,可点击下载,比如作品类的RDF。从这些RDF文件中,可以看到所用bf:命名空间的各种类和属性,如电子书链接使用bf:relatedTo。
UIUC的BIBFRAME模型的实体关系图见:http://sif.library.illinois.edu/bibframe/BibframemodelApril13.pdf。包括4个核心类及属性,相关关系及与外部数据源的联系。

使用上,本项目提供了两个检索界面
1、Google定制搜索
说明是:检索BF记录时,检索界面提供带结构化数据的结果。做查询,竟然什么都查不到【当然没有,因为Google被墙了!】
2、便当视图
即分栏的多库检索结果,除本项目中的电子书外,其他两栏为文章和其他目录数据。
不过,用题名部分“Zhong wai jun zhi”查所有字段或题名,用作者“Shi, Zhi”查作者或所有字段,竟然都没有查到结果。
目前来说,强化内容没有整合到记录内容中。看上去对检索没有贡献,在检索结果的呈现上也只是最简单的链接,还有提升的空间。

按项目说明,bibframe/html中也有Schema.org结构数据,看HTML文件源代码,本记录用了三种:
http://schema.org/Book 电子书、主题词(为什么主题词用Book?)
http://schema.org/Brand 出版者
http://schema.org/Person 创作者
看本项目在LC的BIBFRAME注册页面的另一个例子。该例著录信息较上例丰富,但源代码中Schema.org也只多了一种:
http://schema.org/CreativeWork 体裁主题(genre,电子书、词典)
总体来说,Schema.org的使用似乎还比较初步,或许只是表明一种对搜索引擎优化的态度吧。

LC和OCLC关于BIBFRAME和Schema书目扩展的白皮书

赶在ALA仲冬年会前,OCLC和LC发布了去年底承诺的白皮书,名为《共同基础:探索LC和OCLC关联数据模型间兼容》。ALA会议中有几个专场会涉及此技术白皮书。参见OCLC的预告新闻和年会广告:OCLC and the Library of Congress to clarify approaches to library linked data (19 January 2015)

白皮书前面部分为导论,介绍BIBFRAME和Schema扩展的历史与发展;后面部分是技术分析概要,更全面的技术分析将在2015年稍后发布。
对报告中的技术分析概要,尤其是两种模型的对应方面,其他人会有什么评论?最近东西看得不多,待考。以下为摘译。

Godby, Carol Jean, and Ray Denenberg. 2015. Common Ground: Exploring Compatibilities Between the Linked Data Models of the Library of Congress and OCLC. Dublin, Ohio: Library of Congress and OCLC Research. (PDF, 12p)

(p.4)导言【两个模型早期发展回顾】
自2011年,OCLC研究者实验用Schema.org,作为曝光图书馆元数据给互联网搜索引擎的工具……OCLC的实验导致2012年发布3亿可检索Worldcat.org目录记录的关联数据,以Schema.org元数据元素表达。2011年,BIBFRAME由LC发布为一个创新计划,开发一个关联数据替代MARC,建立在LC始于2009年的提供规范档关联数据获取的经验之上……

(p.5)2013年以来的BIBFRAME
2013年后期,早期实验者小组完成其工作,2014年早期BIBFRAME实施测试平台正式建立。其目的是鼓励BIBFRAME测试实施的开发;监管实施进度;发现实施和BIBFRAME模型与词表中的错误、不一致及不足;为BIBFRAME词表和工具的开发提供一个论坛。去年有17个组织积极参与此工作。
此外,在(公开的)BIBFRAME邮件组中有活跃讨论……
2015年晚些时候,LC将发布一个修订词表,并发布试验项目,测试BIBFRAME词表是否支持编目员用于做原始编目,包括规范工作。试验中,LC编目员将测试以BIBFRAME创建编目数据,使用BIBFRAME编辑器。编目员将以不同语言,为不同资料创建BIBFRAME描述。LC“名称/题名”和“题名”MARC记录将转换为BIBFRAME“作品”,存储于RDF三元组库中。书目记录将被转换并与“作品”匹配,与主题及其他属性合并。除BIBFRAME编辑器外,检索/显示工具将放在三元组库之上。
(p.6)其他机构如斯坦福和康奈尔正计划类似试验计划……

(p.6)2013年以来OCLC的Schema.org实验
自2013年,由WorldCat.org可获取的关联书目数据被升级并重新发布,FAST和VIAF规范档的关联数据模型被重新设计,参引Schema.org所定义的类作为基本概念如“个人”“组织”“创作作品”和“论题”。此外,“WorldCat作品”首个草案发布,表达作品级描述,产生自最新版OCLC的FRBR聚类和数据挖掘算法,对图书馆规范档和WorldCat目录记录进行操作。结果是,近2亿“作品”聚类采用Schema.org建模为关联数据,并由永久URI联系。
OCLC关联数据建模小组成员Jeff Mixter和Jean Godby与蒙大拿州立大学图书馆馆长Kenning Arlitsch和语义网研究主任Patrick OBrien协作,检测通用搜索引擎如Google中图书馆资源的可发现性和可见性问题。成果之一是某些机构库【学位论文】内容的模型,主要以Schema.org表达。……
(p.7)BiblioGraph.net网站由OCLC维护,但构成它的本体将作为一个社区资源管理。此概念由Schema书目扩展社区小组的工作激发……

校准BIBFRAME和OCLC/Schema模型
BIBFRAME和衍生自Schema.org模型的高层校准(引用2013年报告中的图:Schema.org的覆盖广度、BIBFRAME的描述深度)
在最高层,OCLC关联数据模型类似于BIBFRAME,尤其是在实体如作品、实例、组织和个人的定义上。这种冗余反映这两个有着不同动机和用户案例的项目的趋同性。除了与搜索引擎交互,LC开发BIBFRAME为在关联数据环境中数据交换,考虑资源描述的现有格式,它必须被设计为图书馆资源描述的持久标准。相比较,OCLC开发的关联数据模型,为在图书馆之外的万维网上发现图书馆资源的描述而优化,采用为通用搜索引擎消费而设计的词表。如果Schema.org标记的承诺实现,其结果应该可计量为点击率增长,或者改进图书馆在万维网上的其他可见性(p.8)。无疑,预期两个项目间只是部分重叠。Schema.org和BiblioGraph所定义的词表,致力于对寻找信息公众的更广泛可通解,可能不包括很多BIBFRAME定义的细节,意在更多地表达图书馆和其他文化遗产机构长期保存需求。

(p.8)技术分析:摘要
在计划于2015年稍后发布的技术分析中,Ray Denenberg和Jean Godby比较符合OCLC/Schema模型的RDF描述与相应的BIBFRAME描述,关注两个关键BIBFRAME实体“作品”和“实例”及其关系,也讨论其他主要BIBFRAME概念如规范、附注、主题、题名、标识符和代理。

一组对话
每一个概念都是关注对话的主题,问两个问题。其一,两种模型中赋予相应概念的永久标签符可互相消费吗?如果可以,那么可以下结论说,尽管模型有不同的内部细节、以不同词表表达,但他们描述同一对象。作为结果,比如一个“BIBFRAME作品”描述,可以包含一个对“OCLC作品服务”发布标识符的“相同”断言,而WorldCat目录数据中描述资源的OCLC/Schema描述,可以指代一个“BIBFRAME实例”。
其二,两位作者问,一个BIBFRAME描述是否可以用OCLC/Schema模型重构(或反之)而不丢失信息。这一问题对OCLC尤其重要,因为肯定回答意味着可能表达一个数据集成者导入导出BIBFRAME数据的需求,即使内部关联数据模型以不同词表表达。高层结论是,前面图画中显示的较准仍是精确的,多半甚至比2013年更正当,因为现在主要的BIBFRAME概念与OCLC/Schema模型中表达的相应概念更一致。并且,假设描述音乐和地图的BIBFRAME术语在Schema.org和BiblioGraph中无对应,对两个模型间粒渡差异,新分析提供一个更需要的经验示范,提供一个加以管理的技术解决方案。2013年时,这一差异仅作为理论可能性提出【指2013年OCLC关于BIBFRAME和Schema书目扩展报告】。

(p.9)表达FRBR第1组实体等级
BIBFRAME和OCLC模型均采用简化FRBR视图。两者均为“作品”实体定义RDF类,尽管BIBFRAME和OCLC“作品”不完全相同,分析揭示它们相当兼容。两个模型均编码FRBR“内容表达”实体为RDF属性或关系。两者也均认识“载体表现”实体,尽管以不同方式:BIBFRAME定义“实例”RDF类表达“载体表现”实体,而OCLC模型引入“载体表现”和“单件”实体,采用来自schema:CreativeWork和schema:Product的RDF类型分配的组合,如前述2013年出版物……中所述。
BIBFRAME定义了一套20个内容对内容(即“作品对作品”)关系,衍生自MARC和RDA,与OCLC模型假定一致,可补充衍生自Schema.org的创作作品模型。此外,图书馆规范档中典型描述的人们、地点和组织,在LC和OCLC模型中未表达为字符串或概念,而是作为真实世界对象。因此,许多顶层BIBFRAME的RDF类的指代,包括作品、实例、拥有单件及规范的子类,在本体上足够相似,以至BIBFRAME和OCLC模型的相应URI可相互消费。在2013年时没有自信做如此声明。

差异
分析揭示(两个)模型中至少有三个顶层差异。其一是前面提到的:BIBFRAME为“作品”和“实例”定义RDF类,而OCLC为“作品”但没有为“实例”定义类。如上所指出,此差异不产生非兼容。
其二,BIBFRAME中正式定义“规范”实体为RDF类,但OCLC模型中没有。在OCLC关联数据模型中,“规范”仅仅是包含核实信息的任何资源的一个非正式名称,包括对构成图书馆资源描述重要的实体如人物、地点、机构、概念和其他实体的描述。但是,表达图书馆规范档内容的RDF数据存储库在其他方面是兼容的,包含相同对象的描述。在BIBFRAME模型中,RDF类bf:Authority定义主要是为了方便主题描述。这一问题将与LC和OCLC模型中通用的主题处理一起,在接下来的技术分析中做更深入的探索。
其三,BIBFRAME为“注释”实体定义的RDF类在OCLC模型中没有对应。不过,BIBFRAME“注释”现在包含结构化数据,可(p.10)描述评论、概要、封面图像及馆藏——多数在OCLC/Schema模型中有交替或更简化的陈述。正按照W3C的Web注释当前实施的工作,仔细评估BIBFRAME“注释”类。
如期望的,分析揭示在粒度上的差异。例如,如果评论有作者或出版者,或者如果一个封面图像有出处,BIBFRAME以结构化数据值描述该对象,定义带属性的“注释”类的一个RDF子类。在Schema.org中最明显的对应描述,典型地仅包含一个简单数据值,比如文字值或URL,不能表达如此细节。
在若干BIBFRAME概念的描述中有同样问题,比如题名和标识符。在BIBFRAME中,题名表达为文字串或结构化资源(包括主要题名、副题名、部分号及若干其他信息元素),而OCLC题名总是表达为文字串(通过属性schema:name)。但由于两个模型都允许题名表达为文字,因而有足够兼容性。标识符更复杂,在接下来的技术分析中将进行综合处理。OCLC的关联数据专家正探索以Schema.org表达BIBFRAME附加粒度的通用解决方案,并同时讨论如此是否总是有必要。

发现和保存的词表【BIBFRAME是为curation的词表,BiblioGraph是为发现的词表】
当然,BIBFRAME描述还会更详细,因为他们包含为专业保存的专门词表。例如,对同一幅LC馆藏天体图,分析BIBFRAME的一个手工描述与OCLC/Schema模型的一个算法生成描述,BIBFRAME描述包含技术术语bf:cartographicScale, bf:cartographicEquinox, bf:cartograpicAscensionAndDeclination。OCLC描述不包含这些术语,因为OCLC源记录未呈现这些信息,并且这些概念没有在Schema.org或BiblioGraph定义。这说明BIBFRAME关注词表开发,以支持对图书馆拥有的独特资源的升级的机器可理解描述,例如地图、乐谱、声像资料和档案。OCLC/Schema模型可指代这些描述,简单地增加包含BIBFRAME URI的“相同”断言强化其自身。但是,为生成可比较的描述,或通过OCLC的数据处理流而不丢失信息,OCLC/Schema模型必须直接使用BIBFRAME词表。这是图中所提及的BIBFRAME所提供的“描述深度”,对为发现优化的数据模型中可能将永远失去。
(p.11)在技术分析中,BiblioGraph作为推进从专家描述词表到发现词表的交通工具,在描述天体图中可能有其作用。例如,在Schema.org中“地图”被定义为一种资源,但所定义的属性清单太粗略,难以满足图书馆界管理需求。但BIBFRAME术语定义为RDF属性,采用BiblioGraph作为试验场,理论上可定位于schema:Map类。BiblioGraph中的表达可解释为一种声明,其他实践社区可能需要这些术语,将它们用作最终吸收进Schema.org的候选。还需要图书馆标准专家做很多分析,确定哪些术语有共同理解的语义,哪些是专门的,也许会得到结论,bf:cartographicScale可供更广泛使用,而其他可能不行。无论如何,BiblioGraph设计作为汇合这些分析结果的场所。

进一步校准的一些建议
由于可解决的技术与概念障碍,很多LC和OCLC关联数据模型间的共同基础还未开拓。这有待未来协作,但很多在技术分析中提及。包括:
OCLC
– 对BIBFRAME能但OCLC/Schema模型不能表达的粒度,开发与测试抓取的技术解决方案,证明OCLC能够导入导出BIBFRAME而不丢失信息
– 发布接受准则,定义BiblioGraph和范围,提出满足准则的BIBFRAME中定义术语。【直接采用BIBFRAME术语】
LC
– 产生指代OCLC“作品”标识符的BIBFRAME描述【增加BIBFRAME标识符?】
OCLC和LC合作
– 针对图书馆拥有的一个或多个资源类型,以BIBFRAME或Schema.org不宜描述的,比如地图或音像资料,开发并测试实施一个共同模型。
– 对一个给定词表术语(定义为RDF类或属性),图书馆数据需要而Schema中没有的,分析比较其在BIBFRAME和BiblioGraph中的使用。两个词表中是否都有,定义类似?BIBFRAME术语是否可(如BiblioGraph术语那样以相同方式)与Schema共同使用?
【白皮书结束,有参考文献】
===
相关博文:
关于2013年OCLC报告、OCLC与LC合作撰写关联数据白皮书:OCLC对BIBFRAME和Schema.org书目扩展的立场(2014年12月20日)
OCLC低调注册BiblioGraph.net扩展Schema.org(2014年12月1日)
解惑Schema书目扩展(2014年1月29日)
Schema.org的图书馆扩展(2012年6月22日)
关于WorldCat作品:OCLC以关联数据开放1.94亿书目作品(2014年2月27日)