W3C推荐标准《万维网数据最佳实践》

万维网数据最佳实践(Data on the Web Best Practices, DWBP) 2015年2月发布为草案,而后成为W3C推荐标准。当前版本2017年1月31日:Data on the Web Best Practices, W3C Recommendation 31 January 2017.

近年使用 Web 发布的数据持续增长:世界各国政府在线共享开放数据,研究数据联盟(RDA)等组织鼓励研究数据在线发布,社交数据的收集、分析和在线发布媒体数据,信息的众包,网络上重要文化遗产收藏,以及关联开放数据云。数据发布者旨在公开或以受控访问共享数据。

数据发布者旨在公开或以受控访问共享数据,数据消费者则希望能够找到、使用和链接到数据,这就产生了在数据发布者和数据消费者之间达成共识的基本需求。为界定 Web 上数据最佳实践的范围并引出所需的功能,DWBP 工作组编制了一组用例,代表数据通常如何在 Web 上发布以及如何在被使用,由用例派生的需求集用于指导最佳实践的开发。为鼓励数据发布者采用 DWBP,确定了8个益处:理解、可处理、可发现、重用、信任、可链接、使用权(访问/获取)和互操作,并与用例/最佳实践相关联。

虽然 DWBP 建议使用关联数据,但也鼓励其他开放格式(如 CSV)网络数据的最佳实践。

文件主要部分是第8节最佳实践的例子,内容包括:为什么,预期结果,可能的实施方法,人读、机读样例,如何测试,证据(相关需求)及益处等部分。以下是第8节最佳实践清单与第11节最佳实践益处合并处理后的表格(数字代表益处提及顺序)。

8.最佳实践/BP(益处)C理解P可处理D可发现R重用T信任L可链接A访问/获取I互操作
8.2Metadata
BP1,提供元数据(RCDP)
2431
BP2,提供描述元数据(RCD)231
BP3,提供结构元数据(RCP)231
8.3Data Licenses
BP4,提供数据许可证信息(RT)
12
8.4Data Provenance
BP5,提供数据出处信息(RCT)
213
8.5Data Quality
BP6,提供数据质量信息(RT)
12
8.6Data Versioning
BP7,提供版本指示(RT)
12
BP8,提供版本历史(RT)12
8.7Data Identifiers
BP9,使用永久URI作为数据集标识符(RLDI)
3124
BP10,使用永久URI作为数据集中的标识符(RLDI)3124
BP11,为数据集版本和系列赋予永久URI(RDT)213
8.8Data Formats
BP12,使用机器可读标准化数据格式(RP)
21
BP13,使用与区域设置无关的数据表达(RC)21
BP14,以多种格式提供数据(RP)21
8.9Data Vocabularies
BP15,重用词表、最好是标准化的(RPCTI)
32145
BP16,选择正确的形式化级别(RCI)213
8.10Data Access
BP17,提供批量下载(RA)
12
BP18,提供大数据集的子集(RLAP)4123
BP19,使用内容协商提供多种格式的数据(RA)12
BP20,提供实时访问(RA)12
BP21,提供最新数据(RA)12
BP22,为不可用的数据提供解释(RT)12
8.10.1Data Access APIs
BP23,通过 API 提供数据(RPIA)
2143
BP24,使用 Web 标准作为 API 的基础(RLIDAP)641253
BP25,为 API 提供完整文档(RT)12
BP26,避免对 API 进行重大更改(TI)12
8.11Data Preservation
BP27,保留标识符(RT)
12
BP28,评估数据集覆盖范围(RT)12
8.12Feedback
BP29,收集数据使用者的反馈(RCT)
213
BP30,提供反馈渠道(RT)12
8.13Data Enrichment
BP31,通过生成新数据来丰富数据(RCTP)
2413
BP32, 提供补充演示(RCAT)2143
8.14Republication
BP33,向原始发布者提供反馈(RIT)
132
BP34,遵守许可条款(RT)12
BP35,引用原始出版物(RDT)213

资源描述国家标准(GB3792-2021)发布

上周收到宋文老师邮件,GB/T 3792-2021 信息与文献——资源描述 国家标准已经正式发布。今天看国家标准全文公开系统:

  • GB/T 3792-2021信息与文献 资源描述
  • 发布日期 2021-03-09;实施日期 2021-10-01;归口单位 全国信息与文献标准化技术委员会
  • 代替《文献著录》系列(GB/T3792.1-2009总则,GB/T3792.2-2006普通图书,GB/T3792.3-2009连续性资源,GB/T3792.4-2009非书资料,GB/T3792.6-2005测绘制图资料,GB/T3792.7-2008古籍,GB/T3792.9-2009电子资源)及GB/T3469-2013(信息资源的内容形式和媒体类型标识),是对这8项标准的合并修订。
  • 起草单位:中国科学院文献情报中心、国家图书馆、北京大学图书馆、清华大学图书馆、华东师范大学图书馆、广东省立中山图书馆、上海图书馆、中国科技信息研究所、首都图书馆、中央音乐学院图书馆、中国社会科学院图书馆。
  • 主要起草人:宋文、王洋、喻爽、杨慧、胡小菁、鲍国强、毛凌文、毛雅君、纪陆恩、朱学军、魏来、张娟、王宁宁、沈正华、袁玉红、黄丽婷。

本标准未归入“采标”即不属于采用国际标准, 提供在线浏览,也是福利。只可惜文字无法搜索、复制乱码。

购买链接:信息与文献 资源描述. 中国质检出版社. 大16开. 页数148. 104元.

参见:国家标准全文公开系统(2017-3-18)

—— 参与起草过程 ——

作为曾经的全国信息与文献标准化技术委员会文献著录分技术委员会(TC4/SC6)委员,这是我唯一参与起草的国家标准。回想本标准上线的漫长过程,主持者真是不容易。

本标准始于2012年,年初(2012/3/29)参加了“文献著录ISBD统一版专家研讨会”(参见博文)。当时打算将GB3792拆分成10个分标准,我无意参与;后来根据标准化管理委员会的意见,将10个标准合并为一个总标准,进行国家标准的申报【见:《全国信息与文献标准化技术委员会简报》第二期,2013年2月4日】,列入了2012年国家标准制修订计划项目。

2013年正式启动,2013/6/25参加了“资源描述国家标准项目启动会”(参见国家图书馆鲍国强老师的博文:“资源描述国家标准项目启动会”召开 (2013-06-27))。会上首遇搭档、社科院文献中心的黄丽婷老师,两人合写载体表现部分(10载体形态项)。要求9月底前完成,实际8月中旬基本完成。

2014年开了两次会,上半年(2014/3/25-26)参加“资源描述国家标准讨论会”,会议明确编写原则即标准撰写的一些特定说明,我针对载体形态项的撰写初稿作了说明。下半年(2014/10/13)参加“资源描述国家标准研制工作会议”,当时确定的进展是:1)各部分根据10月13日讨论结果修改内容,在11月15日提交宋文;2)2014年12月底以前完成资源描述1.0版,发给大家;3)2015年1月-5月各部分梳理专门类型资源、遗留问题再讨论;4)2015年6月完成资源描述2.0版(专门类型资源审校完成);5)2015年12月完成终稿。

2015年受邀参与总审校,但没有参加2015/11/23的最后一次工作会议。

2016年中还参与了QQ群中的细节讨论。之后就是漫长的等待、音讯全无……我还以为胎死腹中了。

TAP规范:表格式应用配置文件(DCMI开发中)

RDA测试版网站今晚(北京时间明早8点)将切换为官方正式版。新RDA的众多变化之一是取消核心元素,官方说明使用者可以使用应用配置文件/应用纲要(application profile,简称AP)作出规定。PCC成立了元数据应用配置文件(MAP)任务组,年初RDA官方的培训资料中给出了电子表格形式的LC/PCC应用配置文件的样例。未来各方都将制定自己的RDA应用配置文件。

正当此时,看到DCMI将在12月17日召开一个非正式的公开会议网会,讨论开发中的规范——表格式应用配置文件(Tabular Application Profile,简称TAP),即表格形式的AP。本规范目前包含12个元素,支持实体描述、属性列表、基数规则和值规则。12个元素【可分为三部分/与入门手册不尽一致】:

  • 一、形状【实体】shapeID,shapeLabel
  • 二、属性 propertyID、propertyLabel、mandatory(必备)、repeatable(可重复)、note(附注)
  • 三、取值【三元组的客体】 valueNodeType(节点类型:IRI或文字)、valueDataType(数据类型:通常为xsd:)、valueConstraint(取值限制/进行中)、valueConstraintType(取值限制类型/进行中)、valueShape【实体】

目前未解决的问题包括:单元格中多值表示、命名空间声明放在哪里、单元格中使用引号、开放图与闭合图。

via [BIBFRAME邮件组]:Open Meeting December 17 16:00 UTC, DC Application Profiles / Karen Coyle (2020-12-13) 

参见:新RDA培训资料摘要(2020-2-2)

LC/PCC应用纲要(电子表)7栏目:1标签定义域(WEMI等),2VES通用需求(必备性),3条件需求(有则必备),4可重复性,5记录方法(结构化、非结构化、ID、IRI,6SES(MARC书目:字段-子字段),7备注