在MARC中使用URI:URI指导小组最终报告

虽然MARC本身不能直接用于关联数据,但图书馆界所用元数据多由MARC转换,在MARC编目中记录URI,有助于后续的关联数据应用。因此多年前已开始尝试在MARC中使用URI。

MARC书目格式于2007年新增子字段$0规范记录控制号,2016年$0扩大到包括各种标准号,并且在不标注时默认为URI。2017年新增子字段$1真实世界对象URI,区别于作为其描述的$0。当年还新增字段758资源标识符,记录书目记录中描述的资源或与其相关的资源,如FRBR作品、内容表达、载体表现和单件,以$i/$4记录关系,$0/$1记录标识符。

2015年美国合作编目项目PCC开始寻求在MARC中记录URI的最佳实践,其后开展了2项试验:

  • 2019-2021:PCC URIs in MARC Pilot
  • 2020-2021:PCC Wikidata Pilot(在MARC中记录维基数据的URI)

URI指导小组(URI Guidance Subgroup, UGS)属于PCC的关联数据咨询委员会(LDAC)和身份管理咨询委员会(IMAC),应PCC政策委员会(PoCo)要求撰写报告,就如何在书目和规范记录中使用MARC中的URI提供指导,以下是其最终报告:

关联数据咨询委员会/身份管理咨询委员会的URI指导小组给合作编目项目政策委员会的报告 LDAC/IMAC URIs Guidance Subgroup Report to PCC PoCo (March 17, 2023)

报告提出7个建议,以下为摘译【本人注】

  • 建议1【正式做】:正式终止MARC中URI试验,并采取适当措施使编目员能够在MARC记录中插入URI【试验早已结束,现在应该真正做了!】。这将包括审查相关文件以进行任何必要的编辑:政策声明、元数据指导文档、描述性编目手册、LC指南补充、参与者的手册和其他文档。此外,核心的MARC中URI文档应由PCC发布和维护,PCC应就在MARC中插入URI提供指导。…建议的核心汇编在下面的附录C中。
  • 建议2【总则】:公布在MARC中插入URI的项目以及提供指导的PCC小组的总则。…附录G汇编了一些总则。…
  • 建议3【核心文档】:组织关于在MARC中添加URI的核心文档(见附录C),并将其作为集合发布。这可能需要成立一个小组来处理文件以供发布…。流程可能包括…。进一步建议,指导在职编目员的信息应尽可能汇编在一份文件中,可能是按照NACO 024最佳实践指南的最佳实践文件【附录C核心文档 [2]】。
  • 建议4【用例】:在上面提到的同一集合中,记录MARC中URI的用例。关注将URI添加到MARC的用例范围可以帮助我们了解添加这些数据可以实现的各种目标以及它可能产生的影响。此外,培训计划(如以下建议5中所建议的)——如果制定了这些计划——可以包括为什么这项工作很重要,如何使用最终结果,以及它如何影响用户。(下面的附录E是记录用例的开始。)
  • 建议5【培训】:责成培训常设委员会制定培训计划,以便在书目和规范记录的MARC中添加URI。
  • 建议6【政策指导】:要求新的或现有的机构提供政策和实践指导,以回应PCC参与者的问题。……
  • 建议7【调查】:在PCC成员的适当时间进行调查,以衡量MARC中URI用户的进展、发展和态度,并评估未来需要支持的领域。

收录相关资料的8个附录

附录A:小组职责【为MARC书目和规范记录中URI的使用提供指导】

附录B:相关PCC和其他报告、指南和资源【2页】

附录C:核心文档【PCC指导文件6种】

  • [1] MARC object table: a field-by-field analysis of the bibliographic format. (2019)
  • [2] NACO 024 Best Practices Guidelines. (2019-2023)
  • [3] PCC Task Group on Linked Data Best Practices Final Report. (2019)
  • [4] URI FAQs. (2018)
  • [5] Formulating and Obtaining URIs: A Guide to Commonly Used Vocabularies and Reference Sources. (2020)
  • [6] URIs in MARC Cheat Sheet. (2023)

附录D:PoCo对3个PCC试验进展中描述的调查中确定的需求,2021年11月5日,幻灯片10-27页。【调查结果,URI指导小组的意见】

附录E:用例,衍生自:Use Cases for URIs in MARC: Toward Native Linked Data. (2018)【4方面用例:发现,ILS,规范[数据]供应商,走向原生关联数据】

附录F:格式化和获取URI【附录C核心文档 [6]】

附录G:总则

  • 主要来源于PCC MARC中URI工作组(PCC Task Group on URIs in MARC)和PCC应用常设委员会MARC书目记录元数据和实践工作组(PCC Standing Committee on Applications Task Group on Enhancing Metadata and Practices in MARC Bibliographic Records)的报告。
  • 编目员在MARC中输入URI的总则:
  • – 在MARC中嵌入URI的建议/指南必须符合现有MARC环境的成本效益
  • – MARC中的文字值有时很容易在没有$0或$1的情况下转换为URI,因此,在这些情况下,不需要在MARC记录中输入这些URI。
  • – 避免在任务易于自动化的地方手动添加URI。例如,一些软件,如Authority Toolkit,提供了简化URI输入的服务。协调工具(Reconciliation tools),如OpenRefine,允许查找外部数据库中的URI,并将其与数据中存在的实体进行匹配。另一方面,有时使用频率较低的词表,或使用可能不稳定或不唯一标签的来源,被排除在服务之外或难以协调,从而证明使用手动输入是合理的。
  • – 应该注意使用规范的和可解引的URI,而不是简单地使用任何呈现自己的http链接。
  • – MARC本身并不是一种关联数据格式。将URI插入MARC记录主要是为了提高MARC到RDF转换的输出
  • – 注意编目员的时间。
  • PCC小组在MARC中提供URI指导的一般原则:【略】

附录H:时间表,2007-2022【$0、$1、758字段加入MARC及调整;PCC成立工作组/委员会,包括MARC中URI/身份管理/关联数据/为BIBFRAME转换简化MARC/增强MARC书目元数据;试验MARC中URI、Wikidata;等】

台湾链接资源系统 LDT@Library

台湾图书馆界在2022年3月18日正式启用“台湾链接资源系统”(LDT@Library)。如网址 https://ld.ncl.edu.tw/ 所示,本系统对标美国国会图书馆(LC)的关联数据服务id.loc.gov,提供关联数据环境下的规范取值词表,可通过API获取,也提供RDF数据打包下载(每年更新1次)

系统由台湾中央图书馆与台湾大学图书馆合作开发。网站首页之“LDT @ Library 緣起”:

  • 在2018年起國內部分圖書館陸續導入了支援Linked Data的自動化系統,部分圖書館開始將編目規則轉換為RDA規範之際,在此趨勢之下使鏈結資源的具像化得以有實現的可能。有鑑於此,國家圖書館與國立臺灣大學圖書館積極合作執行本計畫,旨在承繼先前的成果,整理國內聯合權威資料庫,結合題名、主題資料,製作符合標準之鏈結數據並開發相應的「臺灣鏈結資源系統」平台,以期提供使用者更多元、詳盡的相關資訊。
  • 本計畫旨在建置一個整合的臺灣資料鏈結資源系統,而透過這個臺灣圖書館界可共用共享的系統,使臺灣各領域的學研數據可透過網際網路和國際間各大型語意數據集形成脈絡的串連,呈現使用者更豐富的臺灣資料及更完整的華文研究資源。

系统目前收录台湾《中文主題詞表》主题规范17212条,《中文图书分类法》(2007年版)28352条,中文个人名称规范324781条(2023-2-7实时数据)。

系统在去年发布时称,“未來並可與網路資源(例如:ISNI、ORCID、VIAF、Wikidata等)進行串連,以因應語意網(Semantic Web)世代的來臨”。via 「臺灣鏈結資源系統」於111年3月18日正式啟用(2022-3-23)

早在2015年,台湾中央图书馆就以关联数据发布了以上3种资源。新系统应该已取代原发布资源。参见:中国国家图书馆,你在哪儿?台湾发布关联数据有感(2016-1-17)

试用LDT@Library

不懂API,还是手查。已看到部分记录与Wikidata关联。

不过又手黑,发现一人多记录。另外不支持繁简通检,或许只有大陆对此有强烈需求?

1、用简体汉字查“鲁迅”,可以查到人名规范“魯迅, 1881-1936.”

URI(s):
- https://ld.ncl.edu.tw/authority/351060
Instance Of:
- MADS/RDF Authority
- MADS/RDF PersonalName
Preferred name:【首选名称(规范形式)】
- 魯迅, 1881-1936.
Variants:
- Luxun, 1881-1936.
- 周, 樹人, 1881-1936.
……(以下省略其数百个汉字笔名及音译,不含简体汉字)
Related names:【外连名称?】
- Lu, Xun, 1881-1936.
Sources:【来源】
- His A Q cheng chuan, 1957:t.p. (Lu Hsün; Lū Sin [in Thai])
……(省略8个)
- 鲁迅诗编年笺证【唯一出现的简体字“鲁迅”,使本记录得以查到】
Connected External IDs:【外部关联:wikidata,使用名称为:Lu Xun】
- http://www.wikidata.org/entity/Q23114
Alternate Formats:
- RDFXML
- Turtle
- N-Triples
- JSON-LD

2、由以上相关名称查Lu, Xun( 拼音/拉丁字母音译),查到另一人名规范“周樹人, 18810925-19361019”【显然为不同来源的数据,没有合并;此记录没有连接wikidata】

URI(s):
- https://ld.ncl.edu.tw/authority/86496
Preferred name:
- 周樹人, 18810925-19361019
Variants:
- A'er, 18810925-19361019
- A-chang, 18810925-19361019
……(以下省略其数百个汉字笔名及音译,不含简体汉字)
Sources:
……(省略18个)

3、查“毛泽东”,确定不支持繁简通查,必须使用繁体字“毛澤東”:

URI(s):
- https://ld.ncl.edu.tw/authority/294713
Preferred name:
- 毛澤東, 1893-1976.
Variants:
- 澤東, 1893-1976.
- Zedong, 1893-1976.
- 潤, 1893-1976.
- Run, 1893-1976.
……(以下省略其数十个汉字假名及音译,不含简体汉字)
Related names:
- Mao, Zedong, 1893-1976.
Connected External IDs:【外部关联:wikidata,使用名称为:Mao, Zedong】
- http://www.wikidata.org/entity/Q5816

EBSCO推出BiblioGraph(Library.Link改名?)

2022年12月,EBSCO宣布推出BiblioGraph,应用关联数据技术,让用户可以在Web上的任何地方查找和使用在线图书馆资源:

“BiblioGraph 利用 BIBFRAME 将图书馆目录转换为使用来自权威来源数据的关联数据资源——在图书馆目录中建立连接以显示相关的人、主题、单件、出版商等,允许用户在网络上查找和使用他们图书馆的资源。图书馆员工可以通过自动报告跟踪使用统计数据,展示人们使用 BIBFRAME 来使用图书馆目录的频率。

“当学术、国家或公共图书馆订阅 BiblioGraph 时,该机构会自动将数以千计的其他图书馆加入关联数据网络,该网络可用于打开 Google 等搜索网站,链接回图书馆并扩大知名度。自 2017 年与谷歌整合以来,这些技术的影响力在全球范围内不断扩大。2020 年,谷歌扩大了其借阅行动以包括更多服务。此后,BiblioGraph 将图书馆目录连接到谷歌在美国、加拿大和澳大利亚的知识面板,其他国家的图书馆也开始参与。”

2023年1月,EBSCO又宣称BiblioGraph提高了英国图书馆资源的可见性,包括在谷歌的知识面板和谷歌图书中找到借阅选项。

话说2020年,EBSCO收购了曾为美国国会图书馆(LC)开发BIBFRAME的Zepheira。Zepheira旗下使用BIBFRAME、把图书馆目录(MARC格式)和图书馆服务信息等转换为关联数据发布,方便通过搜索引擎等网络发现的服务Library.Link由此属于EBSCO。

Library.Link与谷歌知识图谱结合,到2021年已在美国、加拿大和澳大利亚3国的谷歌搜索和谷歌图书中提供图书馆借阅选项,现在英国加入成为第4国

从功能上看,BiblioGraph似乎就是Library.Link。以上两篇新闻稿中都提到这是“EBSCO 在 2020 年收购 Zepheira 的直接结果”,但都没有提及Library.Link。

在EBSCO网站上搜索新推出的BiblioGraph,有百多个结果,但搜索Library.Link,只有2个结果。EBSCO是给Library.Link改名BiblioGraph吗?

在某个NoveList产品介绍(BiblioGraph NoveList Enrichment)中有这样一段:“我们的许多客户使用BiblioGraph,它将您现有的数据转换为关联数据格式,并将其发布到 library.link 网络。这使得像谷歌这样的搜索引擎更容易在搜索结果中查找和显示您的图书馆资源”。似乎以BiblioGraph作为产品名,保留library.link作为网站名?

参见: