工具 – 编目精灵III

自动音译工具ScriptShifter

ScriptShifter是美国国会图书馆（LC）于2024年开发的自动音译工具。开源软件。

所谓“音译”，指文本从一种文字到另一种文字的系统转换。将文本音译为拉丁字母，即所谓“罗马化”。比如，为汉字生成汉语拼音。

ScriptShifter就是一款自动罗马化音译工具。LC使用的罗马化标准是：《ALA-LC罗马化表》（ALA-LC Romanization Tables）

ScriptShifter目前支持近百种文字（Supported Scripts/Mappings in ScriptShifter），有罗马字母到文字、文字到罗马字母2种转换，部分文字只有单向转换。比如中文汉字，只支持文字到罗马字母（汉字生成拼音），不支持罗马字母到文字（拼音转成汉字）。

有在线版本可以试用：https://bibframe.org/scriptshifter

试汉字。几个多音字组成的词，转换正确。
试日语，有平假名、片假名2种文字，均支持双向转换。支持日文汉字生成罗马字母，或者罗马字母生成假名（但罗马字母不能转成日文汉字）。另外，对多音汉字如人名无法很好处理，也是意料之中（在BIBFRAME更新论坛上提到希望借助AI）。

ScriptShifter是LC为编目非拉丁文字资源而开发的。目前已嵌入开发中的新版BIBFRAME编辑器Marva Quartz，用于实时生成罗马化内容。

由于其灵活的使用方式（见下），显然在回溯处理批量数据时也会有用武之路。

ScriptShifter可在本地运行、本机运行、通过API集成到其他软件中使用：

[1]在GitHub上运行基于Python的开源工具，源代码：https://github.com/lcnetdev/scriptshifter/
[2]运行在Docker hub上找到的工具的打包Docker镜像：https://hub.docker.com/r/lcnetdev/scriptshifter/tags
[3]使用内置web应用程序或查阅API文档：https://github.com/lcnetdev/scriptshifter/blob/main/doc/rest_api.md

LC正鼓励参与开发：试用Scriptshifter；尝试安装Scriptshifter或使用API；通过Github或电子邮件报告问题。

Paul Frank and Matt Miller. ScriptShifter: Enhancing Library Metadata and Discovery. https://www.loc.gov/bibframe/news/bibframe-update-jul2024.html

参见：2024夏BIBFRAME更新论坛（2024-7-12）/posts/2024/0712/6271

元数据评估工具库

DLF Metadata Assessment Working Group — Tools

元数据评估工具库，收录元数据相关工具的信息，包括工具的使用和功能、支持的元数据标准以及工具本身的文档链接。

本工具库将收录的元数据工具分为7个类别：[1]创建、[2]编辑、[3]验证、[4]转换、[5]抽取/嵌入、[6]检索、[7]分析。类别起到过滤器的作用，方便使用者筛选有助于特定工作类别的工具。具有多种功能的工具入多个类别；同时也支持搜索查找。

从类别可知，并非限于“评估”本身。实际上要评估元数据，必然要对元数据进行各种预处理，因此“通常借助于脚本和其他自动化工具”以“更聪明地工作，而不是更努力地工作”。

本工具库由美国数字图书馆联盟（Digital Library Federation，DLF）之评估兴趣组（Assessment Interest Group，AIG）之元数据工作组（Metadata Working Group，MWG）之元数据评估工具小组（Metadata Assessment Tools subgroup）制作。

项目始于2016年，当时收录21种工具。“在创建工具库的早期，每个工具都经过了严格的测试，以确定是否将其包含在存储库中。这意味着每个工具都有很多信息，但这对包含的工具数量有很大限制。为了包含更多的工具并使存储库成为更有用的资源，小组不再测试每个工具，现在依赖于每个工具的文档和社区知识”。尽管如此，此次更新，工具总数仍不到30种。页面上有链接供提交新工具、更正错误。“我们积极欢迎社区的意见，帮助我们提供有关所列工具的更准确和完整的信息！”

看工具库，既有专业编目软件如MarcEdit，也有通用数据处理插件如Open Refine，甚至还包括更通用的统计分析软件如R。

这些工具支持的标准包括：

MARC, MODS, EAD, Dublin Core, BIBFRAME
IPTC Photo Metadata
PBCore, EBUCore
Framework for Interoperable Media Services (FIMS)
Exif, IPTC (IIM), GPS, TIFF
VRA Core
RDF

其中支持MARC的工具有：

MarcEdit（编辑/转换/验证/检索/分析；同时支持标准：MODS/EAD/Dublin Core）
K-Romanizer（韩语罗马化/转换）
LibreCat/Catmandu（创建/编辑/转换；同时支持标准：MODS/Dublin Core/RDF）
ruby-marc（创建/编辑/转换）
MatchMARC（检索）
MetadataMaker（创建；同时支持标准MODS/BIBFRAME）

原博文：

Updated DLF AIG MWG Tools Repository (2023-7-12)
Assessment Interest Group Metadata Working Group Tools Subgroup (2022-8-10)

权威工具书《图书馆·情报与文献学名词》

昨日某名词审定委员会委员收到赠送给作者的《图书馆·情报与文献学名词》：

图书馆·情报与文献学名词 2019 / 图书馆·情报与文献学名词审定委员会. 科学出版社, 2019.8

本书大有来头，只看题上项：全国科学技术名词审定委员会公布。其权威性不言而喻。

收录图情名词3436条，含中英文对照及定义，分类编排，附英汉、汉英索引。前言说明了名词选择和撰写原则：重要概念不遗漏，重要解释无失误，外文翻译须确切，体例风格须统一。

分类借鉴《中图法》第5版图情一体化模式，分8个一级类目：
01 图书馆学情报学基础
02 图书情报工作管理
03 信息资源建设
04 信息组织
05 信息检索
06 情报分析与研究
07 信息服务与用户研究
08 文献学

本书首先是一部可供引用的权威辞书。专业写作常常需要概念的精准翻译、准确定义，而当下专业工具书难觅，新名词似乎只能引用网络百科。本书编制始于2010年，2015年9月讨论通过。虽然内容更新截止2015年，已经相当难能可贵——如果有可与网络百科PK的电子版自然更好！（且听下回分解）

其次本书是一部很好的图情百科学习手册。分类编排，在前述一级类目下，再细分二级类目，可供全面了解图情某一领域的基本概念、基础知识，及时发现知识缺失、弥补短板——强烈推荐初入行者使用！

—— 使用初体验 ——

【一】拿到书，首先想到查一下“approval plan”，看推荐的翻译是什么。按“编排说明”，异名中的“简称”“全称”“又称”“俗称”可以继续使用（“曾称”则淘汰不用），文后索引中汉字条目前标星号（*）的就是异名（没有找到*说明、是推测的）。
先查“英汉索引”：
approval plan 送审订购，* 纲目订购，* 阅选订购 03.364
再根据“03.364”看正文词条：
03.364 送审订购 on-approval order，approval plan
又称“纲目订购”“阅选订购”。图书馆的一种文献采购方式。图书馆将其文献收集的计划范围（一般包括学科、文种、类型、地区、专业化程度、价格等）交给书商，书商按要求配送书，再由图书馆审核认可。多适用于规模较大、资金有保证并系统完备地收集某方面文献的机构。

【二】看本体（ontology）相关词条，查索引是不是有倒排关键词，没有：
在“04 信息组织”之“04.01一般概念”下，列有：本体（04.106），知识本体、语义本体、知识表示本体、顶级本体、通用本体、领域本体、任务本体、应用本体、领域-任务本体、方法本体、元本体，以及本体构建、本体学习、本体映射、网络本体语言等16个名词。
在英汉、汉英索引中，“ontology”或“本体”下都只有本身及以其开头共4个。
电子时代，只要有关键词/全文检索，倒排索引并非必须。当然前提是有电子版……（且听下回分解）

【三】一贯手黑，随便浏览就发现了一处错误：
04.648 FRAR 规范记录的功能需求 Functional Requirement for Authority Records
应该是：FRAD 规范数据的功能需求 Functional Requirement for Authority Data
非常理解失误难以避免，尤其对我这种最怕写词条这样严谨活计的人，绝不会以此低看全书的价值。