自动音译工具ScriptShifter

ScriptShifter是美国国会图书馆(LC)于2024年开发的自动音译工具。开源软件。

所谓“音译”,指文本从一种文字到另一种文字的系统转换。将文本音译为拉丁字母,即所谓“罗马化”。比如,为汉字生成汉语拼音。

ScriptShifter就是一款自动罗马化音译工具。LC使用的罗马化标准是:《ALA-LC罗马化表》(ALA-LC Romanization Tables

ScriptShifter目前支持近百种文字(Supported Scripts/Mappings in ScriptShifter),有罗马字母到文字、文字到罗马字母2种转换,部分文字只有单向转换。比如中文汉字,只支持文字到罗马字母(汉字生成拼音),不支持罗马字母到文字(拼音转成汉字)。

有在线版本可以试用:https://bibframe.org/scriptshifter

  • 试汉字。几个多音字组成的词,转换正确。
  • 试日语,有平假名、片假名2种文字,均支持双向转换。支持日文汉字生成罗马字母,或者罗马字母生成假名(但罗马字母不能转成日文汉字)。另外,对多音汉字如人名无法很好处理,也是意料之中(在BIBFRAME更新论坛上提到希望借助AI)。

ScriptShifter是LC为编目非拉丁文字资源而开发的。目前已嵌入开发中的新版BIBFRAME编辑器Marva Quartz,用于实时生成罗马化内容。

由于其灵活的使用方式(见下),显然在回溯处理批量数据时也会有用武之路。

ScriptShifter可在本地运行、本机运行、通过API集成到其他软件中使用:

LC正鼓励参与开发:试用Scriptshifter;尝试安装Scriptshifter或使用API;通过Github或电子邮件报告问题。

Paul Frank and Matt Miller. ScriptShifter: Enhancing Library Metadata and Discovery. https://www.loc.gov/bibframe/news/bibframe-update-jul2024.html

参见:2024夏BIBFRAME更新论坛(2024-7-12)/posts/2024/0712/6271 

元数据评估工具库

DLF Metadata Assessment Working Group — Tools

元数据评估工具库,收录元数据相关工具的信息,包括工具的使用和功能、支持的元数据标准以及工具本身的文档链接。

本工具库将收录的元数据工具分为7个类别:[1]创建、[2]编辑、[3]验证、[4]转换、[5]抽取/嵌入、[6]检索、[7]分析。类别起到过滤器的作用,方便使用者筛选有助于特定工作类别的工具。具有多种功能的工具入多个类别;同时也支持搜索查找。

从类别可知,并非限于“评估”本身。实际上要评估元数据,必然要对元数据进行各种预处理,因此“通常借助于脚本和其他自动化工具”以“更聪明地工作,而不是更努力地工作”。

本工具库由美国数字图书馆联盟(Digital Library Federation,DLF)之评估兴趣组(Assessment Interest Group,AIG) 之元数据工作组(Metadata Working Group,MWG)之元数据评估工具小组(Metadata Assessment Tools subgroup)制作。

项目始于2016年,当时收录21种工具。“在创建工具库的早期,每个工具都经过了严格的测试,以确定是否将其包含在存储库中。这意味着每个工具都有很多信息,但这对包含的工具数量有很大限制。为了包含更多的工具并使存储库成为更有用的资源,小组不再测试每个工具,现在依赖于每个工具的文档和社区知识”。尽管如此,此次更新,工具总数仍不到30种。页面上有链接供提交新工具、更正错误。“我们积极欢迎社区的意见,帮助我们提供有关所列工具的更准确和完整的信息!”

看工具库,既有专业编目软件如MarcEdit,也有通用数据处理插件如Open Refine,甚至还包括更通用的统计分析软件如R

这些工具支持的标准包括:

  • MARC, MODS, EAD, Dublin Core, BIBFRAME
  • IPTC Photo Metadata
  • PBCore, EBUCore
  • Framework for Interoperable Media Services (FIMS)
  • Exif, IPTC (IIM), GPS, TIFF
  • VRA Core
  • RDF

其中支持MARC的工具有:

  • MarcEdit(编辑/转换/验证/检索/分析;同时支持标准:MODS/EAD/Dublin Core)
  • K-Romanizer(韩语罗马化/转换)
  • LibreCat/Catmandu(创建/编辑/转换;同时支持标准:MODS/Dublin Core/RDF)
  • ruby-marc(创建/编辑/转换)
  • MatchMARC(检索)
  • MetadataMaker(创建;同时支持标准MODS/BIBFRAME)

原博文:

权威工具书《图书馆·情报与文献学名词》

昨日某名词审定委员会委员收到赠送给作者的《图书馆·情报与文献学名词》:

图书馆·情报与文献学名词 2019 / 图书馆·情报与文献学名词审定委员会. 科学出版社, 2019.8

本书大有来头,只看题上项:全国科学技术名词审定委员会公布。其权威性不言而喻。

收录图情名词3436条,含中英文对照及定义,分类编排,附英汉、汉英索引。前言说明了名词选择和撰写原则:重要概念不遗漏,重要解释无失误,外文翻译须确切,体例风格须统一

  • 分类借鉴《中图法》第5版图情一体化模式,分8个一级类目
  • 01 图书馆学情报学基础
  • 02 图书情报工作管理
  • 03 信息资源建设
  • 04 信息组织
  • 05 信息检索
  • 06 情报分析与研究
  • 07 信息服务与用户研究
  • 08 文献学

本书首先是一部可供引用的权威辞书。专业写作常常需要概念的精准翻译、准确定义,而当下专业工具书难觅,新名词似乎只能引用网络百科。本书编制始于2010年,2015年9月讨论通过。虽然内容更新截止2015年,已经相当难能可贵——如果有可与网络百科PK的电子版自然更好!(且听下回分解)

其次本书是一部很好的图情百科学习手册。分类编排,在前述一级类目下,再细分二级类目,可供全面了解图情某一领域的基本概念、基础知识,及时发现知识缺失、弥补短板——强烈推荐初入行者使用

—— 使用初体验 ——

  • 【一】拿到书,首先想到查一下“approval plan”,看推荐的翻译是什么。按“编排说明”,异名中的“简称”“全称”“又称”“俗称”可以继续使用(“曾称”则淘汰不用),文后索引中汉字条目前标星号(*)的就是异名(没有找到*说明、是推测的)。
  • 先查“英汉索引”
  • approval plan 送审订购,* 纲目订购,* 阅选订购 03.364
  • 再根据“03.364”看正文词条
  • 03.364 送审订购 on-approval order,approval plan
  • 又称“纲目订购”“阅选订购”。图书馆的一种文献采购方式。图书馆将其文献收集的计划范围(一般包括学科、文种、类型、地区、专业化程度、价格等)交给书商,书商按要求配送书,再由图书馆审核认可。多适用于规模较大、资金有保证并系统完备地收集某方面文献的机构。
  • 【二】看本体(ontology)相关词条,查索引是不是有倒排关键词,没有:
  • 在“04 信息组织”之“04.01一般概念”下,列有:本体(04.106),知识本体、语义本体、知识表示本体、顶级本体、通用本体、领域本体、任务本体、应用本体、领域-任务本体、方法本体、元本体,以及本体构建、本体学习、本体映射、网络本体语言等16个名词。
  • 在英汉、汉英索引中,“ontology”或“本体”下都只有本身及以其开头共4个。
  • 电子时代,只要有关键词/全文检索,倒排索引并非必须。当然前提是有电子版……(且听下回分解)
  • 【三】一贯手黑,随便浏览就发现了一处错误:
  • 04.648 FRAR 规范记录的功能需求 Functional Requirement for Authority Records
  • 应该是:FRAD 规范数据的功能需求 Functional Requirement for Authority Data
  • 非常理解失误难以避免,尤其对我这种最怕写词条这样严谨活计的人,绝不会以此低看全书的价值。