自动音译工具ScriptShifter

ScriptShifter是美国国会图书馆(LC)于2024年开发的自动音译工具。开源软件。

所谓“音译”,指文本从一种文字到另一种文字的系统转换。将文本音译为拉丁字母,即所谓“罗马化”。比如,为汉字生成汉语拼音。

ScriptShifter就是一款自动罗马化音译工具。LC使用的罗马化标准是:《ALA-LC罗马化表》(ALA-LC Romanization Tables

ScriptShifter目前支持近百种文字(Supported Scripts/Mappings in ScriptShifter),有罗马字母到文字、文字到罗马字母2种转换,部分文字只有单向转换。比如中文汉字,只支持文字到罗马字母(汉字生成拼音),不支持罗马字母到文字(拼音转成汉字)。

有在线版本可以试用:https://bibframe.org/scriptshifter

  • 试汉字。几个多音字组成的词,转换正确。
  • 试日语,有平假名、片假名2种文字,均支持双向转换。支持日文汉字生成罗马字母,或者罗马字母生成假名(但罗马字母不能转成日文汉字)。另外,对多音汉字如人名无法很好处理,也是意料之中(在BIBFRAME更新论坛上提到希望借助AI)。

ScriptShifter是LC为编目非拉丁文字资源而开发的。目前已嵌入开发中的新版BIBFRAME编辑器Marva Quartz,用于实时生成罗马化内容。

由于其灵活的使用方式(见下),显然在回溯处理批量数据时也会有用武之路。

ScriptShifter可在本地运行、本机运行、通过API集成到其他软件中使用:

LC正鼓励参与开发:试用Scriptshifter;尝试安装Scriptshifter或使用API;通过Github或电子邮件报告问题。

Paul Frank and Matt Miller. ScriptShifter: Enhancing Library Metadata and Discovery. https://www.loc.gov/bibframe/news/bibframe-update-jul2024.html

参见:2024夏BIBFRAME更新论坛(2024-7-12)/posts/2024/0712/6271