ScriptShifter是美国国会图书馆(LC)于2024年开发的自动音译工具。开源软件。
所谓“音译”,指文本从一种文字到另一种文字的系统转换。将文本音译为拉丁字母,即所谓“罗马化”。比如,为汉字生成汉语拼音。
ScriptShifter就是一款自动罗马化音译工具。LC使用的罗马化标准是:《ALA-LC罗马化表》(ALA-LC Romanization Tables)
ScriptShifter目前支持近百种文字(Supported Scripts/Mappings in ScriptShifter),有罗马字母到文字、文字到罗马字母2种转换,部分文字只有单向转换。比如中文汉字,只支持文字到罗马字母(汉字生成拼音),不支持罗马字母到文字(拼音转成汉字)。
有在线版本可以试用:https://bibframe.org/scriptshifter
- 试汉字。几个多音字组成的词,转换正确。
- 试日语,有平假名、片假名2种文字,均支持双向转换。支持日文汉字生成罗马字母,或者罗马字母生成假名(但罗马字母不能转成日文汉字)。另外,对多音汉字如人名无法很好处理,也是意料之中(在BIBFRAME更新论坛上提到希望借助AI)。
ScriptShifter是LC为编目非拉丁文字资源而开发的。目前已嵌入开发中的新版BIBFRAME编辑器Marva Quartz,用于实时生成罗马化内容。
由于其灵活的使用方式(见下),显然在回溯处理批量数据时也会有用武之路。
ScriptShifter可在本地运行、本机运行、通过API集成到其他软件中使用:
- [1]在GitHub上运行基于Python的开源工具,源代码:https://github.com/lcnetdev/scriptshifter/
- [2]运行在Docker hub上找到的工具的打包Docker镜像:https://hub.docker.com/r/lcnetdev/scriptshifter/tags
- [3]使用内置web应用程序或查阅API文档:https://github.com/lcnetdev/scriptshifter/blob/main/doc/rest_api.md
LC正鼓励参与开发:试用Scriptshifter;尝试安装Scriptshifter或使用API;通过Github或电子邮件报告问题。
Paul Frank and Matt Miller. ScriptShifter: Enhancing Library Metadata and Discovery. https://www.loc.gov/bibframe/news/bibframe-update-jul2024.html
参见:2024夏BIBFRAME更新论坛(2024-7-12)/posts/2024/0712/6271