如何快速录入古籍繁体汉字(附:推荐“汉典”)

这里所称的录入“古籍繁体汉字”,是指按古籍上的繁体汉字录入。Word有简繁转换功能,可以录入简体字后整体转换,不过不适合录入古籍汉字。因为古籍汉字异体字多,批量转换后需逐字检查对照,完全没有效率。

【输入法】目前大多数汉字输入法都带繁体字功能,录入基本繁体字不是问题(但不能录入所有):
– 拼音输入:只要在同音字中选择繁体字即可。
– 五笔输入:选择“繁体”+“大字符集”,可以输简出繁,按原来熟悉的键码录入。当然也可以按繁体拆字录入。

【异体字】录入古籍繁体汉字,最大的问题是异体字多。简体字偶然也有异体字,但大多数情况下差一笔就是不同的字,而繁体字中异体字则非常普遍。常见的异体字形式有:
字形相同或相似,笔画数不同,可能多一个构件。如:“寛”和“寬”(后者多一点),“為”和“爲”。更多可见“榨”的异体字。http://www.zdic.net/z/1c/js/69A8.htm
构件相同、字型不同。最常见的是左右型变为上下型(或反之)。比如草字头、火字底的字,如:“勳(勋)”现为左右型,古籍中更常见的是火在下面形成上下型“勲”;同样如“樵”,偶见火在下面形成上下型(U+236D1);“启”则二种字型都很常见:“啟”和“啓”。
原来是异体字,现在是不同字:“间(間)”和“闲(閒)”。
避讳字。比如清朝皇帝名,产生了一系列少笔画、少部件的避讳字,比如康熙“玄烨”,不但导致“玄”少了最后一点(U+248E5),连带着含“玄”部件的字如“弦”、“铉”、“炫”等一起少一点;嘉庆“顒琰”导致“琰”空出“炎”下面的“火”或者用“又”代替(U+2494E),因为“火(上)又(下)”(U+2418C)是“炎”的异体字;等等。

【相同字判断】古籍中还有些汉字在目前的字库中根本没有,相比空着不录入(或用拆分部件表示),以字形相近的异体字代替或许是更好的方式——好的检索系统应该能够同时检出各种异体字。只是古籍中异体字多,兼之笔画常很随意,还因为避讳刻意减少、增加笔画。如此种种,要判断到底是不同字、还是异体字,对于没有很深古文根底的人,实在是件相当困难的事。

【组合输入】如何在不认字的情况下录入繁体字?以下方法组合,可以快速达成:
1、常用输入法
1-1、五笔输入:对录入繁体字而言,五笔最大的优势除了重码少,还有可以不认字,只要照样拆字即可录入,速度有相当的保证。只是目前收录的字不够多,很多字打不出来。
1-2、部首录入(搜狗拼音):不会五笔时,用拆字法,即“u”+部件拼音。只是当拆分部件不知如何读音,就无法录入了。同时此法击键数较多,影响速度。
2、手写输入
搜狗拼音有此扩展功能,识别能力很强,可用于录入绝大多数繁体字,当然速度与键盘录入无法相提并论。当常用输入法打不出字时,可用此法作为补充。
3、汉典(详见以下“附”)
最近发现的强大网站,可以大大提高录入质量。每个字都会显示异体字等。通过“汉字拆分”及其中的部首、构件查询等,与前述手写输入结合,可以快速准确录入绝大部分汉字。
– 当笔画多或录入不易时,在此查字比手写输入速度快。
– 凡在此查不到的,可认为不存在(Unicode未收录),只能用拆分部件表示。
– 更重要的是:通过此网站,可以查到目前尚不可录入的汉字(就用不着在手写输入中反复尝试了)。如“(上)閒(下)”(U+7C21),查出有此字,但不可录入。其为“簡”的异体字,可以考虑代替录入。
– 用此网站,才知道有些看上去很相似的字,其实是不同的字。比如:“各(左)+隹(右)”=“雒”,“名(左)+隹(右)”=(U+28FC5)。后者无法录入,且没有异体字,只能用拆分部件表示(或者用Unicode码)。

【认字】关于录入,最后但其实是最重要的:认识繁体汉字,无疑可以大大加快录入速度。比如“蠶繭”,笔画多、手写输入有点慢,构件查找数笔画也难。但如果你知道就是“蚕茧”,瞬间录入有没有?至少五笔如此。

———-附:汉典———-
汉典 http://www.zdic.net:协作编写的在线汉语辞典,有汉语字典、词典等。目的:推广汉语学习,规范汉字使用。
【字典】有传统的部首索引、笔画索引等。不过最快速的查字方式则是“汉字拆分”:由部首、构件查询汉字。
汉字拆分有12种字形,如上下、左右、包围等;部首、构件查询不限所在位置,按笔画列出,相当灵活。
网站做得相当好,可以由查询结果链接到该字。每个汉字列有拼音、异体字、统一码(unicode)等,以及基本解释(含字义、广韵、方言等)、详细解释、康熙字典、说文解字、字源字形、网友讨论(论坛)。
基本用法:
1、通过查询快速找到复杂繁体字
– 选择“汉字拆分”,按字形,通过汉字构件拼合查询(如:各+隹)。
– 在“汉字拆分”中,选择(或输入)部首(或构件)查询后,会按笔画数显示所有含该部首(或构件)的字,尤其适用于字形复杂、某些构件无法录入、因而不能通过“汉字拆分”查找的情况。
2、验证是否可以录入该字。有些字可以查到,但只有图形,无法录入,或可用标示的“统一码”代替。
3、无法录入时,或可以根据找到的汉字,在列出的异体字中,用构造相近的字代替。
4、查不到的汉字,只能通过拆分部件表示。