~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(序)】
代五笔字型“电网”讲座序
汉字,再度辉煌
刘振武
当计算机这种革命性的信息传递手段,开始在中国出现并逐渐形成规模的时候,世界文
字中唯一的“活化石”——中国方块字,遇到了从未有过的危机:由于无法输入计算机,汉
字不得不在铅与火的时代徘徊。于是,人们哀怨的目光落到了文化概念最基本的范畴——语
言文字的头上。
有人似乎发现了一条“真理”:中国的落后是因为汉字这条落后的根。一时间,东南西
北,用字母文字取代汉字之声不绝于耳。
难道汉字悠悠五千年的辉煌就此结束了吗?
汉文字产生演化的历史,贯穿了汉民族文明史的全过程,在四大文明古国的文字中,只
有汉字保持了这个特征。
从公元前三世纪秦统一文字,到三国时期楷书出现所奠定的汉字基本形体,直至今天,
汉字的演变始终遵循了其形状、笔画的基本规则,而没有向字母文字转变。汉字的笔画和结
构特点,凝聚了汉民族对自然的认识和审美的追求,它直接或间接地影响了汉文化其他内容
的发展。
在中国古代建筑、园林、城市规划、宗教、工艺、绘画之中,无处不镌刻着汉字的印记
。不仅如此,诚如德国哲学家卡西尔所说:“符号化的思维和行为是人类生命活动最富于代
表性的特征,”汉字对于中国人思维方式和行为习惯的影响,具有本质性的意义。
文字本身就是一种经久不衰的艺术,这一点又以汉字表现得最为突出和完美。汉字书写
不仅成为一种独特的艺术,而且,形成了不同的流派和各自完整的理论体系。书法家是汉文
化体系(包括日本文化)所独有的艺术家。
计算机似乎给了汉字当头一棒。
然而历史忽然呈现出峰回路转之势。“五笔字型”以及与之同时或稍后出现的其他汉字
输入技术的革命性突破,在不同的时代之间,为汉字架起了一座跨越的桥梁。
不仅如此,专家在不断深入的探索中,更加欣喜地发现,汉字对于电脑,无论是在输入
速度,还是在编辑功能上,丝毫不逊于字母文字,在许多方面还显示出自己独有的优势。有
人预言:汉字将是21世纪的文字!
“五笔字型”和其他汉字输入技术发明者的历史功绩,不仅在于他们的发明,而且在于
他们对汉字的深刻而准确的理解。孙安国在《尚书序》中说:“古者,伏羲氏之王天下也,
始画八卦,以代结绳之政,由是文籍生焉。”如果我们把汉字的五种笔画进行组合,恰好是
一个“米”形,这和八卦中的八方正好对应,而“乙”笔又正是八卦图形的变体。这种绝非
偶然的巧合,充分体现了汉字的整体性和系统性,同时也反应了古老汉字的博大精深。
汉字的再度辉煌,预示着古老中国的未来。
(原载1993年5月28日《科技日报》)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(一)】
各位网友:
应大家的要求,五笔字型“电网”讲座终于开播了!
英国的伍良盛先生根据王永民先生所著的‘五笔字形培训教材’将其内容简化为学习步
骤与字根表,省略了许多理论,编成《五笔字形教材》。本讲座将以伍先生的教材为基础,
再充实一些有助于初学者学习的内容。在此向伍先生表示衷心的感谢。
就我所知,目前属于 Public Domain 及 Shareware 的中文软件中支持五笔字型输入方
法的仅有 X-Window 的 CXterm 及PC的南极星2.1版,各位可以用无记名文件存取(Anonym
ous FTP)去获得这些软件。(FTP地址:ifcss.org。目录:/software/x-win及/softwa
re/dos/editor。)
伍先生的教材共有以下各文件:
1.引言(本文)XUEDAZI.GB
2.仓颉输入法:要点与范例: CANGJIE.GB
3.仓颉字根表,.PCX格式:CJB.PCX
4.五笔字形学习步骤: WUBI.GB
5.五笔字根表,.PCX格式:WBB.PCX
6.南极星之查字查码功能范例: CAZICAMA.GB
我们需要的是1、4、5、6。
各位请将 WBB.PCX 打印出来,一边看字根表,一边学习。(WINDOWS
PAINTBRUSH 支持 PCX 图象文件。不能看印其中的wbb.pcx图像文件的网
友可FTP去cs.purdue.edu:取回/pub/ygz/cxterm-dictionary/tutorial-CJ-WuBi.tar.Z,
解开它后打印input/wbb.ps文件。)
以上各文件现存于IFCSS.ORG目录/SOFTWARE/DATA/WB-C
J-INPUT.ZIP。
另有一点说明:南极星中的五笔字型输入(文件名:NJINPUTB.DIC)仅限
于单字编码。现在在grumpy.ssc.gov:/incoming目录内有支持词组输入的文件(文件名:tm
pwubi.zip,内含NJINPUTB.DIC及NJCIZUB.DIC)。大家可取来代替
原NJINPUTB.DIC文件。
课下请大家仔细阅读伍先生的教材。熟悉字根所属的键位。
That's all for today. Goodbye comrades.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(二)】
上讲复习:
(1)字根在构成汉字时,有散根结构、连笔结构和交叉结构三种结构形态。
(2)属于“散”的字,才可以分为左右、上下型。
(3)属于“连”与“交”的汉字,一律属于第三型。
(4)不分左右、上下的汉字,一律属于第三型。
汉字图形的末笔字型交叉识别
汉字是一种图形文字,字根是构成汉字图形的基本单位。这些基本单位之间有一定的位
置关系。如同样是“日”与“九”两个字根,位置关系不同,就成为不同的字:
旮:(九在上,日在下);
旯:(日在上,九在下);
旭:(九将日包围)。
再如“口”与“八”两个字根,可以组成“叭”与“只”两个字。口的代码为23(K
),八的代码为34(W),于是这两字的编码即为:
叭:口 八,编码为23 34(KW)
只:口 八,编码为23 34(KW)
两个字的编码完全相同。
可见,我们仅仅将汉字的字根依书写顺序“敲”到机器中,还是不够的。您还必须告诉
机器刚才敲入的那些字根是以什么方式排列的,机器才能认定您要的那个字。为此,我们有
必要在字根敲完之后,再补敲一个字型代号。如果左右型代号为1,上下型代号为2,则“
叭”与“只”的编码就变成:
叭:23 24 1;
只:23 24 2。
于是,这两个字的编码就不会相同了,最后一个数字叫字型识别码。这是补敲字型代号
的必要性。
由于我们使用了很小的键盘,一百三十种字根只用了25个键,则每个键上一般有2~
6个字根,这些字根合并成“一家人”,有时是会“闹意见”的,会互相排斥。比如,在1
4(S)键上有“丁、西、木”三个字根,当它们左边加上三点水(代码43,I)时,便
成为:
汀:氵 丁,编码为43 14 (IS)
洒:氵 西,编码为43 14 (IS)
沐:氵 木,编码为43 14 (IS)
请看,尽管三个字的字根分解式不同,但由于它们的第二部分字根共处一键,就使他们
的编码完全相同了。
可见,我们仅仅将字根依书写顺序“敲”到机器中,也还是不够的,还必须告诉机器刚
才敲进去的那些字根各自有什么特点,使机器能够加以区别。
我们仔细一看就发现,这三个字根的一个容易辨认的特征是它们的最后一个笔划不同。
“丁”的最后一笔是竖(2),“西”是横(1),“木”则是捺(4)。我们不妨在上述
编码的后边加上这些笔划的代号,即:
汀:43 14 2;
洒:43 14 1;
沐:43 14 4。
这样一来,三个字的编码就有明显的区别了。最后一个数字,叫末笔识别码。
以上两种情况分别说明了:在一个字的字根“输入”到机器中之后,既有必要补一个字
型代码,又有必要补一个末笔代码。如果补两次,就显得麻烦。能不能把两次合成为一次?
能!办法是这样的:我们把这两种代号合并成一组二位数,末笔代号当十位,字型代号当个
位,成为一个“末笔字型交叉识别代码”。不管一个字需要的是末笔识别,还是字型识别,
我们都把“末笔字型交叉识别”一起加给它,让这两者各起各的作用,这个作用就是离散重
码的作用。
我们记得在《五笔字型》中,笔划分为五种,字型分为三种,那么,末笔字型配合交叉
的可能性就是5×3=15种。
我们有了这十五种识别码,就可以放心大胆地把多个形态相近,仅仅末笔不同的字根放
到一个键位上。比如,把土、十、寸、都放到12(F)键上,就根本不用担心“什”与“
付”、“杜”与“村”、“钍”与“针”会发生重码!
五笔字型编码方案末笔字型交叉识别码
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
丨 ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨\ 字丨 左右型 丨 上下型 丨 杂合型 丨
丨笔\型丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨形 \丨 1 丨 2 丨 3 丨
丨 ̄丨 ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨横丨1丨11(G)丨12(F)丨13(D)丨
丨 ̄丨 ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨竖丨2丨21(H)丨22(J)丨23(K)丨
丨 ̄丨 ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨撇丨3丨31(T)丨32(R)丨33(E)丨
丨 ̄丨 ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨捺丨4丨41(Y)丨42(U)丨43(I)丨
丨 ̄丨 ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨 ̄ ̄ ̄ ̄ ̄丨
丨折丨5丨51(N)丨52(B)丨53(V)丨
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
最后需要加以说明的是:上述识别码仅在由少数字根组成的字中才能起到明显的作用。
就是说,由少数字根组成的字(注意,其中常用字极多!)按字根编码时,它的信息量往往
是不足的。为了弥补这一点,才有必要加上识别码,以便使其码适当加长:从二码加长到三
码,从三码加长到四码。这相当于把它原码长的编码可能性扩大了25倍,“房间”大了,
当然,冲突(重码)的机会就少了。这正是《五笔字型》方案键位如此之少,有很好的规律
性而重码也很少的根本原因。然而,如果一个字本身已经有或可以拆成四个字根的话,由于
信息已经足够多,码长也已达到极限,就不用再识别了。另外,经验告诉我们,由两三个字
根组成的字,其字型特别容易判别,而四个以上字根组成的字,判断字型就常常不那么容易
了。这就是《五笔字型》中的识别码,只用于由两三个字根组成的字的原因。
练习
1.写出以下汉字的末笔代号和字型代号
政 好 无 明 前 反 合 斗 图 把 加 电 实 家 所
争 法 军 位 床 放 指 质 公 条 件 次 认 头 乖
2.写出以下汉字的“末笔字型识别码”(数字表示),并指出这些识别码对应的键位上的
散笔复合字根(如氵、三)的笔划数与字型代号之间的关系:
是 在 和 主 这 为 地 个 产 以 我 会 作 对 于 级
部 同 农 长 定 好 机 现 表 等 反 图 从 正 里 结
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(三)】
今天这一讲的题目是:
单体结构拆分原则
基本字根通过连或交的关系形成所谓“单体结构”,这是一个正过程。现在我们要讲一
下它的逆过程,即怎样把任意一个单体结构拆分成为几个基本字根。
拆分的原则可以概括成两点:
1.连笔结构:拆成为单笔与基本字根。如“牛”拆成“ ”(丿+二)和“丨”,“生
”拆成“丿、(青字的头)”,“户”拆成“丶”和“尸”,“ ”(敢的左半部)拆成“(
横折)、耳”等。
2.交叉结构或交连混合结构:按书写顺序拆分成为几个已知的最大字根。以增加一笔
不能构成已知字根来决定笔划分组。如:“果”只能拆成“日、木”,而不能拆成“旦、小
”,因为次一笔连到前边后,“旦”不是基本字根,更不能拆成“田、木”,因为这样把笔
划割断了。
以上两项中属于第一项的情况时,就不能再按第二项进行拆分,因为这样常常失去直观
性。例如:“生”,如拆成“(丿+一)、土”或“(丿+二)、丨、一”就极不直观。
上述规则叫做“单体结构拆分原则”。
在具体拆分的过程中需要掌握以下四个要点,这四个要点可以概括为四句口诀:
能散不连,兼顾直观;能连不交,取大优先。
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
前两句的意思是说:如果一个结构可以视为几个基本字根的散的关系,就不要认为是连
的关系。如“关”,应是“ ”(ソ+一)与“大”的上下散的关系。实际上,连只存在于单
笔与基本字根之间,而基本字根相互之间,我们认为一般不存在连的关系,这样常常有较好
的直观性。另外,为了照顾直观性,“羊”拆成“ソ、(丰不出头)”就比拆成“(ソ+一
)、二、丨”直观得多。
能连不交,指的是一个单体结构能按连的关系拆分,就不要按相交的关系拆分。如“于
”,可按连的关系拆成“一、十”,就不要按“二、丨”相交的关系拆分。
取大优先,指的是在各种可能的拆法中,保证按书写顺序每次都拆出尽可能大的字根,
也叫“能大不小”。比如:“尺”拆成“尸、(捺)”而不应拆成“(左框)、人”。从“
取大优先”可以引伸出一层意思,就是:在可能的几种拆分方法中,以拆分出的字根数最少
的那种拆法优先。例如“缶”可以拆成“(丿+一)、十、凵”或“(丿+一)、一、山”
,但这两种拆法都没有拆成“(丿+二)、山”拆出的字根数目少,因此,最后一种拆法是
对的。
总之,拆分应当兼顾几个方面的要求。一般来说,应当保证每次拆出最大的基本字根,
在拆出字根数目相同时,“散”比“连”优先,“连”比“交”优先。
掌握和运用本讲的基本规则,就可以在以後讲的“取码规则”中,有效地处理任何非基
本字根的单体结构了。
That's all for today. Goodbye, comrades.
练习
请应用本讲原则,正确拆分以下低频结构,并指出整个结构属于什么类型,最后标记上
末笔字型识别码:
丹 册 央 夹 世 亚 事 更 东 冉 史 电
申 采 升 卢 占 矢 半 出 办 尹 农 表
上讲练习答案
1.写出以下汉字的末笔代号和字型代号
政 好 无 明 前 反 合 斗 图 把 加 电 实 家 所
41y 11g 53v 11g 22j 43i 12f 23k 43i 51n 11g 53v 42u 42u 21h
争 法 军 位 床 放 指 质 公 条 件 次 认 头 乖
22j 41y 22j 11g 43i 41y 11g 43i 42u 42u 21h 41y 41y 43i 已有四字根
2.写出以下汉字的“末笔字型识别码”(数字表示),并指出这些识别码对应的键位上的
散笔复合字根(如氵、三)的笔划数与字型代号之间的关系:
是 在 和 主 这 为 地 个 产 以 我 会 作 对 于 级
41 13d 11g 13d 51n 22j 33e 42u 12f 41y 23k 41y
部 同 农 长 定 好 机 现 表 等 反 图 从 正 里 结
21h 13d 43i 43i 42u 11g 51n 51n 42u 42u 43i 43i 41y 13d 13d 11g
为啥将“这、为、以、我”四字空着呢?原来它们是一级简码汉字,即最为常用的高频
汉字,这类字只要按键一次再加空格键即可键入。您就不用劳神去拆它们了。
这(P),为(O),以(C),我(Q)。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(四)】
《五笔字型》编码规则(一)
熟悉了字根键盘区位表,好比您手中已经掌握了各种各样的棋子。您只要再熟悉简单的
规则,就可以开始一场动人心弦的棋类比赛了。
我们把《五笔字型》的取码要则编成了一首码歌,歌词是:
五笔字型均直观,依照笔顺把码编;
键名汉字打四下,基本字根请照搬;
一二三末取四码,顺序拆分大优先;
不足四码要注意,交叉识别补后边。
这首取码歌可以概括为《五笔字型》拆分取码的五项要则:
一、按书写顺序,从左到右、从上到下、从外到内取码的原则;
二、以基本字根为单位取码的原则;
三、按一二三末字根,最多只取四码的原则;
四、单体结构拆分取大优先的原则;
五、末笔与字型交叉识别原则。
下面结合实例作具体介绍。今天这讲介绍两个内容:
一. 键名汉字编码
您对由二十五字组成的键名谱已经非常熟悉,它们各占据了标准键盘上的一个键位。或
者说,每一个键位都有一个中文键名。您可以将它标在键面上(【黄鱼注】如果电脑是您自
己的话)。
键名都是一些组字频度较高而形体上又有一定代表性的字根。它们中的绝大多数本身就
是一个汉字。当您需要向计算机输入键名汉字时,只要把它们所在的键连击四次就可以了。
如:王:11 11 11 11 (G G G G)
立:42 42 42 42 (U U U U)
这也可以称之为键名汉字的编码。如果您面对键盘作这样的操作,立刻会感到这是很容
易的。
您也许要问:键名汉字,为什么不是把键名键打一下,再打空格键输入,却要连打四下
呢?原因是这样的:尽管键名汉字的组字频度较高,但一般来说,它们作为汉字的实用频度
并不高。例如:“口”字是组字频度最高的字根,但日常文章中并不经常用到“口”字,如
果把“口”字规定为打一下的话,有点“便宜”它了!倒不如把另外一个实用频度很高,而
且第一字根也为“口”的“中”字设计为打一下输入。这样,“中”就成了“口”键上的高
频字了。这就是“口”打四下,“中”打一下的原因。(【黄鱼注】第一讲提到带词组输入
的南极星输入文件只有“Q(我)”、“O(为)”、“P(这)”、“C(以)”四键能
打一下键名键,再打空格键输入。原NJINPUTB.DIC则25键均可。)
练习
1.把每个字根键连打四下,核对键名汉字输入。
2.把各字根键打一下再打空格键,记录各键打出了什么字,并与键名作一比较。
3.将下文编码并输入:
书之论事,昭如日月。(书:横折、横折、丨、丶,事:一口彐丨)
二.成字字根汉字编码
在《五笔字型》字根键盘的每个键位上,除了一个键名字根外,还有数量不等的几种其
它字根。它们中间的一部分其本身也是一个汉字,我们称之为成字字根。一切成字字根的输
入,都采取统一的规定,可用一个公式表示为:
键名代码+首笔代码+次笔代码+末笔代码。
这就是说,当您要键入一个成字字根时,可以首先把它所在的那个键打一下(俗称“报
户口”),然后再依次打它的第一个笔划、第二个笔划及最末一个笔划。即打键名后,再打
三个单笔划。如果该字根只有两个笔划,则以空格键结束。
例如:文,依次按(1)键名41(Y),(2)首笔41(Y),(3)次笔11(
G),(4)末笔41(Y),荧光屏上立即会出现“文”字。
再如:由:25 21 51 11 (MHNG)
十:12 11 21 (FGH)
由于成字字根都清楚地刻印在每个键名的周围(【黄鱼注】如果可能的话),您会感到
,这样来输入成字字根汉字是非常直观而方便的。
按照以上这种给成字字根编码输入的规定,五种笔划的编码,则是打入键名后,再打一
下此笔所在的键(仍是键名)。结果造成了单笔划只有两个码。如同设计高频字码一样,让
这些单笔划“享受”两码,是“便宜”它们了,应当让位于较常用的汉字。因此有必要作为
成字字根编码的一个特例,把单笔划编码设计为:打原码之后再打两个24(L)。这里其
所以要加L而不加别的,是因为L键除便于操作外,作为竖结尾的单体型字的识别键码,是
极不常用的,足以保证这种定义外码的唯一性。以後我们会看到,24(L)键还可以定义
重码字的备用外码。因此,24(L)键可以叫做“定义后缀”。五种单笔划的编码为:
一:11 11 24 24 (G G L L)
丨:21 21 24 24 (H H L L)
丿:31 31 24 24 (T T L L)
丶:41 41 24 24 (Y Y L L)
乙:51 51 24 24 (N N L L)
练习
1.按照本节规定,把全部成字字根的编码写在纸上,然后,做照打练习(即看着码打键)
。
2.练习输入以下文句:
A.知识不存在的地方,愚昧就自命为科学(愚:日、下框、丨、心,未:二、小)。
B.冰炭不言,冷热自明;会当凌绝顶,一览众山小。
C.一二三四五六七八九十。
That's all for today. Goodbye, comrades.
上讲练习答案
请应用本讲原则,正确拆分以下低频结构,并指出整个结构属于什么类型,最后标记上
末笔字型识别码:
丹13d 册13d 央43i 夹43i 世53v 亚13d 事21h 更43i 东43i 冉13d 史43i
电53v 申23k 采42u 升23k 卢33e 占12f 矢42u 半23k 出23k 办43i 尹33e
农43i 表42u
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(五)】
《五笔字型》编码规则(二)
三.单字编码
以上两节介绍的键名汉字和成字字根汉字,只是国标基本集6763个汉字的很少一部
分。本方案中已对它们作了十分简便的特殊处理。您今后要经常用到的还是按一般规则处理
的绝大多数汉字。《五笔字型》方案中单字编码规则的基本精神都写在键名谱和编码歌中。
这一节我们将分别不同的具体情况给您边讲解边示范,相信您会很快理解掌握和运用这些简
单的规则的。
1.字根码与识别码
在《五笔字型》编码方案中,所有的代码可以分两类:字根码与识别码。关于识别码,已有
详细的介绍(【黄鱼注】参阅第二讲的内容),这里只介绍怎么使用。如果一个字可以取够
四个字根,就全部用字根键入或编码,只有在不足四个字根的情况下,才有必要追加识别码
。
(1)字根码:任何字根,只要属于同一个键位,则它们在任何字的任何部位都享用同一代
码——字根码,即它所在键位的键位代码。
如:在“汪、青、语、浅、钱”等字中,王、五、戋等字根,都处在同一个键位上11
(G)上,那么,它们在这些字的字根编码都是完全相同的。再如“吕、客、哟、呵”等字
中的“口”,它们都使用同一编码23(K)。这就是“基本字根请照搬”的意思。
(2)识别码:凡取不够四个字根的汉字需追加一个识别码。识别码一般由这个字的末笔笔
划与该汉字的字型代号结合而成。用编码歌中的话来说就是:不足四码要注意,交叉识别补
后边。这里您一定要注意,代号是对笔划和字型的分类而言的,实际上是分类号,它们是一
位数字;而方案中包括识别码在内的一切代码,则是两位数字,每一组对应一个键位。交叉
识别是本方案的一条重要原则,它起到了离散由于字根归并造成的大量重码,从而使键位压
缩得以实现的极为重要的作用。一个汉字的识别码,一律由两位数字组成。
如:江:末笔代号1,字型代号1,识别码为11(G)
笔:末笔代号5,字型代号2,识别码为52(B)
冈:末笔代号4,字型代号3,识别码为43(I)
必:末笔代号3,字型代号3,识别码为33(E)
用于识别的末笔,这里有两点规定,您在使用中要特别注意。
A.所有包围型汉字中的末笔,规定取被包围的那一部分笔划结构的末笔。
如:“国”,其末笔应取“丶”,识别码为43(I)
“远”,其末笔应取“乙”,识别码为53(V)
B.对于字根“刀、九、力、匕”,虽然只有两笔,但一般人的笔顺却常有不同。为了
保持一致和照顾直观,这里规定,凡是这四种字根当作“末”而又需要识别时,一律用它们
向右下角伸得最长最远的笔划“折”来识别。例如:
仇:34 53 51 (wvn);
化:34 55 51 (wxn)等等。
That's all for today. Goodbye, comrades.
上讲部分练习答案
练习一
3.将下文编码并输入:
全码:书nnhy之pppp论ywxn事gkvh,昭jvkg如vkg 日jjjj月eeee。(书:横折、横折、丨、
丶,事:一口彐丨)
简码:书nnh 之pp 论ywx 事gk ,昭jvk 如vk 日jjjj月eee 。
练习二
2.练习输入以下文句:
A.
全码:知tdkg识ykwy不gii 存dhbd在dhfd的rqyy地fbn 方yygn,愚jmhn昧jfiy就yidn自thd
命wgkb为o 科tufh学ipbf(愚:日、下框、丨、心,未:二、小)。
简码:知td 识ykw 不i 存dhb 在d 的r 地f 方yy ,愚jmhn昧jfi 就yi 自thd 命wgkb为o 科
tu 学ip 。
B.
全码:冰uiy 炭mdou不gii 言yyyy,冷uwyc热rvyo自thd 明jeg ;会wfcu当ivf 凌ufwt绝xq
cn顶sdmy,一ggll览jtyq众wwwu山mmmm小ihty。
简码:冰ui 炭mdo 不i 言yyy ,冷uwyc热rvyo自thd 明je ;会wf 当iv 凌ufw 绝xqc 顶sd
my,一g 览jtyq众www 山mmm 小ih 。
C.
简码:一ggll二fgg 三dggg四lhng五gghg六uygy七agn 八wty 九vtn 十fgh 。
简码:一g 二fg 三dg 四lh 五gg 六uy 七ag 八wty 九vt 十fgh 。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(六)】
《五笔字型》编码规则(三)
四.简码
为了提高输入速度,我们将常用汉字只取其前边一个、两个、或三个字根构成简码。因
为识别码总是在全码的最后位置,所以简码的设计会给您的编码和击键带来很大方便。
简码汉字共分三级。
1.一级简码
从11(G)到55(X)共25个键位代码,根据每一键位上的字根形态特征,每键
安排一个最为常用的高频汉字,这类字只要按键一次再加空格键即可输入。共计25个:
一11(G)地12(F)在13(D)要14(s)工15(A)
上21(H)是22(J)中23(K)国24(L)同25(M)
和31(T)的32(R)有33(E)人34(W)我35(Q)
主41(Y)产42(U)不43(I)为44(O)这45(P)
民51(N)了52(B)发53(v)以54(C)经55(X)
2.二级简码
二级简码由单字全码的前两个字根代码组成。25个键位代码,计其两码组合共25×
25=625个。我们将全部单字代码系列分作625个小区,共625组区位码,从每一
小区中选出使用频度较高地一个汉字赋予它该一区位码,作为该一汉字的简码。具有二级简
码的汉字,只要打其前两个字根码再加空格键即可输入:
吧:口 巴 (23 54, KC);
让:讠 上 (41 21, YH);
给:纟 人 (55 34, XW);
然:夕 犬 (35 13, QD)。
二级简码表
11------1521------2531------3541------4551------55
11G五于天末开下理事画现玫珠表珍列玉平不来 与屯妻到互
12F二寺城霜载直进吉协南才垢圾夫无坟增示赤过志地雪支
13D三夺大厅左丰百右历面帮原胡春克太磁砂灰达成顾肆友龙
14S本村枯林械相查可 机格析极检构术样档杰棕杨李要权楷
15A七革基苛式牙划或功贡攻匠菜共区芳燕东 芝世节切芭药
21H睛睦 盯虎止旧占卤贞睡 肯具餐眩瞳步眯瞎卢 眼皮此
22J量时晨果虹早昌蝇曙遇昨蝗明蛤晚景暗晃显晕电最归紧昆
23K呈叶顺呆呀中虽吕另员呼听吸只史嘛啼吵 喧叫啊哪吧哟
24L车轩因困 四辊加男轴力斩胃办罗罚较 边思 轨轻累
25M同财央朵曲由则 崭册几贩骨内风凡赠峭 迪岂邮 凤
31T生行知条长处得各务向笔物秀答称入科秒秋管秘季委么第
32R后持拓打找年提扣押抽手折扔失换扩拉朱搂近所报扫反批
33E且肝 采肛 胆肿肋肌用遥朋脸胸及胶膛 爱甩服妥肥脂
34W全会估休代个介保佃仙作伯仍从你信们偿伙 亿他分公化
35Q钱针然钉氏外旬名甸负儿铁角欠多久匀乐炙锭包凶争色
41Y主计庆订度让刘训为高放诉衣认义方说就变这记离良充率
42U闰半关亲并站间部曾商产瓣前闪交六立冰普帝决闻妆冯北
43I汪法尖洒江小浊澡渐没少泊肖兴光注洋水淡学沁池当汉涨
44O业灶类灯煤粘烛炽烟灿烽煌粗粉炮米料炒炎迷断籽娄烃
45P定守害宁宽寂审宫军宙客宾家空宛社实宵灾之官字安 它
51N怀导居 民收慢避惭届必怕 愉懈心习悄屡忱忆敢恨怪尼
52B卫际承阿陈耻阳职阵出降孤阴队隐防联孙耿辽也子限取陛
53V姨寻姑杂毁 旭如舅 九 奶 婚妨嫌录灵巡刀好妇妈姆
54C 对参 戏 台劝观矣牟能难允驻 驼马邓艰双
55X线结顷 红引旨强细纲张绵级给约纺弱纱继综纪弛绿经比
(【黄鱼注】各中文软件五笔输入法字典的某些简码可能与上表有些出入。)
3.三极简码
三极简码由单字的前三个字根码组成,只要一个字的前三个字根码在整个编码体系中是
唯一的,一般选作三极简码,计有4400个之多。此类汉字,只要打其前三个字根代码再
加空格键即可键入。虽然因为需要打空格键,从而没有减少总的击键次数,但由于省略了最
末一个字根或者“交叉识别代码”的判定,故可达到易学易用和提高编码输入速度之目的。
如:
华:全码:人匕十(丨丨)(34 55 12 22, WXFJ)
简码:人匕十 (34 55 12 , WXF )
情:全码:忄(青头)月一(51 11 33 11, NGEG)
简码:忄(青头)月 (51 11 33 , NGE )
您完全可以想到,在《五笔字型》方案中,由于具有各级简码的汉字总数已有5000
多个,它们已占了常用汉字中的绝大多数,因此,使得编码输入变得非常简明直观,如能熟
练运用,可以大大地提高输入效率。
有的字,同时有几种简码。例如“经”字,就有高频字码、二级简码、三极简码及全码
四种输入编码。
您可能要问:既然这么多汉字都可以打三下加空格输入,全部取消第四个编码该多好!
回答是不行的!如果全部取消第四码,编码容量将从39万下降到1.5万,其中实际要用
到1万个,那时,重码便会多得使您无法快速输入了。
Taht's all for today. Goodbye, comrades.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(七)】
《五笔字型》编码规则(四)
五.词汇编码
大家知道,西文是以单词为基本单位的。而中文,则以单字为基本单位,由单字可以灵
活地组成成千上万的词汇。《五笔字型》方案完全体现了中文汉字的这一特点,以单字代码
为基础,完全依据字形组成了与单字代码码型一致相容的大量词汇代码。好像用“中共中央
”代表“中国共产党中央委员会”,或者英文中用DOS代表Disk Operatio
n System一样,我们用每一词条汉字的前一两个字根组成一个新的代码,来代表整
个词汇。这些词汇码全部来自汉字的字形,一般用不着任何死记硬背便可“见词知码”。本
方案暂选2300条常用汉语词汇,只要机器内存容量充裕还可以进一步扩充,也可以根据
用户的需要灵活地增删或更换,为某一专业用户设计其专用术语及词汇。
(【黄鱼注】目前的Public Domain及Shareware中文软件支持五笔字型输入法的CXterm和南
极星NJStar所提供的五笔字型字典WuBi.tit(须转成WuBi.cit)和njinputb.dic均只有单字
代码。使用南极星的网友可FTP去grumpy.ssc.gov:/incoming取回tmpwubi.zip, 这是一
个压缩文件,内有njinputb.dic和njcizub.dic两个文件, 它们是带词汇码的五笔输入法字
典,请将原njinputb.dic改名,如改为njinputm.dic。希望能有哪位英雄为CXterm的
用户编一个带词汇码的WuBi.tit。同时更希望今后问世的中文软件新版本允许用户更改五笔
字型字型输入法词典,如同现在的南极星2.1版允许用户增删或更换拼音联想词典一样。
)
所有词汇编码一律为等长四码。其码型与单字码完全相同,词汇代码的取码规则分为以
下四种情况:
1.双字词
双字词在汉语词汇中占有相当大的比重。双字词的编码为:分别取两个字的单字全码中
的前两个字根代码,共四码组成。
如:
机器:木 几 口 口 (SMKK);
经济:纟 ス 氵 文 (XCIY);
汉字:氵 又 宀 子 (ICPB);
实践:宀 冫 口 止 (PUKH)。(【黄鱼注】“初中”的词汇码也是PUKH)
2.三字词
前两个字各取其第一码,最后一个字取其前二码,共为四码。
如:
计算机:讠 竹 木 几 (YTSM);
解放军:ク 方 冖 车 (QYPL);
生产率:丿 立 亠 幺 (TUYX);
共产党:(上艹下一) 立 小 冖 (AUIP)。
3.四字词
每字各取其第一码,共为四码。
如:
汉字编码:氵 宀 纟 石 (IPXD)(【黄鱼注】此词汇码南极星中没有)
艰苦奋斗:又 艹 大 冫 (CADU)
科学技术:禾 小 扌 木 (TIRS)
光明日报:小 日 日 扌 (IJJR)
4.多字词
按“一二三末”的规则,取第一、第二、第三及最末一个字的第一码,共为四码,即可
构成多字词的词汇码。
如:
电子计算机: 日 子 讠 木 (JBYS)(【黄鱼注】此词汇码南极星中没有)
中华人民共和国:口 亻 人 囗 (KWWL)
中国人民解放军:口 囗 人 冖 (KLWP)
由以上例子可以看出,词汇码与单字码相比,不用任何特殊标记。那么《五笔字型》何
以能够使那么多的字和词的编码共容共存呢?
原来,在《五笔字型》的键数及码长条件下,共有25的4次幂≈39万个可能的编码
。其中汉字单字码及其简码占用12000余个,还有着大量的空闲码位。“经济”一词的
外码XCIY相当于一个由“纟 ス 氵 文”这样四个字根组成的“字”。然而我们知道,第
三位上有“氵”的字是极为罕见的。由此可见,按照《五笔字型》的词汇组码规则,这些词
汇码经常会“跳”到整个单字编码的空档里。也就是说:单字码与词汇码有着很不相同的分
布规律,二者混在一起不用换档,绝大多数情况下是不会发生冲突的。这就好象在一块田里
,小麦和棉花、玉米和豆类的套种间作一样,单字与词汇编码可以共存共容,互不影响。词
汇码的输入和单字码的输入可混合进行。记得清的就打词汇以求其快,记不清的仍打单字以
求其准。二者之间不需要任何的换档操作。这种设计在实际使用中,给操作人员带来了极大
的方便,会使您感到用《五笔字型》的词汇方式输入汉字,可说是一种享受。(【黄鱼注】
不知在仓颉输入法中有无此种享受?)
您也许会问:新建词汇与已有编码发生冲突时怎么办?告诉您,发生冲突的可能性只有
百分之二,而且允许词汇重码。
That's all for today. Goodbye, Comrades.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【黄宇《五笔字型输入法a·c·t“电网”讲座》(八)】
前几讲已将五笔字型的编码原理与编码规则介绍完了。今天这讲的内容可能只有部分适
用于CXTERM或南极星。仅供大家参考。更希望中文软件的作者们和其他专家能考虑将
介绍的这些方法应用到软件中去,造福于全体中文电脑爱好者。
一.重码与容错码
1.重码的处理
一个好的编码方案,既要求键位较少,字根的归并组合规律性强,又要求出现的重码字
要少。这二者之间是相互矛盾的,编码方案设计中的困难往往就在于此。
《五笔字型》方案中,对重码字按其实用频度作了分级处理。输入重码的外码时,重码
字同时显示在提示行,而较常用的那个字排在第一个位置上。这时,机器报警。如果您需要
的就是那个比较常用的字,那么您只管继续输入下文,这个字会自动跳到正常编辑位置上去
;如果您需要的刚好是其中频度较低的,则可根据它的位置号按数字键,即可使它显示在编
辑位置上去。这样处理后,重码字只要级别不同(尤其是一级字与二级字重码时),就象没
有重码一样,基本上不影响键入速度。
为了进一步离散重码,在一级字中所出现的重码字中,其中相对不太常用的那个重码字
,我们将其最末一码改用L(24)代之,作为它的容错码。这样,当您再遇到重码时,比
较常用的字用原码输入,不太常用的字也可用容错码输入,两者都不必作任何特殊处理或增
加按键,从而,在一级字的范围内,您就可以再也不用担心遇到重码了。
2.容错码
上节中,我们用到了容错码这个名词,您一定会问:什么叫容错码?我们说,容错码有
两个涵义:其一是您容易搞错的码,其二是容许您搞错的码。
《五笔字型》输入技术的容错码目前将近有500个,其中包含以下四种类型:
(1)拆分容错:个别汉字的书写顺序因人而异,因而拆分的顺序容易弄错者,如:
长:丿 七 丶 43(正确码);
长:七 丿 丶 43(容错码);
长:丿 一 51 丶(容错码);
长:一 51 丿 丶(容错码)。
秉:丿 一 彐 小 (正确码);
秉:禾 彐 43 (容错码)。
(2)字型容错:个别汉字的字型分类不易确定者,如:
占:卜 口 12 (正确码);
占:卜 口 14 (容错码)。
右:(丿+一) 口 12 (正确码);
右:(丿+一) 口 13 (容错码)。
(3)方案版本容错:《五笔字型》的优化版本与原版本的字根设计有些不同。例如,
优化版本中就取消了“今字头(人内一点)”、“人内一横”这两个字根,为了照顾已学过
原版方案的同志使用优化方案,与这些字根有关的字都以容错码的形式保存了原方案。例如
:
拾:扌 人 一 口 (新方案);
拾:扌 (人内一横) 口 (原方案)。
(4)定义后缀:即把最后一码修改为24(L)的字。主要用于定义一级字重码中频
度较低的那个字,使之成为唯一性外码(原码仍保留)。如:“喜”和“嘉”的外码都是F
KUK,是一对一级字重码。“喜”在提示行的第一位置,不作处理即可调到正常编辑位置
上去。但“嘉”则必须打数字键“2”才可到编辑位置上去。现将“嘉”的原码修改成FK
UL则与“喜”就不重了。因此,在专职操作追求速度及通讯中,FKUL就成了“嘉”的
唯一代码,而FKUK则作为“喜”的唯一外码了。
(【黄鱼注】使用CXTERM的读者可以打开WuBi.tit文件,找到有重码的代码
,将其中您较不常用的字为它增加一个最后一码修改成L的代码。使用南极星的读者目前还
无可能修改五笔输入字典,我准备编一个类似WuBi.tit的GB文件,以供南极星用
户经自己的增删后转换为五笔输入法文件)。
二.选择式易学输入法
您在学习了键盘区位表之后,可能会问:26个英文字母键只用了25个,还有一个“
Z”键为什么闲置不用呢?
原来,我们给“Z”键派了一个很重要的用场。这就是用它来进行“选择式易学输入”
。因为是用“Z”键实现的,有时也叫“Z”功能或“Z”处理。
当您由于对键盘字根不太熟悉或者对某一汉字的拆分一时难以确定时,您的一切“未知
数”字根都可以用“Z”来代表。在一个汉字的字根输入中,不管您不知道的是第几个字根
,都可以打“Z”键代替。计算机的软件设计可以帮您检索出那些符合已知字根代码的字,
将汉字及其正确代码按五个一组显示在提示行里。根据这些字在提示行中从左到右的位置号
,打键盘上的数字1~5,即可将您所需要的字从提示行中“调”到您现在的光标位置上来
。同时,由于提示行中的每个字后边都显示有它的正确外码,您还可以从这里学习有关汉字
的正确输入码。
例如:您要打入一个“敬”字,而又记不清第二个字根怎么打,这时您可以打“艹Z口
攵”这样四个键,结果提示行中显示出“敬AQKT”,这表示符合您刚打入字根组合的字
只有一个“敬”字。您只用再按一下数字键“1”,“敬”字就自动显示在正常编辑位置上
了。同时您可以从提示行中知道,您刚才那个未知的字根“勹”在“Q”(即35)键上。
再如,您在打入“学”字时,如果打了“(三点)冖子”之后对于识别码含糊不清,这
时,您也可以用“Z”来代替之。结果,提示行中也只有一个“学”字,而且,提示告诉您
,最后的识别码为F(12)。这个例子,也许给了您一个重要的提示:如果您对于本方案
的“识别码”觉得使用不方便的话,就不妨把全部的“识别码”都打成Z,照样可立即在提
示行中找到您要的字。您这时也许会兴奋地说:这就方便多了!方便之余,您便会反问道:
早知如此,何必学习什么识别码呢?且慢!区别在于:取消识别码的话,每个字您至少要多
打一次键才能选择出来,而每字多打一键,是要影响速度的。
当然,您未知的字根越多,选择的范围也就越广。提示行里每一批显示五个,如没有您
要的字,可按空格键再显示出下五个来。如果您对某一汉字的四个字根竟然一无所知,将四
个代码都打成“Z”,那么机器就会将6763个汉字从头到尾,顺序分组显示出来。但是
,一个人对一个汉字连一、两个字根都拆分不出的时候是非常罕见的。
选择式输入还有一个特色是这样的:如果在四个码中您未知的码只有一个的话,允许您
把这一个未知码键随便打在第几个位置上,都可以很快找到您要的字。举例来说,对于“照
”字,假如您现在的未知字根是“刀”,那么,您可以有以下四种打法:
(1)日Z口灬;
(2)日口灬Z;
(3)日口Z灬;
(4)Z日口灬。
然而,以上每一种打法,都只显示出“照”和“煦”两个字,您当然极易选择。这样的
好处是:您只管按顺序打入有把握的字根,而把未知的放到最后打也可以。
选择式输入的另一个特点是:所有符合已键入字根的字,基本是按字的使用频度顺序显
示出来的。比如,先是高频字,后是二级简码再是全码字。这样,您一般情况下选择不了几
下,就可以如愿以偿了!
最后,应当提醒的是:当使用本方案的数字输入方式时,“Z”键的功能将改用数字键
6连打2次来代替。其效果完全一样。例如,上例中的“照”未知字根“刀”,也用66代
替,即打成22662344(JZKO)。
“Z”键功能的设计,使每个稍懂汉字分解的人,一坐到机器旁,就可以学会打入任何
汉字,只不过开始时稍慢一些。通过人机互学,熟练程度自会迅速提高。因此,我们把它称
作:选择式易学输入法。它给一切非专职输入人员,大开了方便之门,使《五笔字型》输入
技术的近期和远期学习效果都达到满意的程度。
【后记】五笔字型“电网”讲座到此全部播送完毕。感谢众多网友对俺的热情支持和鼓励。
由于俺的水平不高,错谬之处(特别是有些【黄鱼注】的内容)在所难免,恳请网上各位高
手指正。俺已将全部讲座内容压成一名为learning_wubi.zip的文件送往grumpy.ssc.gov及i
ffcss.org存档。希望鲤鱼兄及小肥兄能将确切目录在网上公布。大家可取回伍良盛先生的w
b-cj-input.zip (ifcss.org:/software/data)一块学习。不能看印其中的wbb.pcx图像文件
的网友可FTP去cs.purdue.edu:取回/pub/ygz/cxterm-dictionary/tutorial-CJ-WuBi.ta
r.Z,解开它后打印input/wbb.ps文件。再次感谢伍先生为推广中文电脑打字所做的卓越贡献
!
黄宇 Yu_Huang@engr.usask.ca
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~