郑码简介
郑码新闻
郑码荣誉
下载教学
交流与学习
产品注册
联系我们
首  页
 

挑战“汉字落后论”,探索汉字简易快速检索

  汉字,是世界上人口最多的中华民族的伟大创造。从山东大汶口发现做在陶器上的汉字雏形来看,已有5000多年了。几千年的演变成为今天的楷书汉字,已是世界上流传到今的最古老的文字了,它承载着中华民族灿烂的文化,经历了五千年历史的沧桑。
  1931年9月,当时600多位著名专家学者,曾在海参崴集会,集中批判了汉字,“汉字不能实现机械化,不适合现在的时代”的淘汰汉字论;“最糟的便是它和现代世界文化格格不入,汉字应当西化”。通过了《中国汉字拉丁化的原则和规则》的声明。汉字从来未有受过这么大的威胁,似乎就要灭亡,唯一出路只有西化了。这时对汉字已有一些研究的郑易里认为不能全面否定汉字,要想办法也能将汉字书写像西文一样能机械化。他当时并没有意识到,这个想法竟成了他一生为之奋斗的宿愿了。要用机器书写文字,首先要解决的就是汉字快速检索。西文只是用20—30个字母拼写,检索很容易。而我们的老祖宗,几千年来陆陆续续发明了光辉灿烂的汉字,但却是几千、几万个形状各异,千差万别的汉字。这些汉字也给他的子子孙孙留下了一个比“哥德巴赫猜想”还难解的难题。这就是实现对所有汉字的有序快速检索。
  公元前后,距今2000年,汉字已有上万个,其时后汉的许慎撰30卷“说文解字”(公元100年),将当时的汉字进行了系统的整理,为了检索的需要,创立了部首检索法。这种检索方法延续改进了一千多年,到清康熙年间(公元1721年)编篡《康熙字典》时汉字已增加到了47000多个,为了检索方便,规范出了214部的部首检索法。就是这个部首检索法,直到1986年我国专家在制定国际汉字标准时,仍是主要的检索依据。但是,部首检索法,歧义性很大,汉字部首可以在汉字的上、下、左、右、内、外存在,有许多汉字,就是研究汉字的专家,也很难立刻确定它的部首是那一部分。有时找到部首,仍查不到字,还要数笔划,一本字典要翻前翻后好几次才能查到所要找的字。平均查一个汉字要5—6分钟。所以,不解决汉字的简易快速检索,汉字的书写机械化就无从谈起。这就是郑易里在本世纪20年代末所面临的状况。
  1929年,上海《时报》展开汉字改革的讨论。年青的郑易里根据他的初步研究,提出了组成汉字基本的笔划是“一、丨、丿、丶、乛、乚”六种笔划。提出按笔划顺序排序检索的主张,向使用了1000多年的部首检索法挑战。这是他对汉字进行科学分析的滥觴,是汉字实现快速检索的初期。1950年他主编的《英华大词典》出版,其中文检索部分,就是应用他研究的由1、2、3、4、5、6阿拉伯数字代表一、丨、丿、丶、乛、乚六种笔形代码化的简易检索法了。这是有记载以来,中国第一个汉字检索简易代码化的成功案例。
  这以后的四十多年来,他的业余时间几乎完全沉浸在对汉字的分析研究中,集中精力做他的汉字求索,一夜一夜,一年一年的绞尽脑汁的思考和研究、分析和运筹,查遍有关的字典和书籍,几十年如一日坚韧不拔。他写的文稿、笔记、方案堆满了屋子。他将几万个汉字的笔画、另部件逐一分解,制成30多万张卡片,对每一个汉字的笔划、起笔结构、笔顺等各种属性进行分析和频率统计。然后再集中归纳运筹从中找出统一性、特殊性、规律性的东西。从字根的选取到字型的分类,从笔画的组合到整字的分解。既要符合汉字字形的结构规则,又要继承汉字以部首为脉络的有序性。理顺汉字笔划一字根一单字一词语的检索序列,苦苦地探索几千年老祖宗几乎是没有规律,自然成长的几万汉字。像整理成千上万团乱蔴,一一解开理顺。在内战混乱,运动不断的年代,又要做好白天的社会工作,又要在这几千年汉字群中孤军奋战的挖掘,这要有多大的超人毅力和智慧啊!点点滴滴的积累,多种矛盾的运筹和巧妙的安排,就靠这千锤百炼,坚实的层层积累,终于逐步建立起以汉字字形特征编码的完整科学的全部汉字快速检索的体系。

北京中易中标电子信息技术有限公司 版权所有
Copyright © 2004 Beijing China-E China-S Electronics Co. All rights reserved.
E-mailzhongyil@public.bta.net.cn