近年来,越来越多的人希望通过对家谱的研究,来追溯家族发展的历史。家谱里所记载的丰富宝贵的资料,不但可以帮助人们了解自己的祖先以及同辈的人,而且也是历史学、社会学、民族学、文化人类学、人口学、优生学等学科的宝贵资料,有着巨大的学术研究价值。
基于在中文信息处理领域多年的专业经验及领先技术,中易电子集团自行设计开发了中易家谱系统。这一系统是利用计算机对中文家谱进行数字化及管理,适用于处理现代或古代中文的家谱。
■ 家谱数字化的特殊性
● 数据量巨大。
● 大多是由古代写到现代,多用中文繁体字;后续的也有简、繁体字共存的。涉及到很多人名、
地名,不但用到很多生僻字,而且还有大量的异体字、异构字及早字,用字量大。
● 书目信息需遵照“汉语文古籍机读目录格式”的要求。
● 一般较珍贵,不能拆开扫描。
● 世系图、世系表的排版格式特殊,多以树状形式排列,文字既有横写,又有竖写。
● 世系图、世系表、传、图像、内容各部分之间有较强的联系,但树状的排版格式给人以分散的
观感。
● 一个家族由一人世代繁衍,能发展到数百人至数千人,用纸质家谱研究不便,大多数家谱纸张
易损。
■ 家谱数字化的难点
● 很难发挥OCR识别高效率作业的优势
□ 内容用字多为繁体,也夹杂许多异体字,有的家谱纸张陈旧,字迹模糊,OCR识别准确率极低。
□ 很多年代久远的家谱版面复杂很不规范,在一个页面中,文字经常既有横排,又有竖排,与现
代书籍相差甚远,需要投入大量人工进行手工切分与调整。
□ 版面遗留的斑点和污迹较多,需要花费人工清除。
□ 只能采用人工校对,效率低。
● 对中文平台系统的特殊需求
□ 现有平台系统只能处理20000字,远远无法涵盖家谱的全部用字,需对平台系统进行扩充。
□ 平台系统扩充后,要处理4字节汉字带来的输入法管理、检索、屏幕显示、WEB方式运行等多方
面的技术难题。
□ 一般的键盘输入法无法支持4字节汉字的输入,做家谱的数字化加工很困难。
□ 世系图与表的格式特殊,传承关系繁复,如果没有专用录入工具,某些信息将会重复录入,容
易搞错继承关系,增加校对与修正的工作量,给后期数据整理带来困难,还容易产生遗漏信息
等问题。
● 对支持超大字符集全文检索搜索引擎需求
■ 核心技术
目前,中易经过多年的经验积累,对于家谱系统制作中经常遇到的难点都有专业的解决方案。以《中易汉神e——超大字符集中文网络国际应用平台》为技术核心,配以多项自主开发的专业配套工具,以及专业化的工序流程管理,使制作质量和效率都得到了有效的保证。
《中易汉神e》是“国家973信息技术与高性能软件规划项目”,能够处理符合 ISO/IEC 10646:2003 (同Unicode 4.0)国际标准编码的 70195 个汉字,兼容多文种平台系统,是目前通用性最好的超大字符集汉字应用平台。
■ 文件格式
数字化后的家谱可存储为HTML、PDF、XML、RTF、TXT等格式。
■ 检索功能
○ 谱牒书目检索:利用书名、作者、姓氏、地方的近20项信息中的一或多项进行谱牒书目检索。
○ 家谱浏览:浏览内容包括姓氏来源、先祖、家训及祖茔、始祖图像等图文信息。
○ 世系图、世系表、世系传信息检索:利用描述人物的10余项信息中的一或多项进行检索。
○ 全文检索:对家谱中任意信息、字、词进行全文检索。
○ 世系图:直观的家族传承信息树。
■ 安全有效的身份验证功能
○ 设置权限管理机制,保证资料拥的版权不受侵犯,易于建立会员制度,是网站系统正常运行的保
证。
■ 数据库
○ 网络结构设计采用三层结构,系统数据库可采用Oracle、SQL Server大型数据库。确保大量的并
发用户登陆时,系统仍可以正常运行。
■ 国际互联网(Internet)运行
○ 数据采用通用格式,国际标准Unicode编码,支持7万汉字的网络显示和全文检索,支持xml格式数
据的导入和导出,从而具备了很好的移植性和扩充性,利于数据交换。
■ 多语言、多文种支持
○ Windows系统是中文简体、繁体,或是日文、英文、法文,都可以正常使用本网站的所有功能。
○ 中易家谱网络系统为家谱数字化工程管理人员、家谱研究人员,以及普通的读者,提供了一个家
谱整理、科研研究、阅读浏览的得力工具。也为收藏家谱的图书馆及机构提供了一个提高资源利
用与网络平台。
■ 我们的服务
○ 全文数字化家谱,建立家族树,显示世系关系,尤其擅长处理古老的家谱。
○ 对系统模块进行整体或分组销售。
○ 根据客户需求,设计解决方案,进行系统软件定向加工。
○ 承接系统集成工程。 |