信息技术生僻字处理指南 (第一版) 全国信标委字符集与编码分委会二〇二三年八月 编写单位(排名不分先后) 中国电子技术标准化研究院中国科学院软件研究所中信银行股份有限公司招商银行股份有限公司 文化艺术出版社有限公司中国出版集团中华字库工程办公室北京冠群信息技术股份有限公司思旦达(北京)技术有限公司 万达信息股份有限公司永中软件股份有限公司 蚂蚁科技集团股份有限公司深圳市腾讯计算机系统有限公司北京搜狗科技发展有限公司北京北大方正电子有限公司 北京汉仪创新科技股份有限公司北京金融科技产业联盟北京国家金融科技认证中心北京银行股份有限公司 广发银行股份有限公司重庆国家金融科技认证中心 电子科技大学DICOM标准国家地方联合工程实验室潍坊北大青鸟华光照排有限公司中科方德软件有限公司 福昕鲲鹏(北京)信息科技有限公司北京金山办公软件股份有限公司江苏中威科技软件系统有限公司北京数科网维技术有限责任公司麒麟软件有限公司赞同科技有限公司 北京点聚信息技术有限公司友虹(北京)科技有限公司北京百度网讯科技有限公司佳能医疗系统(中国)有限公司拉萨净土信息安全服务中心有限公司北京卓玛之裕科技有限公司 编写组成员(排名不分先后) 范科峰 董建 杨磊 黄姗姗 王欣 陈壮 陈亚军 陈晓研 崔晓琳 何正安 吴健 刘汇丹 江激扬 徐晓剑 刘文涛 孙炎森 刘伟 马良有 纪熙东 陈永聪 陶扬 薛馨枫 刘江涛 谢史颉 陈克 穆玉静 梁勇 王长胜 吴庆敏 陆碧波 刘杰 任翔 鲁剑 冯雷 尹方卉 张建国 陈恳 张国荣 陈金娣 冷怀晶 郑乃玉 胡达川 李寻 李振 李博文 祖宇飞 王子健 周宗明 孙梦 赵华伟 毕小文 秦逞 吴娟 邹见效 蒲立新 徐昆 范计朋 何明杰 高忠军 殷建民 张宏 康凯 王新政 胡昆 冯建茹 冯倩倩 严伟 施东海 蔡亚军 梁维添 陈林 战茅 杨丽霞 刘丹 王少康 秦聪 陆猛 刘赛赛 陈庆功 李伟 范敏虎 常敏强 赵兰平 黄岩 王威凯 屈伟晨 杨秋虹 卓玛普赤 李巍 刘巧焕 孟岩 蒋增增 代威 版权声明 本文件版权属于全国信息技术标准化技术委员会字符集与编码分委会(SAC/TC28/SC2,简称“全国信标委SC2”)。 使用说明:未经全国信标委SC2书面授权,不得以任何方式复制、抄袭、影印、翻译本文件的任何部分。凡转载或引用本文的观点、数据,请注明“来源:全国信标委字符集与编码分委会”。 目录CONTENTS 前言1 第一章认识信息系统“生僻字”问题2 1.1信息系统“生僻字”的概念2 1.2造成的影响2 1.2.1生僻字受困群众面临的困难2 1.2.2服务机构的业务困境6 第二章问题形成的原因7 2.1历史原因7 2.1.1中文信息处理技术的发展7 2.1.2相关标准的发展过程8 2.1.3汉字编码的工作机制9 2.2现状成因10 2.2.1产品不支持生僻字的情况10 2.2.2信息系统不支持生僻字处理的情况13 2.2.3管理层面的原因13 2.2.4人员层面的原因14 2.3原因总结15 第三章相关工作基础16 3.1各行业已开展的工作16 3.2相关标准/文件18 第四章编码字符集使用指南21 4.1编码字符集标准的使用21 4.2码位的使用21 第五章信息处理产品支持生僻字指南23 5.1通用要求23 5.1.1编码字符集要求23 5.1.2汉字字型要求23 5.1.3汉字输入要求23 5.2系统软件23 5.3支撑软件25 5.4应用软件26 第六章信息处理系统建设改造指南27 6.1通用原则27 6.2各环节改造要求27 6.2.1输入27 6.2.2显示29 6.2.3打印29 6.2.4信息交换30 6.2.5内部处理32 6.2.6存储33 第七章组织和个人生僻字处理指南35 7.1组织35 7.1.1技术管理机制35 7.1.2服务管理机制35 7.2个人用户36 第八章测试评估37 8.1信息处理产品的标准符合性测试37 8.1.1编码字符集测试37 8.1.2字型测试39 8.1.3输入法测试40 8.2信息处理系统生僻字处理能力评估40 8.2.1定义40 8.2.2标准符合性40 8.2.3易扩展性41 8.2.4经济适用性41 8.2.5兼容性41 8.2.6易用性41 8.2.7统一性42 8.3服务机构业务生僻字处理能力评估42 8.3.1定义42 8.3.2技术管理机制42 8.3.3服务管理机制42 第九章实用工具及资源44 9.1对本章所列资源的说明44 9.2软件产品44 9.2.1超大字符集字库44 9.2.2输入法47 9.3相关工具50 9.3.1字符转码工具50 9.3.2字符转义工具50 9.3.3公共组件50 9.4论文文献51 第十章实施案例53 10.1公共服务机构的系统内改造案例53 10.2大规模、跨系统场景的生僻字问题解决58 10.3用字单位解决内部用字需求的办法62 10.4软件产品支持生僻字的解决方案64 附件:提交补充编码汉字的技术要求68 一、待编码汉字的范围68 二、提交申请的单位68 三、接受待编码汉字申请的单位68 四、申请资料的技术要求68 前言 国务院办公厅《关于全面加强新时代语言文字工作的意见》提出,到2025年,语言文字规范化、标准化、信息化水平要进一步提高。 国家通用语言文字作为信息交互的载体,在数字经济发展建设中发挥着越来越重要的作用。特别是在政务服务和公共服务行业,随着“互联网+”业务模式日趋成熟,人民群众随时可以通过网络实名认证等方式在线办理各类业务,极大地提升了办事效率和服务体验。然而,在语言文字信息技术高速演进的同时,信息系统生僻字问题的严峻性也在逐渐凸显。由于一些信息系统对于生僻汉字的支持不充分,致使人名、地名中的生僻汉字难以正常输入、显示、打印、传输,相关群众在办事时屡屡受阻,形成了难以逾越的“数字鸿沟”。作为影响产业发展与民生福祉的一大痼疾,信息系统生僻字问题的解决时不我待,势在必行。 为形成适用于各行业领域信息系统的综合、协调、务实、可行的生僻字解决方案,全面实现人名、地名生僻汉字在政务服务和公共服务行业内的互联互通,全国信标委字符集与编码分委会组织相关产学研用单位,共同编写形成《信息技术生僻字处理指南(第一版)》(以下简称“指南”)。 指南主要提出了以下内容:一是针对信息系统生僻字问题的现状与成因进行系统性总结与分析;二是对信息系统生僻字处理提供全方位指导;三是梳理与信息系统生僻字处理相关的标准文件、工具资源以及各行业实施案例。同时,对于无标准编码的生僻汉字给出了申请编码的技术要求与渠道。 指南力求为各相关方提供有效指导和参考,加快推动信息系统生僻字问题的解决,进一步促进国家通用语言文字信息处理水平的提升,助力国家语言文字事业和信息技术产业高质量发展。 编写组2023年8月 第一章认识信息系统“生僻字”问题 1.1信息系统“生僻字”的概念 从甲骨文到楷书,汉字经历了数千年的演变和传承。悠久的历史也导致了汉字的复杂性,不仅数量巨大,还难读、难写、难认。即便是最专业的汉字研究者与文字工作者,对汉字的认知也存在盲区。 随着计算机技术的发展,汉字插上了信息技术的翅膀,从最初能录入计算机,到现在信息系统的广泛使用。汉字信息处理除了给人们生活带来了便利,也引发了新的问题。在信息时代,汉字需要在信息系统上输入、存储、处理、显示、打印,在不同系统之间流转共享,这一系列过程要由信息技术来保障汉字被正确处理,其中最主要的环节就是汉字编解码,也就是需要保证文字处理周期各个环节遵循同样的汉字编码标准。 在日常生活中,人们一般把不常见的或自己不熟悉的汉字称为生僻字。对信息系统来说,“生僻字”是指需要通过一系列特殊处理才能被信息系统正确地输入、输出、处理、传输的汉字。一个字如果在输入、存储、打印、显示、交换等任意一个环节中处理不当,就会造成业务不能正常办理、信息核验失败等问题,给相关人群的生活与工作带来诸多不便。 1.2造成的影响 1.2.1生僻字受困群众面临的困难 在信息时代,信息化系统已经深入到人们生活的方方面面。个人或机构的信息需要在各类信息化系统中录入、存储、流转,比如公安人口信息管理系统、居民身份证制证系统、社保系统、金融系统、工商系统、税务系统以及各种出行及政务服务系统。 涉及生僻字处理的出版、科技、考古、历史等专业领域工作者们常会碰到所需生僻字无法被正确处理等问题。 在政务服务、公共服务等业务场景,生僻字不能正确处理则会导致身份 联网核查失败、户名校验失败、数据库信息乱码等问题,使群众办事遇到阻碍。姓名和地址中含有生僻字的群众,长期忍受着诸多不便。 下面这些实例,是生僻字人群日常困境的真实写照。 实例1:要求实名认证的服务无法正常办理 只要需要实名认证的地方,大多无法正常办理。例如手机号码无法实名制登记;使用购票软件和其他需要实名制登记的软件打不出名字或被拦截、报错,均无法实名;辽事通、盛世通、场所码、银行卡等,涉及医疗、保险、交通、通讯和金融领域,都遇到无法办理的情况,寸步难行。如图1-1所示。 图1-1难以通过实名认证(来源:网络) 实例2:证件不能正常打印姓名 姓名中有生僻字,准考证上打印出问号,机动车登记证书打印不出姓名,机票/火车票上姓名生僻字只能手写或用拼音替代。如图1-2所示。 图1-2证照、机票/车票等不能正常打印�姓名生僻字(来源:网络) 实例3:无法申请健康码 因名字里有生僻字,八旬老人难办“健康码”。如图1-3。 图1-3新闻截图“八旬老人难办健康码”(来源:湖北电视台) 实例4:无法领取退休金 因姓氏是生僻字无法领取退休金,如图1-4所示。 图1-4新闻截图“因姓氏是生僻字无法领取退休金”(来源:网络) 实例5:无法申请信用卡,税务局无法自动扣税 网友反映:因无法确认征信信息,无法申请信用卡、银行卡;税务局无法线上自动扣税,每次都需要去现场登记办理。网友姓名生僻字举例如图1-5。 图1-5网友姓名中的生僻字(来源:网络) 实例6:地名有生僻字无法线上办理出生证 因地名含有生僻字,无法在网上办理孩子的出生医学证明。如图1-6。 图1-6网友住址中的生僻字(来源:网络) 1.2.2服务机构业务困境 在办理业务过程中碰到生僻字难以处理的情况,群众固然不满意,服务机构也需要投入大量人力和时间来解释缘由、协商处理方式。处理结果也难以让群众满意,引发大量投诉。尽管有些机构设置了私有字库或生僻字处理流程,但是在跨机构、跨系统时仍然会遇到无法校验、显示和核查等问题。随着社会数字化程度的提高,要求实名制的场景越来越多。基于人名、 身份证号的校验、核查愈发普遍,这就要求汉字的信息处理更加规范、标准。一些机构通过业务积累或搜集整理的方式建立了生僻字库,能满足一部 分业务需求。但这样的做法需要这些机构单独维护生僻字库,投入较高的技术成本与人力成本。 还有一些机构通过拼音、图片、临时造字等方式实现当下的业务办理乃至本系统内的信息流转。但在当前万物互联的时代背景下,跨机构、跨系统的应用越来越多,这样的处理方式治标不治本,问题依然没有解决。 第二章问题形成的原因 2.1历史原因 全世界的文字,根据其记录语言的方式和性质,可划分为两类:一类是以英文、法文等为代表的表音文字,用字母来表示语音;另一类就是以汉字为代表的表意文字,用一定体系的象征性符号来表示语义。 信息系统生僻字问题,是表意文字所特有的问题。要理解这一问题产生的原因,要从汉字的信息处理技术的原理及其标准化进程说起。 2.1.1中文信息处理技术的发展 计算机要处理中文信息,其基本原理可以概况为:一字、一形、一码。字,是指能被单独认知并反映独立意义的一个汉字; 形,是指字形,是文字的精确显示,让机器能正确输出文字信息;码,是指编码,让机器认识文字,是文字信息处理的基础。 三者之间一一对应,才能被计算机识别和处理。 汉字作为表意文字,每个字都有相对独特的字形和含义