您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国人民银行]:生僻字处理指南 - 发现报告
当前位置:首页/行业研究/报告详情/

生僻字处理指南

生僻字处理指南

ICS35.240.40 JR CCSA11 中华人民共和国金融行业标准 JR/T0253—2022 金融服务生僻字处理指南 Financialservices—GuidelinesforprocessingrarelyusedChinesecharacters 2022-6-24发布2022-6-24实施 中国人民银行发布 目次 前言IV 引言V 1范围1 2规范性引用文件1 3术语和定义1 4缩略语3 5总体原则与策略3 5.1总体原则3 5.2信息系统处理汉字的通用架构4 5.3生僻字处理分级4 5.4生僻字处理策略4 6生僻字的输入4 6.1输入法5 6.2机读设备输入5 6.3其他方法输入5 6.4信息系统输入配备6 7生僻字的显示6 7.1字库6 7.2信息系统字库的配备7 8生僻字的打印7 8.1柜台PC通用打印机7 8.2报表高速打印机8 8.3打印机字库升级方法8 9生僻字的信息交换9 9.1机构内部系统间的信息交换9 9.2机构与外部系统的信息交换10 10生僻字的存储及内部处理10 10.1数据库存储10 10.2文件存储11 10.3系统内部处理11 11内部培训和投诉处理11 12生僻字处理方法的开源12 附录A(资料性)引用方法和示例13 A.1生僻字处理成熟度评估13 A.2UCS汉字编码概况13 A.3GBK52个双码字14 A.4人名用生僻字全字符集示例15 A.5常见编码和伪码格式比较16 A.6常用字符集“实心点”字符的编码17 附录B(资料性)生僻字问题改造实例18 B.1实例1——中信银行全系统生僻字改造18 B.2实例2——中国银联全渠道系统生僻字改造19 B.3实例3——中国农业银行核心银行系统生僻字改造19 参考文献21 前言 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国人民银行科技司提出。 本文件由全国金融标准化技术委员会(SAC/TC180)归口。 本文件起草单位:中国人民银行科技司、北京金融科技产业联盟、招商银行股份有限公司、中信银行股份有限公司、中国工商银行股份有限公司、中国农业银行股份有限公司、中国银行股份有限公司、中国建设银行股份有限公司、建信金融科技有限责任公司、中国人民银行营业管理部、中国人民银行济南分行、中国人民银行重庆营业管理部、中国人民银行杭州中心支行、中国人民银行广州分行、中国人民银行长沙中心支行、中国人民银行乌鲁木齐中心支行、交通银行股份有限公司、中国邮政储蓄银行股份有限公司、中国科学院软件研究所、中国金融电子化集团有限公司、成方金融科技有限公司、北京国家金融标准化研究院有限责任公司、中国银联股份有限公司、北京银联金卡科技有限公司、重庆国家金融科技认证中心有限责任公司、北京北大方正电子有限公司、北京郑码世纪信息技术有限公司。 本文件主要起草人:李伟、杨富玉、聂丽琴、纪熙东、马良有、曲维民、冯蕾、刘子群、刘江涛、胡达川、李寻、李言平、徐晓剑、孙炎森、梁宇、柯尚锋、杨启龙、李学鹏、张立建、王丽静、王学群、郭贞、柏杨、邱程昱、江山、马懿、赵磊、马征、刘妍、韩婷婷、刘启滨、刘赐麟、杨志、孙坚、叶茜、张伟宁、胡沐创、谭旺、刘曼齐、戴雪龙、许健、张嘉威、谢谨、潘以桢、谢晋、张兰英、胡军锋、张兰英、朱礼华、刘汇丹、刘书元、孙建智、李家琪、陈达炜、谢彦丽、白璐、邱鹏、缪海波、王琪、于鸽、李博文、李远、史艳语、毕小文、秦逞、吴娟、张建国、张国荣、陈恳、郑珑、蓝飞。 引言 随着经济社会数字化程度越来越高,以及实名制要求越来越严格,姓名中含有生僻字的客户在办理金融业务时,因输入、显示、打印、存储、交换等一个或多个环节中无法正常处理生僻字,可能造成的障碍包括以下内容。 a)身份证鉴别仪读取客户证件信息失败,无法完成联网核查。b)服务人员知道客户姓名,但使用通用输入法找不到相应汉字。 c)跨行转账户名一字多码,户名不能准确匹配,无法完成自动入账。d)信息交换时户名被当作非法字符或被转换成“?”,无法正确识别。 e)与银行往来的第三方支付、社保、证券、保险等业务无法正常实名处理。 本文件旨在针对上述情况,提供金融业处理生僻字的通用方法指南,提高金融业信息系统对生僻字的处理能力,提升金融业服务水平。 本文件内容可能涉及信息系统关联的注册公司、产品名称或商标,仅作一般描述使用,无意侵权,更不表示推荐或不推荐相关产品。 金融服务生僻字处理指南 1范围 本文件提供了金融业信息系统生僻字处理指南,包括生僻字处理总体原则与策略,生僻字的输入、显示、打印、信息交换、存储和内部处理方法,以及生僻字内部培训和投诉处理、生僻字处理方法开源的机制。 本文件适用于为客户提供金融服务的机构及参与金融服务信息交换的机构。 2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB18030信息技术中文编码字符集 GB/T2312—1980信息交换用汉字编码字符集基本集GB/T13000信息技术通用多八位编码字符集(UCS) ISO/IEC10646信息技术通用编码字符集(UCS)(Informationtechnology—UniversalCodedCharacterSet(UCS)) ISO/IEC8859-1信息技术—8位单字节编码图形字符集—第1部分:1号拉丁字母(Informationtechnology—8-bitsingle-bytecodedgraphiccharactersets—Part1:LainalphabetNo.1) 3术语和定义 下列术语和定义适用于本文件。 3.1 编码字符集codedcharacterset 一组无歧义的规则,用以建立一个字符集和该字符集中的字符及其编码表示之间的对应关系,通常也指按照这种规则确定的文字的有序集合。 示例:1.GB18030是我国制订的以汉字为主并包含多种我国少数民族文字(例如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的大型中文编码字符集标准,业界对该标准的全字符集的技术实现一般称作GB18030编码,该编码包含单字节字符、双字节字符、四字节字符,其中双字节字符编码的技术实现又称作GBK编码。 2.EBCDIC是大型主机的8比特单字节或双字节编码字符集。 注:GB18030(含空格)指《信息技术中文编码字符集》标准;GB18030(无空格)指具体字符编码。 [来源:ISO/IEC8859-1:1998,4.5,有修改] 3.2 编码字符集标识codedcharactersetidentifier 标识大型主机当前字符使用的编码字符集(3.1)编号。 示例:1.“1388”表示GB18030中的强制部分用EBCDIC编码实现的字符集。2.“1392”表示GB18030中的强制部分的字符集。 3.3 字库fontlibrary 建立在计算机存储媒体上的字形数据集合。 注:1.字库在存储方式上一般分硬字库、软字库。硬字库指预烧录在只读存储器等介质中且不能再更改的字库,软字库指以文件形式存储在光盘或者硬盘上的字库。 2.字库一般以ttf、otf、ttc等字体格式文件的形式存在。ttf指TrueTypeFont字体文件,otf指OpenTypeFont字体文件,ttc指TrueTypeCollection字体文件。 3.4 人口信息字库fontlibraryofpopulationinformation 户籍管理部门针对人口信息(人名、地名等)数据数字化而定制的字库(3.3),采用GB/T13000编码。 3.5 用户自定义区privateusearea;PUA 未在通用编码字符集中指定,由私有规则决定字符用途的一系列码点,使用三个编码区块:U+E000~U+F8FF、U+F0000~U+FFFFD、U+100000~U+10FFFD。 注:1.一般指人口信息字库中使用的PUA编码,在人口信息字库中,户籍管理部门对未收录进GB/T13000但实际使用的生僻汉字利用PUA编码予以补充,人口信息字库通过转换对照表提供编码转换解决方案。 2.人口信息字库中部分PUA编码字符陆续被通用编码字符集收录而拥有正式编码,会导致一个字符同时存在正式编码和PUA编码,造成一字多码的情况。 [来源:GB18030,3.3,有修改] 3.6 生僻字rarelyusedChinesecharacters GB/T13000编码区间(U+4E00~U+9FA5,20,902字)之外的汉字。 注:1993年发布的GB13000收录了U+4E00~U+9FA5共20,902个汉字,1995年发布的《汉字内码扩展规范》(以下简称GBK)含21,003个汉字(增加了101个汉字及偏旁部首,包括“䶮”“䴖”“䦅”等52个汉字),现已被GB18030代替;由于GBK字符集内的20,902个汉字已能被国内外绝大部分技术产品和国内的应用系统所支持,而其他的汉字往往会遇到问题,故一般认为在20,902个汉字之外的汉字为生僻字。 3.7 通用编码字符集universalcodedcharacterset 国际通用的多八位编码字符集。 注:1.通用编码字符集(UCS)标准由国际标准化组织(ISO)与国际电工委员会(IEC)制订,编号为ISO/IEC10646,最新版本为ISO/IEC10646:2020。我国现行GB/T13000—2010采标自ISO/IEC10646:2003。 2.统一码(Unicode)是由统一码联盟依据UCS制定的可以容纳世界上所有文字和符号的编码字符集,Unicode 比UCS额外定义了与字符有关的语义符号学内容。 3.UCS将中国、日本、韩国等国使用的汉字通称为中日韩统一表意文字(CJK)。 4.CJK按编码区块分为基本集(URO)、扩充A~G、兼容区,急用汉字会在各编码区块末尾增补(见附录A.2)。 5.UCS在技术实现上,使用UTF-8、UTF-16、UTF-32三种编码方式对字符进行编码。UTF-8是一种以一个或多个8位为单元的编码方式;UTF-16是一种以一个或两个16位为单元的编码方式;UTF-32是一种以一个32位为单元的编码方式。16位以2字节表示,32位以四字节表示。对于多个字节的排列顺序,如果第一个字节是整数二进制中的最高位字节,最后一个字节是整数二进制中的最低位字节,则该字节序称为“大端”(BigEndian,BE);如果第一个字节是整数二进制中的最低位字节,最后一个字节是整数二进制中的最高位字节,则该字节序称为“小端”(LittleEndian,LE)。UTF-16分UTF-16BE和UTF-16LE两种方式,UTF-32分UTF-32BE和UTF-32LE两种方式。 6.本文件以U+XXXX或U+XXXXX表示UCS的一个码点或字符,如U+0000~U+FFFF称为基本多文种平面(BMP),U+20000~U+2FFFF称为辅助表意文字平面。 4缩略语 下列缩略语适用于本文件。 APP:移动应用程序(MobileApplication) ASCII:美国信息交换标准代码(AmericanStandardCodeforInformationInterchange)ATM:自动柜员机(AutomaticTellerMachine) BOM:字节顺序标记(ByteOrderMark) CCSID:编码字符集标识(CodedCharacterSetIdentifier) CJK:中日韩统一表意文字(China,JapanandKoreaunifiedideographs)CTID:网络电子身份证(Cybe

你可能感兴趣

hot

信息技术 生僻字处理指南

金融
北京金融科技产业联盟2023-08-18
hot

法律 500 个国家比较指南

信息技术
Legalease Ltd2024-01-15