首页 公司简介 产品信息 客户方案 技术支持 新闻资讯 电子数据库 免费下载 联系方式 论坛
技术支持
常见问题
为什么要用OCR…
为什么要使用模糊…
相关专题
当前流行的字符编…
UNICODE与…
XML与古籍电子…
OCR相关技术在…
 

当前流行的字符编码简述 
作者:王晓波

一、GB2312-80

  GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。   

  GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。

  GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。故而GB2312最多能表示6763个汉字。

  GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别。


图中位于ASCII区中的虚线区域即为原GB2312编码区域,右下角实线区域为平移后的GB2312编码区域



二、BIG5 

  BIG5是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵,但广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标准。

  1983年10月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》,后经修订于1992年5月公布,更名为《中文标准交换码》,BIG5是台湾资讯工业策进会根据以上标准制定的编码方案。

  BIG5码是双字节编码方案,其中第一个字节的值在OXAO-OXFE之间,第二个字节在OX40-OX7E和OXA1-OXFE之间。

  BIG5收录13461个汉字和符号,包括:
  ● 符号408个,编码位置A140-A3BE
  ● 常用字5401个,编码位置A440-C67E,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个,台湾教科书常用字587个,异体字6个。
  ● 次常用字7652个,编码位置C940-F9D5,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频率较高的字1311个。

图2: BIG5编码图



三、GBK 

  GB2312-80仅收汉字6763个,这大大少于现有汉字,随着时间推移及汉字文化的不断延伸推广,有些原来很少用的字,现在变成了常用字,例如:朱镕基的“镕”字,未收入GB2312-80,现在大陆的报业出刊只得使用(金+容)、(金容)、(左金右容)等来表示,形式不一而同,这使得表示、存储、输入、处理都非常不方便,对于搜索引擎等软件的构造来说也不是好消息,而且这种表示没有统一标准。从我们对人民日报98年数据的处理过程中,得出这样的经验:回填外字最困难的就是如何得到这种表示方法的集合。

  为了解决这些问题,以及配合UNICODE的实施,全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK向下与GB2312完全兼容,向上支持ISO 10646国际标准,在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示,总体编码范围为8140-FEFE之间,首字节在81-FE之间,尾字节在40-FE之间,剔除XX7F一条线。
  GBK共收入21886个汉字和图形符号,包括:
  ● GB2312中的全部汉字、非汉字符号。
  ● BIG5中的全部汉字。
  ● 与ISO 10646相应的国家标准GB13000中的其它CJK汉字,以上合计20902个汉字。
  ● 其它汉字、部首、符号,共计984个。
  微软公司自Windows 95 简体中文版开始支持GBK代码,但目前的多数搜索引擎都不能很好地支持GBK汉字。


图3: GBK的编码图

  GBK编码区分三部分:
  ●汉字区
  GBK/2:OXBOA1-F7FE, 收录GB2312汉字6763个,按原序排列;
  GBK/3:OX8140-AOFE,收录CJK汉字6080个;
  GBK/4:OXAA40-FEAO,收录CJK汉字和增补的汉字8160个。
  ●图形符号区
  GBK/1:OXA1A1-A9FE,除GB2312的符号外,还增补了其它符号
  GBK/5:OXA840-A9AO,扩除非汉字区。
  ●用户自定义区
  即GBK区域中的空白区,用户可以自己定义字符。

  
版权所有©北京创新力博数码科技有限公司
Copyright©Beijing Ilibo Digital Technology Co.Ltd.
 
关于我们 友情链接 版权声明 相关法律 京ICP备05048155