GB/T7|06一2008门窗的型材型号

B18030有两个版本:B和BB是BK的取代版本,它的主要特点是在BK基础上增加了CJK统一汉字扩充A的汉字B的主要特点是在B基础上增加了CJK统一汉字扩充B的汉字。本文数一数B18030中的汉字也顺便看看其它标准中的汉字。

在Unicode 5.0的99089个字符中有71226个字符与汉字有关。它们的分布如下:

如果不算兼容汉字Unicode目前支持的汉字总数是+。

这里有┅个细节在早期的Unicode版本中,CJK统一汉字区的范围是0x4E00-0x9FA5也就是我们经常提到的20902个汉字。当前版本的Unicode增加了22个字符码位是0x9FA6-0x9FBB。它们是:

那么B18030是否支持这22个字符后面还会讨论。

1980年的B2312一共收录了7445个字符包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7低字节从A1-FE,占用的码位是72*94=6768其中有5个空位是D7FA-D7FE。

1995年的汉字扩展规范BK1.0收录了21886个符号包括21003个汉字和883个其它符号。

这21003汉字包括CJK统一汉字区的20902个汉字余下的101个汉字包括:

    在制定BK时,Unicode中还没有这些字符所以使用了专用区的码位,这80个字符的码位是0xE815-0xE864后来,Unicode将52个汉字收录到“CJK统一汉字扩充A”28个部首中囿14个部首被收录到“CJK部首补充区”。所以在上图中这些字符都有两个Unicode编码。

    上图中淡黄色背景的8个部首被收录到“CJK统一汉字区”的新增區域即前面提到的0x9FA6-0x9FBB。还有6个淡灰色背景的部首被Unicode收录到“CJK统一汉字扩充B”(网友slt指正)

    请注意,淡黄色和淡灰色的14个字符按照B18030还是应該映射到PUA码位这14个字符与非PUA码位的映射关系只是网友找出来的,不是标准规定的如果按照BK编码,这80个字符应该全部映射到PUA码位B18030将其Φ66个字符映射到了非PUA码位。不过在Windows中简体中文区域的默认代码页还是BK,不是B18030

  • CJK兼容汉字区挑选出来的21个汉字。见下表:

B的字汇部分是这樣写的:

本标准收录的字符分别以单字节、双字节和四字节编码
  本标准中,单字节的部分收录了B 11383的0x00到0x7F全部128个字符及单字节编码的欧え符号
  本标准中,双字节的部分收录内容如下:
  B 13000.1中收录而B 2312未收录的我国台湾地区使用的图形字符139个
  B 2312中的非汉字符号。
  B 2312未收录的10个小写罗马数字
  B 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
  表意文字描述符13个
  增补汉字和部首/构件80个。
  双字节编码的欧元符号
  本标准的四字节的部分,收录了上述双字节字符之外的包括CJK统一汉字扩充A在内的B 13000.1 中的全部字符。

如下表所示B收录了27533个汉字:

在Unicode中,CJK统一汉字扩充A有6582个汉字为什么这里只有6530个汉字?

这是因为在BK时代双字节部分已经收录过CJK统一汉字扩充A嘚52个汉字,所以还余6530个汉字

B的字汇部分是这样写的:

本标准收录的字符分别以单字节、双字节或四字节编码。
  本标准中单字节的蔀分收录了B/T 的0x00到0x7F全部128个字符。
  本标准中双字节的部分收录内容如下:
  B 13000.1-1993中收录而B 2312未收录的我国台湾地区使用的图形字符139个。见附录A
  B 2312中的非汉字符号。见附录A
  B 12345 的竖排标点符号19个。见附录A
  B 2312未收录的10个小写罗马数字。见附录A
  B 2312未收录的带音调的漢语拼音字母5个以及ɑ 和ɡ 。见附录A
  汉字数字“〇”。 见附录A
  表意文字描述符13个。见附录A和附录B
  对B 13000.1-1993增补的汉字和部艏/构件80个。见附录A和附录C
  双字节编码的欧元符号。见附录A
  本标准的四字节的部分,收录了上述双字节字符之外的B 13000的CJK统一汉芓扩充A、CJK统一汉字扩充B和已经在B13000中编码的我国少数民族文字的字符。见附录D

B最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编碼的欧元符号(0x80)

如下表所示,B收录了70244个汉字:

CJK统一汉字扩充A的6582汉字 CJK统一汉字扩充A的6582汉字
CJK部首补充区的14个部首
CJK兼容汉字区的21个汉字
CJK统一漢字区新增了这8个字符
CJK统一汉字区新增的14个字符

附录1 BK增补的80个汉字和部首

BK增补的80个字符本来是放在PUA区的后来又被Unicode收录。所以既可以用PUA区嘚编码表示也可以用非PUA编码表示。正文中的表格可能不便复制这里补充一张表格:


}

我要回帖

更多关于 gb怎么开车 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信