汉字的编码体系主要有几种汉字四位数字编码查询

2022-11-03 16:15:15 经济资讯网

汉字的编码体系主要有以下几种：

1、国标、区位“准国标”国标是将七千余个汉字以及标点符号、外文字母等，排成一个94行、94列的方阵。方阵中每一横行称为一个“区”，每个区有94个“位”。一个汉字在方阵中的坐标，称为该字的区位码;

2、GBK码，GB码的扩展字符编码，对多达两万多的简繁汉字进行了编码;

3、BIG5码，针对繁体汉字的汉字编码;

4、HZ码，HZ码是在Internet上广泛使用的一种汉字编码，它是以“纯国标”的中文与美标码混用为方案;

5、UCS和ISO，10646UCS是由ISO 10646定义的，是其他字符集标准的一个超集，保证与其他字符集是双向兼容的，它包含了所有已知语言的字符;

6、Unicode提供一种统一的字符标识方法，它是16位编码的，具备世界各地计算机与出版行业所用字符的全部代码。而且它的产生是以各个国家或国标字符编码为基础的。

这篇教程会帮你梳理清楚各种编码规则是怎么来的，让你对计算机的编码有个全方位认知。

我们常用的编码大概有这么几种， ASCII，GBK， GB2312，UTF8，UTF16，UTF32

ASCII

计算机问世开始，大家都用的 ascii 编码格式，定义为 8 个字节，且首字节恒定为0，因此最多可以表示 128 种字符

GB2312

ascii 虽然可以很好地表示英文，(毕竟英文一共只有26个字母)，但是对于中国用户来说，ascii 编码方式肯定是无法支持所有汉字的，因此中国政府推出另一套编码规范，由中国国家标准总局1980年发布，1981年5月1日开始使用。

GB2312规定对收录的每个字符采用两个字节表示，第一个字节为“高字节”，对应94个区;第二个字节为“低字节”，对应94个位置。所以它的区位码范围是：0101-9494。区号和位号分别加上0xA0就是GB2312编码(因为限定最大区位码是 9494，因此不会造成区码位加上 0xA0 之后产生了问题)。例如最后一个码位是9494，区号和位号分别转换成十六进制是5E5E，0x5E+0xA0=0xFE，所以该码位的GB2312编码是FEFE。

GB2312编码范围：A1A1-FEFE，其中汉字的编码范围为B0A1-F7FE，第一字节0xB0-0xF7(对应区号：16-87)，第二个字节0xA1-0xFE(对应位号：01-94)

从另一个角度理解中文编码为：一个字节编码如果小于等于127，那么它的含义和 ascii编码一样，但是两个大于 127 的字节码拼接在一起的时候，可以表示某个汉字。前面的一个字节(称之为高字节)从0xA1用到 0xF7，后面一个字节(低字节)从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。

GBK

由于GB 2312-80只收录6763个汉字，有不少汉字，如部分在GB 2312-80推出以后才简化的汉字(如"啰")，部分人名用字，台湾及香港使用的繁体字，日语及朝鲜语汉字等，并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间，收录GB 13000.1-93全部字符制定了GBK编码。根据微软资料，GBK是对GB2312-80的扩展，也就是CP936字码表 (Code Page 936)的扩展(之前CP936和GB 2312-80一模一样)，最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符，但编码方式并不相同。GBK自身并非国家标准，只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为"技术规范指导性文件"。原始GB13000一直未被业界采用，后续国家标准GB18030技术上兼容GBK而非GB13000。

GB18030

GB 18030，全称：国家标准GB 18030-2005《信息技术中文编码字符集》，是中华人民共和国现时最新的内码字集，是GB 18030-2000《信息技术信息交换用汉字编码字符集基本资料的扩充》的修订版。与GB 2312-1980完全兼容，与GBK基本兼容，支持GB 13000及Unicode的全部统一汉字，共收录汉字70244个。

Unicode

从上面可以看出，不同的国家都在尝试制定自己的编码规范，那么这就会增加跨国沟通的成本。因此 unicode 的主要思想是可以给世界上所有的字符，都定义一个唯一标识，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字严。具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表。

可以理解 Unicode 是一个思路，但是却不够实用。因为当我们将一篇文章转换成 unicode 编码之后，会返现不可读。原因在于有些字符用一个字节表示，有些字符用两个字节表示，有的甚至更多，我们永远无法知道，对于一个字节来说，它表示的是一个独立字符还是某个字符的组成部分。

因为 unicode 最大编码是4个字节，过去为了使用 unicode 编码，只能在小于四字节编码的符号之前，用0补齐，凑成四字节，但是存储开销也随之增大不少。

UTF8 (Unicode 编码的一种实现)

UTF8 的出现很好地解决了 unicode 中间编码不可读的问题，定义了两条规则如下:

对于单字节的符号：字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的;

对于n字节的符号(n > 1)：第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

其他实现方式还包括 UTF-16(字符用两个字节或四个字节表示)和 UTF-32(字符用四个字节表示)，不过在互联网上基本不用。

这里有些有趣的规则值得我们注意：

字节开头为0的，一定表示 ascii 编码

字节开头是10的，一定是某个字符的组成部分

字节开头是110 的(范围: 0xC0 ~ 0xDF)，一定代表了双字节编码的开头，后面一定是一个 10 开头的字节

字节开头是 1110 的 (范围: 0xE0 ~ 0xEF)，一定是代表了三字节编码的开头，后面一定是两个 10 开头的字节