字符编码的GB2312
GB2312 也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。其中最有影响的是于1980年发布的《信息交换用汉字编码字符集 基本集》,标准号为GB 2312-1980,因其使用非常普遍,也常被通称为国标码。GB2312编码通行于我国内地;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB 2312。
GB 2312是一个简体中文字符集,由6763个常用汉字和682个全角的非汉字字符组成。其中汉字根据使用的频率分为两级。一级汉字3755个,二级汉字3008个。由于字符数量比较大,GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵,对每一行称为一个“区”,每一列称为一个“位”,然后将所有字符依照下表的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置,这个位置可以用区号、位号合成表示,称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上,其区位码为1601。因为区位码同字符的位置是完全对应的,因此区位码同字符之间也是一一对应的。这样所有的字符都可通过其区位码转换为数字编码信息。GB2312字符的排列分布情况见表1-4。
表1-4 GB2312 字符编码分布表 分区范围 符号类型 第01区 中文标点、数学符号以及一些特殊字符 第02区 各种各样的数学序号 第03区 全角西文字符 第04区 日文平假名 第05区 日文片假名 第06区 希腊字母表 第07区 俄文字母表 第08区 中文拼音字母表 第09区 制表符号 第10-15区 无字符 第16-55区 一级汉字(以拼音字母排序) 第56-87区 二级汉字(以部首笔画排序) 第88-94区 无字符 GB2312字符在计算机中存储是以其区位码为基础的,其中汉字的区码和位码分别占一个存储单元,每个汉字占两个存储单元。由于区码和位码的取值范围都是在1-94之间,这样的范围同西文的存储表示冲突。例如汉字‘珀’在GB2312中的区位码为7174,其两字节表示形式为71,74;而两个西文字符‘GJ’的存储码也是71,74。这种冲突将导致在解释编码时到底表示的是一个汉字还是两个西文字符将无法判断。
为避免同西文的存储发生冲突,GB2312字符在进行存储时,通过将原来的每个字节第8bit设置为1同西文加以区别,如果第8bit为0,则表示西文字符,否则表示GB2312中的字符。实际存储时,采用了将区位码的每个字节分别加上A0H(160)的方法转换为存储码,计算机存储规则是此编码的补码,而且是位码在前,区码在后。例如汉字‘啊’的区位码为1601,其存储码为B0A1H,其转换过程为: 区位码 区码转换 位码转换 存储码 1001H 10H+A0H=B0H 01H+A0H=A1H B0A1H GB2312编码用两个字节(8位2进制)表示一个汉字,所以理论上最多可以表示256×256=65536个汉字。但这种编码方式也仅仅在中国行得通,如果您的网页使用的GB2312编码,那么很多外国人在浏览你的网页时就可能无法正常显示,因为其浏览器不支持GB2312编码。当然,中国人在浏览外国网页(比如日文)时,也会出现乱码或无法打开的情况,因为我们的浏览器没有安装日文的编码表。
日文中的字乱码一、二、三指的是不同的字体编码系统,其中一区使用的是JIS编码,二区使用的是EUC编码,三区使用的是Shift_JIS编码。
1不同编码系统的起源和特点:
一区(JIS编码):JIS(日本产业规格)编码是在日本制定的一套字符编码标准,包括汉字、假名、拉丁字母等,用于表示日文字符。它是最早采用的日文字符编码系统之一。
二区(EUC编码):EUC(扩展UNIX编码)是一种多字节字符编码系统,用于表示日文、韩文、中文等多种语言字符。它提供了更高的字符容纳能力,并且可以在不同国家的计算机系统之间进行互操作。
三区(ShiftJIS编码):ShiftJIS是日本微软开发的一种字符编码系统,用于表示日文字符。它在一区和二区的基础上进行了扩展,包括更多的汉字和特殊字符。
2乱码的原因和解决方法:
乱码一二三的区别在于使用的字符编码系统不同,如果在不同编码系统之间进行转换或者在不支持相应编码的系统上打开,就会出现乱码现象。
解决乱码问题的方法包括:使用正确的编码系统打开文档、在软件中更改编码设置、使用专门的乱码处理工具等。
拓展知识:
标题一:日本的字符编码发展
日本的字符编码系统经历了多个阶段的发展和演变,从早期的JIS编码到后来的Unicode标准,这些变化影响了日本语言处理、计算机软硬件的设计和国际化交流。
标题二:Unicode的出现和作用
Unicode是一种全球通用的字符编码标准,旨在统一世界上各种语言和符号的表示方式。它提供了包括日文在内的数十万个字符的编码,解决了跨语言编码转换和显示的问题。
标题三:乱码对于日本用户的影响
在日本,乱码问题可能导致文字无法正常显示或传达,给使用者造成阅读困难、信息传递错误等问题,因此正确处理和处理乱码至关重要。
标题四:跨国字符编码的挑战和解决方案
在跨国环境中,不同语言和字符编码的差异给信息交流和软件开发带来了挑战。采用统一的字符编码标准(如Unicode)、提供多语言支持和乱码处理工具,可以帮助解决这些问题。
\u6211\u599c\u6b22\u4f60\u554a翻译意思为:“我喜欢你啊”。
\u6211\u559c\u6b22\u4f60\u554a翻译意思为:“我喜欢你啊”。通常多是比较害羞的二次元女生用的语言。Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论是什么语言。
Unicode是一种字符编码标准,用于将字符集中的每一个字符分配一个唯一的数字(代码点),以便在计算机系统中进行存储、处理和交换。它包括世界上几乎所有语言所需的字母、数字、标点符号和符号,被广泛应用于各种操作系统、编程语言和技术标准中。
Unicode是由Unicode联盟开发的一种字符编码方案,旨在通过对所有人类语言中的字符进行编码,实现跨平台、跨应用程序和跨语言的数据交换。
Unicode最初于1987年由美国计算机科学家Joe Becker提出,随后得到了国际计算机行业的广泛支持和推广。目前,Unicode最新版本的字符范围已经达到了143859个。
Unicode的优点:
1、支持多语言和多文化。Unicode通过统一的字符编码方案,支持世界上所有主要的文字、符号和脚本,使得各种语言和文化之间的交流更加容易。
2、提高数据交换的可靠性和互操作性。Unicode的应用不仅限于本地计算机,还广泛应用于网络通信和数据交换。Unicode的统一标准化使得数据在传输过程中不会因为使用不同的字符集而导致无法识别或者乱码等问题。
3、减少字符编码混乱和兼容性问题。在早期的计算机系统中,字符编码并没有得到广泛的标准化,不同的厂商和开发者甚至采用了不同的编码方案。
1、输入码
输入码是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等。
2、交换码
计算机内部处理的信息是用二进制代码表示的,而二进制代码使用起来是不方便的,于是需要采用信息交换码。
3、机内码
根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。
4、汉字的字形码
字形码输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。
5、汉字地址码
汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。
-汉字编码
信息编码标准化工作根据信息化管理需求用代码表达事物(概念)或其特征,并将其标识原则和方法以标准(规范)的方式进行发布和管理。该项工作是一项基础性工作,影响面广且深远、推进难度大,具备如下4个基本特点。
1信息编码标准化本质上属于高层次的标准化。
信息分类与编码标准化解决的是数据层面的规范化问题,所以应该结合企业信息化总体工程进行统一规划和部署,实现企业层面更广泛的协调和统一, 为信息集成共享和资源整合优化铺平道路。
2信息编码标准化涉及多专业和多学科。
信息分类编码标准化涉及设计、制造、管理、计算机、标准等多个学科和专业,各学科和专业相互交叉、相互渗透,所以一个编码方法往往需要计算机技术人员、工程技术人员和标准化人员共同研究确定,它不仅要反映信息组织与管理的模式,而且要求具有科学性与实用性,需要各有关单位、部门及专业人员大力协同工作实现。
3信息编码标准化工作具有全过程、全方位特点。
制造企业的信息编码标准化工作范畴涵盖从产品、零部件到原材料、设备、工装等各种制造物资,从市场调查(军工产品的立项论证)到产品设计、制造、装配、试验、定型、使用直至报废的全过程,前端延伸到供应商,后端延伸到客户,具有全过程、全方位的显著特点。
4信息编码标准化工作以追求代码统一(唯一)为目的。
在实际工作中,对具体事物(或概念)进行分类与编码时,往往有多种方法可选,这些方法各有其优缺点,在很难判断哪一种方法是最佳选择时,追求代码统一(唯一)成为主要目的,这时,企业应当尽快确定一种方法,立为标杆,形成标准统一发布和使用。
对于信息编码标准化工作来讲, 明确哪些信息对象需要编码、收集和分析代码的生成与使用要求等是该项工作关键的步骤,本文从企业业务、产品全生命周期和信息系统实施3个途径探讨企业信息编码标准化需求的收集与分析过程。
字符编码的GB2312
本文2023-10-11 06:19:00发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/119604.html