我国汉字编码的国家标准是什么
汉字编码国家标准,分为双字节部分和四字节部分,而双字节部分和GBK基本完全相同,四字节部分到目前为止,比GBK多了6582个汉字。现有汉字编码:GB2312至1980是信息交换用汉字编码字符集基本集,GBK1995为汉字内码扩展规范,GB130001至1993即为信息技术,通用则为多八位编码字符集。
是的。
ascii有机内码机外码。
ASCII码是西文字符 机内码。
汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变。每个汉字占2个字节。
外码也称为汉字输入码。
ASCII码是国际上广泛使用的字符编码,用于西文字符。
国标码是我国于1981年颁布的汉字编码国家标准,用于汉字编码。
在计算机内部用来进行汉字存储、操作的编码称为汉字的机内码或称内码。
\u6211\u599c\u6b22\u4f60\u554a翻译意思为:“我喜欢你啊”。
\u6211\u559c\u6b22\u4f60\u554a翻译意思为:“我喜欢你啊”。通常多是比较害羞的二次元女生用的语言。Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论是什么语言。
Unicode是一种字符编码标准,用于将字符集中的每一个字符分配一个唯一的数字(代码点),以便在计算机系统中进行存储、处理和交换。它包括世界上几乎所有语言所需的字母、数字、标点符号和符号,被广泛应用于各种操作系统、编程语言和技术标准中。
Unicode是由Unicode联盟开发的一种字符编码方案,旨在通过对所有人类语言中的字符进行编码,实现跨平台、跨应用程序和跨语言的数据交换。
Unicode最初于1987年由美国计算机科学家Joe Becker提出,随后得到了国际计算机行业的广泛支持和推广。目前,Unicode最新版本的字符范围已经达到了143859个。
Unicode的优点:
1、支持多语言和多文化。Unicode通过统一的字符编码方案,支持世界上所有主要的文字、符号和脚本,使得各种语言和文化之间的交流更加容易。
2、提高数据交换的可靠性和互操作性。Unicode的应用不仅限于本地计算机,还广泛应用于网络通信和数据交换。Unicode的统一标准化使得数据在传输过程中不会因为使用不同的字符集而导致无法识别或者乱码等问题。
3、减少字符编码混乱和兼容性问题。在早期的计算机系统中,字符编码并没有得到广泛的标准化,不同的厂商和开发者甚至采用了不同的编码方案。
信息编码标准化工作根据信息化管理需求用代码表达事物(概念)或其特征,并将其标识原则和方法以标准(规范)的方式进行发布和管理。该项工作是一项基础性工作,影响面广且深远、推进难度大,具备如下4个基本特点。
1信息编码标准化本质上属于高层次的标准化。
信息分类与编码标准化解决的是数据层面的规范化问题,所以应该结合企业信息化总体工程进行统一规划和部署,实现企业层面更广泛的协调和统一, 为信息集成共享和资源整合优化铺平道路。
2信息编码标准化涉及多专业和多学科。
信息分类编码标准化涉及设计、制造、管理、计算机、标准等多个学科和专业,各学科和专业相互交叉、相互渗透,所以一个编码方法往往需要计算机技术人员、工程技术人员和标准化人员共同研究确定,它不仅要反映信息组织与管理的模式,而且要求具有科学性与实用性,需要各有关单位、部门及专业人员大力协同工作实现。
3信息编码标准化工作具有全过程、全方位特点。
制造企业的信息编码标准化工作范畴涵盖从产品、零部件到原材料、设备、工装等各种制造物资,从市场调查(军工产品的立项论证)到产品设计、制造、装配、试验、定型、使用直至报废的全过程,前端延伸到供应商,后端延伸到客户,具有全过程、全方位的显著特点。
4信息编码标准化工作以追求代码统一(唯一)为目的。
在实际工作中,对具体事物(或概念)进行分类与编码时,往往有多种方法可选,这些方法各有其优缺点,在很难判断哪一种方法是最佳选择时,追求代码统一(唯一)成为主要目的,这时,企业应当尽快确定一种方法,立为标杆,形成标准统一发布和使用。
对于信息编码标准化工作来讲, 明确哪些信息对象需要编码、收集和分析代码的生成与使用要求等是该项工作关键的步骤,本文从企业业务、产品全生命周期和信息系统实施3个途径探讨企业信息编码标准化需求的收集与分析过程。
国际码=区位码(十六进制)+2020H
机内码=国际码+8080H
机内码、国际码是十六进制的,区位码是十进制的。
一般换算全部用十六进制,不过特别注意:区位码从十进制转换为十六进制是两位两位分别转换的。
如:某汉字的区位码是2534。则25D=19H,34D=22H
国际码=1922H+2020H=3952H
机内码=3952H+8080H=B9D2H
扩展资料:
国家标准局颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。 GB2312 80中共有7445个字符符号: 汉字符号6763个 一级汉字3755个(按汉语拼音字母顺序排列) 二级汉字3008个(按部首笔划顺序排列)非汉字符号682个 。
GB2312 80规定,我们知道,键盘是当前微机的主要输入设备;输入码就是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。 汉字交换码(国标码)主要用于汉字信息交换,我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,原则上,两个字节可以表示 256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。
但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。这个方案可以容纳 128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94×94=8836个。
参考资料:
:区位码
:国际码
中文编码技术详解:
一、GB2312
ASCII这种字符编码规则显然用来处理英文没有什么问题,它的出现极大的促进了信息在西方尤其是美国的传播和交流。但是对于中文,常用汉字就有6000以上,ASCII 单字节编码显然是不够用。中国国家标准总局发布了GB2312码即中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,1981年5月1日实施,通行于大陆。GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。 EUC-CN可以理解为GB2312的别名,和GB2312完全相同。GB2312是基于区位码设计的,在区位码的区号和位号上分别加上A0H就得到了GB2312编码。
区位码,国标码,交换码,内码,外码的解释:
(1)区位码:就是把中文常用的符号,数字,汉字等分门别类进行编码。区位码把编码表分为94个区,每个区对应94个位,每个位置就放一个字符(汉字,符号,数字都属于字符)。这样每个字符的区号和位号组合起来就成为该汉字的区位码。区位码一般用10进制数来表示,如4907就表示49区7位,对应的字符是“学”。区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。
(2)国标码: 区位码无法用于汉字通信,因为它可能与通信使用的控制码(00H~1FH)(即0~31,还记得ASCII码特殊字符的范围吗?)发生冲突。于是ISO2022规定每个汉字的区号和位号必须分别加上32(即二进制数00100000,16进制20H),得到对应的国标交换码,简称国标码,交换码,因此,“学”字的国标交换码计算为:
1
2
3
4
00110001 00000111
+ 00100000 00100000
-------------------
01010001 00100111
用十六进制数表示即为5127H。
(3)交换码:即国标交换码的简称,等同上面说的国标码。
(4)内码:由于文本中通常混合使用汉字和西文字符,汉字信息如果不予以特别标识,就会与单字节的ASCII码混淆。此问题的解决方法之一是将一个汉字看成是两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位都为1。即国标码加上128(即二进制数10000000,16进制80H)这种高位为1的双字节汉字编码即为GB2312汉字的机内码,简称为内码。20H+80H=A0H。这也就是常说的在区位码的区号和位号上分别加上A0H就得到了GB2312编码的由来。
1
2
3
4
00110001 00000111
+ 10100000 10100000
-------------------
11010001 10100111
用十六进制数表示即为D1A7H。
(5)外码:机外码的简称,就是汉字输入码,是为了通过键盘字符把汉字输入计算机而设计的一种编码。 英文输入时,相输入什么字符便按什么键,外码和内码一致。汉字输入时,可能要按几个键才能输入一个汉字。 汉字输入方案有成百上千个,但是这千差万别的外码输入进计算机后都会转换成统一的内码。
总结一下:中国国家标准总局把中文常用字符编码为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该字符的区位码, 区位码用10进制数来表示,如4907就表示49区7位,对应的字符是“学”。 由于区位码的取值范围与通信使用的控制码(00H~1FH)(即0~31)发生冲突。每个汉字的区号和位号分别加上32(即16进制20H)得到国标码,交换码。“学”的国标码为5127H。由于文本中通常混合使用汉字和西文字符,为了让汉字信息不会与单字节的ASCII码混淆,将一个汉字看成是两个扩展ASCII码,即汉字的两个字节的最高位置为1,得到的编码为GB2312汉字的内码。“学”的内码为D1A7H。无论你使用什么输入法,通过什么样的按键组合把“学”输入计算机,“学”在使用GB2312(以及兼容GB2312)编码的计算机里的内码都是D1A7H。
二、GBK
GB2312的出现基本满足了汉字的计算机处理需要,但由于上面提到未收录繁体字和生僻字,从而不能处理人名、古汉语等方面出现的罕用字,这导致了1995年《汉字编码扩展规范》(GBK)的出现。GBK编码是GB2312编码的超集,向下完全兼容GB2312,兼容的含义是不仅字符兼容,而且相同字符的编码也相同,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。CP936和GBK的有些许差别,绝大多数情况下可以把CP936当作GBK的别名。
三、GB18030
GB18030编码向下兼容GBK和GB2312。GB18030收录了所有Unicode31中的字符,包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。GBK和GB2312都是双字节等宽编码,如果算上和ASCII兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。GB18030编码是变长编码,有单字节、双字节和四字节三种方式。
从GB2312到GBK再到GB18030收录的字符越来越多即可。万幸的是一直是向下兼容的,也就是说一个汉字在这三个编码标准里的编码是一模一样的。这些编码的共性是变长编码,单字节ASCII兼容,对其他字符GB2312和GBK都使用双字节等宽编码,只有GB18030还有四字节编码的方式。这些编码最大的问题是2个。1由于低字节的编码范围和ASCII有重合,所以不能根据一个字节的内容判断是中文的一部分还是一个独立的英文字符。2如果有两个汉字编码为A1A2B1B2,存在A2B1也是一个有效汉字编码的特殊情况。这样就不能直接使用标准的字符串匹配函数来判断一个字符串里是否包含某一个汉字,而需要先判断字符边界然后才能进行字符匹配判断。
四、使用繁体的中文社群中最常用的电脑汉字字符集标准叫大五码(Big5),共收录13,060个中文字,其中有二字为重覆编码2003年,Big5被收录到台湾官方标准的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。
1GB2321: 简体中文编码,一个汉字占用2个字节,在大陆是主要编码方式。当文章/网页中包含繁体中文、日文、韩文等等时,这些内容可能无法被正确编码。
2BIG5: 繁体中文编码,主要在台湾地区采用。
3GBK: 支持简体及繁体中文,但对他国非拉丁字母语言还是有问题。
4UTF-8: Unicode编码的一种。Unicode用一些基本的保留字符制定了三套编码方式,它们分别UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分。UTF-8俗称“万国码”,可以同屏显示多语种,一个汉字占用3字节。为了做到国际化,网页应尽可能采用UTF-8编码。
当然,处理中文时http头也要改成UTF-8编码的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。
1EUC_KR: 用来储存韩国KSX1001字集(旧称KSC5601)的字符。此规格由KSX2901(旧称KS C 5861)定义
KS X 1001字元使用两个字节来表示。
“高位 字节 ”使用0xA1-0xFE
“低位 字节 ”使用0xA1-0xFE
1Shift_JIS : 是一个日本电脑系统常用的编码表。它能容纳全角及半角拉丁字母、平假名、片假名、符号及日语汉字。
它被命名为Shift_JIS的原因,是它在放置全角字符时,要避开原本在0xA1-0xDF放置的半角假名字符。
在微软及IBM的日语电脑系统中,即使用了这个编码表。这个编码表称为CP932。
2EUC_JP: 用来存储日本JISx0208以及JISx0212的字集的字符,但日文文字较多使用ISO-2022-JP或Shift_JIS的方法来表示。
1KOI8-R: KOI-8系列的斯拉夫文字8位元编码,供俄语及保加利亚语使用。
常用字符集分类
ASCII及其扩展字符集
作用:表语英语及西欧语言。
位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。
范围:ASCII从00到7F,扩展从00到FF。
ISO-8859-1字符集
作用:扩展ASCII,表示西欧、希腊语等。
位数:8位,
范围:从00到FF,兼容ASCII字符集。
GB2312字符集
作用:国家简体中文字符集,兼容ASCII。
位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。
范围:高字节从A1到F7, 低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到编码。
BIG5字符集
作用:统一繁体字编码。
位数:使用2个字节表示,表示13053个汉字。
范围:高字节从A1到F9,低字节从40到7E,A1到FE。
GBK字符集
作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312。
位数:使用2个字节表示,可表示21886个字符。
范围:高字节从81到FE,低字节从40到FE。
GB18030字符集
作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。
位数:它采用变字节表示(1 ASCII,2,4字节)。可表示27484个文字。
范围:1字节从00到7F; 2字节高字节从81到FE,低字节从40到7E和80到FE;4字节第一三字节从81到FE,第二四字节从30到39。
UCS字符集
作用:国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织,UCS-2和UNICODE兼容。
位数:它有UCS-2和UCS-4两种格式,分别是2字节和4字节。
范围:目前,UCS-4只是在UCS-2前面加了0x0000。
UNICODE字符集
作用:为世界650种语言进行统一编码,兼容ISO-8859-1。
位数:UNICODE字符集有多个编码方式,分别是UTF-8,UTF-16和UTF-32。
我国汉字编码的国家标准是什么
本文2023-10-11 15:03:42发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/120904.html