各种编码格式介绍

 时间:2024-10-29 04:18:20

编码格式太多了,这里尽量的介绍下各种常见的编码格式。另外,因为许多资料是我自己上网查的,也有自己的总结,所以不一定正确,如果发现有错误,麻烦指出,我会修改的。

一.ANSI

1、这里,我将ANSI作为一个大项。根据我自己的理解,ANSI并不是一种具体的编码,而是一种字符代码。比如:ASCII、GB2312、GBK、GB18030等都属于ANSI的范畴。不过这样说也不准确,根据我查阅的资料来看,ASCII是早于ANSI的,所以只能说ANSI是兼容ASCII的,而不能说ASCII是根据ANSI编码所得。

2、ASCII,他的全称为American Standard Code for Information Interchange,美国信息交换标准代码。要知道,一个字节为8位,而8位最多可以组合256种不同的状态,用来保存英文、数字、符号完全够用了,而事实上,ASCII只用了前128个字符。但是后来除了美国,其他的一些国家也使用了计算机,但是他们的文字并非都是这些字母,所以又使用了后面的128位,又叫:”扩展字符集“。

3、MBCS:就目前我查阅的资料来看,MBCS是一种统称,许多汉字的编码都属于MBCS,比如GB2312、GBK、GB18030等。因为无论ASCII编码如何扩展,也满足不了中文,中文的字数太庞大了。MBCS支持中英文混用,英文的话就和ASCII一样,中文的话就占2个字节,GB2312的字数最少,其规定必须2个字节都大于127才表示一个汉字;其次是GBK,其规定只要第一个字节大于127就可以了;最后是GB18030,具体编码不清楚,好像不止2个字节,但应该是兼容GBK的,字数比前面2个要多的多。

4、现在,再来看ANSI,叫美国国家标准协会,顾名思义是用来定义世界编码方式的,不像ASCII,当初创建的时候只是想给美国人自己用而已。ANSI的规则是,ASCII不能动,也就是说所有的ANSI标准都是兼容英文的,比如中文的GBK编码就可以实现中文和英文混用。但是,每个国家自己的文字编码就各不相同了,比如中文的ANSI编码和日本的ANSI编码就完全不同,所以无法实现中文和日文的混用。另外,只要你的编码被ANSI认可,以后世界上任何地方只要使用中文,就必须用中国的这一套编码方案。

各种编码格式介绍

3、所以,Unicode将全世界所有的文字等都进行了统一的编码,这样就不会有ANSI的兼容问题。

4、但是Unicode一直得不到推广。因为英文只占一个字节,但是在Unicode却要占2个字节,有很大的浪费;另外,又如何去区分Unicode和ANSII呢,计算机如何知道3个字节到底是一个字符,还是3个字符呢?

5、直到互联网的出现,推动了Unicode的推广。因为,互联网拉近了人和人之间的距离。那么如果用ANSI的话,编码格式太乱了。而UTF标准就出现了,其中UTF-8就是在互联网上使用最广的一种unicode的实现方式,因为他是变长的,所以极大的节省了空间,这种为传输而出现的编码格式,使得全世界的编码方式统一,非常的便利。如下图所示,有一个网页的代码,他的编码格式就是UTF-8。这里记录下:java是双字节编码,采用的是UTF-16BE,中文占2个字节,英文占2个字节

各种编码格式介绍

2、然后关闭文档,重新打开,发现变成乱码了

各种编码格式介绍

4、在看一下刚才写的联通,发现编码方式为UTF-8,此时隐约可以知道,应该是编码导致的。

各种编码格式介绍
  • 批处理怎么删除指定文件夹文件
  • 用Excel判断近15天内过生日的员工
  • 如何使用EXCEL中的宏录制功能插入空白行
  • 如何快速建立超大文件,可用于测试U盘真实空间
  • EXCEL表格vba系列02之如何插入按钮控件
  • 热门搜索
    元胡的功效与作用 江西有什么好玩的地方 片姜黄的功效与作用 佛手柑的功效与作用 设计费计入什么科目 法的作用 加湿器的作用 炒麦芽的功效与作用 左氧氟沙星片的功效与作用 金刚藤的功效与作用