ascii、unicode、utf-8、gbk

81214051 2020-06-01

字节码是一种中间状态(中间码)的二进制代码(文件)。需要直译器转译后才能成为机器码。

1字节 = 8 位位(bit),数据存储是以“字节”(Byte)为单位,

数据传输是以大多是以“位”(bit,又名“比特”)为单位,

一个位就代表一个0或1(即一个二进制),

二进制是构成存储器的最小单位,

每8个位(bit,简写为b)组成一个字节(Byte,简写为B),

字节是最小一级的信息单位

utf-8编码:一个中文包含繁体字等于三个字节,一个英文字符等于一个字节。

gbk编码:一个中文包含繁体字等于二个字节,一个英文字符等于一个字节。

python2内容进行编码(默认ascii),而python3对内容进行编码的默认为utf-8。

ascii 最多只能用8位来表示(一个字节),即:2**8 = 256,所以,ASCII码最多只能表示 256 个符号。

unicode 万国码,任何一个字符==两个字节

utf-8 万国码的升级版 一个中文字符==三个字节 英文是一个字节 欧洲的是 2个字节

gbk 国内版本 一个中文字符==2个字节 英文是一个字节

gbk 转 utf-8 需通过媒介 unicode

相关推荐