10.Python——字符编码+UFT-8

    科技2024-10-18  25

    [1].计算机的三大组件

    三大核心硬件为cpu、内存、硬盘

    软件运行前,软件的代码及其相关数据都是存放于硬盘中的

    任何软件的启动都是将数据从硬盘中读入内存,然后cpu从内存中取出指令并执行

    软件运行过程中产生的数据最先都是存放于内存中的,若想永久保存软件产生的数据,则需要将数据由内存写入硬盘

    [2].python解释器的应用

    2.1 python解释器执行文件的流程

    #阶段1、启动python解释器,此时就相当于启动了一个文本编辑器 #阶段2、python解释器相当于文本编辑器,从硬盘上将test.py的内容读入到内存中 #阶段3、python解释器解释执行刚刚读入的内存的内容,开始识别python语法

    2.2 python解释器与文件本编辑的异同如下

    #1、相同点:前两个阶段二者完全一致,都是将硬盘中文件的内容读入内存,详解如下 python解释器是解释执行文件内容的,因而python解释器具备读py文件的功能,这一点与文本编辑器一样 #2、不同点:在阶段3时,针对内存中读入的内容处理方式不同,详解如下 文本编辑器将文件内容读入内存后,是为了显示或者编辑,根本不去理会python的语法,而python解释器将文件内容读入内存后,可不是为了给你瞅一眼python代码写的啥,而是为了执行python代码、会识别python语法)

    [3].什么是字符编码?

    3.1 什么是字符编码?

    人类在与计算机交互时,用的都是人类能读懂的字符,如中文字符、英文字符、日文字符等

    而计算机只能识别二进制数,详解如下

    #二进制数即由0和1组成的数字,例如010010101010。计算机是基于电工作的,电的特性即高低电平,人类从逻辑层面将高电平对应为数字1,低电平对应为数字0,这直接决定了计算机可以识别的是由0和1组成的数字

    毫无疑问,由人类的字符到计算机中的数字,必须经历一个过程

    3.2 字符编码表的发展史

    阶段一:现代计算机起源于美国,所以最先考虑仅仅是让计算机识别英文字符,于是诞生了ASCII表

    # ASCII表的特点: 1、只有英文字符与数字的一一对应关系 2、一个英文字符对应1Bytes,1Bytes=8bit,8bit最多包含256个数字,可以对应256个字符,足够表示所有英文字符

    阶段二:计算机能够识别中文和英文,中国人定制了GBK

    # GBK表的特点: 1、只有中文字符、英文字符与数字的一一对应关系 2、一个英文字符对应1Bytes 一个中文字符对应2Bytes 补充说明: 1Bytes=8bit,8bit最多包含256个数字,可以对应256个字符,足够表示所有英文字符 2Bytes=16bit,16bit最多包含65536个数字,可以对应65536个字符,足够表示所有中文字符

    为让计算机能够识别自己国家的字符外加英文字符,各个国家都制定了自己的字符编码表

    # Shift_JIS表的特点: 1、只有日文字符、英文字符与数字的一一对应关系 # Euc-kr表的特点: 1、只有韩文字符、英文字符与数字的一一对应关系

    此时,美国人用的计算机里使用字符编码标准是ASCII、中国人用的计算机里使用字符编码标准是GBK、日本人用的计算机里使用字符编码标准是Shift_JIS,如下图所示, 阶段三 存在所有语言中的所有字符与数字的一一对应关系,即兼容万国字符

    #1. 存在所有语言中的所有字符与数字的一一对应关系,即兼容万国字符 #2. 与传统的字符编码的二进制数都有对应关系,详解如下

    # 英文字符可以被ASCII识别 英文字符--->unciode格式的数字--->ASCII格式的数字 # 中文字符、英文字符可以被GBK识别 中文字符、英文字符--->unicode格式的数字--->gbk格式的数字 # 日文字符、英文字符可以被shift-JIS识别 日文字符、英文字符--->unicode格式的数字--->shift-JIS格式的数字

    [4].编码与解码

    由字符转换成内存中的unicode,以及由unicode转换成其他编码的过程,都称为编码encode 由内存中的unicode转换成字符,以及由其他编码转换成unicode的过程,都称为解码decode

    [5].utf-8的由来

    注意:如果保存到硬盘的是GBK格式二进制,当初用户输入的字符只能是中文或英文,同理如果保存到硬盘的是Shift_JIS格式二进制,当初用户输入的字符只能是日文或英文……如果我们输入的字符中包含多国字符,那么该如何处理?

    #多国字符—√—》内存(unicode格式的二进制)——X—》硬盘(GBK格式的二进制) #多国字符—√—》内存(unicode格式的二进制)——X—》硬盘(Shift_JIS格式的二进制) #多国字符—√—》内存(unicode格式的二进制)——√—》硬盘(???格式的二进制)

    理论上是可以将内存中unicode格式的二进制直接存放于硬盘中的,但由于unicode固定使用两个字节来存储一个字符,如果多国字符中包含大量的英文字符时,使用unicode格式存放会额外占用一倍空间(英文字符其实只需要用一个字节存放即可),然而空间占用并不是最致命的问题,最致命地是当我们由内存写入硬盘时会额外耗费一倍的时间,所以将内存中的unicode二进制写入硬盘或者基于网络传输时必须将其转换成一种精简的格式,这种格式即utf-8(全称Unicode Transformation Format,即unicode的转换格式)

    # 多国字符—√—》内存(unicode格式的二进制)——√—》硬盘(utf-8格式的二进制)

    那为何在内存中不直接使用utf-8呢?

    utf-8是针对Unicode的可变长度字符编码:一个英文字符占1Bytes,一个中文字符占3Bytes,生僻字用更多的Bytes存储 unicode更像是一个过渡版本,我们新开发的软件或文件存入硬盘都采用utf-8格式,等过去几十年,所有老编码的文件都淘汰掉之后,会出现一个令人开心的场景,即硬盘里放的都是utf-8格式,此时unicode便可以退出历史舞台,内存里也改用utf-8,天下重新归于统一

    5.1 字符串encode编码与decode解码的使用

    # 1、unicode格式------编码encode-------->其它编码格式 >>> x='上' # 在python3在'上'被存成unicode >>> res=x.encode('utf-8') >>> res,type(res) # unicode编码成了utf-8格式,而编码的结果为bytes类型,可以当作直接当作二进制去使用 (b'\xe4\xb8\x8a', <class 'bytes'>) # 2、其它编码格式------解码decode-------->unicode格式 >>> res.decode('utf-8') '上'
    Processed: 0.009, SQL: 8