UnicodeDecodeError—UTF-8 编码(Pytho

网友投稿 526 2022-12-01

UnicodeDecodeError—UTF-8 编码(Pytho

UnicodeDecodeError—UTF-8 编码(Pytho

目录

​​1 概述​​

​​2 基本概念​​

​​2.1 字符(Character)​​

​​2.2 字符集(Character set)​​

​​2.3 字符编码(Character encoding)​​

​​3 常见的字符编码简介​​

​​3.1 ASCII 编码​​

​​3.2 Unicode 编码​​

​​3.3 UTF-8编码​​

​​4 Python中的字符类型 ​​

​​4.1 Python 中的字符类型​​

​​4.2 UnicodeEncodeError & UnicodeDecodeError 根源​​

​​5 小结​​

1 概述

托勒密的地心说,稳定的统治西方的农业文明1400年;哥白尼的日心说出来,四百年都没到,大部分都是错的,他说太阳是宇宙的中心,然后太阳只是太阳系的中心,他说行星都围绕太阳转是正圆形轨道,然后,被开普勒证明是错的,应该是椭圆形轨道才对,牛顿的绝对时空说,只出来两百年,就被爱因斯坦的相对时空说挤到后排座了,然后爱因斯坦赶紧宣布,我的学说只是一个过渡。今天看来他说得很对,量子纠缠的超光速给了相对时空说一个沉重的打击。爱因斯坦说,宇宙就像一个打不开的表的表壳,我们只能站在外面逻辑模拟他,永远得不到这表真真是怎么运作的。我们能做的就是不断的模拟。在中国,一切讲究学以致用,我们的科学也属于实用科学,大家都只关心实用,比如学习Python,根本不愿意抽时间去了解他的底层逻辑,其实就是地基。地基牢固了,楼房可以建得很高,而不会遥遥欲坠。

2 基本概念

3 常见的字符编码简介

常见的字符编码有 ASCII 编码, GBK 编码, Unicode 编码和 UTF-8 编码等等。这里,我们主要 介绍 ASCII 、 Unicode 和 UTF-8。 3.1 ASCII 编码 计算机是在美国诞生的,人家用的是英语,而在英语的世界里,不过就是英文字母,数字和一些普通符 号的组合而已。 在 20 世纪 60 年代,美国制定了一套字符编码方案,规定了英文字母,数字和一些普通符号跟二进 制的转换关系,被称为 ASCII (American Standard Code for Information Interchange ,美国信息互换标准编码 ) 码。 比如,大写英文字母 A 的二进制表示是 01000001 (十进制 65 ),小写英文字母 a 的二进制表示 是 01100001 (十进制 97 ),空格 SPACE 的二进制表示是 00100000 (十进制 32 )。 3.2 Unicode 编码 ASCII 码只规定了 128 个字符的编码,这在美国是够用的。可是,计算机后来传到了欧洲,亚洲, 乃至世界各地,而世界各国的语言几乎是完全不一样的,用 ASCII 码来表示其他语言是远远不够的, 所以,不同的国家和地区又制定了自己的编码方案,比如中国大陆的 GB2312 编码 和 GBK 编码等, 日本的 Shift_JIS 编码等等。虽然各个国家和地区可以制定自己的编码方案,但不同国家和地区的计算机在数据传输的过程中就会出 现各种各样的乱码(mojibake ),这无疑是个灾难。 怎么办?想法也很简单,就是将全世界所有的语言统一成一套编码方案,这套编码方案就叫 Unicode ,它为每种语言的每个字符设定了独一无二的二进制编码,这样就可以跨语言,跨平台进行文 本处理了,是不是很棒! Unicode 1.0 版诞生于 1991 年 10 月,至今它仍在不断增修,每个新版本都会加入更多新的字 符,目前最新的版本为 2016 年 6 月 21 日公布的 9.0.0 。 Unicode 标准使用十六进制数字,而且在数字前面加上前缀 U+ ,比如,大写字母「 A 」的 unicode 编码为 U+0041 ,汉字「严」的 unicode 编码为 U+4E25 。更多的符号对应表,可 以查询 unicode.org ,或者专门的 汉字对应表 。 3.3 UTF-8编码 Unicode 看起来已经很完美了,实现了大一统。但是, Unicode 却存在一个很大的问题:资源浪费。为什么这么说呢?原来,Unicode 为了能表示世界各国所有文字,一开始用两个字节,后来发现两个 字节不够用,又用了四个字节。比如,汉字「严」的 unicode 编码是十六进制数 4E25 ,转换成 二进制有十五位,即 100111000100101 ,因此至少需要两个字节才能表示这个汉字,但是对于其他 的字符,就可能需要三个或四个字节,甚至更多。 这时,问题就来了,如果以前的 ASCII 字符集也用这种方式来表示,那岂不是很浪费存储空间。比 如,大写字母「A 」的二进制编码为 01000001 ,它只需要一个字节就够了,如果 unicode 统一使用 三个字节或四个字节来表示字符,那「A 」的二进制编码的前面几个字节就都是 0 ,这是很浪费存 储空间的。 为了解决这个问题,在 Unicode 的基础上,人们实现了 UTF-16, UTF-32 和 UTF-8 。下面只说 一下 UTF-8 。 UTF-8 (8-bit Unicode Transformation Format) 是一种针对 Unicode 的可变长度字符编 码,它使用一到四个字节来表示字符,例如, ASCII 字符继续使用一个字节编码,阿拉伯文、希腊文 等使用两个字节编码,常用汉字使用三个字节编码,等等。 因此,我们说, UTF-8 是 Unicode 的实现方式之一,其他实现方式还包括 UTF-16 (字符用两个或 四个字节表示)和 UTF-32 (字符用四个字节表示)。

4 Python中的字符类型

5 小结

(1)UTF-8 是一种针对 Unicode 的可变长度字符编码,它是 Unicode 的实现方式之一。 (2)Unicode 字符集有多种编码标准,比如 UTF-8, UTF-7, UTF-16 。 (3)在进行同时包含 str 类型和 unicode 类型的字符串操作时, Python2 一律都把 str 解码 ( decode )成 unicode 再运算。 (4)如果函数或类等对象接收的是 str 类型的字符串,但你传的是 unicode , Python2 会默认使 用 ascii 将其编码成 str 类型再运算。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:每日哲学与编程练习5——分数问题(Python实现)
下一篇:送呆萌的她一个皮卡丘(Python实现)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~