UnicodeDecodeError—UTF-8 编码（Pytho-FinClip官网

UnicodeDecodeError—UTF-8 编码（Pytho

网友投稿 564 2022-12-01

UnicodeDecodeError—UTF-8 编码（Pytho

1 概述

2 基本概念

2.1 字符（Character）

2.2 字符集（Character set）

2.3 字符编码（Character encoding）

3 常见的字符编码简介

3.1 ASCII 编码

3.2 Unicode 编码

3.3 UTF-8编码

4 Python中的字符类型

4.1 Python 中的字符类型

4.2 UnicodeEncodeError & UnicodeDecodeError 根源

5 小结

1 概述

托勒密的地心说，稳定的统治西方的农业文明1400年；哥白尼的日心说出来，四百年都没到，大部分都是错的，他说太阳是宇宙的中心，然后太阳只是太阳系的中心，他说行星都围绕太阳转是正圆形轨道，然后，被开普勒证明是错的，应该是椭圆形轨道才对，牛顿的绝对时空说，只出来两百年，就被爱因斯坦的相对时空说挤到后排座了，然后爱因斯坦赶紧宣布，我的学说只是一个过渡。今天看来他说得很对，量子纠缠的超光速给了相对时空说一个沉重的打击。爱因斯坦说，宇宙就像一个打不开的表的表壳，我们只能站在外面逻辑模拟他，永远得不到这表真真是怎么运作的。我们能做的就是不断的模拟。在中国，一切讲究学以致用，我们的科学也属于实用科学，大家都只关心实用，比如学习Python，根本不愿意抽时间去了解他的底层逻辑，其实就是地基。地基牢固了，楼房可以建得很高，而不会遥遥欲坠。

2 基本概念

3 常见的字符编码简介

常见的字符编码有 ASCII 编码， GBK 编码， Unicode 编码和 UTF-8 编码等等。这里，我们主要介绍 ASCII 、 Unicode 和 UTF-8。 3.1 ASCII 编码计算机是在美国诞生的，人家用的是英语，而在英语的世界里，不过就是英文字母，数字和一些普通符号的组合而已。在 20 世纪 60 年代，美国制定了一套字符编码方案，规定了英文字母，数字和一些普通符号跟二进制的转换关系，被称为 ASCII (American Standard Code for Information Interchange ，美国信息互换标准编码 ) 码。比如，大写英文字母 A 的二进制表示是 01000001 （十进制 65 ），小写英文字母 a 的二进制表示是 01100001 （十进制 97 ），空格 SPACE 的二进制表示是 00100000 （十进制 32 ）。 3.2 Unicode 编码 ASCII 码只规定了 128 个字符的编码，这在美国是够用的。可是，计算机后来传到了欧洲，亚洲，乃至世界各地，而世界各国的语言几乎是完全不一样的，用 ASCII 码来表示其他语言是远远不够的，所以，不同的国家和地区又制定了自己的编码方案，比如中国大陆的 GB2312 编码和 GBK 编码等，日本的 Shift_JIS 编码等等。虽然各个国家和地区可以制定自己的编码方案，但不同国家和地区的计算机在数据传输的过程中就会出现各种各样的乱码（mojibake ），这无疑是个灾难。怎么办？想法也很简单，就是将全世界所有的语言统一成一套编码方案，这套编码方案就叫 Unicode ，它为每种语言的每个字符设定了独一无二的二进制编码，这样就可以跨语言，跨平台进行文本处理了，是不是很棒！ Unicode 1.0 版诞生于 1991 年 10 月，至今它仍在不断增修，每个新版本都会加入更多新的字符，目前最新的版本为 2016 年 6 月 21 日公布的 9.0.0 。 Unicode 标准使用十六进制数字，而且在数字前面加上前缀 U+ ，比如，大写字母「 A 」的 unicode 编码为 U+0041 ，汉字「严」的 unicode 编码为 U+4E25 。更多的符号对应表，可以查询 unicode.org ，或者专门的汉字对应表。 3.3 UTF-8编码 Unicode 看起来已经很完美了，实现了大一统。但是， Unicode 却存在一个很大的问题：资源浪费。为什么这么说呢？原来，Unicode 为了能表示世界各国所有文字，一开始用两个字节，后来发现两个字节不够用，又用了四个字节。比如，汉字「严」的 unicode 编码是十六进制数 4E25 ，转换成二进制有十五位，即 100111000100101 ，因此至少需要两个字节才能表示这个汉字，但是对于其他的字符，就可能需要三个或四个字节，甚至更多。这时，问题就来了，如果以前的 ASCII 字符集也用这种方式来表示，那岂不是很浪费存储空间。比如，大写字母「A 」的二进制编码为 01000001 ，它只需要一个字节就够了，如果 unicode 统一使用三个字节或四个字节来表示字符，那「A 」的二进制编码的前面几个字节就都是 0 ，这是很浪费存储空间的。为了解决这个问题，在 Unicode 的基础上，人们实现了 UTF-16, UTF-32 和 UTF-8 。下面只说一下 UTF-8 。 UTF-8 (8-bit Unicode Transformation Format) 是一种针对 Unicode 的可变长度字符编码，它使用一到四个字节来表示字符，例如， ASCII 字符继续使用一个字节编码，阿拉伯文、希腊文等使用两个字节编码，常用汉字使用三个字节编码，等等。因此，我们说， UTF-8 是 Unicode 的实现方式之一，其他实现方式还包括 UTF-16 （字符用两个或四个字节表示）和 UTF-32 （字符用四个字节表示）。

4 Python中的字符类型

5 小结

(1)UTF-8 是一种针对 Unicode 的可变长度字符编码，它是 Unicode 的实现方式之一。 (2)Unicode 字符集有多种编码标准，比如 UTF-8, UTF-7, UTF-16 。 (3)在进行同时包含 str 类型和 unicode 类型的字符串操作时， Python2 一律都把 str 解码（ decode ）成 unicode 再运算。 (4)如果函数或类等对象接收的是 str 类型的字符串，但你传的是 unicode ， Python2 会默认使用 ascii 将其编码成 str 类型再运算。

国产化驱动经济自主性与科技创新的未来之路

564 2022-12-01

UnicodeDecodeError—UTF-8 编码（Pytho

数字政务小程序如何提升政务服务效率与公众参与度？

devops 信创在数字经济时代提升企业竞争力的关键策略

国产化驱动经济自主性与科技创新的未来之路

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计