Python数据分析之pandas学习（一）-FinClip官网

Python数据分析之pandas学习（一）

网友投稿 1018 2022-08-28

Python数据分析之pandas学习（一）

我们接着上次分享给大家的两篇文章：Python数据分析之numpy学习（一）和Python数据分析之numpy学习（二），继续讨论使用Python中的pandas模块进行数据分。在接下来的两期pandas介绍中将学习到如下8块内容：

1、数据结构简介：DataFrame和Series

2、数据索引index

3、利用pandas查询数据

4、利用pandas的DataFrames进行统计分析

5、利用pandas实现SQL操作

6、利用pandas进行缺失值的处理

7、利用pandas实现Excel的数据透视表功能

8、多层索引的使用

一、数据结构介绍

在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引的自动对齐功能；DataFrame类似于numpy中的二维数组，同样可以通用numpy数组的函数和方法，而且还具有其他灵活应用，后续会介绍到。

1、Series的创建

序列的创建主要有三种方式：

1）通过一维数组创建序列

In [1]:

In [2]:

In [3]:

Out[3]:

In [4]:

Out[4]:

返回的是数组类型。

In [5]:

In [6]:

Out[6]:

0 0

1 1

2 2

3 3

4 4

5 5

6 6

7 7

8 8

9 9

dtype: int32

In [7]:

Out[7]:

返回的是序列类型。

2）通过字典的方式创建序列

In [8]:

In [9]:

Out[9]:

In [10]:

Out[10]:

返回的是字典类型。

In [11]:

In [12]:

Out[12]:

a 10

b 20

c 30

d 40

e 50

dtype: int64

In [13]:

Out[13]:

返回的是序列类型。

3）通过DataFrame中的某一行或某一列创建序列

这部分内容我们放在后面讲，接下来就开始讲一讲如何构造一个DataFrame。

2、DataFrame的创建

数据框的创建主要有三种方式：

1）通过二维数组创建数据框

In [14]:

In [15]:

Out[15]:

array([[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]])

In [16]:

Out[16]:

返回的是数组类型。

In [17]:

In [18]:

Out[18]:

0 1 2

0 0 1 2

1 3 4 5

2 6 7 8

3 9 10 11

In [19]:

Out[19]:

返回的数据框类型。

2）通过字典的方式创建数据框

以下以两种字典来创建数据框，一个是字典列表，一个是嵌套字典。

In [20]:

...:

In [21]:

Out[21]:

{'a': [1, 2, 3, 4],

'b': [5, 6, 7, 8],

'c': [9, 10, 11, 12],

'd': [13, 14, 15, 16]}

In [22]:

Out[22]:

返回的是字典类型。

In [23]:

In [24]:

Out[24]:

a b c d

0 1 5 9 13

1 2 6 10 14

2 3 7 11 15

3 4 8 12 16

In [25]:

Out[25]:

返回的是数据框类型。

In [26]:

...:

In [27]:

Out[27]:

{'one': {'a': 1, 'b': 2, 'c': 3, 'd': 4},

'three': {'a': 9, 'b': 10, 'c': 11, 'd': 12},

'two': {'a': 5, 'b': 6, 'c': 7, 'd': 8}}

In [28]:

Out[28]:

返回的是字典类型。

In [29]:

In [30]:

Out[30]:

one three two

a 1 9 5

b 2 10 6

c 3 11 7

d 4 12 8

In [31]:

Out[31]:

返回的是数据框类型。这里需要说明的是，如果使用嵌套字典创建数据框的话，嵌套字典的最外层键会形成数据框的列变量，而内层键则会形成数据框的行索引。

3）通过数据框的方式创建数据框

In [32]:

In [33]:

Out[33]:

one three

a 1 9

b 2 10

c 3 11

d 4 12

In [34]:

Out[34]:

返回的是数据框类型。

In [35]:

In [36]:

Out[36]:

a 1

b 2

c 3

d 4

Name: one, dtype: int64

In [37]:

Out[37]:

这里就是通过选择数据框中的某一列，返回一个序列的对象。

二、数据索引index

细致的朋友可能会发现一个现象，不论是序列也好，还是数据框也好，对象的最左边总有一个非原始数据对象，这个是什么呢？不错，就是我们接下来要介绍的索引。

在我看来，序列或数据框的索引有两大用处，一个是通过索引值或索引标签获取目标数据，另一个是通过索引，可以使序列或数据框的计算、操作实现自动化对齐，下面我们就来看看这两个功能的应用。

1、通过索引值或索引标签获取数据

In [38]:

In [39]:

Out[39]:

0 1

1 1

2 2

3 3

4 5

5 8

dtype: int32

如果不给序列一个指定的索引值，则序列自动生成一个从0开始的自增索引。可以通过index查看序列的索引：

In [40]:

Out[40]:

现在我们为序列设定一个自定义的索引值：

In [41]:

In [42]:

Out[42]:

a 1

b 1

c 2

d 3

e 5

f 8

dtype: int32

序列有了索引，就可以通过索引值或索引标签进行数据的获取：

In [43]:

Out[43]:

In [44]:

Out[44]:

In [45]:

Out[45]:

b 1

d 3

f 8

dtype: int32

In [46]:

Out[46]:

a 1

b 1

d 3

f 8

dtype: int32

In [47]:

Out[47]:

a 1

b 1

c 2

d 3

dtype: int32

In [48]:

Out[48]:

c 2

d 3

e 5

f 8

dtype: int32

In [49]:

Out[49]:

b 1

c 2

d 3

e 5

dtype: int32

千万注意：如果通过索引标签获取数据的话，末端标签所对应的值是可以返回的！在一维数组中，就无法通过索引标签获取数据，这也是序列不同于一维数组的一个方面。

2、自动化对齐

如果有两个序列，需要对这两个序列进行算术运算，这时索引的存在就体现的它的价值了--自动化对齐。

In [50]:

...:

In [51]:

Out[51]:

a 10

b 15

c 20

d 30

e 55

f 80

dtype: int32

In [52]:

...:

In [53]:

Out[53]:

a 12

c 11

g 13

b 15

d 14

f 16

dtype: int32

In [54]:

Out[54]:

a 22.0

b 30.0

c 31.0

d 44.0

e NaN

f 96.0

g NaN

dtype: float64

In [55]:

Out[55]:

a 0.833333

b 1.000000

c 1.818182

d 2.142857

e NaN

f 5.000000

g NaN

dtype: float64

由于s5中没有对应的g索引，s6中没有对应的e索引，所以数据的运算会产生两个缺失值NaN。注意，这里的算术结果就实现了两个序列索引的自动对齐，而非简单的将两个序列加总或相除。对于数据框的对齐，不仅仅是行索引的自动对齐，同时也会自动对齐列索引（变量名）。

数据框中同样有索引，而且数据框是二维数组的推广，所以数据框不仅有行索引，而且还存在列索引，关于数据框中的索引相比于序列的应用要强大的多，这部分内容将放在下面的数据查询中讲解。

三、利用pandas查询数据

这里的查询数据相当于R语言里的subset功能，可以通过布尔索引有针对的选取原数据的子集、指定行、指定列等。我们先导入一个student数据集：

In [56]:

查询数据的前5行或末尾5行：

In [57]:

Out[57]:

Name Sex Age Height Weight

0 Alfred M 14 69.0 112.5

1 Alice F 13 56.5 84.0

2 Barbara F 13 65.3 98.0

3 Carol F 14 62.8 102.5

4 Henry M 14 63.5 102.5

In [58]:

Out[58]:

Name Sex Age Height Weight

14 Philip M 16 72.0 150.0

15 Robert M 12 64.8 128.0

16 Ronald M 15 67.0 133.0

17 Thomas M 11 57.5 85.0

18 William M 15 66.5 112.0

查询指定的行：

In [59]:

Out[59]:

Name Sex Age Height Weight

0 Alfred M 14 69.0 112.5

2 Barbara F 13 65.3 98.0

4 Henry M 14 63.5 102.5

5 James M 12 57.3 83.0

7 Janet F 15 62.5 112.5

查询指定的列：

In [60]:

Out[60]:

Name Height Weight

0 Alfred 69.0 112.5

1 Alice 56.5 84.0

2 Barbara 65.3 98.0

3 Carol 62.8 102.5

4 Henry 63.5 102.5

也可以通过ix索引标签查询指定的列：

In [61]:

Out[61]:

Name Height Weight

0 Alfred 69.0 112.5

1 Alice 56.5 84.0

2 Barbara 65.3 98.0

3 Carol 62.8 102.5

4 Henry 63.5 102.5

查询指定的行和列：

In [62]:

Out[62]:

Name Height Weight

0 Alfred 69.0 112.5

2 Barbara 65.3 98.0

4 Henry 63.5 102.5

5 James 57.3 83.0

7 Janet 62.5 112.5

这里简单说明一下ix的用法：df.ix[行索引,列索引]

1）ix后面必须是中括号

2）多个行索引或列索引必须用中括号括起来

3）如果选择所有行索引或列索引，则用英文状态下的冒号:表示

以上是从行或列的角度查询数据的子集，现在我们来看看如何通过布尔索引实现数据的子集查询。

查询所有女生的信息：

In [63]:

Out[63]:

Name Sex Age Height Weight

1 Alice F 13 56.5 84.0

2 Barbara F 13 65.3 98.0

3 Carol F 14 62.8 102.5

6 Jane F 12 59.8 84.5

7 Janet F 15 62.5 112.5

10 Joyce F 11 51.3 50.5

11 Judy F 14 64.3 90.0

12 Louise F 12 56.3 77.0

13 Mary F 15 66.5 112.0

查询出所有12岁以上的女生信息：

In [64]:

Out[64]:

Name Sex Age Height Weight

1 Alice F 13 56.5 84.0

2 Barbara F 13 65.3 98.0

3 Carol F 14 62.8 102.5

7 Janet F 15 62.5 112.5

11 Judy F 14 64.3 90.0

13 Mary F 15 66.5 112.0

查询出所有12岁以上的女生姓名、身高和体重：

In [66]:

Out[66]:

Name Height Weight

1 Alice 56.5 84.0

2 Barbara 65.3 98.0

3 Carol 62.8 102.5

7 Janet 62.5 112.5

11 Judy 64.3 90.0

13 Mary 66.5 112.0

上面的查询逻辑其实非常的简单，需要注意的是，如果是多个条件的查询，必须在&（且）或者|（或）的两端条件用括号括起来。

四、统计分析

pandas模块为我们提供了非常多的描述性统计分析的指标函数，如总和、均值、最小值、最大值等，我们来具体看看这些函数：

首先随机生成三组数据

In [67]:

In [68]:

In [69]:

In [70]:

In [71]:

Out[71]:

In [72]:

Out[72]:

In [73]:

Out[73]:

In [74]:

Out[74]:

In [75]:

Out[75]:

In [76]:

Out[76]:

In [77]:

Out[77]:

In [78]:

Out[78]:

In [79]:

Out[79]:

In [80]:

Out[80]:

In [81]:

Out[81]:

In [82]:

Out[82]:

In [83]:

Out[83]:

In [84]:

Out[84]:

In [85]:

Out[85]:

In [86]:

Out[86]:

count 100.000000

mean 3.070225

std 2.001402

min -4.127033

25% 2.040101

50% 3.204555

75% 4.434788

max 7.781921

dtype: float64

必须注意的是，describe方法只能针对序列或数据框，一维数组是没有这个方法的。

这里自定义一个函数，将这些统计描述指标全部汇总到一起：

In [87]:

...:

In [88]:

Out[88]:

Count 100.000000

Min -4.127033

Whicn_Min 81.000000

Q1 2.040101

Median 3.204555

Q3 4.434788

Mean 3.070225

Max 7.781921

Which_Max 39.000000

Mad 1.511288

Var 4.005609

Std 2.001402

Skew -0.649478

Kurt 1.220109

dtype: float64

在实际的工作中，我们可能需要处理的是一系列的数值型数据框，如何将这个函数应用到数据框中的每一列呢？可以使用apply函数，这个非常类似于R中的apply的应用方法。

将之前创建的d1,d2,d3数据构建数据框：

In [89]:

In [90]:

Out[90]:

x1 x2 x3

0 3.942870 1.369531 55.0

1 0.618049 0.943264 68.0

2 5.865414 0.590663 73.0

3 2.374696 0.206548 59.0

4 1.558823 0.223204 60.0

In [91]:

Out[91]:

x1 x2 x3

Count 100.000000 100.000000 100.000000

Min -4.127033 0.014330 3.000000

Whicn_Min 81.000000 72.000000 76.000000

Q1 2.040101 0.249580 25.000000

Median 3.204555 1.000613 54.500000

Q3 4.434788 2.101581 73.000000

Mean 3.070225 2.028608 51.490000

Max 7.781921 18.791565 98.000000

Which_Max 39.000000 53.000000 96.000000

Mad 1.511288 1.922669 24.010800

Var 4.005609 10.206447 780.090808

Std 2.001402 3.194753 27.930106

Skew -0.649478 3.326246 -0.118917

Kurt 1.220109 12.636286 -1.211579

非常完美，就这样很简单的创建了数值型数据的统计性描述。如果是离散型数据呢？就不能用这个统计口径了，我们需要统计离散变量的观测数、唯一值个数、众数水平及个数。你只需要使用describe方法就可以实现这样的统计了。

In [92]:

Out[92]:

count 19

unique 2

top M

freq 10

Name: Sex, dtype: object

除以上的简单描述性统计之外，还提供了连续变量的相关系数（corr）和协方差矩阵（cov）的求解，这个跟R语言是一致的用法。

In [93]:

Out[93]:

x1 x2 x3

x1 1.000000 0.136085 0.037185

x2 0.136085 1.000000 -0.005688

x3 0.037185 -0.005688 1.000000

关于相关系数的计算可以调用pearson方法或kendell方法或spearman方法，默认使用pearson方法。

In [94]:

Out[94]:

x1 x2 x3

x1 1.00000 0.178950 0.006590

x2 0.17895 1.000000 -0.033874

x3 0.00659 -0.033874 1.000000

如果只想关注某一个变量与其余变量的相关系数的话，可以使用corrwith,如下方只关心x1与其余变量的相关系数：

In [95]:

Out[95]:

x1 1.000000

x2 0.136085

x3 0.037185

dtype: float64

数值型数据的协方差矩阵：

In [96]:

Out[96]:

x1 x2 x3

x1 4.005609 0.870124 2.078596

x2 0.870124 10.206447 -0.507512

x3 2.078596 -0.507512 780.090808

--------------------------------------------------------------------------------------------------------

由于正文部分不能超过20000字符，接下来的部分将在《Python数据分析之pandas学习（二）》中继续讲解。

--------------------------------------------------------------------------------------------------------

每天进步一点点2015

学习与分享，取长补短，关注小号！

长按识别二维码马上关注

智慧屏第三方App安装如何提升用户体验与功能拓展

1018 2022-08-28

Python数据分析之pandas学习（一）

app开发者平台在数字化时代的重要性与发展趋势解析

智慧屏第三方App安装如何提升用户体验与功能拓展

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计