对比MySQL，学会在Pandas中实现SQL的常用操作-FinClip官网

对比MySQL，学会在Pandas中实现SQL的常用操作

网友投稿 653 2022-11-11

对比MySQL，学会在Pandas中实现SQL的常用操作

本文说明

我相信你如果学习了Pandas，就一定是想从事数据分析这样一个行业。既然你想从事数据分析行业，那我就默认你肯定是会Sql，即使你现在不会，你以后也要会。

本文旨在对比Sql，说明如何使用Pandas中执行各种SQL操作。真的！好像对比起来，学习什么都快了。

本文大纲

导入相关库和数据读取

import numpy as npimport pandas as pddf = pd.read_csv("tips.csv",encoding="gbk")df.head()

结果如下:

1.Select数据查询

在SQL中，选择是使用您要选择的列（用逗号分隔）或（*选择所有列）来完成的。

SELECT '总费用', '小费', '是否吸烟', '吃饭时间'FROM dfLIMIT 5;

对于pandas，通过将列名列表传递给DataFrame来完成列选择。

df[['总费用', '小费', '是否吸烟', '吃饭时间']].head(5)

结果如下：

注意：调用不带列名列表的DataFrame将显示所有列（类似于SQL的 *）。

在SQL中，您可以添加一个计算列：

SELECT *, "小费"/"总费用" as "小费占比"FROM dfLIMIT 5;

对于pandas，可以使用DataFrame.assign()的方法追加新列。

df.assign(小费占比=df['小费'] / df['总费用']).head(5)

结果如下：

2.Where按条件查询

通过WHERE子句在SQL中进行过滤。

SELECT *FROM dfWHERE 吃饭时间 = '晚餐'LIMIT 5;

DataFrame可以通过多种方式进行过滤。最直观的方法是使用布尔索引。

df[df['吃饭时间'] == '晚餐'].head(5)

结果如下：

上面的语句只是将Series的True / False对象传递给DataFrame，并返回所有带有True的行。

is_dinner = df['吃饭时间'] == '晚餐'is_dinner.value_counts()df[is_dinner].head(5)

结果如下：

就像SQL的OR和AND一样，可以使用|将多个条件传递给DataFrame。|（OR）和＆（AND）。

SELECT *FROM dfWHERE 吃饭时间 = '晚餐' AND 小费 > 5.00;

那么，在DataFrame代码应该怎么写呢？

df[(df['吃饭时间'] == '晚餐') & (df['小费'] > 5.00)]

结果如下：

3.in和not in条件查询

我们先来看看在SQL中应该怎么做。

SELECT *FROM dfWHERE 星期几 in (周四，周五)LIMIT 5;

对比到DataFrame中，我们再看看怎么做？

df[df["星期几"].isin(['周四','周五'])].head(5)

结果如下：

如果是not in，对比到DataFrame中，直接使用取反操作（~）。

df[~df["星期几"].isin(['周四','周五'])].head(5)

结果如下：

4.group by分组统计

在Pandas中，SQL的GROUP BY操作是使用类似命名的groupby()方法执行的。 groupby()通常是指一个过程，在该过程中，我们希望将数据集分成多个组，应用某些功能（通常是聚合），然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如，通过查询可以了解性别留下的提示数量。

SELECT "性别", count(*)FROM dfGROUP BY 性别;

对比到DataFrame中，应该是这样的。

df.groupby('性别').size()

结果如下：

注意，在pandas代码中我们使用了size()而不是count()。这是因为count()将函数应用于每一列，并返回每一列中的记录数。

df.groupby('性别').count()

结果如下：

如果想要使用count()方法应用于单个列的话，应该这样做。（后面需要随意选择一列）

df.groupby('性别')["总费用"].count()

结果如下：

也可以一次应用多种功能。例如，假设我们要查看小费金额在一周中的各个天之间有何不同—>agg()允许您将字典传递给分组的DataFrame，从而指示要应用于特定列的函数。

在SQL中：

SELECT 星期几, AVG(小费), COUNT(*)FROM dfGROUP BY 星期几;

在Dataframe中：

df.groupby('星期几').agg({'小费': np.mean, '星期几': np.size})

结果如下：

通过将一列列传递给方法，来完成按多个列分组groupby()。在SQL中：

SELECT 是否吸烟, 星期几, COUNT(*), AVG(小费)FROM tipsGROUP BY 是否吸烟, 星期几;

在Dataframe中：

df.groupby(['是否吸烟', '星期几']).agg({'小费': [np.size, np.mean]})

结果如下：

5.join数据关联

可以使用join()或merge()执行JOIN。默认情况下，join()将在其索引上联接DataFrame。每个方法都有参数，可让您指定要执行的联接类型（LEFT，RIGHT，INNER，FULL）或要联接的列（列名或索引）。但是还是推荐使用merge()函数。

1）数据准备

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 3, 5, 7]})df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'], 'value':[2, 4, 6, 8]})

结果如下：

假设我们有两个数据库表，它们的名称和结构与我们的DataFrames相同。现在让我们看一下各种类型的JOIN。

2）inner join内连接

在SQL中：

SELECT *FROM df1INNER JOIN df2 ON df1.key = df2.key;

在Dataframe中：

pd.merge(df1, df2, on='key')

结果如下：

3）left outer join左连接

在SQL中：

SELECT *FROM df1LEFT OUTER JOIN df2 ON df1.key = df2.key;

在Dataframe中：

pd.merge(df1, df2, on='key', how='left')

结果如下：

4）right join右连接

在SQL中：

SELECT *FROM df1RIGHT OUTER JOIN df2 ON df1.key = df2.key;

在Dataframe中：

pd.merge(df1, df2, on='key', how='right')

结果如下：

5）full join全连接

注意在MySQL中是不支持全连接的，一般是使用union完成这个操作的，这将在下面一个知识点中讲述。

在Dataframe中：

pd.merge(df1, df2, on='key', how='outer')

结果如下：

6、union数据合并

UNION (ALL)操作在Dataframe中可以使用concat()来执行。

1）数据准备

df1 = pd.DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'], 'rank': range(1, 4)}) df2 = pd.DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'], 'rank': [1, 4, 5]})

结果如下：

2）union all不去重合并

在SQL中：

SELECT city, rankFROM df1UNION ALLSELECT city, rankFROM df2;""" city rank Chicago 1San Francisco 2New York City 3 Chicago 1 Boston 4 Los Angeles 5"""

在Dataframe中：

# 默认就是axis=0pd.concat([df1, df2],axis=0)

结果如下：

3）union去重合并

在SQL中：

SELECT city, rankFROM df1UNIONSELECT city, rankFROM df2;-- notice that there is only one Chicago record this time""" city rank Chicago 1San Francisco 2New York City 3 Boston 4 Los Angeles 5"""

在Dataframe中：

pd.concat([df1, df2]).drop_duplicates()

结果如下：

7.取group分组后的Topn

在MySQL8.0以前的版本，可能是不支持窗口函数，因此求Topn可能有些费劲，以前的文章中已经讲述过，这里也就不在赘述。

有下面一堆数据，怎么求出Topn呢？

df = pd.DataFrame({"name":["张三","王五","李四","张三","王五","张三","李四","李四","王五"], "subject":["语文","英语","数学","数学","语文","英语","语文","英语","数学"], "score":[95,80,83,80,90,71,88,70,78]})

结果如下：

在Dataframe中：

df.groupby(["subject"]).apply(lambda df:df.sort_values("score",ascending=True))

结果如下：

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

653 2022-11-11

对比MySQL，学会在Pandas中实现SQL的常用操作

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计