【机器学习】DBSCAN聚类算法—优于Kmean—（理论+图解+python代码）-FinClip官网

【机器学习】DBSCAN聚类算法—优于Kmean—（理论+图解+python代码）

网友投稿 1273 2022-09-09

【机器学习】DBSCAN聚类算法—优于Kmean—（理论+图解+python代码）

一、前言

二、DBSCAN聚类算法

三、参数选择

四、DBSCAN算法迭代可视化展示

五、常用的评估方法：轮廓系数

六、用Python实现DBSCAN聚类算法

一、前言

去年学聚类算法的R语言的时候，有层次聚类、系统聚类、K-means聚类、K中心聚类，最后呢，被DBSCAN聚类算法迷上了，为什么呢，首先它可以发现任何形状的簇，其次我认为它的理论也是比较简单易懂的。今年在python这门语言上我打算好好弄弄DBSCAN。下面贴上它的官方解释：

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本，现在我们的目标是把这些在样本空间中距离相近的聚成一类。我们发现A点附近的点密度较大，红色的圆圈根据一定的规则在这里滚啊滚，最终收纳了A附近的5个点，标记为红色也就是定为同一个簇。其它没有被收纳的根据一样的规则成簇。（形象来说，我们可以认为这是系统在众多样本点中随机选中一个，围绕这个被选中的样本点画一个圆，规定这个圆的半径以及圆内最少包含的样本点，如果在指定半径内有足够多的样本点在内，那么这个圆圈的圆心就转移到这个内部样本点，继续去圈附近其它的样本点，类似传销一样，继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值，就停止了。那么我们称最开始那个点为核心点，如A，停下来的那个点为边界点，如B、C，没得滚的那个点为离群点，如N）。

基于密度这点有什么好处呢，我们知道kmeans聚类算法只能处理球形的簇，也就是一个聚成实心的团（这是因为算法本身计算平均距离的局限）。但往往现实中还会有各种形状，比如下面两张图，环形和不规则形，这个时候，那些传统的聚类算法显然就悲剧了。于是就思考，样本密度大的成一类呗。呐这就是DBSCAN聚类算法。

三、参数选择

上面提到了红色圆圈滚啊滚的过程，这个过程就包括了DBSCAN算法的两个参数，这两个参数比较难指定，公认的指定方法简单说一下：

半径：半径是最难指定的，大了，圈住的就多了，簇的个数就少了；反之，簇的个数就多了，这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r，也就是要找到突变点，比如：

以上虽然是一个可取的方式，但是有时候比较麻烦，大部分还是都试一试进行观察，用k距离需要做大量实验来观察，很难一次性把这些值都选准。

MinPts:这个参数就是圈住的点的个数，也相当于是一个密度，一般这个值都是偏小一些，然后进行多次尝试

四、DBSCAN算法迭代可视化展示

国外有一个特别有意思的网站：Coefficient）：

计算样本i到同簇其它样本到平均距离ai。ai越小，说明样本i越应该被聚类到该簇（将ai称为样本i到簇内不相似度）。计算样本i到其它某簇Cj的所有样本的平均距离bij，称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度：bi=min(bi1,bi2,...,bik2)

si接近1，则说明样本i聚类合理si接近-1，则说明样本i更应该分类到另外的簇若si近似为0，则说明样本i在两个簇的边界上

六、用Python实现DBSCAN聚类算法

import pandas as pd# 导入数据beer = pd.read_csv('data.txt', sep=' ')print(beer)

输出结果：

from sklearn.cluster import DBSCANX = beer[["calories","sodium","alcohol","cost"]]# 设置半径为10，最小样本量为2，建模db = DBSCAN(eps=10, min_samples=2).fit(X)labels = db.labels_beer['cluster_db'] = labels # 在数据集最后一列加上经过DBSCAN聚类后的结果beer.sort_values('cluster_db')# 注：cluster列是kmeans聚成3类的结果；cluster2列是kmeans聚类成2类的结果；scaled_cluster列是kmeans聚类成3类的结果（经过了数据标准化）

# 查看根据DBSCAN聚类后的分组统计结果（均值）print(beer.groupby('cluster_db').mean())

# 画出在不同两个指标下样本的分布情况print(pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100))

# 我们可以从上面这个图里观察聚类效果的好坏，但是当数据量很大，或者指标很多的时候，观察起来就会非常麻烦。from sklearn import metrics# 就是下面这个函数可以计算轮廓系数（sklearn真是一个强大的包）score = metrics.silhouette_score(X,beer.cluster_db)print(score)

在数字化转型中，选择合适的跨平台开发框架不仅能提高效率，还有助于确保数据安全与合规性。

1273 2022-09-09

【机器学习】DBSCAN聚类算法—优于Kmean—（理论+图解+python代码）

洞察掌握android电视app开发中的安全与合规策略，提升企业运营效率

在数字化转型中，选择合适的跨平台开发框架不仅能提高效率，还有助于确保数据安全与合规性。

在数字化转型浪潮中，企业如何通过跨端开发框架提升运营效率，兼顾合规性与数据安全？

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计