K-means聚类算法-FinClip官网

K-means聚类算法

网友投稿 1032 2022-10-02

K-means聚类算法

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means 百度百科

K-means聚类算法的实质简单来说就是两点间的距离，计算步骤为：

第一步--获取坐标点

本文随机生成26个字母在 0-100 的坐标点：

{'V': {'y': 81, 'x': 61}, 'H': {'y': 19, 'x': 37}, 'X': {'y': 93, 'x': 66}, 'S': {'y': 81, 'x': 89}, 'E': {'y': 23, 'x': 39}, 'T': {'y': 81, 'x': 70}, 'Q': {'y': 87, 'x': 96}, 'K': {'y': 39, 'x': 37}, 'A': {'y': 14, 'x': 7}, 'B': {'y': 6, 'x': 17}, 'I': {'y': 15, 'x': 32}, 'W': {'y': 83, 'x': 78}, 'J': {'y': 20, 'x': 21}, 'R': {'y': 81, 'x': 74}, 'Y': {'y': 89, 'x': 65}, 'M': {'y': 1, 'x': 24}, 'Z': {'y': 62, 'x': 78}, 'D': {'y': 0, 'x': 0}, 'U': {'y': 65, 'x': 98}, 'O': {'y': 73, 'x': 75}, 'C': {'y': 8, 'x': 20}, 'F': {'y': 36, 'x': 38}, 'L': {'y': 38, 'x': 12}, 'G': {'y': 34, 'x': 10}, 'P': {'y': 69, 'x': 90}}

刻画在坐标图上为：

第二步--生成质点

质点也就是上图中分簇的中心点，质点的个数也就是 K值 ,K=2则代表有两个分簇，也就是说有两个分簇的质点，K=3则代表有三个分簇，也就是说有三个分簇的质点。

但是最开始并不知道中心点的坐标，因此最开始生成质点的方式有两种：

以某两个字母的坐标点作为质点，这两个字母是随机选择的在0-100内随机生成两个坐标点作为质点

上图中是以方法二得到的两个质点，分别是红色的圆和绿色的框

第三步--第一次分簇

分簇需要计算两个间的距离，利用欧几里得距离可以求得：

在上图中，假设一个坐标点 A点 , A点和红色的圆的距离小于 A点和绿色的框的距离，那么认为A点属于红色的圆的分簇；同理，M点和红色的圆的距离大于 M点和绿色的框的距离，那么认为M点属于绿色的框的分簇，第一次分簇得到的图形如下：

第四步--更新质点

从上图看出分簇很不合理，原因是最开始的质点是随机生成的，这里需要更新质点，更新的办法简单粗暴：

1. 得到所有红色字母的横、纵坐标2. 分别计算横、纵坐标的平均值，平均值即为新的红色质点坐标3. 绿色字母同理

新的质点可能偏移到下列位置：

第五步--再次分簇

分簇的方法和第三步一样，可以得到如下形势：

第六步--再次更新质点

由于本文只是举例，虽然看起来分簇已经很完美了，但是质点并非处于簇的中心，这里还不算分簇完成，完成的标志是：

更新质点时，更新前和更新后的质点偏移很小，或者偏移值固定不变

为什么偏移值固定不变也是完成的标志？原因在第四步的平均大法上面，这个在作者写代码时发现的，读者需要自己去实践

根据这个完成的标志，最终的质点位置和分簇图为：

第一步--获取坐标点

python随机生成 0-100 的坐标点，为了计算方便，将部分横坐标设定在 (0, 40) ，将部分纵坐标设定在 (60, 100)

# 生成坐标字典def buildclusters(): clusters = {} keys = [chr(i) for i in range(ord('A'), ord('Z') + 1)] # ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z'] # 生成小数坐标 for i in range(0, int(len(keys) / 2)): temp = {} x = random.randint(0, 40) y = random.randint(0, 40) temp["x"] = x temp["y"] = y clusters[keys[i]] = temp # 生成大数坐标 for i in range(int(len(keys) / 2), int(len(keys))): temp = {} x = random.randint(60, 100) y = random.randint(60, 100) temp["x"] = x temp["y"] = y clusters[keys[i]] = temp return clusters

返回结果为：

# {'V': {'y': 81, 'x': 61}, 'H': {'y': 19, 'x': 37}, 'X': {'y': 93, 'x': 66}, 'S': {'y': 81, 'x': 89}, 'E': {'y': 23, 'x': 39}, 'T': {'y': 81, 'x': 70}, 'Q': {'y': 87, 'x': 96}, 'K': {'y': 39, 'x': 37}, 'A': {'y': 14, 'x': 7}, 'B': {'y': 6, 'x': 17}, 'I': {'y': 15, 'x': 32}, 'W': {'y': 83, 'x': 78}, 'J': {'y': 20, 'x': 21}, 'R': {'y': 81, 'x': 74}, 'Y': {'y': 89, 'x': 65}, 'M': {'y': 1, 'x': 24}, 'Z': {'y': 62, 'x': 78}, 'D': {'y': 0, 'x': 0}, 'U': {'y': 65, 'x': 98}, 'O': {'y': 73, 'x': 75}, 'C': {'y': 8, 'x': 20}, 'F': {'y': 36, 'x': 38}, 'L': {'y': 38, 'x': 12}, 'G': {'y': 34, 'x': 10}, 'P': {'y': 69, 'x': 90}}

第二步--生成质点

这里是随机选取某两个点作为初始的质点:

# 生成k个簇的质点/这里是以某个点为质点def buildcluster(K): centroids = {} dic = buildclusters() keys = [] for temp in dic.keys(): keys.append(temp) for i in range(K): rand = random.randint(0, len(keys) - 1) name = "P" + str(i + 1) centroids[name] = dic[keys[rand]] # {'P1': {'y': 81, 'x': 79}, 'P2': {'y': 18, 'x': 5}} return centroids

第三步--第一次分簇

需要欧几里得距离公式：

# 两点间的距离公式/欧式距离def distance(x1, x2, y1, y2): distan = ((x1 - x2) ** 2 + (y1 - y2) ** 2) ** 0.5 return distan

分簇的代码为：

# 分簇/簇点距离哪个质心最近就属于哪个质心的def splitcluster(centroids, clusters, K): # 分好的簇 newclusters = {} # 新的质点 newcentroids = {} # 分簇 # 26个点距离哪个质点的距离小 for key_clu in clusters.keys(): distan = {} for key_cen in centroids.keys(): distan[key_cen] = distance(centroids[key_cen]["x"], clusters[key_clu]["x"], centroids[key_cen]["y"], clusters[key_clu]["y"]) # 最小值的键值 name = "cluster" + minkey(distan).replace("P", "") # 构造新字典 temp1 = clusters[key_clu] try: newclusters[name][key_clu] = temp1 except: temp2 = {} temp2[key_clu] = temp1 newclusters[name] = temp2 return newclusters

得到的结果为：

# {'cluster2': {'J': {'x': 0, 'y': 36}, 'V': {'x': 72, 'y': 98}, 'N': {'x': 82, 'y': 71}, 'P': {'x': 82, 'y': 73}, 'Q': {'x': 93, 'y': 81}, 'X': {'x': 68, 'y': 89}, 'R': {'x': 65, 'y': 60}, 'Z': {'x': 74, 'y': 89}, 'S': {'x': 99, 'y': 99}, 'D': {'x': 20, 'y': 40}, 'O': {'x': 72, 'y': 66}, 'W': {'x': 89, 'y': 82}}, 'cluster1': {'A': {'x': 37, 'y': 1}, 'E': {'x': 16, 'y': 4}, 'M': {'x': 18, 'y': 2}, 'I': {'x': 3, 'y': 11}, 'H': {'x': 2, 'y': 2}, 'L': {'x': 39, 'y': 27}, 'T': {'x': 97, 'y': 60}, 'U': {'x': 98, 'y': 72}, 'K': {'x': 21, 'y': 10}, 'C': {'x': 1, 'y': 16}, 'G': {'x': 31, 'y': 19}, 'B': {'x': 5, 'y': 22}, 'Y': {'x': 76, 'y': 62}, 'F': {'x': 11, 'y': 1}}}

第四步--更新质点

平均大法无敌：

# 根据簇的坐标得到新的质点def getnewcentroids(dict): centroids = {} x = 0 y = 0 for key in dict.keys(): x += dict[key]["x"] y += dict[key]["y"] centroids["x"] = x / len(dict) centroids["y"] = y / len(dict) return centroids

更新质点：

# 更新质点i = 0for key in newclusters.keys(): tempdict = getnewcentroids(newclusters[key]) name = "P" + str(i + 1) newcentroids[name] = tempdict i += 1

第五、六步--再次分簇、更新质点

得到质点的差值：

# 得到质点差值def centroidsoffset(centroids, newcentroids): sum = 0 for key in centroids.keys(): sum += distance(centroids[key]["x"], newcentroids[key]["x"], centroids[key]["y"], newcentroids[key]["y"]) return sum

本文以如果质点差值不变，那么就算是最终的质点了：

while True: newclusters, newcentroids, newdifference = splitcluster(newcentroids, clusters, K) if tempdiff == newdifference: print(newclusters) print(newcentroids) print(newdifference) break else: tempdiff = newdifference splitcluster(newcentroids, clusters, K)

源码在我的博客上面：

TTyb

小程序开发制作公司：打造独特的移动应用体验

1032 2022-10-02

K-means聚类算法

小程序三方平台开发: 解析小程序开发的未来趋势和机遇

小程序开发制作公司：打造独特的移动应用体验

小程序开发基础: 从零开始打造自己的小程序

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计