当前位置:首页 » 《随便一记》 » 正文

机器学习强基计划7-2:图文详解K-均值聚类(K-means)算法(附Python实现)

3 人参与  2022年12月22日 09:53  分类 : 《随便一记》  评论

点击全文阅读


目录

0 写在前面1 什么是聚类?2 K均值聚类原理2.1 原型聚类2.2 K-means算法流程 3 Python实现3.1 算法复现3.2 可视化

0 写在前面

机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖,由本人亲自从底层编写、测试与文章配套的各个经典算法,不依赖于现有库,可以大大加深对算法的理解。

?详情:机器学习强基计划(附几十种经典模型源码)


本文的目标是基于K-均值聚类原理实现下面的可视化效果

在这里插入图片描述

1 什么是聚类?

聚类(clustering)无监督学习(unsupervised learning)中研究最多、应用最广的技术之一,其基本思路是通过对无标记训练样本的学习来揭示数据内在的聚合性质与规律

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster),每个簇可能对应于一些潜在的概念(类别),但这些概念的语义需由开发者来把握和命名。

形式化地,假定训练集 X = { x 1 , x 2 , ⋯   , x m } X=\left\{ \boldsymbol{x}_1,\boldsymbol{x}_2,\cdots ,\boldsymbol{x}_m \right\} X={x1​,x2​,⋯,xm​}包含 m m m个无标记样本,每个样本 x i = { x i 1 , x i 2 , ⋯   , x i n } \boldsymbol{x}_i=\left\{ x_{i1},x_{i2},\cdots ,x_{in} \right\} xi​={xi1​,xi2​,⋯,xin​}是一个 n n n维征向量。

聚类算法的目标是将训练集 X X X划分为 k k k个不相交的簇 C = { C 1 , C 2 , ⋯   , C k } \mathcal{C} =\left\{ C_1,C_2,\cdots ,C_k \right\} C={C1​,C2​,⋯,Ck​},其中 C l ′ ∩ C l = ⊘ C_{l'}\cap C_l=\oslash Cl′​∩Cl​=⊘且 X = ⋃ l = 1 k C l X=\bigcup\nolimits_{l=1}^k{C_l} X=⋃l=1k​Cl​,每个簇都对应一个未赋语义的簇标记(cluster label),记为 λ j ∈ { 1 , 2 , ⋯   , k } \lambda _j\in \left\{ 1,2,\cdots ,k \right\} λj​∈{1,2,⋯,k},聚类的结果可用包含 m m m个元素的簇标记向量表示 λ = [ λ 1 λ 2 ⋯ λ m ] T \boldsymbol{\lambda }=\left[ \begin{matrix} \lambda _1& \lambda _2& \cdots& \lambda _m\\\end{matrix} \right] ^T λ=[λ1​​λ2​​⋯​λm​​]T。

聚类既能作为一个单独过程,用于找寻数据内在的聚合结构,也可作为分类等其他学习任务的前驱过程。

例1 在一些商业应用中需对用户类型进行判别,但商家往往不知道用户可以分为哪些类型,此时可先对用户数据集进行聚类,根据聚类结果将每个簇定义为一种类型用户,然后再基于这些类训练分类模型,用于判别新用户的类型。

2 K均值聚类原理

2.1 原型聚类

原型聚类(prototype-based clustering)的核心原理是通过参考原型向量(模板向量)或原型分布(模板分布)的方式来完成聚类过程

在学得一组原型向量 { p 1 , p 2 , ⋯   , p k } \left\{ \boldsymbol{p}_1,\boldsymbol{p}_2,\cdots ,\boldsymbol{p}_k \right\} {p1​,p2​,⋯,pk​}后即可实现对样本空间的簇划分。对任意样本 x \boldsymbol{x} x ,将被划入与其距离最近的原型向量 p i \boldsymbol{p}_i pi​所代表的簇中,该样本与 p i \boldsymbol{p}_i pi​的距离不大于它与其他原型向量的距离。

2.2 K-means算法流程

K-均值聚类(K-means)属于原型聚类的一种,它以簇均值向量为模板向量,通过贪心策略迭代划分簇。算法流程如下

在这里插入图片描述

3 Python实现

3.1 算法复现

初始化均值向量
self.kVector = [copy.deepcopy(self.dataSet[random.randint(0, self.m - 1)]) for i in range(self.k)]
更新簇划分
t = 0while t < self.T:   # 初始化簇   kCluster = {i: [] for i in range(self.k)}   # 更新簇划分   for i in range(self.m):       # 样本与各均值向量的距离       d = [self.__dist(self.dataSet[i], self.kVector[j]) for j in range(self.k)]       # 以最小距离对应的簇号为簇标记       label = d.index(min(d))       # 更新簇划分       kCluster[label].append(self.dataSet[i])
更新均值向量
# 更新均值向量kVectorNew = [sum(kCluster[i]) / len(kCluster[i]) for i in range(self.k)]# 计算均值向量更新幅度delta = [sum(kVectorNew[i] - self.kVector[i]) for i in range(self.k)]if sum(delta) < 0.01:    breakelse:    self.kVector = kVectorNewt = t + 1

3.2 可视化

for i in kCluster:    x = np.array(kCluster[i])[:,0]    y = np.array(kCluster[i])[:,1]    plt.scatter(x,y)#  绘制均值向量点的位置xMean = np.array(self.kVector)[:,0]yMean = np.array(self.kVector)[:,1]plt.scatter(xMean, yMean, marker='+')plt.title("k-means")plt.show()

这里我们额外作出了均值向量的位置,用+表示。

在这里插入图片描述
可以验证,每个簇内样本到均值向量的距离都小于到其他簇均值向量的距离。

本文完整工程代码联系下方博主名片获取


? 更多精彩专栏

《ROS从入门到精通》《机器人原理与技术》《机器学习强基计划》《计算机视觉教程》…
?源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系?

点击全文阅读


本文链接:http://zhangshiyu.com/post/50169.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

最新文章

  • 寒星碎梦不回舟(顾知舟安千雪)阅读 -
  • 穿越八零替嫁后我成了军官心尖宠完结版小说(杨念念陆时深)全文免费阅读无弹窗大结局_(穿越八零替嫁后我成了军官心尖宠完结版免费阅读全文大结局)最新章节列表_笔趣阁(穿越八零替嫁后我成了军官心尖宠完结版) -
  • 偏执占有完整版阅读沈黎月蒋美云(沈黎月蒋美云)全文免费阅读无弹窗大结局_(沈黎月蒋美云)偏执占有完整版阅读小说最新章节列表_笔趣阁(沈黎月蒋美云) -
  • 顾瑶陆泽免费阅读_顾瑶陆泽小说全文阅读笔趣阁
  • 《温玉溪陆霆琛》已完结小说全文阅读笔趣阁《温玉溪陆霆琛》
  • 最新好看小说推荐女朋友带全家白嫖我新年旅行(陈茜茜陈娇娇岩辉)_女朋友带全家白嫖我新年旅行(陈茜茜陈娇娇岩辉)完整版小说免费阅读
  • 和双胞胎姐姐互换身份后,老公悔疯了(林尔陈鸢)完本小说免费_全本免费小说和双胞胎姐姐互换身份后,老公悔疯了最新小说全文阅读(林尔陈鸢)
  • 最新热门小说斩断因果后,魔主跳出三界寻我_顾怜声林墨最热门小说_免费完结版小说(顾怜声林墨)
  • 春风有情难寻桃花(裴淮州沈轻语)免费阅读 -
  • 拨雪逢春,得见青山(江雨宁沈言澈)免费阅读 -
  • 我选光头大魔王很合理吧全章节(陈业唐紫尘)全文免费阅读无弹窗大结局_(陈业唐紫尘)我选光头大魔王很合理吧全章节小说最新章节列表_笔趣阁(我选光头大魔王很合理吧全章节) -
  • 《拼命挣钱给男友治病后,发现男友在装穷》无删减章节目录在线阅读

    关于我们 | 我要投稿 | 免责申明

    Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1