【人工智能-初级】第7章聚类算法K-Means：理论讲解与代码示例

发布时间：2024-10-28 16:00:11

277 阅读

0 评论

文章目录

一、K-Means聚类简介二、K-Means 聚类的工作原理 2.1 初始化簇中心 2.2 分配簇标签 2.3 更新簇中心 2.4 迭代重复 2.5 K-Means 算法的目标三、K-Means 聚类的优缺点 3.1 优点 3.2 缺点四、K 值的选择五、Python 实现 K-Means 聚类 5.1 导入必要的库 5.2 生成数据集并进行可视化 5.3 创建 K-Means 聚类模型并进行训练 5.4 可视化聚类结果 5.5 选择最佳 K 值——肘部法则 5.6 使用轮廓系数评估聚类质量六、总结 6.1 学习要点 6.2 练习题

一、K-Means聚类简介

K-Means 是一种广泛使用的无监督学习算法，主要用于数据聚类任务。它的目标是将数据集中的样本分为多个簇（Cluster），使得每个簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means 非常适合探索性数据分析，可以帮助我们发现数据中的隐藏模式。

在 K-Means 中，“K” 表示预先设定的簇的数量，算法的目标是最小化各样本到其所属簇中心的距离之和。K-Means 算法被广泛用于客户分类、图像分割、市场分析等领域。

二、K-Means 聚类的工作原理

K-Means 算法的基本思想是通过迭代地更新簇中心和样本的簇分配，找到使得簇内样本相似度最大、簇间样本相似度最小的分组方案。具体地，K-Means 聚类的工作过程可以分为以下几个步骤：

2.1 初始化簇中心

首先随机选择 K 个数据点作为初始簇中心（Centroids），这些中心点将作为初始的簇的代表。

2.2 分配簇标签

对于每个数据点，计算它到所有簇中心的距离（通常使用欧氏距离），并将其分配给最近的簇中心。