聚类入门笔记

科技2025-08-08 43

聚类概念聚类算法分类几种典型聚类算法K均值算法流程过程优缺点 K最近邻算法（KNN）流程过程优缺点层次聚类算法过程特点密度聚类算法指导思想特点DBSCAN（有代表性的基于密度的聚类算法）算法流程

聚类概念

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大，而类别间的数据相似度较小。

聚类中没有任何指导信息，完全按照数据的分布进行类别划分。聚类的大小和结构都没有事先假定。

设置初始类别数K，人为设置K个类别中心;根据样本和类别中心的距离进行类别划分，样本划分到距离最近的类别;重新计算当前类别划分下每类的中心（类别样本平均值）;在得到类别中心下继续进行类别划分;如果连续两次的类别划分结果不变则停止算法;否则循环2～5 ;

优点：

扩展性好应用范围广聚类时间快

缺点：

需要预先知道K对初始参数敏感，容易陷入局部最优异常值影响质心结果，无法剔除对于非圆状的簇，算法表现不是很好

有多种实现方式，以下以半监督方式实现为例

设定训练集的数据类别信息。然后读取下一个要分类的样本，并计算从新样本到训练集的每个样本的欧几里得距离。同欧几里得距离上最近的样本来确定新样本的类别信息。确定的方式就是最近的k个样本的投票。重复以上步骤，直到所有测试样本都确定了类别。

优点

简单，无需调整参数无训练过程

缺点

计算成本高，必须计算训练集点和每个新样本之间的所有距离

类的个数不需事先定好需确定距离矩阵运算量大，适用于处理小样本数据一旦一个步骤（合并或分裂）完成，就不能被撤销或修正，因此产生了改进的层次聚类方法

只要样本点的密度大于某阈值，则将该样本添加到最近的簇中

能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点，可发现任意形状的聚类对噪声数据不敏感。计算密度单元的计算复杂度大。

将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的数据中发现任意形状的聚类

Processed: 0.015, SQL: 9