Kmeans算法简介

jupiter
2021-01-24 / 0 评论 / 632 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2021年12月07日,已超过1080天没有更新,若内容或图片失效,请留言反馈。

Kmeans算法简介

算法介绍

人的“物以类聚”

新生入学后根据各自的喜好加入对应的社团。

数据的“物以类聚”

如果把人类比机器学习中的数据,那么聚类就很好理解了

每当这个类别中有了新的数据加入的时候,我们要做的就是更新这个类别的中心位置,以方便这个新样本去适应这个类别,这便是kmeans算法的主要逻辑了。

如何定义相似

用两个点的距离:如欧式距离

引入cluster的相关概念

Kmean聚类实例

处理步骤:

  1. 随机从数据集中选取K个样本当做centroid
  2. 对于数据集中的每个点,计算它距离每个centroid的距离,并把它归为距离最近的那个cluster
  3. 更新新的centroid位置
  4. 重复2.3,直到centroid的位置不再改变

KMEANS的优缺点

优点

  1. 非监督类的算法不需要样本的标注信息

缺点

  1. 不能利用到数据的标注信息,意味着模型的性能不如其他监督学习
  2. 对于K的取值,也就是你认为数据集中的样本应该分为几类,这个参数的设置极为敏感!

  1. 对于数据集本身样本的分布也很敏感

image-202f10124141522089

参考资料

  1. 【五分钟机器学习】物以类聚的Kmeans:https://www.bilibili.com/video/BV1ei4y1V7hX?from=search&seid=12931680004886943436
0

评论 (0)

打卡
取消