Kmeans算法简介

登录 / 注册

标签搜索

jupiter

累计撰写 330 篇文章
累计收到 63 条评论

首页
/
相关知识
/
正文

相关知识

Kmeans算法简介

jupiter

2021-01-24 / 0 评论 / 615 阅读 / 正在检测是否收录...

01/24

温馨提示：

本文最后更新于2021年12月07日，已超过861天没有更新，若内容或图片失效，请留言反馈。

Kmeans算法简介

算法介绍

人的“物以类聚”

新生入学后根据各自的喜好加入对应的社团。

数据的“物以类聚”

如果把人类比机器学习中的数据，那么聚类就很好理解了

每当这个类别中有了新的数据加入的时候，我们要做的就是更新这个类别的中心位置，以方便这个新样本去适应这个类别，这便是kmeans算法的主要逻辑了。

如何定义相似

用两个点的距离：如欧式距离

引入cluster的相关概念

Kmean聚类实例

处理步骤：

随机从数据集中选取K个样本当做centroid
对于数据集中的每个点，计算它距离每个centroid的距离，并把它归为距离最近的那个cluster
更新新的centroid位置
重复2.3，直到centroid的位置不再改变

KMEANS的优缺点

优点

非监督类的算法不需要样本的标注信息

缺点

不能利用到数据的标注信息，意味着模型的性能不如其他监督学习
对于K的取值，也就是你认为数据集中的样本应该分为几类，这个参数的设置极为敏感！

对于数据集本身样本的分布也很敏感

image-202f10124141522089

参考资料

【五分钟机器学习】物以类聚的Kmeans：https://www.bilibili.com/video/BV1ei4y1V7hX?from=search&seid=12931680004886943436

0

暂无标签

版权属于： jupiter

本文链接： http://blog.inat.top/archives/185/

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

评论 (0)