对于监督式学习,在训练模型的时候,训练数据已经给出了一个确切的结果,训练完模型后,比较容易用准确率,召回率等来评价模型的。但K-Means是聚类属于无监督式学习,如果评价模型的好坏?
用SPSS Modeler做聚类分析,在“K-Means”节点将数据进行聚类分析,也有类似的东西来评价模型:凝聚和分离的轮廓测量。
凝聚和分离的轮廓测量:(B−A) / max(A,B),其中 A 是记录与其聚类中心的距离,B 是记录与其非所属最近聚类中心的距离。值为 1 表示所有个案直接位于其聚类中心上。值为 1 表示所有个案位于某些其他聚类的聚类中心上。值为 0 表示在正常情况下个案到其自身聚类中心与到最近其他聚类中心是等距的。
如果两类数据位置分开的比较明显的话,聚类的起来是比较明确的,所以Spss用一个点到各个聚类中心的聚类来做评价