从标签到聚类:统计机器学习的分类与聚类全景

从标签到聚类:统计机器学习的分类与聚类全景。统计机器学习把AI拉出上世纪90年代的低谷。尽管深度学习占据头条,统计方法在工业、科研、医疗等场景依旧发光发热。它靠严谨的数学理论,哪怕数据量少,也能给模型可解释性和可复现性。这次,我们用通俗的语言拆解一下这套工具。 任何统计模型都需要“训练—使用”这对搭档:把数据喂给算法,让它自己提炼规律生成模型;然后把新数据丢进模型,得到预测结果。为了训练模型,需要一份“训练集”,由特征和标签组成的样本集合。 统计机器学习可以分为四种策略:从“有人教”到“无人管”。有监督学习是把标签和样本喂给算法,让它学会分类;无监督学习让算法自己找到相似样本聚在一起;半监督学习利用少量有标签的样本推动无标签样本的价值;弱监督学习从稀少、粗放或者有噪声的标签中寻找信息。 小明想让系统根据四维特征判断性别,所以他把数据集分成训练集和测试集。然后选择决策树或k近邻等算法进行训练,最后系统就能对新样本输出性别了。 作者把内容分成三级难度梯度:5.1节是概念、5.3节是决策树、5.4节是k近邻、5.5节是支持向量机(SVM)、5.6节是聚类基础、5.9节是评估指标;第二级包括朴素贝叶斯、ID3决策树、线性SVM、k均值/层次聚类;第三级有C4.5决策树、随机森林、核SVM与多类分类、DBSCAN密度聚类等。建议先从第一级把公式和思想搞懂再逐步挑战高级玩法。