2.无监督学习

如果说有监督学习是“有参考答案的练习”,那么无监督学习就是“没有参考答案的探索”。它的核心思想是:从没有标签的数据中,发现其内在的结构、模式或分布。

1. 核心概念

  • 无监督:指的是训练数据集中,只有输入变量 X,没有对应的输出变量 y。数据是“未标注”的。
  • 目标:不是预测一个已知的标签,而是探索数据本身。算法需要自己找出数据的规律,比如哪些数据点彼此相似、数据是如何分布的、数据中隐藏了哪些简化表示等。
  • 核心任务:通常是描述性的,而不是预测性的。

2. 主要任务类型

无监督学习主要解决以下几类问题:

a. 聚类

  • 目标:将数据点分组,使得同一组(簇)内的数据点彼此非常相似,而不同组之间的数据点尽可能不同
  • 比喻:像把一篮子混杂的水果,根据颜色、形状、大小自动分成“苹果堆”、“橙子堆”、“香蕉堆”。算法并不知道“苹果”这个标签,但它知道哪些特征相似的应该放在一起。
  • 典型算法
    • K-Means:最经典,需要预先指定簇的数量K。
    • 层次聚类:构建树状的簇结构(树状图),可以按需切割。
    • DBSCAN:基于密度的聚类,能发现任意形状的簇,并能识别噪声点。
    • 高斯混合模型:假设数据由多个高斯分布生成,是一种软聚类(给出属于每个簇的概率)。

b. 降维

  • 目标:在尽可能保留原始数据重要信息的前提下,减少数据的特征数量(即维度)。高维数据难以可视化且可能存在冗余(“维度灾难”)。
  • 比喻:给一本厚书写摘要,或者把3D地球仪投影到2D地图上。信息有损失,但核心结构得以保留。
  • 典型算法
    • 主成分分析:最常用。找到数据中方差最大的几个相互正交的新方向(主成分),用这些主成分来线性表示数据。
    • t-SNE:擅长将高维数据映射到2D或3D用于可视化,能很好地保留局部结构。
    • 自编码器:一种神经网络,通过将数据压缩到低维编码再重建回来,学习数据的有效低维表示。

c. 关联规则学习

  • 目标:从大规模数据中发现特征(项)之间的有趣联系或规则
  • 比喻:分析超市购物篮,发现“买了尿布的顾客,也经常买啤酒”这样的规则。
  • 典型算法
    • Apriori
    • FP-Growth
  • 关键指标:支持度、置信度、提升度。

d. 异常检测

  • 目标:识别与大多数数据显著不同的异常点或离群点。
  • 比喻:在平稳的心电图中找到异常的波动;在信用卡交易中发现欺诈行为。
  • 方法:通常基于聚类(远离所有簇的点)或密度(低密度区域的点)。

3. 基本工作流程(与有监督学习对比)

  1. 数据收集与准备:获取无标签的数据集。预处理同样重要,但不需要处理标签。
  2. 选择任务与算法:根据目标(是想分组、简化还是找关联)选择合适的无监督算法。
  3. 模型训练:算法在数据 X 上运行,自主发现模式。例如,K-Means会迭代寻找簇中心。
  4. 结果解释与评估:这是最困难的部分。因为没有“标准答案”,评估通常更主观,依赖于业务知识和可视化
    • 聚类评估:可以使用轮廓系数、戴维森堡丁指数等内部指标,或(如果有部分先验知识)使用调整兰德指数等外部指标。
    • 降维评估:可以看保留了多少方差(PCA),或通过可视化判断分离效果。
  5. 结果应用:将发现的模式用于实际。例如,将聚类结果作为新特征输入给有监督模型,或用降维后的数据进行可视化分析。

4. 优势与挑战

优势

  • 无需标注数据:这是最大的优势。现实中未标注数据远多于标注数据,获取成本极低。
  • 探索未知:能发现人类未曾预设的模式和结构,带来新的洞见。
  • 数据预处理的好帮手:降维、特征提取、异常值清洗等,常作为复杂机器学习流程的预处理步骤。
  • 可解释性基础:通过聚类和可视化,可以帮助理解复杂数据的底层结构。

挑战

  • 评估困难:缺乏客观的“正确”标准,结果好坏难以量化,高度依赖人的解释。
  • 结果不确定性:算法通常对初始值、参数(如K值)敏感,可能产生不同的结果。
  • “黑箱”模式:发现的模式有时难以用直观的业务逻辑解释。
  • 计算复杂度:某些算法(如层次聚类)在大数据上计算开销大。

5. 典型应用场景

  • 客户细分:根据消费行为对用户进行聚类,实现精准营销。
  • 推荐系统:基于协同过滤(本质上是一种聚类或降维思想),推荐相似用户喜欢的物品。
  • 基因序列分析:对基因表达数据进行聚类,发现功能相似的基因。
  • 社交网络分析:发现社区(簇)。
  • 图像/语音压缩:使用降维技术减少数据量。
  • 新药发现:对化合物进行聚类,寻找潜在的有效分子结构。
  • 数据可视化:用t-SNE/PCA将高维数据降至2D/3D进行观察。

与有监督学习的核心区别总结

特性有监督学习无监督学习
训练数据有输入 X 和标签 y只有输入 X, 无标签
目标学习 X -> y 的映射,进行预测探索 X 的内部结构,进行描述
主要任务分类、回归聚类、降维、关联、异常检测
评估相对客观(与真实标签比较)相对主观(依赖内部指标和解释)
类比有老师指导的学习自学、自主探索

总结

无监督学习是探索数据未知世界的强大工具。它不寻求给出答案,而是致力于提出关于数据内在结构的好问题。在实际应用中,无监督学习和有监督学习常常结合使用:先用无监督学习(如聚类)发现数据模式、创建新特征或清洗数据,再用有监督学习构建预测模型。两者共同构成了机器学习解决现实问题的完整工具箱。