2.无监督学习 – 云通AI课堂

2.无监督学习

如果说有监督学习是“有参考答案的练习”，那么无监督学习就是“没有参考答案的探索”。它的核心思想是：从没有标签的数据中，发现其内在的结构、模式或分布。

1. 核心概念

无监督：指的是训练数据集中，只有输入变量 X，没有对应的输出变量 y。数据是“未标注”的。
目标：不是预测一个已知的标签，而是探索数据本身。算法需要自己找出数据的规律，比如哪些数据点彼此相似、数据是如何分布的、数据中隐藏了哪些简化表示等。
核心任务：通常是描述性的，而不是预测性的。

2. 主要任务类型

无监督学习主要解决以下几类问题：

a. 聚类

目标：将数据点分组，使得同一组（簇）内的数据点彼此非常相似，而不同组之间的数据点尽可能不同。
比喻：像把一篮子混杂的水果，根据颜色、形状、大小自动分成“苹果堆”、“橙子堆”、“香蕉堆”。算法并不知道“苹果”这个标签，但它知道哪些特征相似的应该放在一起。
典型算法：
- K-Means：最经典，需要预先指定簇的数量K。
- 层次聚类：构建树状的簇结构（树状图），可以按需切割。
- DBSCAN：基于密度的聚类，能发现任意形状的簇，并能识别噪声点。
- 高斯混合模型：假设数据由多个高斯分布生成，是一种软聚类（给出属于每个簇的概率）。

b. 降维

目标：在尽可能保留原始数据重要信息的前提下，减少数据的特征数量（即维度）。高维数据难以可视化且可能存在冗余（“维度灾难”）。
比喻：给一本厚书写摘要，或者把3D地球仪投影到2D地图上。信息有损失，但核心结构得以保留。
典型算法：
- 主成分分析：最常用。找到数据中方差最大的几个相互正交的新方向（主成分），用这些主成分来线性表示数据。
- t-SNE：擅长将高维数据映射到2D或3D用于可视化，能很好地保留局部结构。
- 自编码器：一种神经网络，通过将数据压缩到低维编码再重建回来，学习数据的有效低维表示。

c. 关联规则学习

目标：从大规模数据中发现特征（项）之间的有趣联系或规则。
比喻：分析超市购物篮，发现“买了尿布的顾客，也经常买啤酒”这样的规则。
典型算法：
- Apriori
- FP-Growth
关键指标：支持度、置信度、提升度。

d. 异常检测

目标：识别与大多数数据显著不同的异常点或离群点。
比喻：在平稳的心电图中找到异常的波动；在信用卡交易中发现欺诈行为。
方法：通常基于聚类（远离所有簇的点）或密度（低密度区域的点）。

3. 基本工作流程（与有监督学习对比）

数据收集与准备：获取无标签的数据集。预处理同样重要，但不需要处理标签。
选择任务与算法：根据目标（是想分组、简化还是找关联）选择合适的无监督算法。
模型训练：算法在数据 X 上运行，自主发现模式。例如，K-Means会迭代寻找簇中心。
结果解释与评估：这是最困难的部分。因为没有“标准答案”，评估通常更主观，依赖于业务知识和可视化。
- 聚类评估：可以使用轮廓系数、戴维森堡丁指数等内部指标，或（如果有部分先验知识）使用调整兰德指数等外部指标。
- 降维评估：可以看保留了多少方差（PCA），或通过可视化判断分离效果。
结果应用：将发现的模式用于实际。例如，将聚类结果作为新特征输入给有监督模型，或用降维后的数据进行可视化分析。

4. 优势与挑战

优势

无需标注数据：这是最大的优势。现实中未标注数据远多于标注数据，获取成本极低。
探索未知：能发现人类未曾预设的模式和结构，带来新的洞见。
数据预处理的好帮手：降维、特征提取、异常值清洗等，常作为复杂机器学习流程的预处理步骤。
可解释性基础：通过聚类和可视化，可以帮助理解复杂数据的底层结构。

挑战

评估困难：缺乏客观的“正确”标准，结果好坏难以量化，高度依赖人的解释。
结果不确定性：算法通常对初始值、参数（如K值）敏感，可能产生不同的结果。
“黑箱”模式：发现的模式有时难以用直观的业务逻辑解释。
计算复杂度：某些算法（如层次聚类）在大数据上计算开销大。

5. 典型应用场景

客户细分：根据消费行为对用户进行聚类，实现精准营销。
推荐系统：基于协同过滤（本质上是一种聚类或降维思想），推荐相似用户喜欢的物品。
基因序列分析：对基因表达数据进行聚类，发现功能相似的基因。
社交网络分析：发现社区（簇）。
图像/语音压缩：使用降维技术减少数据量。
新药发现：对化合物进行聚类，寻找潜在的有效分子结构。
数据可视化：用t-SNE/PCA将高维数据降至2D/3D进行观察。

与有监督学习的核心区别总结

特性	有监督学习	无监督学习
训练数据	有输入 `X` 和标签 `y`	只有输入 `X`，无标签
目标	学习 `X -> y` 的映射，进行预测	探索 `X` 的内部结构，进行描述
主要任务	分类、回归	聚类、降维、关联、异常检测
评估	相对客观（与真实标签比较）	相对主观（依赖内部指标和解释）
类比	有老师指导的学习	自学、自主探索

总结

无监督学习是探索数据未知世界的强大工具。它不寻求给出答案，而是致力于提出关于数据内在结构的好问题。在实际应用中，无监督学习和有监督学习常常结合使用：先用无监督学习（如聚类）发现数据模式、创建新特征或清洗数据，再用有监督学习构建预测模型。两者共同构成了机器学习解决现实问题的完整工具箱。

无监督学习

Scikit-learning 课程