梯度下降介绍2

梯度下降就是将上文中的“摸索下山”的过程数学化、自动化。梯度下降是机器学习和深度学习中最核心、最重要的优化算法。它的目标是找到一个函数（通常是损失函数）的最小值。

梯度
- 是什么？ 一个向量（方向箭头），指向函数值增长最快的方向。
- 在“下山”比喻中：你脚下山坡最陡峭的上山方向。那么，它的反方向就是最陡峭的下山方向。
学习率
- 是什么？ 一个正数，决定了你每次沿着梯度反方向走多远。
- 在“下山”比喻中：你一步迈多大。
- 重要性：
  - 太小：下山速度极慢，需要很多步，可能永远到不了最低点。
  - 太大：一步迈过大，可能会直接跨过最低点，甚至导致“上坡”或来回震荡，无法收敛。
更新规则
- 这是梯度下降的数学核心公式：
  新参数 = 旧参数 - 学习率 × 梯度
- 这个“减号”是关键，因为我们要沿着梯度（上山最快）的反方向（下山最快）去更新参数，以减小函数值。