梯度下降介绍2
梯度下降就是将上文中的“摸索下山”的过程数学化、自动化。梯度下降是机器学习和深度学习中最核心、最重要的优化算法。它的目标是找到一个函数(通常是损失函数)的最小值。
- 梯度
- 是什么? 一个向量(方向箭头),指向函数值增长最快的方向。
- 在“下山”比喻中:你脚下山坡最陡峭的上山方向。那么,它的反方向就是最陡峭的下山方向。
- 学习率
- 是什么? 一个正数,决定了你每次沿着梯度反方向走多远。
- 在“下山”比喻中:你一步迈多大。
- 重要性:
- 太小:下山速度极慢,需要很多步,可能永远到不了最低点。
- 太大:一步迈过大,可能会直接跨过最低点,甚至导致“上坡”或来回震荡,无法收敛。
- 更新规则
- 这是梯度下降的数学核心公式:
新参数 = 旧参数 - 学习率 × 梯度 - 这个“减号”是关键,因为我们要沿着梯度(上山最快)的反方向(下山最快)去更新参数,以减小函数值。
- 这是梯度下降的数学核心公式: