🤖最小二乘法和梯度下降算法
约 313 字大约 1 分钟
Machine Learning
2025-02-03
损失函数
J(w,b)=m1i=1∑m(yi−(wTxi+b))2
最小二乘法
本质:令偏导为零,直接求解参数。
- 对 w、b 求偏导,令 ∂w∂J(w,b)=∂b∂J(w,b)=0
- 求解 n 元一次线性方程组
- 得到 w、b 的解析解
梯度下降算法
本质:初始化参数,沿梯度方向迭代优化。
- 初始化参数 w、b
- 计算偏导 ∂w∂J(w,b)、∂b∂J(w,b)
- 更新参数:w←w−α∇wJ(w,b),b←b−α∇bJ(w,b)
- 当 ∥∇J(w,b)∥<ϵ 时停止迭代
梯度模长:∥∇J(w)∥=i=1∑n(∂wi∂J(w,b))2+(∂b∂J(w,b))2
梯度下降的三种方式
| 方法 | 数据量 | 更新频率 | 收敛稳定性 | 适用场景 |
|---|---|---|---|---|
| BGD(批量) | 全部数据 | 低 | 高 | 小规模数据集 |
| SGD(随机) | 单个样本 | 高 | 低 | 大规模数据集 |
| MBGD(小批量) | batch size(32/64/128) | 中 | 中 | 大规模数据集(常用) |
