🤖最小二乘法和梯度下降算法

约 313 字大约 1 分钟

Machine Learning

2025-02-03

J(w,b)=\frac{1}{m}\sum_{i=1}^m(y_i-(w^Tx_i+b))^2

本质：令偏导为零，直接求解参数。

对 $w$ 、 $b$ 求偏导，令 $\frac{\partial J(w,b)}{\partial w}=\frac{\partial J(w,b)}{\partial b}=0$
求解 n 元一次线性方程组
得到 $w$ 、 $b$ 的解析解

本质：初始化参数，沿梯度方向迭代优化。

初始化参数 $w$ 、 $b$
计算偏导 $\frac{\partial J(w,b)}{\partial w}$ 、 $\frac{\partial J(w,b)}{\partial b}$
更新参数： $w\leftarrow w-\alpha\nabla_wJ(w,b)$ ， $b\leftarrow b-\alpha\nabla_bJ(w,b)$
当 $\|\nabla J(w,b)\|<\epsilon$ 时停止迭代

梯度模长： $\|\nabla J(w)\|=\sqrt{\sum\limits_{i=1}^n\left(\frac{\partial J(w,b)}{\partial w_i}\right)^2+(\frac{\partial J(w,b)}{\partial b})^2}$

方法	数据量	更新频率	收敛稳定性	适用场景
BGD（批量）	全部数据	低	高	小规模数据集
SGD（随机）	单个样本	高	低	大规模数据集
MBGD（小批量）	batch size（32/64/128）	中	中	大规模数据集（常用）