- 随机梯度下降(SGD)
- ADAGRAD 是 SGD 的改版,能够自动选择 Momentum 和学习率衰减。
- Momentum
- 学习率衰减
- mini-batch
- Epochs
- Cross entropy loss function 交叉熵损失函数
激活函数
- Sigmoid
- Softmax
- ReLU(修正线性单元)
初始化权重:从正态分布中取随机数来初始化权重是个好习惯。随机化权重可以避免模型每次训练时候卡在同一个地方。类似地,从正态分布中选择权重可以避免任意一个权重与其他权重相比有压倒性的特性。可以用 tf.truncated_normal()
函数从一个正态分布中生成随机数。
超参数(HYPER-PARAMETERS)
- initial learning rate
- learning rate decay (首先尝试降低学习率)
- momentum
- batch size
- weight initialization
防止过拟合
- Early Termination
- 正则化(Regularization):对神经网络应用人为约束,减少自由参数的数量。
- L2 Regularization :向损失函数添加另一个项用于惩罚大的权重。通常的方法是将权重的 L2 范数添加到损失函数乘以一个小的常数。L2 范数代表向量中各个元素的平方和。
- DROPOUT
- 学习率衰减
归一化输入和初始权重
从高斯分布上随机获取初始权重,使这些权重的均值为0,标准差为∂,∂决定了初始化时的输出的数量级以及初始化概率分布的陡峭程度。∂较大说明分布会集中在峰值处,确定性很强;∂较小,确定性比较弱,从确定性弱的分布开始比较好。
输入
- MEAN = 0
- EQUAL VARIANCE (SMALL)
初始化权重
- RANDOM!
- MEAN = 0
- EQUAL VARIANCE (SMALL)
随机梯度下降 SGD Stochastic Gradient Decent
使用随机梯度下降来训练 Logistic Regression,在 SGD 中,每次只往随机方向走一小步。
- Momentum:追踪梯度的实时平均值,用平均值代替当前一批数据计算得出的方向。
- 学习率衰减